本地 RAG 实战:用 Easysearch + Ollama SDK 半小时搭建检索增强问答系统
✅ 目标:只用两台服务器(或同一台)就跑通 “向量检索 + 本地大模型” 原型
✅ 特点:完全离线、依赖极少、部署脚本即文档
✅ 适合:快速 PoC、内网合规场景、想深挖 RAG 工作机理的开发者
0. 背景与动机
生成式 AI 聊天固然强大,但当问题依赖本地私有知识时,单靠 LLM 参数内的“世界记忆”往往答非所问。RAG(Retrieval-Augmented Generation) 的思路是:
- 把文档切片 → 向量化 → 入库
- 用户提问 → 同样向量化 → 检索
- 将召回片段拼进 prompt,让大模型“带着材料”再回答
多数教程直接用云端 Embedding+OpenAI GPT-4o,但一些团队因隐私、成本或离线环境无法这样做。
本文选用:
- EasySearch (= OpenSearch + Elastiknn) 做向量存取
- Ollama SDK 连接本地 LLM
- Python + requests + ollama 三个依赖即可