为什么要本地部署大模型?
从一张病历说起
前面几篇 RAG 的文章里,咱们的代码一直是一个套路:OkHttp 构造 HTTPS 请求,打到 SiliconFlow 的 /v1/chat/completions,拿回模型的回答。调用链短、上手快,写 Demo 很舒服。
直到某天你接了个新项目。
你在一家做医疗信息化的公司,客户是某三甲医院。需求是给医生做电子病历辅助录入和智能问诊助手,背后挂着医院十几年积累的病例库、临床路径、用药指南,外加实时查询 HIS 系统里的患 者历史。你拿之前写好的 RAG 代码去做 PoC,效果不错,客户挺满意,顺利推到了方案评审。医院信息科的科长看了一眼架构图,问了一句:
你这个大模型接口,是打到阿里云还是腾讯云?病历数据出院内网了吗?
你愣了一下。
赶紧解释:只传了相关的检索片段,患者姓名、身份证号都做了替换。科长摆摆手:回去看一下等保三级的要求和《个人信息保护法》,患者的就诊记录、诊断结论、用药方案,就算脱敏过,只要涉及身份可识别的个人健康信息,都不能在这种场景下出院内网。
云端 API 再方便,也有撞墙的时候。墙那头是数据主权、合规红线、成本账单、离线环境——撞上任何一条,你都得面对同一个问题:把大模型挪到自己的机器上跑。
这就是本地部署。
这一篇不讲怎么装 Ollama,也不讲 vLLM 怎么调参,那些留给后面几篇。这一篇只想把三件事讲明白:
- 已经有了 Qwen、DeepSeek、OpenAI 这些云端 API,为什么有人还要自己本地部署?
- 本地部署的模型,到底从哪里来?
- 本地部署有哪些中间件,它们之间什么关系?
搞清楚这三件事,你再去装 Ollama、配 vLLM,心里才有数。