OpenClaw + Ollama 本地模型:完全免費的 AI 助理
TLDR:Ollama 本地模型重點
- 零成本:不需要 API 金鑰,不需要信用卡,完全免費
- 硬體需求:8GB RAM 起跳,16GB 更流暢;Apple Silicon Mac 表現優異
- 入門模型:llama3.2(3B)最適合新手,qwen2.5 中文表現好
- 安裝步驟:下載 Ollama → 執行安裝 → 下載模型 → OpenClaw 設定 Provider
- 混合使用:簡單任務用本地模型,重要任務用商業 API
本文由好事發生創立的 OpenClaw 執行撰寫。我們提供精準的自動化SEO服務,了解更多
如果你還不熟悉 OpenClaw 本身,建議先讀完OpenClaw 完整指南再回來。
什麼是 Ollama?一分鐘搞懂本地 AI 模型
Ollama 是一個開源的本地 LLM(大型語言模型)運行工具。簡單來說,它讓你在自己的電腦上執行 AI 模型,而不是透過雲端 API 呼叫。這代表兩件事:你不需要付 API 費用,你的資料也不會離開你的電腦。
你可以把 Ollama 想像成一個「本地 AI 伺服器」。安裝完成後,它會在你的電腦上啟動一個服務,預設監聽 http://localhost:11434。任何應用程式——包括 OpenClaw——都可以透過這個端點與模型互動,就像呼叫雲端 API 一樣,只是一切都發生在你的機器上。
Ollama 支援 macOS、Linux 和 Windows 三大平台,目前已經有數百個開源模型可以選擇,從輕量的 1B 參數模型到專業的 70B 大模型都有。
硬體需求:你的電腦跑得動嗎?
本地模型的效能完全取決於你的硬體。在安裝之前,先確認你的電腦是否能順暢運行。
模型大小與記憶體對照表
| 模型參數 | VRAM / 記憶體需求 | 代表模型 | 回應速度 |
|---|---|---|---|
| 1B – 3B | 2 – 4GB | llama3.2:1b、llama3.2:3b | 快速,適合即時回應 |
| 7B | 4 – 6GB | mistral、gemma2:7b、qwen2.5:7b | 流暢,日常使用足夠 |
| 8B | 5 – 7GB | llama3.1:8b | 流暢,品質略優於 7B |
| 13B | 8 – 10GB | codellama:13b | 中等,需要好一點的硬體 |
| 70B | 40GB+ | llama3.1:70b | 較慢,需要高階 GPU |
最低需求與建議規格
最低需求(可以跑,但會慢):
- 8GB RAM
- 10GB 以上可用磁碟空間
- 任何現代 CPU(2018 年之後)
- 不需要獨立 GPU。CPU 模式也能運行,只是速度較慢
建議規格(流暢體驗):
- 16GB 以上 RAM
- 獨立 GPU,VRAM 8GB 以上(NVIDIA RTX 3060 以上,或 AMD 同級)
- SSD 硬碟(模型載入速度差異明顯)
- Mac 使用者:Apple Silicon(M1 / M2 / M3 / M4)搭配統一記憶體,表現通常不錯
小提醒:Apple Silicon 是本地模型的好夥伴
如果你使用 M1 以上的 Mac,Ollama 可以直接利用統一記憶體(Unified Memory)來加速模型推論。一台 16GB 的 MacBook Pro 就能順暢運行 7B – 8B 的模型,32GB 版本甚至能跑 13B 模型。不需要額外安裝 CUDA 或其他驅動程式。
安裝 Ollama:三大平台完整教學
Ollama 的安裝過程相當直覺,每個平台大約只需要 5 分鐘。
macOS 安裝
- 前往 ollama.com/download 下載 macOS 安裝檔(.dmg)
- 開啟下載的 .dmg 檔案
- 將 Ollama 拖入「應用程式」資料夾
- 從「應用程式」中啟動 Ollama。你會在選單列看到一個小圖示
- 開啟 Terminal,輸入
ollama --version確認安裝成功
Linux 安裝
Linux 的安裝最簡單,一行指令搞定:
curl -fsSL https://ollama.com/install.sh | sh
安裝完成後,Ollama 會自動註冊為系統服務。你可以用 systemctl status ollama 確認服務是否正在運行。
Windows 安裝
- 前往 ollama.com/download 下載 Windows 安裝檔(.exe)
- 執行安裝程式,按照畫面提示完成安裝
- 安裝程式會自動將
ollama加入系統 PATH - 開啟 PowerShell 或命令提示字元,輸入
ollama --version確認安裝成功
確認安裝並下載第一個模型
安裝完成後,用以下指令下載並測試你的第一個模型:
# 下載 llama3.2 3B 模型(約 2GB,適合入門)
ollama pull llama3.2
# 直接用它聊天測試
ollama run llama3.2
如果你看到模型開始回應你的訊息,恭喜——你的本地 AI 已經在運作了。輸入 /bye 可以退出對話。
選擇模型:哪個本地模型適合你?
Ollama 支援數百個開源模型,但你不需要全部試過。以下是我們根據不同使用場景整理的推薦清單:
| 模型 | 參數大小 | 特色 | 適合場景 | 下載指令 |
|---|---|---|---|---|
| llama3.2 | 1B / 3B | Meta 最新輕量模型,速度快 | 快速問答、文字摘要、入門測試 | ollama pull llama3.2 |
| llama3.1:8b | 8B | 品質與速度的平衡點 | 日常對話、內容撰寫、翻譯 | ollama pull llama3.1:8b |
| mistral | 7B | 歐洲團隊開發,推理能力不錯 | 分析、摘要、邏輯推理 | ollama pull mistral |
| gemma2 | 2B / 9B / 27B | Google 開源,多種大小可選 | 研究、實驗、多語言任務 | ollama pull gemma2 |
| qwen2.5 | 0.5B – 72B | 中文表現突出,多種大小可選 | 中文對話、中文內容生成 | ollama pull qwen2.5 |
| codellama | 7B / 13B / 34B | Meta 程式碼專用模型 | 程式碼生成、程式碼解釋 | ollama pull codellama |
選模型的兩個原則
原則一:先從小模型開始。llama3.2(3B)是最好的入門選擇——下載快、記憶體需求低、回應速度快。它的品質雖然不如 8B 以上的模型,但足以讓你體驗本地 AI 的運作方式,也能處理簡單的問答和摘要任務。
原則二:根據語言需求選擇。如果你的主要用途是繁體中文,qwen2.5 是目前中文表現最好的開源模型之一。7B 版本在中文理解和生成上的品質,已經能應付多數日常場景。想了解各模型在不同任務上的詳細比較,可以參考OpenClaw AI 模型比較。
在 OpenClaw 中設定 Ollama 作為 Provider
安裝好 Ollama 並下載模型之後,下一步是讓 OpenClaw 連接到它。在 OpenClaw 的架構中,Ollama 是一個「Provider」——和 Anthropic、OpenAI 同等地位,只是不需要 API 金鑰。
如果你還沒安裝 OpenClaw,請先參考OpenClaw 安裝教學完成基本設定。
步驟一:確認 Ollama 服務正在運行
OpenClaw 需要透過 Ollama 的 API 端點與模型通訊。先確認服務已啟動:
# 確認 Ollama 正在運行
curl http://localhost:11434
# 應該會回傳 "Ollama is running"
如果沒有回應,代表 Ollama 服務尚未啟動。macOS 使用者可以從「應用程式」重新啟動 Ollama;Linux 使用者可以執行 systemctl start ollama。
步驟二:確認已下載的模型
# 列出所有已下載的模型
ollama list
你會看到類似這樣的輸出:
NAME ID SIZE MODIFIED
llama3.2:latest a80c4f17acd5 2.0 GB 2 minutes ago
mistral:latest f974a74358d6 4.1 GB 5 minutes ago
步驟三:在 OpenClaw 中新增 Ollama Provider
- 執行
openclaw onboard,啟動設定引導 - 在 Provider 選單中選擇「Ollama」
- 系統會自動偵測 Ollama 的預設端點
http://localhost:11434。如果你有自訂端口,可以在這裡修改 - 選擇你要使用的模型(例如
llama3.2或mistral) - 完成設定。不需要輸入任何 API 金鑰
步驟四:測試連線
# 用 OpenClaw 的 chat 功能測試
openclaw chat
如果模型正常回應,你的 OpenClaw + Ollama 環境就設定完成了。從這一刻起,你的 AI 助理完全在本地運行,零成本、零延遲(除了模型推論時間)。
小提醒:Provider 不是 Channel
在 OpenClaw 的架構中,Ollama 是一個「Provider」(提供者),和 Anthropic、OpenAI 平行。不要和「Channel」(頻道,如 LINE、Slack)搞混。Provider 決定你用什麼 AI 模型,Channel 決定你的使用者從哪裡和 AI 互動。
本地模型 vs 商業 API:該選哪一邊?
Ollama 本地模型和 Claude、GPT 等商業 API 各有優勢。以下比較可以幫你判斷哪種方式更適合你的情境。
| 比較項目 | Ollama 本地模型 | 商業 API(Claude / GPT) |
|---|---|---|
| 費用 | 完全免費(僅電費和硬體折舊) | 按用量計費(每百萬 tokens – ) |
| 資料隱私 | 資料不離開你的電腦 | 資料傳送至雲端處理 |
| 回應品質 | 取決於模型大小,7B 約為商業模型的 60-70% | 高品質,尤其是複雜任務 |
| 回應速度 | 取決於硬體,有 GPU 時可能更快 | 穩定快速,不受本地硬體限制 |
| 網路需求 | 不需要網路(模型下載後離線可用) | 需要穩定的網路連線 |
| Context Window | 多數模型 4K – 32K tokens | 128K – 1M tokens |
| 中文品質 | qwen2.5 表現不錯,其他模型差異大 | Claude 系列中文表現優異 |
| 設定難度 | 需安裝 Ollama + 下載模型 | 只需 API 金鑰 |
| 適合對象 | 預算有限、隱私優先、學習實驗 | 追求品質、商業應用、穩定服務 |
實務上,許多使用者會採取「混合策略」:日常簡單任務用本地模型處理,遇到需要高品質輸出的場合再切換到商業 API。OpenClaw 支援同時設定多個 Provider,讓你根據任務性質靈活調配。想了解各商業模型的定價細節,可以參考OpenClaw 費用完整解析。
效能優化:讓本地模型跑得更順
本地模型的體驗和硬體設定息息相關。以下是幾個經過驗證的優化技巧:
1. 使用量化版本的模型
量化(Quantization)是一種壓縮技術,用較少的記憶體執行模型,但會稍微降低品質。Ollama 預設下載的模型通常已經是 4-bit 量化版本(Q4_0 或 Q4_K_M),這在品質和記憶體之間取得了不錯的平衡。如果你的記憶體充裕,可以嘗試 Q5 或 Q8 版本來獲得更好的品質。
2. 確保 GPU 加速已啟用
- NVIDIA GPU:安裝最新的 CUDA 驅動程式,Ollama 會自動偵測並使用 GPU
- AMD GPU:需要安裝 ROCm 驅動程式
- Apple Silicon:無需額外設定,Ollama 原生支援 Metal 加速
有 GPU 和沒有 GPU 的差距很大。同一個 7B 模型,GPU 推論速度通常是純 CPU 的 5 到 10 倍。
3. 調整 Context Length
預設的 context length 越長,模型占用的記憶體越多。如果你的任務不需要很長的上下文(例如簡單的問答),可以在執行時限制 context window 的大小:
# 建立自訂模型設定,限制 context length 為 2048
ollama create my-model -f Modelfile
在 Modelfile 中加入 PARAMETER num_ctx 2048 即可。這樣可以節省記憶體,讓模型回應更快。
4. 關閉不需要的應用程式
本地模型會大量使用 RAM 和 GPU 記憶體。在運行模型時,建議關閉其他占用記憶體的程式(如瀏覽器開了幾十個分頁、影片編輯軟體等),把資源留給 Ollama。
5. 善用模型快取
Ollama 會在首次載入模型後將它保留在記憶體中一段時間。如果你頻繁使用同一個模型,它的回應速度會比每次重新載入快得多。避免在短時間內切換太多不同的模型,讓常用模型保持在記憶體中。
安全性考量:本地不代表零風險
本地模型最大的安全優勢是資料不會離開你的電腦,但這不代表完全沒有風險。幾個值得注意的點:
- 模型來源:只從 Ollama 官方 library 下載模型。第三方來源的模型檔案可能被植入惡意內容
- 端點暴露:Ollama 預設只監聽 localhost,不會對外開放。如果你修改了設定讓它對外服務,務必加上認證機制
- 模型輸出:本地模型一樣可能生成不正確或有偏差的內容,不要盲目信任輸出結果
更完整的 AI 應用安全指南,可以參考AI Agent 安全防護指南。
常見問題
Q1:沒有 GPU 也能用 Ollama 嗎?
可以。Ollama 支援純 CPU 模式運行。只是速度會慢不少。一個 7B 模型在純 CPU 上可能需要數秒才能生成一個回應,而 GPU 可以在一秒內完成。建議純 CPU 使用者選擇 3B 以下的輕量模型,體驗會好得多。
Q2:Ollama 的模型品質能和 ChatGPT 比嗎?
坦白說,差距仍然存在。以 7B 模型來說,大約是商業模型的 60-70% 水準,在複雜推理、長文生成和細膩的語言表達上尤其明顯。但對於簡單的問答、文字摘要、格式轉換等任務,本地模型已經足夠實用。而且開源模型的進步速度很快,差距正在持續縮小。
Q3:可以同時跑多個模型嗎?
技術上可以,但每個模型都會占用記憶體。如果你的機器有 32GB 以上的 RAM,同時跑兩個 7B 模型是可行的。記憶體不夠的話,建議一次只載入一個模型。Ollama 在你切換模型時會自動管理記憶體,卸載閒置的模型。
Q4:模型下載後,資料會存在哪裡?
模型檔案預設存放在以下位置:
- macOS:
~/.ollama/models - Linux:
/usr/share/ollama/.ollama/models - Windows:
C:\Users\<username>\.ollama\models
你可以透過設定環境變數 OLLAMA_MODELS 來自訂儲存路徑,例如將模型放在外接硬碟上。
Q5:OpenClaw 設定 Ollama 後,還能同時用雲端模型嗎?
當然可以。OpenClaw 支援同時設定多個 Provider。你可以同時啟用 Ollama 和 Anthropic(Claude),依照任務性質手動切換,或設定規則讓系統自動分配。這種混合模式是控制API 成本的有效策略——簡單任務走本地免費模型,重要任務才動用商業 API。
Q6:Ollama 需要保持更新嗎?
建議定期更新。Ollama 團隊持續在優化效能、修復安全問題,以及新增對更多模型的支援。更新方式和安裝方式相同——macOS 重新下載 .dmg,Linux 重新執行安裝指令,Windows 重新下載安裝檔。你已下載的模型不會因為更新 Ollama 而消失。
本地模型跑不動?我們幫你處理
看完教學,發現自己的電腦跑不動 Ollama,或是覺得下載模型、設定 Provider 太麻煩?
我們提供 EasyClaw 代管服務,幫你跳過所有硬體限制:
- 不需要升級你的電腦或購買 GPU
- 我們的雲端伺服器已配置高效能硬體
- 可選擇使用開源模型(節省 API 費用)或商業模型(高品質輸出)
- 你只需專注於設定 AI 的回覆邏輯
適合想使用 AI 助理,但硬體不足或不想管理本地模型的企業。
總結:零成本開始你的 AI 旅程
OpenClaw + Ollama 的組合,讓你不需要花任何 API 費用就能擁有一個本地 AI 助理。快速回顧重點:
- Ollama 免費開源,支援 macOS、Linux、Windows 三大平台
- 硬體需求不高:8GB RAM 能跑,16GB 以上更流暢;Apple Silicon Mac 表現優異
- 入門推薦:從 llama3.2(3B)開始,中文場景可以試 qwen2.5
- 設定簡單:在 OpenClaw 中將 Ollama 設為 Provider,不需要 API 金鑰
- 可以混合使用:本地模型處理簡單任務,商業 API 負責高品質需求
本地模型的品質持續在進步,2026 年的 7B 模型已經比一年前的 13B 模型更聰明。即使你最終決定使用商業 API 作為主力,Ollama 仍然是一個值得保留的備選方案——至少它能讓你在沒有網路的時候繼續工作。
準備好開始了嗎?回到OpenClaw 完整指南看看還有哪些功能等著你探索。
聯絡我們
電話:0926-000-214
本文由好事發生創立的 OpenClaw 執行撰寫
我們提供精準的自動化SEO服務,了解更多