[2026最新] 拒絕訂閱制!Windows 本機跑 AI (Ollama + Open WebUI) 只有 0 次和無數次

約 5 分鐘閱讀

各位老鐵、煉丹師、以及不想把個資餵給大公司的隱私派玩家們,我是站長。

現在是 2026 年,AI 已經像當年的 Internet 一樣成為空氣。但你們有沒有發現,ChatGPT Plus、Copilot Pro、Gemini Advanced… 這些訂閱費加起來,每個月都在割你的錢包?而且最可怕的是,你傳上去的公司財報、私密代碼,天知道有沒有被拿去「訓練」?

在 PTT AI_ArtSoft_Job 版,越來越多大神開始推廣 「Local LLM (本地端大語言模型)」。別以為這需要幾百萬的伺服器,得益於量化技術 (Quantization),現在隨便一張 RTX 4070 Ti 或新的 RTX 50 系列,甚至高階 NPU 筆電,都能順跑比肩 GPT-4 等級的模型。

今天站長不教深奧的 Python 環境架設,我們要用最現代、最優雅的方案:Ollama + Open WebUI,把你的 Windows 變成一台私有的、斷網也能用的超級大腦。

更新時間:2026/01/26 | 驗證環境:Windows 11 24H2 (WSL2) / NVIDIA Driver 570.xx / Docker Desktop 4.3x

⚡ 站長快讀:重點與數據 (Key Takeaways)

  • 核心價值: 隱私 100% 自主、無審查 (Uncensored)、零延遲、免月費。
  • 硬體門檻:
    • VRAM (顯示記憶體) 是關鍵: 跑 7B 模型需 6GB+ VRAM;跑 13B/14B 模型需 12GB+ VRAM。
    • 記憶體 (System RAM): 建議 32GB 起跳 (當 VRAM 爆掉時會借用系統 RAM,但速度會變慢)。
  • 必備工具:
    • Ollama: 目前最強的 AI 模型管理器 (類似 Docker 的概念)。
    • Docker Desktop: 用來跑漂亮的圖形介面 (Open WebUI)。

1. [背景知識] 為什麼 2026 年必學 Ollama?

以前我們在 Windows 跑 AI,要裝 Python、PyTorch、CUDA,光是搞定 pip install 的依賴衝突就飽了。

Ollama 的出現改變了一切。它把模型打包成單一執行檔,底層自動調度 GPU (NVIDIA) 或 NPU (Intel/AMD)。重點是,它支援 GGUF 格式,這是目前地端 AI 的主流標準,能大幅壓縮模型體積卻不太犧牲智商。

站長科普: 什麼是 7B/13B? “B” 代表 Billion (十億參數)。

  • 7B/8B (如 Llama 3, DeepSeek-R1-Distill): 輕量級,反應極快,適合摘要、翻譯、聊天。8GB VRAM 輕鬆跑。
  • 13B~32B (如 Qwen 2.5, Gemma 2): 邏輯強,寫程式較準,但吃硬體。

2. [實戰教學] 三步架設你的私有 AI

Step 1: 安裝 Ollama (Windows 版)

別再去搞 WSL 指令了,Ollama 官方現在提供原生 Windows 安裝包,支援硬體加速。

  1. 前往 Ollama 官網 下載 Windows Preview (或正式版)。
  2. 安裝完後,右下角會出現一隻「草泥馬」圖示。
  3. 開啟 PowerShell (免管理員),輸入以下指令驗證:Check Ollama version註釋:確認安裝成功且服務運作中ollama –version

Step 2: 下載並執行模型 (Pull & Run)

我們會示範下載目前 CP 值最高的模型(假設以 Llama 3 或 DeepSeek 為例,因為它們是地端標準)。

# Pull and Run the model
# 註釋:下載並執行 llama3.2 (或當下最新版),首次執行需下載約 4GB
ollama run llama3.2

# 註釋:或是嘗試 DeepSeek R1 的蒸餾版 (適合寫 code)
ollama run deepseek-r1:8b

操作提示: 下載完成後,你就會直接在終端機看到 >>> 提示符,這時候就可以直接跟它對話了。輸入 /bye 可以離開。

Step 3: 部署圖形介面 Open WebUI (Docker)

整天對著黑底白字打字太累了。我們要裝 Open WebUI (前身是 Ollama WebUI),它的介面長得跟 ChatGPT 幾乎一模一樣,還支援「上傳文件」、「語音對話」甚至「聯網搜尋」。

先決條件: 請確保你已安裝 Docker Desktop

打開 PowerShell 輸入以下指令 (這是一行指令,請複製完整):

# Run Open WebUI in Docker
# 註釋:將 Docker 的 3000 port 對應到本機,並連結 Ollama 服務
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

安裝完成後,打開瀏覽器輸入 http://localhost:3000。註冊一個帳號 (放心,這是存在你本地資料庫的),登入後在左上角選擇剛剛下載的 llama3.2,恭喜你,你的「免費 ChatGPT」完成了。

3. [進階技巧] 釋放 GPU 極限效能

很多人的 AI 跑得慢,是因為模型被丟到 CPU 去算了。要確認你的 RTX 顯示卡有沒有在工作:

  1. Ollama 運作時,打開「工作管理員」 -> 「效能」 -> 「GPU」。
  2. 觀察 Dedicated GPU memory (專用 GPU 記憶體) 是否被吃滿。
  3. 如果發現 VRAM 沒動,反而是 CPU 100%,請檢查環境變數。Force Ollama to keep model in VRAM註釋:設定模型在 GPU 內的存活時間 (預設 5 分鐘,設為 -1 代表常駐,避免反覆載入)Windows 環境變數設定 (PowerShell)$env:OLLAMA_KEEP_ALIVE=”-1″

4. 常見問題 (FAQ)

  • Q: 我的筆電只有 Intel 內顯 (iGPU) 能跑嗎?
    • A: 可以,但速度會像樹懶。如果是 2024 年後的 Core Ultra (Meteor Lake/Lunar Lake),Ollama 已支援透過 OpenVINO 加速,但還是建議至少有 RTX 3050 以上體驗較好。
  • Q: 模型講話一直噴英文,怎麼變中文?
    • A: 這是 Prompt (提示詞) 的問題。在 Open WebUI 的設定中,可以設定「System Prompt (系統提示詞)」,填入:You are a helpful assistant. Always answer in Traditional Chinese (Taiwan).
  • Q: 硬碟空間不夠怎麼辦?
    • A: 模型檔預設存在 C 槽。你可以透過設定環境變數 OLLAMA_MODELS 將路徑改到 D 槽或你的 Dev Drive。

5. 結論

在 2026 年,擁有「算力主權」是極客的基本素養。透過 Ollama + Open WebUI,你不再是被大科技公司圈養的數據乳牛。

這套系統不只能聊天,配合 RAG (檢索增強生成) 技術,你甚至可以把幾萬份 PDF 丟進去讓它讀,打造專屬的「第二大腦」。下一步,我們再來教大家怎麼用這套系統寫 Code。