三月某個下午,一家金控子公司的 CIO 在會議室跟我說:「AJ,客戶名單絕對不能離開公司,金管會那邊我們解釋不完;可是老闆從達沃斯回來,每週問我 AI 進度。」他把筆放下,看著我:「這兩件事怎麼同時成立?」
「資料留在公司,AI 也是。」
—— 這是這篇文章想回答的問題
同一個月,一位醫學中心資訊主任在內訓場合更直白:「病歷上雲就是違法。我不需要最強的模型,我需要放在我機房裡、能幫醫師寫病摘的模型。」金融、醫療、政府委辦這三個過去最保守的產業,反而是這一年最焦慮想搞清楚地端 AI 的客戶。不上雲不是落後,是另一種選擇。
三條壓力線同時擠到 CIO 桌上
第一是法規:金管會 2024 年《金融機構運用 AI 指引》要求盤點 AI 使用的資料邊界;衛福部對病歷外流的解釋從沒鬆過;政府委辦合約裡,「資料不得離境」幾乎是制式條款。第二是錢:每月幾萬的 API 訂閱費乘三年、乘全公司用量,常常比一次性買一台 GPU server 還貴。第三是 Meta 首席科學家 Yann LeCun 一直在講的話:
「Open source AI models are on a path to surpass proprietary ones.」
(開源 AI 模型,正走在超越閉源模型的路上。)—— Yann LeCun,X,2024.07
2025 那一年,這句話從口號變成現實。Google 把 Gemma 開到第四代、OpenAI 第一次釋出 gpt-oss、阿里巴巴 Qwen3 在中文評測上把不少閉源模型壓在身後。對 CIO 來說,這不是技術新聞,是採購清單上的選項變多了。
AJ 會挑的 3 個首選
過去一年我在金融、醫療、政府委辦現場實測過十幾個開放權重模型。如果客戶說「給我三個就好」,我會給這三個。
Google Gemma 4,多模態、好部署。E2B / E4B / 26B / 31B 四個尺寸,從筆電到伺服器都接得上,Apache 2.0 商用沒包袱。我特別推薦給需要處理混合資料的場景:醫療業讀 PDF 病歷掃描、金融業看合約圖檔、公部門做檔案 OCR。Gemma 4 把多模態做進預設能力,省下接 OCR pipeline 的力氣。
OpenAI gpt-oss,推理強、跑得動 agent。20B 與 120B 兩個版本都是 Apache 2.0,OpenAI 自己定位是「推理型」開放模型。我會給想做「AI 助理 + 內部系統整合」的客戶:客服走查 KM、稽核跑流程、保險業核保 SOP,這類需要「想清楚再動手」的任務,gpt-oss 比同尺寸的純文字模型穩。
阿里巴巴 Qwen3,中文最強。119 種語言、混合推理,繁體中文表現在開放權重裡頂尖。台灣客戶最常被卡的就是中文:寫公文不像公文、摘要把人名抓錯、簡繁混在一起,Qwen3 在這些細節上明顯比 Llama 系列穩。常有人問:阿里巴巴的模型放在公司裡安全嗎?權重下載到自家機器、斷網跑,模型不會回家通報,這跟用阿里雲是兩回事;但這個解釋你得跟法務、跟董事會講三遍才會過。
2 個進階選項
Mistral 3,歐洲血統、合規友善。2025 年底推出,涵蓋 3B / 8B / 14B 與前沿尺寸,Apache 2.0、多模態。某些跨國金融客戶在母公司 GDPR 框架下,採購會優先看「非中、非美」的選項,Mistral 出身法國,少一些政治摩擦。
TAIDE,在地繁中、語境最近。國科會主導的台灣本土模型,規模追不上前述四個,但處理政府公文體、地名、法條、本地公司命名慣例時,比海外模型自然。我會推給政府委辦案件、教育單位、地方政府專案,場景對「在地語感」的要求高於對「最強推理」要求時,TAIDE 值得留在名單上。
剩下的 Llama 4、DeepSeek、Phi-4 不是不好——Llama 4 適合有研發能量的大企業 fine-tune,DeepSeek 推理便宜但授權要逐版本確認,Phi-4 適合算力很緊的邊緣部署——但對第一次導入地端 AI 的 CIO,這三個放第二輪評估就好。
四個選型重點,CIO 最常忽略的順序
- 授權先請法務讀過。Apache 2.0、MIT 最寬鬆;Llama 授權對「月活超過 7 億的公司」有限制;DeepSeek 不同 checkpoint 條款不同。我看過一家上市公司 PoC 跑了三個月,最後法務一句話打回,那筆錢花得很冤。
- 硬體決定模型,不是反過來。Gemma 4 E4B 一台 MacBook Pro M4 就跑;26B 要一張 H100 或同級;70B 以上得多卡。先問 IT 預算撐得起多少 GPU,再倒推模型尺寸。
- 中文一定要用自家文件實測。拿一份去識別化的合約、一份病歷摘要、一份政府公文,三個模型各跑 20 次,差距會比 benchmark 大十倍。不實測就採購等於賭運氣。
- 找得到能維運三年的人。PoC 一個禮拜就跑出來,難的是上線三年、Linux 升級、CUDA 版本衝突、新版要不要 migrate。沒人懂容器化、懂 GPU 維運,要嘛內部養、要嘛找顧問搭配,不要假設 IT 同事學一下就會。
從哪裡開始
給那位金控 CIO 的具體答案是:用一台 Mac Studio M4 Ultra 跑 Gemma 4 E4B 與 Qwen3 14B,餵進去識別化後的內部公文、客戶溝通紀錄、合約摘要各一份,讓他自己看結果跟現在用 ChatGPT 的差距有多大。兩週後他打電話來:「比我想的可用。」這句話比一百份白皮書有用。
那位醫學中心主任後來在內網跑 Gemma 4 處理病摘草稿,醫師看了笑著說「不夠好,但夠用了」。對醫院來說,「夠用且合法」永遠贏過「最強但違法」。地端 AI 不是給所有人的,但給那群「客戶名單絕對不能離開公司」的人,它是 2026 年唯一講得通的選項。
本文引語來源
① Yann LeCun 對 open source AI 的公開立場:x.com/ylecun(2024.07 多則貼文與 2024 Meta Connect 主題演講)
② 金融機構運用 AI 指引:金管會官網(2024 發布)
③ Gemma 4、gpt-oss、Qwen3、Mistral 3、TAIDE 規格:各家官方釋出說明(2025–2026)