Google × Kaggle 五天 AI 代理特訓全紀錄——從 Vibe Coding 到正式上線,一篇看懂「代理工程」怎麼做
2026.06.22 ‧ 那個數位 AJ
如果你最近常聽到「Vibe Coding」這個詞,卻又隱約覺得「用嘴巴寫程式」這件事在公司裡好像沒那麼可靠——那這篇文章就是寫給你的。
Google 和 Kaggle 合辦了一場為期五天的密集課程,名字直接就叫「五天 AI 代理:密集 Vibe Coding 課程」。但有趣的是,這五天真正在講的,並不是「怎麼把 AI 用得很爽」,而是一個更嚴肅的問題:當 AI 可以幫你把程式寫出來之後,軟體開發這件事,整個流程要怎麼重新排序?
我們把這五天的重點、現場 Q&A 的精華,以及每天的實作任務,整理成一條完整的路線圖。你會看到一個很清楚的弧線:第一天打破舊觀念,中間三天補齊「讓代理可靠」的三塊基礎建設(連結、知識、信任),最後一天把這一切推上生產線。 看完這篇,你大概就能回答老闆那句最現實的問題:「這東西到底能不能上線?」
第一天:典範轉移——從寫「語法」到表達「意圖」
第一天的主題,是把整個課程的世界觀先立起來:軟體開發正在發生一次典範轉移(paradigm shift)。
從語法到意圖
過去開發者的核心技能,是把腦中的想法翻譯成精準的程式語法。而現在,這個重心正在往上移:開發者越來越不需要操心底層語法怎麼寫,而是專注在用自然語言把開發的「意圖」講清楚。語法交給 AI,意圖留給人。
Vibe Coding 不等於代理工程
課程很早就把兩個容易混為一談的概念分開:
- Vibe Coding:透過提示詞跟 AI 來回溝通,快速把雛形「兜」出來。它的價值在於快——適合原型、探索、驗證點子。
- 代理工程(Agentic Engineering):在確定性的邊界之內,讓 AI 代理系統化地運作,包含測試、驗證與 CI/CD 機制。它的價值在於穩——適合要交付、要維護、要負責的東西。
一句話分辨:Vibe Coding 是「先跑起來再說」,代理工程是「跑起來而且還能放心交給別人接手」。後面四天,其實都在回答同一個問題——怎麼把前者變成後者。
代理公式:Agent = Model + Harness
這場課程最值得記下來的一條公式是:
代理(Agent)= 模型(Model)+ 骨架/工具(Harness)
而且講者特別強調比例:模型本身大概只佔 10%,剩下的 90% 是骨架——也就是沙盒、工具、編排(orchestration)與護欄(guardrails)這一整套系統。
這對很多人是當頭棒喝。我們太習慣把注意力全放在「哪個模型最強」,但真正決定一個代理好不好用、安不安全的,其實是包在模型外面那 90% 的工程。換了更強的模型,骨架爛,代理還是爛。
新 SDLC 的瓶頸,往兩端移動了
當「實作」這個階段被 AI 大幅壓縮,整個軟體開發生命週期(SDLC)的瓶頸就跟著位移了。人類開發者的時間,從「中間的實作」被擠到兩端:
- 前端:需求規格說明——你到底要什麼?講不清楚,AI 就幫你把錯的東西做得又快又好。
- 後端:驗證——它做出來的,真的是對的嗎?
教育、職涯與長期風險
講者也談到比較長線的事:
- 電腦科學教育會更看重高階架構的判斷力與系統整合能力,而不只是語法掌握。
- 但過度依賴 AI 也有代價:團隊可能逐漸流失對自家程式碼庫的專業知識、問責(accountability)變得模糊、甚至錯失原創性創新的機會。
IU-S 框架:好的 AI 應用,分三個階段長出來
關於「該怎麼開發 AI 應用」,課程提了一個好記的 IU-S 框架:
- Impressive(令人印象深刻)——先做出讓人眼睛一亮的東西。
- Useful(實用)——再讓它真的解決問題、有人願意用。
- Sustainable(永續/可擴展)——最後讓它撐得住規模、維護得下去。
很多 demo 卡在第一階段就上不去,原因往往就是跳過了後面兩步。
第一天的實作資源有兩個:Google Anti-gravity(管理代理、工作區與程式碼的核心指揮中心)與 Google AI Studio(用來構建應用程式,並快速部署到 Cloud Run)。
第二天:連結與互通——讓代理跟世界對話
如果第一天是世界觀,第二天就是基礎建設的第一塊:連結。主題是讓 AI 代理能跟外部工具、其他代理,以及真實世界溝通,同時把開發上的技術債降到最低。
先解掉「N×M」整合難題
傳統做法裡,如果你有 N 個模型、M 個工具,最糟的情況要建立 N×M 種整合——每換一個模型或工具,整合就重來一次,技術債滾雪球。
MCP(Model Context Protocol) 扮演的就是「USB-C」的角色:它把代理與工具之間的連線標準化,讓整合複雜度從 N×M 降到 O(N+M)。一次接好標準介面,之後大家都能插。
一整套協定,各管一段
第二天把代理世界的幾個關鍵協定攤開來看:
- A2A(Agent-to-Agent Protocol):代理之間的「通用語言」,讓不同專業的代理能彼此發現、溝通、互相委派任務。
- A2UI(Agent-to-User Interface):一套開源標準,讓代理能安全、動態地生成互動式 UI,而不是被綁死在單一靜態介面上。
- UCP(Universal Commerce Protocol)與 AP2(Agent Payment Protocol):負責自主商業行為。UCP 處理商務端,AP2 則是安全的支付閘道,並內建人類簽核機制,防止代理失控亂花錢。
Q&A 精華
- 降低門檻:Google 打算把這些開放標準捐給基金會,確保互通性,並整合進 Agent Developer Kit(ADK),讓開發者能從零開始建。
- 介面的未來:軟體越來越「代理化」之後,UI 會變得高度個人化,並針對當下的需求動態調整。
- 資料庫架構:建議資料庫原生支援 MCP,採「安全優先」原則(例如用唯讀副本),並把代理當成「一等公民」使用者來優化體驗。
- 開發者心態:資料分析師會從「手動挖數據」轉變成「架構師」,負責監督與操作自主系統。
- 成本與安全:講者那句「Token 就是新的石油」很傳神——開發者得靠架構設計(快取、批次請求、模型選擇)和預算上限這個「死亡開關(Kill Switch)」,避免代理陷入無窮迴圈或燒光預算。
當日的實作任務有兩項:配置 MCP(把 AI 代理接上 Google Cloud 的開發者知識 API,提升工作流程可靠性),以及 Anti-Gravity CLI(AGY)(在終端機裡直接跑代理工作流,做更精細的控制)。
第三天:Agent Skills——給代理知識,但別把它撐爆
第二塊基礎建設是知識。第三天處理一個很實際的問題:當代理功能越來越多,系統提示詞(system prompt)會越塞越肥,最後導致效能下降——也就是所謂的「上下文腐敗(Context Rot)」。
什麼是 Agent Skills?
- 結構超簡單:每個技能就是一個資料夾,裡面放一份
skill.md,視需要再加上腳本或參考檔。 - 漸進式揭露(Progressive Disclosure):代理啟動時只載入極輕量的中繼資料(metadata),只有任務真的對上了,才載入完整的執行指南。這樣一來,代理可以同時裝幾十個技能,平常的上下文佔用卻依然很低。
- 沒有供應商鎖定:這套標準可以在 Anti-Gravity、Claude Code、ADK 等不同環境間通用。
Q&A 精華:可移植 ≠ 安全
- 安全與驗證:技能可移植,但「可移植」不代表「安全」。建議建立註冊中心(Registry),對社群技能做掃描與驗證,並用「安全卡(Skill Card)」標註它的權限與限制。核心原則:永遠不要把安全完全押在模型身上,要在外部(沙盒、權限、流量監控)施加硬限制。
- Skills vs MCP:兩者分工很清楚——MCP 負責「連接(Reach)」,處理外部存取與認證;Skills 負責「Know-how(知識)」,定義執行邏輯與步驟。有個好用的測試準則:把技能指令刪掉後,模型若還能勉強(即使笨拙地)完成任務,代表邊界劃對了;若整個做不出來,代表你把「能力」混進了「技能」。
- 單一代理 vs 多代理:建議先從「單一代理 + 多個技能」開始,除非真的撞到擴展瓶頸,才轉向多代理——多代理會增加交接(handoffs)的複雜度與除錯難度。
- 記憶與技能要分開:記憶是「情境性的」,技能是「過程性的」。技能改版時要明確宣告與更新,別讓模型依賴過時的記憶。
實作任務聚焦兩件事:寫一份 skill.md 並配上 Python 腳本去執行特定邏輯(例如資料庫 schema 驗證),體會「提示詞 + 腳本」如何增強代理;以及用 Anti-Gravity CLI 做代理的初始化、測試與部署,實作一個專屬的「客戶支援代理」。
第四天:安全與評估——把信任做成一條持續的線
第三塊基礎建設是信任。第四天的主題是生產環境裡的「有效信任(Effective Trust)」,核心觀念一句話:信任不能只是部署當下檢查一次,而必須是一個持續性的過程。
有效信任與「安全三隊」
有效信任是一個持續的度量指標,涵蓋供應鏈安全、身分驗證、執行時行為監控,以及環境脈絡關聯。課程把安全運作拆成一組漂亮的「三位一體」:
- 紅隊(Red Team):注入對抗性提示詞,模擬攻擊。
- 藍隊(Blue Team):監控執行時行為與物料清單(SBOM)。
- 綠隊(Green Team):隔離異常,自動修復與重構。
兩個你該認得的攻擊
- 困惑代理問題(Confused Deputy Problem):代理被提示詞注入(prompt injection)操縱,去執行未經授權的操作。
- 「泥濘佔位」(Slop-Squatting):攻擊者預測 AI 可能幻覺出來的套件名稱,搶先註冊成惡意套件,等著 AI 自己裝上門。
Q&A 精華
- 整合,而不是阻礙:安全不該是部署前的最後一道關卡,而要透過 CI/CD 把「攻擊、監控、修復」整條串進開發流程,讓它變成加速器。
- 軌跡感知評估(Trajectory-Aware Evaluation):不能只看最終輸出——「用錯的過程得到對的結果」可能藏著嚴重的邏輯漏洞。應該用 OpenTelemetry 記錄完整軌跡,再用「代理評審(Agent-as-a-Judge)」監控它的推理過程。
- 隔離技術:用 gVisor 這類強隔離環境,搭配「即時憑證(Just-in-Time Credentials)」,確保沙盒裡的腳本只拿到最小限度的存取權。
- 怎麼處理幻覺與偏移:不必對每個小偏差都中斷執行;建立一個「動態信任分數(Dynamic Trust Score)」,依偏差嚴重程度,決定是觸發修正流程,還是轉人工審核。
當日兩個實作都很有畫面:企業費用審核代理用 Human-in-the-Loop 機制,當費用超標、或偵測到潛在攻擊(PII 外洩、提示詞注入)時自動轉交人工審核;AI 購物助手則以測試驅動開發(TDD)建構,內建自動化安全掃描(Semgrep)、預提交鉤子(pre-commit hooks)與攻擊模擬,讓程式碼在開發階段就帶著安全性長大。
第五天:規格驅動——把原型推上生產線
最後一天,把前四天的東西收斂成一個結論:Vibe Coding 在原型階段飛快,但在生產環境裡很脆弱。 要拿到企業級的穩定度,得做一次關鍵轉型——從「憑感覺寫」走向「規格驅動(Spec-driven)」。
規格才是唯一真相(Spec as Source of Truth)
- 程式碼是可拋棄的(disposable),真正需要維護、版本控制、審核的持久資產,是規格說明書(Specification)。
- 建議用 Gherkin BDD(行為驅動開發) 格式來寫規格,讓 AI 代理能精準重現、甚至移植整個專案。
兩個企業級架構模式
- 分割大象(Slicing the Elephant):別想做一隻龐大的超級代理;把複雜目標拆成一組小而專的微代理(micro-agents),再用 ADK(Agent Development Kit) 來協調。
- 知識圖譜(Knowledge Graph):面對數百萬行的遺留系統,用 Spannograph 這類工具建立依賴關係模型,取代傳統 RAG,讓 AI 真正理解系統結構,而不只是做關鍵字比對。
此外還要建立企業級政策伺服器,對工具執行做結構化驗證,並在動態上下文裡即時過濾敏感個資(PII)。
Q&A 精華
- 審核疲勞(Approval Fatigue):把審核分層——低風險自動合併、中風險批次摘要審核、高風險才由人介入。並建立「正向飛輪」:用 AI 自動生成的測試與審核回饋,去訓練未來的代理,減少重複審核。
- 認知衰退:當開發者不再逐行寫程式,審查的重心要從「讀程式碼」移到「測試足跡(Testing Footprints)」與「行為斷言(Logical Assertions)」的驗證,確保系統合約準確。
- A2A 通訊:跨部門協作時(例如程式碼審查代理要呼叫合規檢查代理),A2A 提供一套標準化語言,省下為每個任務重新發明通訊協議的成本。
實作上,學員會部署費用審核代理(建一個有 UI 的 ambient 代理,整合 Pub/Sub 處理訊息串流,落實人機協作),並完成生產環境佈局(把代理部署到 Agent Runtime,用 Cloud Trace/Logs 做監控與除錯)。
期末專題(Capstone Project)
課程最後由 Kaggle 團隊宣布期末專題——這是拿結業徽章與證書的關鍵:
- 四大競賽類別:公益(Agents for Good)、企業業務(Agents for Business)、禮賓服務(Concierge Agent)、自由創作(Freestyle)。
- 截止日期:太平洋時間 7 月 6 日午夜。
- 獎勵:前三名隊伍可獲得 Kaggle 週邊與社群媒體推廣。
把五天串成一條線
退一步看,這五天其實是一個很完整的工程敘事:
- 第一天先把觀念轉過來:代理 = 模型 + 骨架,價值的 90% 在骨架;瓶頸從實作移到「規格」與「驗證」。
- 第二天~第四天補齊讓代理可靠的三塊地基——連結(MCP/A2A)、知識(Agent Skills)、信任(安全與評估)。
- 第五天把這一切收進「規格驅動」的生產流程,讓原型真的能上線、能維護、能負責。
換句話說,從第一天的 Vibe Coding,到第五天的規格驅動,走的正是第一天那條 IU-S 路線:先 Impressive,再 Useful,最後 Sustainable。
那個數位的落地觀點
這五天的內容很國際化、很「Google」,但拉回台灣團隊的現場,我們覺得有四件事最值得你今天就記下來:
一、別再只迷信模型,去經營那 90% 的骨架。 大多數團隊導入 AI 失敗,不是因為模型不夠強,而是沙盒、工具、編排與護欄沒做好。把預算和心力分一些給「骨架工程」,投報率往往更高。
二、瓶頸已經換位了——練「把需求講清楚」和「驗證」這兩項硬功夫。 當實作變便宜,能不能把規格說清楚、能不能設計出可驗證的測試,才是新的稀缺能力。這也呼應我們一直在說的:真正稀缺的,從來不是 AI 生成的內容,而是人的判斷力。
三、安全不是上線前蓋章,是一條要一直在線的指標。 「Token 就是新石油」「預算死亡開關」「動態信任分數」這些觀念,對正在試水溫的台灣企業特別實用——先把 Kill Switch 和人工審核關卡裝好,再放手讓代理跑。
四、原型可以 Vibe,但要交付就得回到規格。 如果你打算把 AI 代理放進真正的業務流程,請從第一天就把「規格」當成資產來維護——程式碼可以重生,規格不能含糊。
結語
這場課程的目標,是讓你親身體驗「從構思到部署」整條代理編程帶來的效率躍升。但它真正想說的,其實藏在那條從 Vibe Coding 到規格驅動的弧線裡:AI 讓「把東西做出來」變得很便宜,於是「做對的東西」和「能放心交付」就變得更貴、也更值錢。
把 AI 用得快,是這個時代的入場券;把 AI 用得讓人放心、能上線、能負責,才是真正的競爭力。
延伸資源
- SDLC 與 Vibe Coding 白皮書:kaggle.com/whitepaper-the-new-SDLC-with-vibe-coding
- DAY 1 直播:youtube.com/watch?v=7iic3Zj427M
- DAY 2 直播:youtube.com/watch?v=PGI_S59EoRA
- DAY 3 直播:youtube.com/watch?v=1T2mxYZkqL0
- DAY 4 直播:youtube.com/watch?v=suWoYLD7uGY
- DAY 5 直播:youtube.com/watch?v=Y3HfV4IroCU
- Google Skills 開源專案:github.com/google/skills
*本文整理自 Google × Kaggle「五天 AI 代理:密集 Vibe Coding 課程」五場直播之公開內容,重點摘要與名詞翻譯依台灣慣用語整理;技術細節與時程請以官方課程與白皮書為準。