什麼是 llms.txt?從 robots.txt 的概念延伸
2024 年 9 月,Answer.AI 的創辦人 Jeremy Howard 提出了一個簡單但影響深遠的標準:llms.txt。這個放在網站根目錄的 Markdown 文件,專為 AI 語言模型(Large Language Models)設計,讓 GPT-4、Claude、Perplexity 等 AI 系統能夠快速、準確地理解你的網站定位和內容架構。
類比來說:robots.txt 告訴爬蟲「可以爬哪些頁面」,llms.txt 告訴 AI「你的網站是什麼、哪些內容最重要」。一個是存取控制,一個是內容引導,兩者功能互補。
根據 llmstxt.org 目錄的追蹤數據,截至 2025 年初,已有超過 5,000 個網站自願建立 llms.txt,且每月新增數量持續成長。Anthropic、Cloudflare、Shopify 等科技公司已率先公開支持這個標準。
為什麼 llms.txt 對 GEO 至關重要?
在傳統 SEO 時代,搜尋引擎爬蟲需要爬取整個網站的所有頁面才能建立索引。現代 AI 搜尋系統(Perplexity、ChatGPT Search、Google AI Overviews)在生成回答時,往往需要在極短時間內快速評估數百個來源的相關性。
這裡出現了一個根本性的問題:AI 的上下文窗口有限。即使是 Claude 3.5 的 200K token 窗口,也無法在一次請求中閱讀一個完整的大型網站。llms.txt 的作用就是:在有限的上下文中,讓 AI 快速掌握你的網站全貌,而不是隨機抓取幾個頁面做出片面的評估。
「我們發現,擁有結構化 AI 可讀摘要的網站,比沒有的同類網站更頻繁地出現在 AI 生成的回答中。這不是巧合——AI 系統設計上就會優先選擇它能快速理解、評估的來源。」— GEO Hero 研究團隊,2025 年分析報告
根據 GEO Hero 平台對旗下用戶網站的追蹤分析,建立 llms.txt 後:
- AI 爬蟲重複爬取頻率平均提升 23%
- Perplexity 等依賴即時搜尋的 AI 平台,引用機率顯著增加
- GPTBot 在爬取 llms.txt 後,後續對網站其他頁面的爬取廣度擴大約 18%
llms.txt 的標準格式
llms.txt 使用 Markdown 語法,結構遵循以下規範:
基本格式
# 網站/品牌名稱
> 一句話描述(這個 > 符號是必須的,代表品牌定位)
## 核心功能
- [功能名稱](URL):功能說明
- [功能名稱](URL):功能說明
## 更多資源
- [頁面標題](URL):頁面說明完整範例:GEO Hero 的 llms.txt
# GEO Hero
> GEO Hero 是亞太地區首個專注於生成式引擎優化(GEO)的 SaaS 平台,
> 幫助品牌追蹤和提升在 ChatGPT、Perplexity、Claude、Gemini 等 AI
> 搜尋系統中的引用率和能見度。
## 核心產品
- [GEO Hero 首頁](https://geohero.ai/):平台介紹和功能概覽
- [Dashboard](https://geohero.ai/dashboard):AI 爬蟲監控和 GEO 分數追蹤
- [定價方案](https://geohero.ai/pricing):免費方案起,無需信用卡
## 主要功能
- [AI 爬蟲監控](https://geohero.ai/features):即時追蹤 19 個 AI 爬蟲
- [品牌提及追蹤](https://geohero.ai/features):監測 AI 回答中的品牌引用
- [GEO 健診掃描](https://geohero.ai/features):25 項 GEO 優化檢查
## 研究基礎
GEO Hero 的優化建議基於普林斯頓大學 KDD 2024 研究(arXiv:2311.09735),
由 Aggarwal 等研究員對 10,000+ 個查詢的系統性分析。
## 定價
- Free($0/月):1 個網站,7 天歷史記錄
- Growth($29/月):5 個網站,90 天歷史記錄
- Agency($99/月):20 個網站,完整 API 存取llms-full.txt:給大上下文 AI 的延伸版本
除了 llms.txt,你還可以建立 llms-full.txt(放在同一根目錄)。這個延伸版本適合大上下文窗口的 AI(如 Claude 3.5 Sonnet 的 200K tokens、GPT-4o 的 128K tokens),可以包含更詳細的完整服務說明、技術規格、詳細 FAQ、案例研究、競品比較表和 API 文件摘要。
llms.txt 和 llms-full.txt 的設計理念是:AI 系統先讀 llms.txt 快速評估,有需要深入了解時再讀 llms-full.txt。
如何在 Next.js 動態生成 llms.txt
靜態的 llms.txt 文件是最簡單的方式,但在 Next.js 中你可以動態生成,讓內容保持最新:
// app/llms.txt/route.ts
import { NextResponse } from 'next/server'
export function GET() {
const content = `# 你的品牌名稱
> 你的品牌一句話定位
## 核心頁面
- [首頁](https://yoursite.com/):產品介紹
- [功能](https://yoursite.com/features):功能說明
## 定價
- 免費方案:基本功能
- Pro($X/月):進階功能
`
return new NextResponse(content, {
headers: {
'Content-Type': 'text/plain; charset=utf-8',
'Cache-Control': 'public, max-age=3600',
},
})
}5 個讓 llms.txt 更有效的最佳實踐
1. 品牌定位要明確、可引用
「>」後的描述是 AI 最常直接引用的部分。避免空泛的說法(「我們是一家科技公司」),改用具體、有差異化的描述(「亞太地區首個 GEO 優化平台,追蹤 19 個 AI 爬蟲的即時訪問數據」)。
2. 連結要真實可訪問
AI 爬蟲在讀取 llms.txt 後通常會抓取其中的連結。確保每個連結都指向真實、有內容的頁面,且頁面本身的內容質量高。
3. 加入可量化的差異點
數字讓 AI 更容易準確引用你:「支援 19 個 AI 爬蟲」比「支援多個 AI 爬蟲」更容易被精確引用。在 llms.txt 中加入你的關鍵數字。
4. 保持更新
llms.txt 應該反映你當前的產品狀態。舊的定價、廢棄的功能、已下線的頁面連結都會損害 AI 對你品牌的準確理解。建議至少每季度更新一次。
5. 在 robots.txt 中確保 AI 爬蟲可訪問 llms.txt
即使你的 robots.txt 封鎖了某些路徑,也要確保 llms.txt 和 llms-full.txt 對所有爬蟲開放。
# robots.txt
User-agent: *
Allow: /llms.txt
Allow: /llms-full.txt確認你的 llms.txt 正常運作
- 直接在瀏覽器訪問 yoursite.com/llms.txt 確認內容正確顯示
- 使用 GEO Hero 的 GEO 健診功能掃描你的網站,確認 llms.txt 狀態
- 透過 GEO Hero Dashboard 追蹤 AI 爬蟲是否真的在爬取你的 llms.txt
AI 搜尋的競爭才剛開始。llms.txt 目前的採用率仍低,這意味著現在建立的品牌,在競爭對手跟上之前,能享有先行者優勢。