AI 爬取可访问性 · 第 2 课,共 4 课

出口网站的 Robots.txt 与爬取预算

爬取预算有限——确保 AI 爬虫花时间爬取你最重要的页面。

佛山有一家建材出口商,网站上有超过 5000 个页面——包括产品详情、博客文章、搜索结果分类页和经销商查询页面。他们在服务器日志中发现 GPTBot 每周访问数百次,但仔细一看,AI 爬虫大部分时间都花在爬取博客归档页面和无效的搜索结果页面上。那些真正应该被 AI 索引的核心产品页面和认证页面,反而很少被访问。这就是爬取预算管理不善的典型症状。

爬取预算是指 AI 爬虫在有限的时间和资源内愿意分配给一个网站的爬取次数。与传统 Googlebot 相比,AI 爬虫的爬取预算通常更加有限——它们不会像搜索引擎那样试图索引整个互联网,而是选择性地爬取最有可能提供高质量训练数据的内容。如果你的网站有大量低价值页面,AI 爬虫可能会在这些页面上浪费宝贵的爬取额度,而错过那些真正能推动业务的内容。

管理 robots.txt 以优化 AI 爬取

robots.txt 是管理 AI 爬虫行为最重要的工具之一。与传统的 SEO 只需要关心 Googlebot 不同,GEO 策略要求你为多个 AI 爬虫分别定义规则。一个标准的做法是将不同爬虫的指令分区管理。例如,对于 GPTBot,你可能允许访问 /products//case-studies/,但禁止访问 /blog//tag//search/。对于 Google-Extended 和 Claude-Web,你可以使用相同的策略,或者根据爬虫的特性进行微调。

但需要注意的是,robots.txt 的 "Disallow" 指令对于 AI 爬虫来说是一个请求而非强制命令。大多数合规的 AI 爬虫会遵守 robots.txt 的规则,但并不能保证百分之百的遵从。因此,除了 robots.txt 之外,你还可以考虑使用页面级别的 <meta name="robots" content="noindex"> 标签来进一步控制爬取行为。

另外,一个常见的误区是在 robots.txt 中使用过于宽泛的禁止规则。有些出口商为了避免服务器负载,直接禁止了所有 AI 爬虫的访问。这对于 GEO 来说无异于自断生路。AI 爬虫完全无法访问你的网站,意味着 AI 模型永远不会了解你的品牌。更合理的做法是有选择地开放高价值页面,同时限制低价值页面。

确定 URL 优先级策略

不是所有的页面都具有同等的 AI 提取价值。你需要对网站页面进行分级,确保 AI 爬虫优先爬取那些对出口业务最关键的页面。第一优先级包括:产品目录和分类页面(展示你的核心供应能力)、关于我们页面(建立品牌可信度)、认证和资质页面(提供权威信号)、案例研究页面(展示实际交付能力)。

第二优先级包括:技术规格页面、FAQ 页面、行业洞察文章。这些内容虽然在直接转化上不如产品页面,但它们为 AI 模型提供了深度信息,有助于在 AI 回答中建立全面的品牌认知。最低优先级(也是最应该被屏蔽的)包括:搜索结果页面、标签归档页面、管理后台、临时促销页面、以及重复内容页面。

对于大多数出口 B2B 网站来说,优化后的爬取预算分配应该是:60% 用于产品和分类页面,20% 用于品牌和信任建设页面,15% 用于深度内容页面,5% 用于其他页面。当 AI 爬虫的爬取行为接近这个比例时,你的网站就进入了良性的 GEO 爬取状态。

监控 AI 爬虫行为

优化 robots.txt 只是第一步。你还需要持续监控 AI 爬虫的实际行为,确保配置策略正在生效。服务器日志是最直接的监控工具——通过分析日志中的 User-agent 字段,你可以判断哪些 AI 爬虫在访问、访问了哪些页面、以及访问频率如何。Cloudflare 等 CDN 服务也提供了爬虫分析功能,可以帮助你识别和分类 AI 爬虫的请求。

定期检查 AI 爬虫的访问模式,并据此调整 robots.txt 的配置。如果你发现某个 AI 爬虫仍然在频繁访问低价值页面,说明你的屏蔽规则可能需要加强。反之,如果核心产品页面很少被 AI 爬虫访问,你可能需要检查这些页面是否被意外地屏蔽了,或者是否存在访问权限问题让爬虫无法到达。

现在就做
  1. 下载并分析最近 30 天的服务器访问日志,筛选 AI 爬虫(GPTBot、Google-Extended、Claude-Web)的访问记录。
  2. 列出网站上 AI 爬虫访问最多的 10 个页面,与你的核心业务页面进行对比,找出差距。
  3. 更新 robots.txt,为每种 AI 爬虫单独设置规则:允许高价值页面,屏蔽低价值页面。
  4. 设置每周一次的 AI 爬虫行为审查,确保爬取预算分配持续优化。

常见问题

不会。与传统 SEO 的 PageRank 传递逻辑不同,AI 爬虫的页面访问不涉及权重传递。屏蔽低价值页面只会让 AI 爬虫把有限的预算集中在你最重要的内容上。实际上,这种做法有助于提高 AI 对你核心内容的关注度,从而提升你在 AI 回答中的引用概率。

不会。GPTBot 是 OpenAI 的爬虫,与 Google 搜索无关。Google 搜索使用的是 Googlebot,不受 GPTBot 规则影响。同样地,禁止 Google-Extended 也不会影响 Google 搜索中的排名——它只影响 Google 的 AI 产品(如 Gemini)。你可以安全地为不同爬虫设置不同的规则。

AI 爬虫的爬取预算没有公开的具体数字,它取决于多个因素:你网站的域名权威性、内容更新频率、页面加载速度、以及该 AI 爬虫当前的资源分配策略。一般来说,权威性越高的网站获得的爬取预算越多。你无法直接查询爬取预算上限,但可以通过分析服务器日志中的爬虫访问趋势来估算相对变化。