出口网站的可爬取与索引

深圳一家出口户外用品的电商网站曾经发生过一个让人后怕的故事。网站开发团队在改版时为了"防止测试页面被收录"，在全局模板中加入了一条 noindex 标签。上线后所有人都在关注页面的设计、产品图片和加载速度，没有人注意到这个标签。三个月后，运营总监忽然发现网站的自然搜索流量几乎归零——从 Google Search Console 中查看，整整 1,200 个页面全部显示"已排除，noindex 标记"。在 B2B 出口中，网站的可爬取性（Crawlability）和可索引性（Indexability）是所有 SEO 工作的基础——如果搜索引擎的爬虫根本进不来，你的关键词研究、内容策略和外链建设就全部失去了意义。

Google 发现新页面并展示给搜索用户的完整路径是：爬取（Crawl）→ 索引（Index）→ 排名（Rank）。第一步"爬取"依赖于 Googlebot 能否顺利访问你的网站页面、读取内容并沿着页面上的链接发现新页面。如果爬虫在第一步就受阻，后续的所有步骤都不会发生。对于中国出口企业来说，常见的爬取障碍包括：网站使用了大量 Flash 或 JavaScript 渲染的内容、关键 CSS 和 JS 文件被 robots.txt 屏蔽、服务器响应速度过慢导致爬虫超时、页面之间的链接结构混乱导致爬虫无法深入。你可以在 Search Console 的"索引覆盖率"报告中查看哪些页面被成功索引、哪些被排除以及排除的原因。

Robots.txt 的正确使用

robots.txt 文件是你在服务器上放置的一份简单文本文件，告诉搜索引擎爬虫哪些路径可以访问、哪些不可以。它的力量被很多网站管理员严重低估——一个错误配置的 robots.txt 可以轻松让整个网站从搜索中消失。上述深圳案例的教训在于：全局性的排除指令一定要万分谨慎。在 robots.txt 中，你应该只屏蔽那些确实不需要被收录的内容——后台管理路径、内部搜索结果页、重复的筛选页面、开发测试环境。永远不要在 robots.txt 中屏蔽 CSS、JavaScript 或图片文件——Google 需要这些资源来理解页面的渲染效果和用户体验。你可以使用 Search Console 中的 robots.txt Tester 来验证你的配置是否正确。

对于出口网站，另一个常见问题是多语言版本之间的 robots.txt 管理。不要对某个语言版本的路径使用 Disallow 指令，除非你确定该语言版本真的不需要被索引。正确的做法是使用 hreflang 和 canonical 标签来告诉 Google 不同语言版本之间的对应关系，而不是用 robots.txt 来阻止爬虫——因为一旦在 robots.txt 中屏蔽，Google 就无法读取页面上的这些标签，也就无法理解页面之间的关系。

XML 站点地图与常见爬取问题

XML 站点地图是你主动提供给搜索引擎的网站内容清单。它就像你递给 Googlebot 的一张"藏宝图"——告诉它你的网站有哪些重要页面、它们何时更新、它们之间的关系是怎样的。创建站点地图并不复杂：你可以使用 Screaming Frog、Yoast SEO（WordPress）、SiteBulb 等工具自动生成。关键步骤是生成后将站点地图提交到 Google Search Console 和 Bing Webmaster Tools。对出口网站来说，站点地图尤其重要——因为你的网站可能有多种语言版本、多个产品分类和大量产品页面，没有站点地图，爬虫可能会遗漏重要的页面路径。

常见爬取问题中，Flash 内容至今仍在一些中国制造企业的网站上出现。如果一个产品展示页面完全由 Flash 构建，Googlebot 只能看到一个空白区域。解决方案是使用 HTML 和 CSS 替代 Flash，或在 Flash 元素下方添加静态的 HTML 描述。JavaScript 渲染是另一个挑战——如果你的产品列表页通过 JavaScript 动态加载内容，确保使用服务器端渲染（SSR）或预渲染技术，至少确保关键内容（标题、描述、H1）以静态 HTML 形式存在于页面源码中。你可以在 Search Console 的 URL 检查工具中输入一个页面网址，查看 Googlebot 看到的内容是否和用户看到的一致——如果不一致，这就是你需要修复的问题。

现在就做

在 Google Search Console 中打开"索引覆盖率"报告，检查你的网站有多少页面被索引、多少被排除以及排除原因。
检查你的 robots.txt 文件，确认没有屏蔽 CSS、JS 或图片文件——这是中国出口网站最常见的技术 SEO 错误之一。
生成 XML 站点地图并提交到 Google Search Console，确保所有语言版本的重要页面都在站点地图中列出。
使用 Search Console 的 URL 检查工具，随机抽查 3-5 个产品页面，验证 Googlebot 看到的内容是否与用户看到的一致。

常见问题

我的网站用了很多 JavaScript 动态加载产品信息，Google 能正确读取吗？

Google 的现代爬虫（Googlebot Smartphone）可以执行 JavaScript，但效率不如直接读取静态 HTML。为了保险起见，建议采用"渐进增强"策略——确保页面的核心内容（标题、描述、关键文本）以 HTML 形式存在于源码中，将 JavaScript 用于增强用户体验而非核心内容呈现。你也可以使用 Google 的 URL 检查工具来验证 Googlebot 实际看到的内容。

站点地图需要包含所有页面吗，还是只包含重要页面？

站点地图应该包含你希望被索引的重要页面。不需要包含管理页面、标签页、排序变体、分页页等低价值页面。一个常见的错误是把所有产品变体（颜色/尺寸组合）都放进站点地图——这只会浪费爬虫的抓取预算。建议站点地图包含：首页、产品分类页、核心产品页、关于我们、联系我们、博客文章、以及多语言版本的对应页面。总页面数控制在几千以内即可。

Googlebot 会不会因为网站速度太慢而放弃爬取？

会的。Google 的"爬取预算"是有限的——Googlebot 在一定时间内只会在你的网站上爬取一定数量的页面。如果你的服务器响应速度很慢（超过 5 秒），爬虫会大幅降低爬取频率，甚至跳过一些页面。此外，页面加载速度也是 Google 的排名因素之一。确保服务器位于目标市场附近（使用 CDN），优化图片大小，启用浏览器缓存，这些都是提升爬取效率的有效方式。