技术 SEO · 第 1 课,共 4 课

出口网站的可爬取与索引

如果搜索引擎无法爬取你的网站,所有 SEO 工作都是白费。

深圳一家出口户外用品的电商网站曾经发生过一个让人后怕的故事。网站开发团队在改版时为了"防止测试页面被收录",在全局模板中加入了一条 noindex 标签。上线后所有人都在关注页面的设计、产品图片和加载速度,没有人注意到这个标签。三个月后,运营总监忽然发现网站的自然搜索流量几乎归零——从 Google Search Console 中查看,整整 1,200 个页面全部显示"已排除,noindex 标记"。在 B2B 出口中,网站的可爬取性(Crawlability)和可索引性(Indexability)是所有 SEO 工作的基础——如果搜索引擎的爬虫根本进不来,你的关键词研究、内容策略和外链建设就全部失去了意义。

Google 发现新页面并展示给搜索用户的完整路径是:爬取(Crawl)→ 索引(Index)→ 排名(Rank)。第一步"爬取"依赖于 Googlebot 能否顺利访问你的网站页面、读取内容并沿着页面上的链接发现新页面。如果爬虫在第一步就受阻,后续的所有步骤都不会发生。对于中国出口企业来说,常见的爬取障碍包括:网站使用了大量 Flash 或 JavaScript 渲染的内容、关键 CSS 和 JS 文件被 robots.txt 屏蔽、服务器响应速度过慢导致爬虫超时、页面之间的链接结构混乱导致爬虫无法深入。你可以在 Search Console 的"索引覆盖率"报告中查看哪些页面被成功索引、哪些被排除以及排除的原因。

Robots.txt 的正确使用

robots.txt 文件是你在服务器上放置的一份简单文本文件,告诉搜索引擎爬虫哪些路径可以访问、哪些不可以。它的力量被很多网站管理员严重低估——一个错误配置的 robots.txt 可以轻松让整个网站从搜索中消失。上述深圳案例的教训在于:全局性的排除指令一定要万分谨慎。在 robots.txt 中,你应该只屏蔽那些确实不需要被收录的内容——后台管理路径、内部搜索结果页、重复的筛选页面、开发测试环境。永远不要在 robots.txt 中屏蔽 CSS、JavaScript 或图片文件——Google 需要这些资源来理解页面的渲染效果和用户体验。你可以使用 Search Console 中的 robots.txt Tester 来验证你的配置是否正确。

对于出口网站,另一个常见问题是多语言版本之间的 robots.txt 管理。不要对某个语言版本的路径使用 Disallow 指令,除非你确定该语言版本真的不需要被索引。正确的做法是使用 hreflangcanonical 标签来告诉 Google 不同语言版本之间的对应关系,而不是用 robots.txt 来阻止爬虫——因为一旦在 robots.txt 中屏蔽,Google 就无法读取页面上的这些标签,也就无法理解页面之间的关系。

XML 站点地图与常见爬取问题

XML 站点地图是你主动提供给搜索引擎的网站内容清单。它就像你递给 Googlebot 的一张"藏宝图"——告诉它你的网站有哪些重要页面、它们何时更新、它们之间的关系是怎样的。创建站点地图并不复杂:你可以使用 Screaming Frog、Yoast SEO(WordPress)、SiteBulb 等工具自动生成。关键步骤是生成后将站点地图提交到 Google Search Console 和 Bing Webmaster Tools。对出口网站来说,站点地图尤其重要——因为你的网站可能有多种语言版本、多个产品分类和大量产品页面,没有站点地图,爬虫可能会遗漏重要的页面路径。

常见爬取问题中,Flash 内容至今仍在一些中国制造企业的网站上出现。如果一个产品展示页面完全由 Flash 构建,Googlebot 只能看到一个空白区域。解决方案是使用 HTML 和 CSS 替代 Flash,或在 Flash 元素下方添加静态的 HTML 描述。JavaScript 渲染是另一个挑战——如果你的产品列表页通过 JavaScript 动态加载内容,确保使用服务器端渲染(SSR)或预渲染技术,至少确保关键内容(标题、描述、H1)以静态 HTML 形式存在于页面源码中。你可以在 Search Console 的 URL 检查工具中输入一个页面网址,查看 Googlebot 看到的内容是否和用户看到的一致——如果不一致,这就是你需要修复的问题。

现在就做
  1. 在 Google Search Console 中打开"索引覆盖率"报告,检查你的网站有多少页面被索引、多少被排除以及排除原因。
  2. 检查你的 robots.txt 文件,确认没有屏蔽 CSS、JS 或图片文件——这是中国出口网站最常见的技术 SEO 错误之一。
  3. 生成 XML 站点地图并提交到 Google Search Console,确保所有语言版本的重要页面都在站点地图中列出。
  4. 使用 Search Console 的 URL 检查工具,随机抽查 3-5 个产品页面,验证 Googlebot 看到的内容是否与用户看到的一致。

常见问题

Google 的现代爬虫(Googlebot Smartphone)可以执行 JavaScript,但效率不如直接读取静态 HTML。为了保险起见,建议采用"渐进增强"策略——确保页面的核心内容(标题、描述、关键文本)以 HTML 形式存在于源码中,将 JavaScript 用于增强用户体验而非核心内容呈现。你也可以使用 Google 的 URL 检查工具来验证 Googlebot 实际看到的内容。

站点地图应该包含你希望被索引的重要页面。不需要包含管理页面、标签页、排序变体、分页页等低价值页面。一个常见的错误是把所有产品变体(颜色/尺寸组合)都放进站点地图——这只会浪费爬虫的抓取预算。建议站点地图包含:首页、产品分类页、核心产品页、关于我们、联系我们、博客文章、以及多语言版本的对应页面。总页面数控制在几千以内即可。

会的。Google 的"爬取预算"是有限的——Googlebot 在一定时间内只会在你的网站上爬取一定数量的页面。如果你的服务器响应速度很慢(超过 5 秒),爬虫会大幅降低爬取频率,甚至跳过一些页面。此外,页面加载速度也是 Google 的排名因素之一。确保服务器位于目标市场附近(使用 CDN),优化图片大小,启用浏览器缓存,这些都是提升爬取效率的有效方式。