搜索引擎优化 (SEO) - Robots.txt

什么是 robots.txt 文件?

当 Google 或其他搜索引擎访问您的网站并读取内容以将其存储到搜索索引中时,会查找一个名为 robots.txt 的特殊文件。该文件是一组指令,用于告诉搜索引擎可以在哪些地方抓取内容,哪些地方不允许抓取内容。我们可以利用 robots.txt 的规则,确保搜索引擎不会浪费时间查看没有价值内容的链接,并避免链接产生分面arrow-up-right内容。

为什么这很重要?

搜索引擎需要查看和存储互联网上尽可能多的网页。据估计,Google 目前有 45 亿个活跃网页。这对 Google 来说是个不小的工作量。

它不可能查看并存储每一个页面,因此需要决定保留哪些页面,以及在网站上花费多长时间索引页面。这就是所谓的抓取预算。

Google 每天会索引多少网页取决于很多因素,包括网站的新鲜程度、内容的多少以及网站的受欢迎程度。有些网站每天只被 Google 索引 30 个链接。我们希望每个链接都有价值,从而不浪费 Google 的时间。

优化的 Robots. txt 文件有什么作用?

如果您使用的是 “Invision Community 优化” 规则,该规则将会排除没有独特内容的网站区域,并将链接重定向到现有主题,如排行榜、默认动态流;此外,还排除了隐私政策、Cookie 政策、登录和注册页面等区域;提交按钮和过滤器也会被排除在外,以防止页面分面;最后,用户的个人主页也会被排除在外,因为这些主页对 Google 没有什么价值,但却包含约 150 个重定向链接。鉴于 Google 只有几秒钟的时间访问您的网站,这些存在于其他地方的链接会迅速耗尽您的抓取预算。

优化的 Robots. txt 文件内容是什么?

以下是优化的 Robots.txt 文件的内容。系统将根据您的配置自动提供此内容。如果您的网站位于子目录,则需要手动将其应用到网站的根目录。

例如,如果您的网站位于/home/site/public_html/community/ - 您需要创建 robots.txt 文件并将其添加 /home/site/public_html,也可在管理面板中添加以下内容:

# Invision Community 规则(https://futa.cc)
User-Agent: *

# 阻止没有唯一内容的页面
Disallow: /startTopic/
Disallow: /discover/unread/
Disallow: /markallread/
Disallow: /staff/
Disallow: /online/
Disallow: /discover/
Disallow: /leaderboard/
Disallow: /search/
Disallow: /*?advancedSearchForm=
Disallow: /register/
Disallow: /lostpassword/
Disallow: /login/

# 阻止分面页面和301重定向页面
Disallow: /*?sortby=
Disallow: /*?filter=
Disallow: /*?tab=
Disallow: /*?do=
Disallow: /*ref=
Disallow: /*?forumId*

# 阻止个人主页页面,因为这些页面几乎没有独特的价值,且消耗了大量的爬网时间,并包含数百个301链接
Disallow: /profile/

# 网站地图 URL
Sitemap: http://domain.tld/sitemap.php
circle-info

注意:此内容为示例内容,如将其应用于您自己的站点,您需要将其中的网站地图 URL 更改为您自己站点的 URL;如果您的站点在子目录,还需更改各个路径。

最后更新于