robots.txt 文件

robots.txt 文件是一个纯文本文件，用于告诉搜索引擎爬虫哪些 URL 可以访问，哪些不能访问。它主要用于管理爬虫流量，防止服务器被过多的请求压垮。

通过合理使用 robots.txt 文件，可以有效管理爬虫流量，保护网站资源，同时确保重要内容被正确索引。

基本用法

允许所有爬虫访问所有内容

User-agent: *
Disallow:

这表示允许所有爬虫访问网站的所有部分。

User-agent: *
Disallow: /

这表示禁止所有爬虫访问网站的任何部分。

User-agent: Googlebot
Disallow: /private/

这表示禁止 Googlebot 访问 /private/ 目录。

User-agent: *
Allow: /public/
Disallow: /

这表示允许爬虫访问 /public/ 目录，但禁止访问其他部分。

User-agent: *
Crawl-delay: 10

这表示爬虫在每次请求之间等待 10 秒。

注意事项：

（1） robots.txt 文件必须放在网站的根目录下，例如本站域名是 itdoc.net，robots.txt文件的地址就是 https://itdoc.net/robots.txt 。

（2）robots.txt 文件不能强制执行指令，只能依赖爬虫自觉遵守。

（3）不同爬虫可能会有不同的解释，因此需要了解各个爬虫的具体行为。

虽然 robots.txt 文件可以管理爬虫流量，但它并不能完全阻止爬虫访问敏感信息。如果需要更高的安全性，建议使用其他方法，如密码保护或 noindex 标签。还可以使用nginx来过滤一些有害的爬虫。