Online notes favinavi - online bookmark

统计搜索引擎对网站地图文件或robots.txt的访问记录的一种方法

by: fanshome 2023-06-02 16:00(UTC)

一般而言，各大搜索引擎都允许提交网站地图，例如网站根目录下的“sitemap.xml”文件，是xml格式的文本文件。当提交了网站地图后，搜索引擎蜘蛛来访时，可能会读取：http://www.domain.com/sitemap.xml，以获得你网站的所有链接，以便收录。

但是，我很好奇，这个网站地图到底被哪些搜索引擎来抓取了呢？抓取频次如何呢？

由于网站地图本身是文本文件，不能直接写入统计代码。虽然有些搜索引擎允许自定义网站地图文件后缀，例如可以是.php文件。但是为了统一起见，还是使用比较规范一点的xml后缀比较省事。再者，假如想统计robots.txt文件的访问记录呢？这个文件名可是全球统一没得改的。

一种方法是修改php.ini配置文件，找到 AddType application/x-httpd-php 这一行，在后面添加想要使用以php方式执行的文件后缀，比如xml，txt。我没有试过，怕带来不必要的麻烦。

我使用的方法，以apache2 web server为例，先改名网站根目录下的sitemap.xml和robots.txt，比如改成map.xml和bots.txt，然后在.htaccess文件（或者apache配置文件.conf）中定义重写规则，遇到访问的文件名不存在时，重写request uri到一个脚本文件，比如php。

下面以.htaccess文件为例：

php/otherCopy codes

RewriteEngine on

RewriteCond %{SCRIPT_FILENAME} !-f
RewriteCond %{SCRIPT_FILENAME} !-d
RewriteRule ^(.*)$ jump.php/$1

意思是：遇到目录或者文件不存在的时候，统一调用“jump.php”。比如蜘蛛想读取“sitemap.xml”，实际上我们却让它访问了“jump.php”。这样，我们就可以在jump.php文件中写入各种代码，对蜘蛛来访的各种信息进行记录和统计，最后读取对应的真实文件名的文件内容（如上面提到的map.xml或bots.txt），然后加上正确的文件头，再输出给客户端，比如：header("Content-type: text/xml"); 这时，蜘蛛们应该并不知道是访问了一个php文件，以为是直接读取了对应的文本文件。

这样一来，大大增加了灵活性，我们就可以看看各家的蜘蛛们到底表现如何了。

4526

favinavi - for heavy web user Online notes

搭建家庭用服务器全套攻略，300元一台小主机全部搞定
有些人闲不住，喜欢折腾，业余时间想自己搭个网站，或者更简单点，想自己折腾个软路由、NAS什么的，那么，这篇文章可能对你有所帮助。一、硬件选型：一般而言，...
网络收藏夹的正确打开方式是怎样的？
有人会说：这算哪门子问题，网络收藏夹不就是一个普通网站吗？普通网站怎么打开，你网络收藏夹就怎么打开呗！嗯...这么说当然没错，但是，但是！网络收藏夹毕竟是一...
一个纯CSS的最小干扰的渐变色彩虹loading bar
Loading图标，又称“加载中”图标，以往是用gif格式动图来实现。但是gif有一个比较明显的问题，不易调整大小，然后图片一般比较粗糙，颗粒感严重。现在流...
发现一只有趣的蜘蛛——“BSbot”
最近发现有一个有趣的蜘蛛来访，它的User Agent是这么写的： BSbot 1.1 (monthly copyright check - html/js/...
把favinavi网络收藏夹的书签搜索功能做到最好
在此先感谢“changanluan”用户的建议，是他（她）提出了这个问题，favinavi怎么还没有书签搜索功能呢？是啊，我不属于那种要收藏几千个书签的收藏...
简洁有效地实现水平垂直双居中
同时实现水平和垂直方向双居中的方法网上有很多种，本人倾向于采用其中最简洁有效的方法来实现，具有比较好的通用性。具体实现的css代码如下：