在线笔记 favinavi - 人性化网络收藏夹

统计搜索引擎对网站地图文件或robots.txt的访问记录的一种方法

分类标签：全部 CSS html javascript php/other IT

by: fanshome 2023-06-02 16:00(UTC)

一般而言，各大搜索引擎都允许提交网站地图，例如网站根目录下的“sitemap.xml”文件，是xml格式的文本文件。当提交了网站地图后，搜索引擎蜘蛛来访时，可能会读取：http://www.domain.com/sitemap.xml，以获得你网站的所有链接，以便收录。

但是，我很好奇，这个网站地图到底被哪些搜索引擎来抓取了呢？抓取频次如何呢？

由于网站地图本身是文本文件，不能直接写入统计代码。虽然有些搜索引擎允许自定义网站地图文件后缀，例如可以是.php文件。但是为了统一起见，还是使用比较规范一点的xml后缀比较省事。再者，假如想统计robots.txt文件的访问记录呢？这个文件名可是全球统一没得改的。

一种方法是修改php.ini配置文件，找到 AddType application/x-httpd-php 这一行，在后面添加想要使用以php方式执行的文件后缀，比如xml，txt。我没有试过，怕带来不必要的麻烦。

我使用的方法，以apache2 web server为例，先改名网站根目录下的sitemap.xml和robots.txt，比如改成map.xml和bots.txt，然后在.htaccess文件（或者apache配置文件.conf）中定义重写规则，遇到访问的文件名不存在时，重写request uri到一个脚本文件，比如php。

下面以.htaccess文件为例：

php/other复制代码

RewriteEngine on

RewriteCond %{SCRIPT_FILENAME} !-f
RewriteCond %{SCRIPT_FILENAME} !-d
RewriteRule ^(.*)$ jump.php/$1

意思是：遇到目录或者文件不存在的时候，统一调用“jump.php”。比如蜘蛛想读取“sitemap.xml”，实际上我们却让它访问了“jump.php”。这样，我们就可以在jump.php文件中写入各种代码，对蜘蛛来访的各种信息进行记录和统计，最后读取对应的真实文件名的文件内容（如上面提到的map.xml或bots.txt），然后加上正确的文件头，再输出给客户端，比如：header("Content-type: text/xml"); 这时，蜘蛛们应该并不知道是访问了一个php文件，以为是直接读取了对应的文本文件。

这样一来，大大增加了灵活性，我们就可以看看各家的蜘蛛们到底表现如何了。

861

favinavi - 重度网络用户必备在线笔记

A PHP method for determining whether a browser supports AVIF images
The latest generation of image compression format AVIF is very good, the effect ...
An example of increasing productivity with the Favinavi web favorites sharing feature
Favinavi’s humanized network favorites provides a sharing function, that is, u...
php/javascript的一些关于时间处理的函数
记录一些经常用到的时间处理函数以备用。
几种CSS字体描边和阴影效果
基本方法： 1、-weblit-text-strok：字体描边，非标准方法，浏览器兼容性存在一些问题。好处是这种方法不扩展字体本身，属于在字体内部描出边界，所以...
自用小工具：正则表达式测试是否能匹配字符串
正则表达式写起来不难，但是要做到准确无误却是一个不小的挑战，经常因为一个小疏忽，导致貌似正常而实际上却有bug。尤其是域名或url相关的，特别容易出错，出错...
CSS3 一款漂亮的带渐变背景和关闭按钮的卡片头样式
使用css: linear-gradient来实现线性颜色渐变背景，效果见下图： [img] 点击“演示”按钮可以查看效果。