在线笔记 favinavi - 人性化网络收藏夹

统计搜索引擎对网站地图文件或robots.txt的访问记录的一种方法

分类标签：全部 CSS html javascript php/other IT

by: fanshome 2023-06-02 16:00(UTC)

一般而言，各大搜索引擎都允许提交网站地图，例如网站根目录下的“sitemap.xml”文件，是xml格式的文本文件。当提交了网站地图后，搜索引擎蜘蛛来访时，可能会读取：http://www.domain.com/sitemap.xml，以获得你网站的所有链接，以便收录。

但是，我很好奇，这个网站地图到底被哪些搜索引擎来抓取了呢？抓取频次如何呢？

由于网站地图本身是文本文件，不能直接写入统计代码。虽然有些搜索引擎允许自定义网站地图文件后缀，例如可以是.php文件。但是为了统一起见，还是使用比较规范一点的xml后缀比较省事。再者，假如想统计robots.txt文件的访问记录呢？这个文件名可是全球统一没得改的。

一种方法是修改php.ini配置文件，找到 AddType application/x-httpd-php 这一行，在后面添加想要使用以php方式执行的文件后缀，比如xml，txt。我没有试过，怕带来不必要的麻烦。

我使用的方法，以apache2 web server为例，先改名网站根目录下的sitemap.xml和robots.txt，比如改成map.xml和bots.txt，然后在.htaccess文件（或者apache配置文件.conf）中定义重写规则，遇到访问的文件名不存在时，重写request uri到一个脚本文件，比如php。

下面以.htaccess文件为例：

php/other复制代码

RewriteEngine on

RewriteCond %{SCRIPT_FILENAME} !-f
RewriteCond %{SCRIPT_FILENAME} !-d
RewriteRule ^(.*)$ jump.php/$1

意思是：遇到目录或者文件不存在的时候，统一调用“jump.php”。比如蜘蛛想读取“sitemap.xml”，实际上我们却让它访问了“jump.php”。这样，我们就可以在jump.php文件中写入各种代码，对蜘蛛来访的各种信息进行记录和统计，最后读取对应的真实文件名的文件内容（如上面提到的map.xml或bots.txt），然后加上正确的文件头，再输出给客户端，比如：header("Content-type: text/xml"); 这时，蜘蛛们应该并不知道是访问了一个php文件，以为是直接读取了对应的文本文件。

这样一来，大大增加了灵活性，我们就可以看看各家的蜘蛛们到底表现如何了。

4379

favinavi - 重度网络用户必备在线笔记

几种CSS字体描边和阴影效果
基本方法： 1、-weblit-text-strok：字体描边，非标准方法，浏览器兼容性存在一些问题。好处是这种方法不扩展字体本身，属于在字体内部描出边界，所以...
网络收藏夹的正确打开方式是怎样的？
有人会说：这算哪门子问题，网络收藏夹不就是一个普通网站吗？普通网站怎么打开，你网络收藏夹就怎么打开呗！嗯...这么说当然没错，但是，但是！网络收藏夹毕竟是一...
favinavi人性化网络收藏夹与pinbox跨平台收藏工具的简单对比
简体中文世界里的网络收藏夹类网站，我个人观点：pinbox是做得非常用心的一个，看得出来背后有一个专业团队在开发和运营，人数多少不知道，但肯定是比favinav...
使用certbot申请泛域名证书以及手动续期
泛域名的证书申请或手动续期需要在dns解析服务器设置相应的txt记录。申请或续期使用同样的certbot命令，如下，记录以备用。
php判断浏览器是否支持avif格式图片的一种方法
最新一代图片压缩格式avif非常好，图片缩小体积效果十分明显，各大公司的新版浏览器已经纷纷支持。可是，可是！微软的edge到目前为止（2023-06）还没有...
CSS3 一款漂亮的带渐变背景和关闭按钮的卡片头样式
使用css: linear-gradient来实现线性颜色渐变背景，效果见下图： [img] 点击“演示”按钮可以查看效果。