您的位置: 首页 / Experiences, PHP / Pagerank,想要几就是几

Pagerank,想要几就是几

Published at Mar 9, 1am / Keywords: ,

2005-3-9.png

昨天的文章中,大家可能已经看到了“蒙骗”Google的全过程。有一定 PHP 基础的朋友们在看到源代码后一定会恍然大悟。的确,Google被这样简单的“戏法”蒙骗确有些不可思议,但仔细联想一下去年年底那个曾经轰动一时的 pr 1-10 的法国网页,也就没有什么奇怪的了。(注:有可能通过你的google toobar或其它的查询工具查得这个页面的 pagerank 为 0,这是因为 google 全世界服务器不完全同步造成的。如果想了解到底有那些服务器更新了 pagerank,请点击这里查看

好了,废话少说,我来说一下这个过程实现的原理,当然大虾就不要看了,看看代码早就全懂了。

众所周知,google 统计数据都是通过搜索机器人来实现的。这个搜索机器人就是 Google Bot。如果你的网站安装了 AWStat 这类的统计工具,并且您的网站被 google 收录过,通过查看访问记录,您一定会找到 agent 中含有 Googlebot 的访问记录。这就是 Google 搜索机器人爬过的痕迹。Google 计算 Pagerank 的算法虽然复杂,但最基本的数据还是要靠 Google Bot来统计。换句话说,如果我们骗了Googlebot,让他统计走一个真正的 Pagerank = 10 的站点的数据,那么我们的假页面自然也就会获得 PR =10

好了,原理清楚了,那实践似乎就很容易了。(这里我用 php 为例子来说明,其它语言只有微小的区别。)任何 Web 客户端(譬如浏览器,爬行机器人等)在访问万维网时,都必须遵守 HTTP 协议。客户端向服务器发出 GET 指令后,服务器首先相应给客户端的应该是一个 HTTP 头,这个头中包含了一系列指令,用来控制诸如 Cookies、MimeType 和一些浏览器行为。我们都知道当服务器返回 404 表示页面不存在,500 表示内部错误,但一般用户很少注意到301这个指令。在 W3.org中,HTTP 301 的定义是永久转向,即当客户端收到这个指令后,会根据HTTP头中的 Location: XXX 转向至 XXX。在这个 PR 欺骗的程序中,我们通过检验客户端字符串的特征值,来检验访问者是否为 GoogleBot。因为GoogleBot 的 agent 中含有关键字 “Googlebot”,因此这个验证可以非常容易的做到。当验证发现是Googlebot 来访时,我们就通过上述的指令把 GoogleBot “领”到 http://www.google.com 上。Google.com显然是一个 Pagerank = 10 的网站。这样,经过一段时间数据的积累,欺骗页面在 GoogleBot 的“眼”中就是 Google.com,自然,它的Pagerank 也就理所应当为 10 了。

对于普通访客而言,你的浏览器中正常情况下是不会含有 Googlebot 这个关键字的。不满足条件就不转向,您看到的是正常的页面内容。当然,如果您想测试一下的话,不妨通过一些软件(如早期的MyIE)在浏览器标识中添加 googlebot,这样您看到的也只是 Google 了。

原理讲完了,程序也是如此的简单了,是不是也跃跃欲试了呢?这里我还是建议您先看完下面的部分。

首先,这样做的结果只是在 google toolbar 上或其它什么查询工具上让测试页面拿到一个自己想要的 pagerank,但也仅仅是看着好玩而已。您的网站排名等不仅没有为此而得到优化或提升,而且在 Google 上将无法搜寻到您的网站的资料。原因是 googlebot 每次遍历您的站点后统计走的只是转向页面的信息。所以,这个PR 10 也仅仅是自娱自乐,没有任何的意义。其次,这种行为在一定程度上可以说是一种 Search Engine Hacking 行为。如果 Google 发现并追究的话,您的网站可能会遭遇 Google 的屏蔽。不是危言耸听,我的站点在做这个实验初始阶段,PageRank 狂降至 0,当时让我还好是郁闷了一番。因此,如果您要做这个实验,一定要三思而后行。

好了,说到这基本也就足够了,再多就罗嗦了。代码昨天的网址中贴过了,需要的可以自己去取。最后,我奉劝那些一心想通过 SEO 来提高自己访问亮的站长们,还是踏踏实实的搞好自己站点的内容,建设自己的风格和特色,访问者自然会来,作弊换来的繁荣注定是虚假的,终有一天会受其所累。

发表您的观点或推荐本文 Loading...