搜索引擎反作弊的历程
编辑:admin 时间:2009-10-18 12:07:02 来自:Seo39培训网
搜索引擎反作弊的历程乱世用重典,搜索引擎在与 spam 的长期战争中总是处于不利地位。当然,从某种角度来说,几乎是 spam 在推动着搜索引擎的进步。 搜索引擎诞生的早期,搜索引擎们为了搜索结果能更准确,为了能把最相关的搜索结果排在前面,发明了 meta tag。起初,meta tag 是很好用的,那时候,诚实的 webmaster 们如实地填写网站摘要,如实地列出跟他的网站最相关的关键词,搜索引擎们抓取、索引、检索这些诚实的 meta tag,并作为搜索结果排序的重要依据,然后,是一段相安无事的甜蜜时光。 岁月迅速流逝,甜蜜时光挡不住资本的力量。“一旦有适当的利润,资本就大胆起来…… 有 50% 的利润,他就铤而走险;有 100%的利润,他就敢践踏一切人间法律;有 300%的利 润,他就敢犯任何罪行,甚至冒绞首的危险。” 越来越多的网站开始追求收入追求 pageview, 它们开始欺骗搜索引擎,它们在 meta tag 中塞进成堆的关键词,塞进跟自己的网站内容无关的但是流行的关键词。群众的力量是巨大的,搜索引擎的相关性被破坏了。 搜索引擎们对作弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是 meta tag。 作弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同颜色的关键词,在 image tags 中塞进关键词,在网页代码加入“看不见的注释”。 搜索引擎开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字,取得了小小的胜利。 214 “善良是善良者的墓志铭,卑鄙是卑鄙者的通行证”,作弊者眼见常规武器无效,开始利用搜索引擎的真诚。搜索引擎的 spider 是互联网上的谦谦君子,它们访问任何网站都会自报身份,并且查阅网站的访问规定,完全按照各网站的规矩来办事。于是,作弊者精心制作了两个网站,一个专供网友访问,一个专供搜索引擎访问,每当发现访问请求来自搜索引擎时,就返回专供搜索引擎看的能令搜索引擎满意的网页,而正常访问者只能看到另一个截然不同的网站。这种方法叫做 cloaking。这第三轮攻击,作弊者大胜。 1998 年 3 月 1 日,分别在 AltaVista、Excite、HotBot、Infoseek、Lycos 搜索当时的热门词汇“Monica Lewinsky”,各搜索引擎首页居然分别有 50%、30%、30%、10%、50% 的搜索结果是 spam。由此可见当时作弊者们猖獗至何等程度! 搜索引擎们,因为它们道德上的弱点,因为有些手段不愿用,所以无法完全辨别 cloaking 网站,也就无法完全对付作弊者。搜索引擎能做的只是严厉的惩罚被发现的 spam,以警告作弊者,发展到今天的结果是,所有的搜索引擎对它们认定的 spam 行为,只有一种惩罚:永久屏蔽。 但是,严厉的惩罚从来只是无能者推卸责任的借口,而不能真正的改善状况。作弊者从来就不怕惩罚,当互联网狂潮来临,追求 pageview 的作弊者们更是肆无忌惮。 无可奈何的搜索引擎,只有去寻找新的相关性排序依据,只有去寻找作弊者不能控制的排序依据,只有去网站以外寻找排序的依据,搜索引擎,真的别无选择。 于是,开始出现了超链分析,出现了 Pagerank。一个网页,说它自己是什么,它就是什么吗?物以类聚,如果它说的是真的,那么指向这个网页的链接应该来自具有同类内容的网页,所以指向这个网页的链接可以被用来验证这个网页的相关性。 谁,最不可能出于贪婪而作弊?谁,最可能如实提供网页内容?是政府网站,和教育网站。所以,在超链分析中,gov 和 edu 网站通常被赋予较高的排名,来自 gov 和 edu 的超链 也有更高的价值。 但是 PageRank 也带来了一些不请自来的错误排序因素:新站不如旧站,小站不如大站,专业站不如通俗站。一个新网站,一个小网站,一个专业网站,它的内容再好,因为不可能迅速得到大量的超链,所以无法得到合适的排名,即使它的内容是无与伦比的。而一个历史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者内容远不如某些小网站,却可以获得很高的排名。 当超链分析刚出来时,SEO 界一片悲观论调,认为这是无法作弊的,SEO 业完蛋了(就像近期各搜索引擎纷纷收费,SEO 业更觉得自己前景惨淡,其实虽然搜索引擎排名市场的大头要给搜索引擎们,但 SEO 还是有钱赚的,毕竟,只有劳动模范有下岗的可能,从来没 听 215 说骗子会失业的),但是,道高一尺魔高一丈,很快 SEO 们发现了对付超链分析的方法: 做大量的网站,准备大量的链接,哪个客户出钱,所有的网页都给它一个链接。这种 SEO 方法被称为 link firm。这种方法刚出现时还算有效,不过很快就不行了,因为一个网站是否有大量来自内容不相干网页的链接,或者一个不是搜索引擎的网站给出大量不相干的链接还不难判断。而每当发现一个 link firm,那些使用了该 link firm 的网站就全部死翘翘。 一种搜索结果的排序算法,如果更多的是基于概念、主题、基于网页内容的质量,而不是网络上互相链来链去的超链的重要性,那么搜索结果的相关性在本质上会更好。 只是,让计算机学会理解和评价网页内容吗?好像还是很遥远的事情;花大量的人力一个个网页评估么?这肯定是亏本的商业行为,只有靠志愿者。ODP 庶几近之,但也只能点击,用关键词搜索时还是无法跟超链分析的结果相比。 或许还对这感兴趣:《如何制定各搜索引擎的整体优化策略》

