google搜索引擎工作原理:
这是一张图片,现在我把它整理成文字格式,刚才也查看了下,已经有勤快的人做了整理,但是每个人的思路有所不同,我就按我的思路再整理一下。
一、你写了一篇博客,发了一篇帖子,twitter上推了文章,或者对网站进行内容更新。
二、google的机器人(google一般不叫蜘蛛的,蜘蛛是百度)不停地爬取整个网络,其中包括你发布的内容或更新,爬取的频率跟自己发布信息的位置权重有关。
1、google机器人是按照链接的入口进行爬取,如果你的网站没有外链或者没有任何入口,那么想让google机器人爬取你的网站是很难的。
2、google爬取你的网站的时候,首先会爬取你的robots文件(如果没有robots文件,google会直接返回错误页面,所以尽量添加robots文件),如果你在robots文件中设置了不让google爬取,那么google就不会爬取你的内容。
3、你添加的外链是添加了nofollow标签的,那google不会通过外链来爬取你的网站。
4、google可以通过博客的ping命令或者XML格式的Sitemaps文件爬取你的网站(flash网站或没有入口的网站要制作好Sitemaps文件)。
5、外链质量越高,你的网页权重越高,机器人越容易爬到你的网站。
6、爬取dofollow外链入口。
三、一旦你的内容被爬取后,你的页面会在很短时间内被索引。
1、网页内容被存储在一个逆索引(reverse index)。
1)网页标题和链接数据存储在一个数据中,用于竞争激烈或宽泛的关键词搜索。
2)网页内容用于不常见的长尾关键词的搜索。
2、当你利用google搜索时,不是搜索的现实网络,而是google经过一系列算法整合不断更新的。
四、google会判别你的网页和域名的权重值
五、网页根据google的算法原理进行重新编辑和检查。
1、google反垃圾算法和内容质量评定算法进行分析。
2、1万远程测试者对他们的结果评分。
3、google从用户数据中提取垃圾数据。
4、google根据DMCA的通知提出侵权的数据。
六、应用惩罚政策(内容质量在这一环节分辨),同时网页的title部分和内容部分被放到不同的索引器,这些数据会被搜索用户使用。
七、用户使用google搜索引擎进行搜索。
大多数的google查询,都可能进行多个实验性技术,基本上,所有的搜索都处在某种实验的测试下。
八、google根据用户搜索的词或字母提供关键词建议。
九、google将和搜索词相似的同义词按照一定的算法按顺序穿插在搜索结果中。
十、产生初步搜索结果。
1、google的搜索结果有很多,但是可能只显示1000条。
2、搜索结果地域性,本地的网站优先于外地的搜索结果排名。
十一、google将搜索出来的所有网页按照网页权重和google自身的算法排名出现在搜索结果中,内容重复的网页将按照权重和其他算法识别哪个是重复内容,然后删除重复内容的网页。
1、首先google根据关键字,广告匹配类型和用户所在地找到相关的广告。
2、广告符合政策和规定。
1)广告不符合规定,账号可能被封。
2)搜索量很少或点击量很少可能会被停止投放。
3)大型广告商会有优惠(amazon)
4)有些广告可能显示扩展内容(类似小网站导航)
3、广告根据潜在收入打分(竞价广告和广告质量)。
4、大多数发布广告者已经编辑好广告语,但有时广告语会动态显示。
5、广告转化率高,可能会打破第3条规定,排在广告排名的前面。
6、其他广告显示在右端。
十二、内容过滤。
1、通用搜索:你键入的关键词如果google认为垂直搜索的搜索结果与其有关,可能会直接把垂直搜索的结果展示出来。
2、个性化搜索:某个客户端经常浏览的网站会优先排名给这个客户端。
3、过度优化网站会被剔除。
4、网站被高权重网站链接,排名会靠前。
5、短时间内某个关键词被大量搜索,google可能倾向于最新结果(fresh),比如新闻炒作等。
6、整合搜索结果,同一个域名显示在同一个页面,google会整合成一条搜索结果显示。
十三、显示不带广告的搜索结果。
所有这一切都在一秒内完成,每天搜索次数3亿,google搜索引擎年收入200亿美元。
google搜索引擎工作原理示意图原图。

One response to “google搜索引擎工作原理”
[…] 6月27号Google工具条PR更新了一次,然后很多人注意到Twitter首页PR降为零。(Google首页也降到9,不过这不是重点。)7月19号Google居然又更新一次工具条PR。Google更新工具条PR值从一个月一次变到3个月一次,甚至半年一次,所以这次不到一个月就再次更新有点蹊跷。据目前透露的信息,这次更新PR貌似主要就是为了修正Twitter PR值的问题。 […]