google搜索引擎工作原理


google搜索引擎工作原理:

这是一张图片,现在我把它整理成文字格式,刚才也查看了下,已经有勤快的人做了整理,但是每个人的思路有所不同,我就按我的思路再整理一下。

一、你写了一篇博客,发了一篇帖子,twitter上推了文章,或者对网站进行内容更新。

二、google的机器人(google一般不叫蜘蛛的,蜘蛛是百度)不停地爬取整个网络,其中包括你发布的内容或更新,爬取的频率跟自己发布信息的位置权重有关。

1、google机器人是按照链接的入口进行爬取,如果你的网站没有外链或者没有任何入口,那么想让google机器人爬取你的网站是很难的。

2、google爬取你的网站的时候,首先会爬取你的robots文件(如果没有robots文件,google会直接返回错误页面,所以尽量添加robots文件),如果你在robots文件中设置了不让google爬取,那么google就不会爬取你的内容。

3、你添加的外链是添加了nofollow标签的,那google不会通过外链来爬取你的网站。

4、google可以通过博客的ping命令或者XML格式的Sitemaps文件爬取你的网站(flash网站或没有入口的网站要制作好Sitemaps文件)。

5、外链质量越高,你的网页权重越高,机器人越容易爬到你的网站。

6、爬取dofollow外链入口。

三、一旦你的内容被爬取后,你的页面会在很短时间内被索引。

1、网页内容被存储在一个逆索引(reverse index)。

1)网页标题和链接数据存储在一个数据中,用于竞争激烈或宽泛的关键词搜索。

2)网页内容用于不常见的长尾关键词的搜索。

2、当你利用google搜索时,不是搜索的现实网络,而是google经过一系列算法整合不断更新的。

四、google会判别你的网页和域名的权重值

五、网页根据google的算法原理进行重新编辑和检查。

1、google反垃圾算法和内容质量评定算法进行分析。

2、1万远程测试者对他们的结果评分。

3、google从用户数据中提取垃圾数据。

4、google根据DMCA的通知提出侵权的数据。

六、应用惩罚政策(内容质量在这一环节分辨),同时网页的title部分和内容部分被放到不同的索引器,这些数据会被搜索用户使用。

七、用户使用google搜索引擎进行搜索。

大多数的google查询,都可能进行多个实验性技术,基本上,所有的搜索都处在某种实验的测试下。

八、google根据用户搜索的词或字母提供关键词建议。

九、google将和搜索词相似的同义词按照一定的算法按顺序穿插在搜索结果中。

十、产生初步搜索结果。

1、google的搜索结果有很多,但是可能只显示1000条。

2、搜索结果地域性,本地的网站优先于外地的搜索结果排名。

十一、google将搜索出来的所有网页按照网页权重和google自身的算法排名出现在搜索结果中,内容重复的网页将按照权重和其他算法识别哪个是重复内容,然后删除重复内容的网页。

1、首先google根据关键字,广告匹配类型和用户所在地找到相关的广告。

2、广告符合政策和规定。

1)广告不符合规定,账号可能被封。

2)搜索量很少或点击量很少可能会被停止投放。

3)大型广告商会有优惠(amazon)

4)有些广告可能显示扩展内容(类似小网站导航)

3、广告根据潜在收入打分(竞价广告和广告质量)。

4、大多数发布广告者已经编辑好广告语,但有时广告语会动态显示。

5、广告转化率高,可能会打破第3条规定,排在广告排名的前面。

6、其他广告显示在右端。

十二、内容过滤。

1、通用搜索:你键入的关键词如果google认为垂直搜索的搜索结果与其有关,可能会直接把垂直搜索的结果展示出来。

2、个性化搜索:某个客户端经常浏览的网站会优先排名给这个客户端。

3、过度优化网站会被剔除。

4、网站被高权重网站链接,排名会靠前。

5、短时间内某个关键词被大量搜索,google可能倾向于最新结果(fresh),比如新闻炒作等。

6、整合搜索结果,同一个域名显示在同一个页面,google会整合成一条搜索结果显示。

十三、显示不带广告的搜索结果。

所有这一切都在一秒内完成,每天搜索次数3亿,google搜索引擎年收入200亿美元。

google搜索引擎工作原理示意图原图。

Google搜索工作原理
Google搜索工作原理
,

One response to “google搜索引擎工作原理”

  1. […] 6月27号Google工具条PR更新了一次,然后很多人注意到Twitter首页PR降为零。(Google首页也降到9,不过这不是重点。)7月19号Google居然又更新一次工具条PR。Google更新工具条PR值从一个月一次变到3个月一次,甚至半年一次,所以这次不到一个月就再次更新有点蹊跷。据目前透露的信息,这次更新PR貌似主要就是为了修正Twitter PR值的问题。 […]

Leave a Reply