相关分类

当前页面: >

百度搜索的技术架构: 每秒检索量/每秒搜索量

发布者: 
九龙社区党支部
     时间: 2011-07-29 22:06:30

今天突然对百度搜索的实现突然来了兴趣,估算一下服务器的实现指标,发现没有想像的那么复杂。

主要得到百度每秒钟搜索的请求量,每秒检索量,每秒搜索量

从Alexa来看
PV平均 219,375,000,2亿左右,这个是全站的,如果搜索频道占80%,那就是只有1.7亿左右。
由于百度主要是中国用户,每天有几个小时几乎没有流量,按每天18小时算,则
每秒的处理速度是2,716次/秒

从百度风云看
今天的top50加起来的搜索量是2,794,921,约300万
假如热门搜索占总搜索的1%(经验),那么百度的每天搜索量是3亿,按每天18小时算,则
每秒的处理速度是4,629次/秒

从百度受攻击的数据来看
据百度负责技术的副总裁刘建国介绍,自5月15日22:00起,百度的检索量突然大增,此番增长并未引起工程师注意。5月16日,攻击更加强烈,每秒钟攻击次数搞到达1000次,同一个词被查询次数最多达38863次。
百度副总裁刘建国向记者介绍了当时堪称“惨烈”的攻防战。据悉,从5月15日晚10点之后,baidu.com的检索量即突然大增,同一个词最高被查了38863次,而类似这样的恶意查询请求成千上万,短时间内,百度的带宽消耗已比正常时期暴增了25%以上。百度工程师在接到系统报警后,发现……

根据上文
流量超过25%,最高1000次/s
说明流量增加800次/s左右,那baidu的
峰值处理能力是3000次/秒

从其他数据去看
“百度都响应数亿次网民的搜索请求”
百度面对的是海量的互联网数据,以及每天上亿次的检索请求。它要求百度能够收录和索引超过10亿的中文网页,并提供快速的检索服务。这只有高效率的算法才能完成
百度是全球最大中文搜索引擎,全球10大网站之一,覆盖了95%的中国网民,每天超过1亿次的搜索,
http://shuju.baidu.com/huazhuangpin/xianchang_1.html
http://news.xinhuanet.com/it/2006-04/06/content_4390847.htm
http://www.vimlong.com/operation/promotion.asp

取个估计值,1.5亿次,按18小时算
百度的请求量2314次/s

总结:

百度的搜索量大约为1~2亿每天
每秒的峰值处理能力是3000~4000次左右。

由于精力关系,暂时没有进一步去考虑它的详细实现。