搜索引擎系統(tǒng)是最復(fù)雜的計(jì)算系統(tǒng)之一,當(dāng)今主流搜索引擎服務(wù)商都是有財(cái)力,人力的大公司。即使有技術(shù),人力,財(cái)力的保證,搜索引擎還是面臨很多技術(shù)挑戰(zhàn)。搜索引擎主要面臨那幾種挑戰(zhàn)?
1、頁面抓取需要快而全面:
互聯(lián)網(wǎng)是一個(gè)動(dòng)態(tài)的內(nèi)容網(wǎng)絡(luò),每天有無數(shù)頁面被更新,創(chuàng)建,無數(shù)用戶在網(wǎng)站上發(fā)布內(nèi)容,溝通聯(lián)系。要返回最有用的內(nèi)容,搜索引擎就要抓取最新的頁面。
2、海量數(shù)據(jù)存儲(chǔ):
一些大型網(wǎng)站單是一個(gè)網(wǎng)站就有百萬千萬個(gè)頁面,可以想象網(wǎng)上所有網(wǎng)站的頁面加起來是一個(gè)什么數(shù)據(jù)。
3、搜索處理快速有效,具可擴(kuò)展性:
搜索引擎將 頁面數(shù)據(jù)抓取和儲(chǔ)存后,還要進(jìn)行索引處理,包括鏈接關(guān)系的計(jì)算,正向索引,倒排索引等。
4、查詢處理快速準(zhǔn)確:
查詢是普通用戶唯一能看到的搜索引擎工作步驟。用戶在搜索框輸入關(guān)鍵詞,單擊“搜索”按鈕后通常不到一秒就會(huì)看到搜索結(jié)果。表面最簡單的過程,實(shí)際上涉及非常復(fù)雜的后臺(tái)處理。