隨著時(shí)代的發(fā)展,網(wǎng)絡(luò)早已融入我們的生活,搜索引擎讓信息的查找和獲取變得簡(jiǎn)單而精確,那么,其是如何檢索信息的呢?
搜索引擎的工作過(guò)程大體分為四個(gè)步驟:爬行和抓取、建立索引、搜索詞處理、展示排名,人們?nèi)粘J褂盟阉饕娌檎屹Y料的過(guò)程只是搜索引擎工作過(guò)程中的一個(gè)環(huán)節(jié)。首先,搜索引擎會(huì)向萬(wàn)維網(wǎng)派出一個(gè)能夠發(fā)現(xiàn)新網(wǎng)頁(yè)并抓取網(wǎng)頁(yè)文件的程序,這個(gè)程序通常被稱為蜘蛛(Spider)。其在工作的時(shí)候從網(wǎng)站的某一個(gè)頁(yè)面開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的頁(yè)面都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)做一張大網(wǎng),那么這個(gè)程序就像是蜘蛛一樣抓取所有的網(wǎng)頁(yè)內(nèi)容。在蜘蛛程序抓取了網(wǎng)頁(yè)文件之后,通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的分析和處理,對(duì)網(wǎng)頁(yè)信息進(jìn)行提取并組織建立索引庫(kù),即建立一定的搜索原則,也就是說(shuō)當(dāng)用戶查找某一關(guān)鍵詞時(shí),搜索引擎能根據(jù)關(guān)鍵詞在數(shù)據(jù)庫(kù)中進(jìn)行查找和搜索,找到相應(yīng)的位置。
當(dāng)搜索引擎對(duì)網(wǎng)絡(luò)數(shù)據(jù)建立了數(shù)據(jù)庫(kù)之后,接下來(lái)就是用戶使用階段了,當(dāng)用戶在搜索欄輸入搜索詞,單擊“搜索”按鈕后,搜索引擎即對(duì)輸入的搜索詞進(jìn)行處理,以提取出相應(yīng)的關(guān)鍵詞,通過(guò)關(guān)鍵詞在數(shù)據(jù)庫(kù)中進(jìn)行索引和查找,實(shí)際的應(yīng)用中,搜索詞的處理是十分快速的。
當(dāng)搜索引擎根據(jù)搜索詞找到相關(guān)的網(wǎng)頁(yè)之后,接下來(lái)就遇到了一個(gè)問(wèn)題,究竟把哪一個(gè)網(wǎng)頁(yè)的鏈接呈現(xiàn)在前面,哪些鏈接放在后面呢?這就涉及到搜索引擎工作的最后一步——展示排名。在眾多網(wǎng)頁(yè)中,搜索引擎會(huì)根據(jù)算法計(jì)算得出,一個(gè)網(wǎng)站所提供信息的有效性,原創(chuàng)性和信息的認(rèn)可度等指標(biāo),結(jié)合網(wǎng)站自身權(quán)重等綜合算法給出相應(yīng)的排名顯示,同樣的,會(huì)將一些質(zhì)量較低的垃圾網(wǎng)站進(jìn)行過(guò)濾,以提高用戶檢索的有效性。
在信息“爆炸”的時(shí)代,搜索引擎帶給我們的是快速精準(zhǔn)的信息查找方式,這大大節(jié)省了人們獲取知識(shí)的時(shí)間,提高人們的生產(chǎn)效率,相信隨著技術(shù)的發(fā)展,搜索引擎在未來(lái)必定發(fā)揮更大的作用。
本文由北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究專業(yè)副教授張忠寶進(jìn)行科學(xué)性把關(guān)。
編輯: 張潔
以上文章僅代表作者個(gè)人觀點(diǎn),本網(wǎng)只是轉(zhuǎn)載,如涉及作品內(nèi)容、版權(quán)、稿酬問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們。電話:029-63903870