国外泑交视频

歡迎進入國外泑交視頻官網
技術支持  -  投訴建議  -  增值服務  -  戰略合作

聯系斯點

咨詢熱線
咨詢QQ:1643842241
企業郵箱:info@flourbakery.net
公司地址:南京市棲霞區仙林街道東墅山莊2幢
国外泑交视频 24小時服務電話:13605154232

百度,谷歌靠這三個技術蜘蛛,索引查詢展現獨霸一方

點擊數:18122016-12-26 14:34:21

搜索引擎蜘蛛

 搜索引擎的核心技術架構,大體包括以下三塊:第一,是蜘蛛/爬蟲技術;第二,是索引技術;第三是查詢展現的技術;

1、 蜘蛛,也叫爬蟲,是將互聯網的信息,抓取并存儲的一種技術實現。
       搜索引擎的信息收錄,很多不明所以的人會有很多誤解,以為是付費收錄,或者有什么其他特殊的提交技巧,其實并不是,搜索引擎通過互聯網一些公開知名的網站,抓取內容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強大的信息抓取能力。
       第一,網站擁有者可以選擇是否允許蜘蛛抓取,有一個robots.txt的文件是來控制這個的。
       第二,最早抓取是基于網站彼此的鏈接為入口,但實際上,并不能肯定的說,有可能存在其他抓取入口,比如說,
客戶端插件或瀏覽器, 免費網站統計系統的嵌入式代碼。會不會成為蜘蛛抓取的入口,我只能說,有這個可能。所以我跟很多創業者說,中國做網站,放百度統計,海外做網站,放google analytics,是否會增加搜索引擎對你網站的收錄?我只能說猜測,有這個可能。
       第三,無法被抓取的信息
       有些網站的內容鏈接,用一些javascript特殊效果完成,比如浮動的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識別,當然,我只是說有可能,現在搜索引擎比以前聰明,十多年前很多特效鏈接是不識別的,現在會好一些。需要登錄,需要注冊才能訪問的頁面,蜘蛛是無法進入的,也就是無法收錄。
2、索引系統
       蜘蛛抓取的是網頁的內容,那么要想讓用戶快速的通過關鍵詞搜索到這個網頁,就必須對網頁做關鍵詞的索引,從而提升查詢效率,簡單說就是,把網頁的每個關鍵詞提取出來,并針對這些關鍵詞在網頁中的出現頻率,位置,特殊標記等諸多因素,給予不同的權值標定,然后,存儲到索引庫中。
3、查詢展現
       用戶在瀏覽器或者在手機客戶端輸入一個關鍵詞,或者幾個關鍵詞,甚至一句話,這個在服務端,應答程序獲取后處理步驟:
       第一步,會檢查最近時間有沒有人搜索過同樣的關鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率最高,對后端負載壓力最低。
       第二步,發現這個輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結果,那么會將這個用戶輸入的詞,進行分詞,沒錯,如果不止一個關鍵詞,或者是一句話的情況下,應答程序會又一次分詞,將搜索的查詢拆成幾個不同的關鍵詞。
       第三步,將切分后的關鍵詞分發到查詢系統中,查詢系統會去索引庫查詢,索引庫是個龐大的分布式系統,先分析這個關鍵詞屬于哪一塊哪一臺服務器,索引是一種有序的數據組合,我們用可以用近似二分法的方式思考,不管數據規模多大,你用二分法去查找一個結果,查詢頻次是log2(N),這個就保證了海量數據下,查詢一個關鍵詞是非常快非常快的。 當然,實際情況會比二分法復雜很多,這樣說比較容易理解而已,再復雜些不是我不告訴大家,是我自己都不是很清楚呢。
       第四步,不同關鍵詞的查詢結果(只是按權值排序的部分頂部結果,絕對不是全部結果),基于權值倒序,會再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權值排序。

【責任編輯:(Top) 返回頁面頂端
走進斯點
關于斯點
企業文化
企業遠景
全網營銷
營銷測評
新聞媒體
文庫營銷
品牌百科
自媒體營銷
產品營銷
整站建設
品牌型網站
優化型網站
營銷型網站
高端定制型
整站優化
軟件定制
案例說話
斯點資訊
解決方案
媒體報道
行業新聞
斯點新聞
聯系我們


微信公眾帳號|關注斯點科技