歡迎進入江蘇斯點網路科技有限公司官網
技術支援  -  投訴建議  -  增值服務  -  戰略合作

聯絡斯點

諮詢熱線
諮詢QQ│╃:1643842241
企業郵箱│╃:info@jssdky.com
公司地址│╃:南京市棲霞區仙林街道東墅山莊2幢
24小時服務電話│╃:13605154232

百度,谷歌靠這三個技術蜘蛛,索引查詢展現獨霸一方

點選數│╃:39562016-12-26 14:34:21

搜尋引擎蜘蛛

 搜尋引擎的核心技術架構▩▩☁₪₪,大體包括以下三塊│╃:第一▩▩☁₪₪,是蜘蛛/爬蟲技術;第二▩▩☁₪₪,是索引技術;第三是查詢展現的技術;

1·•、 蜘蛛▩▩☁₪₪,也叫爬蟲▩▩☁₪₪,是將網際網路的資訊▩▩☁₪₪,抓取並存儲的一種技術實現◕▩。
       搜尋引擎的資訊收錄▩▩☁₪₪,很多不明所以的人會有很多誤解▩▩☁₪₪,以為是付費收錄▩▩☁₪₪,或者有什麼其他特殊的提交技巧▩▩☁₪₪,其實並不是▩▩☁₪₪,搜尋引擎透過網際網路一些公開知名的網站▩▩☁₪₪,抓取內容▩▩☁₪₪,並分析其中的連結▩▩☁₪₪,然後有選擇的抓取連結裡的內容▩▩☁₪₪,然後再分析其中的連結▩▩☁₪₪,以此類推▩▩☁₪₪,透過有限的入口▩▩☁₪₪,基於彼此連結▩▩☁₪₪,形成強大的資訊抓取能力◕▩。
       第一▩▩☁₪₪,網站擁有者可以選擇是否允許蜘蛛抓取▩▩☁₪₪,有一個robots.txt的檔案是來控制這個的◕▩。
       第二▩▩☁₪₪,最早抓取是基於網站彼此的連結為入口▩▩☁₪₪,但實際上▩▩☁₪₪,並不能肯定的說▩▩☁₪₪,有可能存在其他抓取入口▩▩☁₪₪,比如說▩▩☁₪₪,
客戶端外掛或瀏覽器▩▩☁₪₪, 免費網站統計系統的嵌入式程式碼◕▩。會不會成為蜘蛛抓取的入口▩▩☁₪₪,我只能說▩▩☁₪₪,有這個可能◕▩。所以我跟很多創業者說▩▩☁₪₪,中國做網站▩▩☁₪₪,放百度統計▩▩☁₪₪,海外做網站▩▩☁₪₪,放google analytics▩▩☁₪₪,是否會增加搜尋引擎對你網站的收錄?我只能說猜測▩▩☁₪₪,有這個可能◕▩。
       第三▩▩☁₪₪,無法被抓取的資訊
       有些網站的內容連結▩▩☁₪₪,用一些javascript特殊效果完成▩▩☁₪₪,比如浮動的選單等等▩▩☁₪₪,這種連線▩▩☁₪₪,有可能搜尋引擎的蜘蛛程式不識別▩▩☁₪₪,當然▩▩☁₪₪,我只是說有可能▩▩☁₪₪,現在搜尋引擎比以前聰明▩▩☁₪₪,十多年前很多特效連結是不識別的▩▩☁₪₪,現在會好一些◕▩。需要登入▩▩☁₪₪,需要註冊才能訪問的頁面▩▩☁₪₪,蜘蛛是無法進入的▩▩☁₪₪,也就是無法收錄◕▩。
2·•、索引系統
       蜘蛛抓取的是網頁的內容▩▩☁₪₪,那麼要想讓使用者快速的透過關鍵詞搜尋到這個網頁▩▩☁₪₪,就必須對網頁做關鍵詞的索引▩▩☁₪₪,從而提升查詢效率▩▩☁₪₪,簡單說就是▩▩☁₪₪,把網頁的每個關鍵詞提取出來▩▩☁₪₪,並針對這些關鍵詞在網頁中的出現頻率▩▩☁₪₪,位置▩▩☁₪₪,特殊標記等諸多因素▩▩☁₪₪,給予不同的權值標定▩▩☁₪₪,然後▩▩☁₪₪,儲存到索引庫中◕▩。
3·•、查詢展現
       使用者在瀏覽器或者在手機客戶端輸入一個關鍵詞▩▩☁₪₪,或者幾個關鍵詞▩▩☁₪₪,甚至一句話▩▩☁₪₪,這個在服務端▩▩☁₪₪,應答程式獲取後處理步驟│╃:
       第一步▩▩☁₪₪,會檢查最近時間有沒有人搜尋過同樣的關鍵詞▩▩☁₪₪,如果存在這樣的快取▩▩☁₪₪,最快的處理是將這塊快取提供給你▩▩☁₪₪,這樣查詢效率最高▩▩☁₪₪,對後端負載壓力最低◕▩。
       第二步▩▩☁₪₪,發現這個輸入查詢最近沒有搜尋▩▩☁₪₪,或者有其他條件的原因必須更新結果▩▩☁₪₪,那麼會將這個使用者輸入的詞▩▩☁₪₪,進行分詞▩▩☁₪₪,沒錯▩▩☁₪₪,如果不止一個關鍵詞▩▩☁₪₪,或者是一句話的情況下▩▩☁₪₪,應答程式會又一次分詞▩▩☁₪₪,將搜尋的查詢拆成幾個不同的關鍵詞◕▩。
       第三步▩▩☁₪₪,將切分後的關鍵詞分發到查詢系統中▩▩☁₪₪,查詢系統會去索引庫查詢▩▩☁₪₪,索引庫是個龐大的分散式系統▩▩☁₪₪,先分析這個關鍵詞屬於哪一塊哪一臺伺服器▩▩☁₪₪,索引是一種有序的資料組合▩▩☁₪₪,我們用可以用近似二分法的方式思考▩▩☁₪₪,不管資料規模多大▩▩☁₪₪,你用二分法去查詢一個結果▩▩☁₪₪,查詢頻次是log2(N)▩▩☁₪₪,這個就保證了海量資料下▩▩☁₪₪,查詢一個關鍵詞是非常快非常快的◕▩。 當然▩▩☁₪₪,實際情況會比二分法複雜很多▩▩☁₪₪,這樣說比較容易理解而已▩▩☁₪₪,再複雜些不是我不告訴大家▩▩☁₪₪,是我自己都不是很清楚呢◕▩。
       第四步▩▩☁₪₪,不同關鍵詞的查詢結果(只是按權值排序的部分頂部結果▩▩☁₪₪,絕對不是全部結果)▩▩☁₪₪,基於權值倒序▩▩☁₪₪,會再彙總在一起▩▩☁₪₪,然後把共同命中的部分反饋回來▩▩☁₪₪,並做最後的權值排序◕▩。

【責任編輯│╃:(Top) 返回頁面頂端
走進斯點
關於斯點
企業文化
企業遠景
全網營銷
營銷測評
新聞媒體
問答營銷
文庫營銷
品牌百科
自媒體營銷
產品營銷
整站建設
品牌型網站
最佳化型網站
營銷型網站
高階定製型
整站最佳化
軟體定製
微信定製開發
app定製開發
案例說話
斯點資訊
解決方案
媒體報道
行業新聞
斯點新聞
聯絡我們


微信公眾帳號|關注斯點科技
女人被爽到呻吟的视频动态图,国产精品国产三级国产av′,办公室娇喘的短裙老师在线视频,手捏了一下胸前的小兔子视频