網(wǎng)站中重復的網(wǎng)頁(yè)內容是非常有害的發(fā)布者:本站 時(shí)間:2020-05-18 19:05:22
對于搜索引擎來(lái)說(shuō),重復的網(wǎng)頁(yè)內容是非常有害的。重復網(wǎng)頁(yè)的存在意味著(zhù)這些網(wǎng)頁(yè)就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會(huì )在索引庫里索引兩份相同的網(wǎng)頁(yè)。當有人查詢(xún)時(shí),在搜索結果中就會(huì )出現重復的網(wǎng)頁(yè)鏈接。所以無(wú)論是從搜索體驗還是系統效率檢索質(zhì)量來(lái)說(shuō)這些重負網(wǎng)頁(yè)都是有害處的。
網(wǎng)頁(yè)查重技術(shù)起源于復制檢測技術(shù),即判斷一個(gè)文件內容是否存在抄襲、復制另外一個(gè)或多個(gè)文件的技術(shù)。
1993年Arizona大學(xué)的Manber(Google現副總裁、工程師)推出了一個(gè)sif工具,尋找相似文件。1995年Stanford大學(xué)的Brin(Sergey Brin,Google創(chuàng )始人之一)和Garcia-Molina等人在“數字圖書(shū)觀(guān)”工程中首次提出文本復制檢測機制COPS(Copy Protection System)系統與相應算法[Sergey Brin et al 1995].之后這種檢測重復技術(shù)被應用到搜索引擎中,基本的核心技術(shù)既比較相似。
網(wǎng)頁(yè)和簡(jiǎn)單的文檔不同,網(wǎng)頁(yè)的特殊屬性具有內容和格式等標記,因此在內容和格式上的相同相似構成了4種網(wǎng)頁(yè)相似的類(lèi)型。1、兩個(gè)頁(yè)面內容格式完全相同。2、兩個(gè)頁(yè)面內容相同,但格式不同。3、兩個(gè)頁(yè)面部分內容相同并且格式相同。4、兩個(gè)頁(yè)面部分重要相同但格式不同。
實(shí)現方法:
網(wǎng)頁(yè)查重,首先將網(wǎng)頁(yè)整理成為一個(gè)具有標題和正文的文檔,來(lái)方便查重。所以網(wǎng)頁(yè)查重又叫“文檔查重”?!拔臋n查重”一般被分為三個(gè)步驟,
一、特征抽取。
二、相似度計算和評價(jià)。
三、消重。
1.特征抽取我們在判斷相似物的時(shí)候,一般是才能用不變的特征進(jìn)行對比,文件查重第一步也是進(jìn)行特征抽取。也就是將文檔內容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計算相似度。特征抽取有很多方法,我們這里主要說(shuō)兩種比較經(jīng)典的算法,“I-Match算法”、“Shingle算法”?!癐-Match算法”是不依賴(lài)于完全的信息分析,而是使用數據集合的統計特征來(lái)抽取文檔的主要特征,將非主要特征拋棄?!癝hingle算法”通過(guò)抽取多個(gè)特征詞匯,比較兩個(gè)特征集合的相似程度實(shí)現文檔查重。
2.相似度計算和評價(jià)特征抽取完畢后,就需要進(jìn)行特征對比,因網(wǎng)頁(yè)查重第二步就是相似度計算和評價(jià)。I-Match算法的特征只有一個(gè),當輸入一篇文檔,根據詞匯的IDF值(逆文本頻率指數,Inverse document frequency縮寫(xiě)為IDF)過(guò)濾出一些關(guān)鍵特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應這篇文章的本質(zhì)。因此通過(guò)文檔中去掉高頻和低頻詞匯,并且計算出這篇文檔的唯一的Hash值(Hash簡(jiǎn)單的說(shuō)就是把數據值映射為地址。把數據值作為輸入,經(jīng)計算后即可得到地址值。),那些Hash值相同的文檔就是重復的。
Shingle算法是抽取多個(gè)特征進(jìn)行比較,所以處理起來(lái)比較復雜一些,比較的方法是完全一致的Shingle個(gè)數。然后除以?xún)蓚€(gè)文檔的Shingle總數減去一致的Shingle個(gè)數,這種方法計算出的數值為“Jaccard 系數”,它可以判斷集合的相似度。Jaccard 系數的計算方法集合的交集除以集合的并集。
3.消重對于刪除重復內容,搜索引擎考慮到眾多收錄因素,所以使用了最簡(jiǎn)單的最實(shí)用的方法。先被爬蟲(chóng)抓取的頁(yè)面同時(shí)很大程度也保證了優(yōu)先保留原創(chuàng )網(wǎng)頁(yè)。
網(wǎng)頁(yè)查重工作是系統中不可缺少的,刪除了重復的頁(yè)面,所以搜索引擎的其他環(huán)節也會(huì )減少很多不必要的麻煩,節省了索引存儲空間、減少了查詢(xún)成本、提高了PageRank計算效率。方便了搜索引擎用戶(hù)。
選擇我們,優(yōu)質(zhì)服務(wù),不容錯過(guò)
1. 優(yōu)秀的網(wǎng)絡(luò )資源,強大的網(wǎng)站優(yōu)化技術(shù),穩定的網(wǎng)站和速度保證
2. 15年上海網(wǎng)站建設經(jīng)驗,優(yōu)秀的技術(shù)和設計水平,更放心
3. 全程省心服務(wù),不必擔心自己不懂網(wǎng)絡(luò ),更省心。
------------------------------------------------------------
24小時(shí)聯(lián)系電話(huà):021-58370032