詳解重複內容對 SEO 的影響,與如何解決重複頁面的問題?

12 分鐘讀完

Google 對於重複內容(Duplicate Content)重複頁面(Duplicate Pages)不會對其進行排名懲罰,只要不要是刻意的詐欺、欺騙內容,意圖影響搜尋引擎的排名,網站當中出現重複內容(Duplicate content)或重複頁面(Duplicate Page)實質上不會導致你的排名下降

不過,一旦你的「重複內容」是涉及到欺騙的行為,那麼後果就不僅僅是排名下降,而是會直接遭到 Google 將你的網站直接從搜尋結果當中給移除。

雖然說,Google 並不會對重複頁面或重複內容進行排名的懲罰,但是基於實務上 SEO 的優化與操作,我們仍然會傾向於盡可能的減少與降低重複內容發生的機會,盡量將網站中,大量相似的內容整合成為單一篇文章。如此除了能夠降低重複性,同時也能夠讓單一篇的文章內容篇幅更長,所觸及的深度也會更廣,大大提升單篇文章的品質分數,進而獲取更佳的排名機會。

什麼是重複內容?

重複內容的定義是:指在同一網域當中,出現多於一個以上的頁面,其內容具高度相似,我們稱為「重複內容」。而判斷頁面之間是否為重複的標準,則是由搜尋引擎演算法所進行分析與判斷。

雖然 Google 明確表明重複內容並不會受到排名降低的懲罰,但是,經過各大研究結果指出,降低重複內容、合併相似的頁面,能有效的提升網站的性能,也能使合併的文章更具有權威性,間接的讓你的排名能夠提升。

因此,你應該重新檢視自己的網站是否有重複內容的問題,將其加以改善,透過移除、合併、跳轉…等等方式,減少你的內容重複性。

搜尋引擎不喜歡重複內容

在 2019 年 6 月,Google 推出了「多樣性更新演算法」,其目的在於,降低同一網域中,出現在同一搜尋結果所顯示的數量。

我們可以理解為,Google 不想讓使用者在搜尋某個關鍵字時,所出現的結果都是來自於相同的網站。因此,即便你的網站當中,具有類似的內容有好幾百篇,但終究,Google 最多可能也只會顯示 2 個最相關的頁面內容。

與其如此,我們建議你不如將這幾百篇相同的內容進行合併整合,將每一篇分散討論的內容合併起來,使單一篇文章所談論到的主題更加的廣泛且全面。如此你的網站不僅能夠因為減少了幾百篇的內容而獲得性能的提升,使用者也不會對大量相同內容感到厭倦之外,你的單一篇文章質量也會獲得大量的提升。

因此,合併重複內容不管對於網站性能、使用者體驗,或是網站排名方面來說,都是百利而無一害的。

常見的重複內容問題

現在我們了解了重複內容所帶來的問題,以及解決重複內容後所帶來的好處。那麼,究竟大部分常見的重複內容,都是如何產生的呢?要知道,縱使你沒有刻意產生重複內容的意思,但有時在技術上的缺失,也可能是導致你的網站出現重複內容的問題。

以下是一些常見的重複內容發生情況。

URL 重複網址

這個問題尤其常發生於電子商務網站,許多產品頁面會有不同的顏色、尺寸,而這些產品雖然顏色尺寸不同,但實際上還是同一件商品。因此大多時候,其網址後綴會加上參數,讓其畫面顯示是不同的尺寸大小。如下圖所示:

這裡用購物網站常見的搜尋頁面當中,會使用不同的篩選條件來顯示商品的顯示結果,此時 URL 都是同一個搜尋網址頁面「/search」,但不同的關鍵字與篩選條件則會顯示不同的排列結果「?keyword=化妝水&page=0&sortBy=sales」。

不同的 URLs 會讓搜尋引擎認為是不同的頁面,但實際上,其內容幾乎是完全相同的。

在這個時候,我們就可以使用「rel=canonical」語法,來將這些相似的網頁,指定某一個網址為標準網頁。

指定標準網頁

您可以根據您的網頁用途,使用多種適合的方法為一系列重複的網頁指定標準網頁:

方法說明
一般指南以下指南適用於所有標準化方法。
rel=canonical <link> 標記在所有重複網頁的程式碼中加入 <link> 標記,指向標準網頁。
優點:可對應的重複網頁數量不限。
缺點:網頁檔案可能會因此變大。如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。僅適用於 HTML 網頁,不適用於 PDF 這類檔案 (在這種情況下,您可以改用 rel=canonical HTTP 標頭)。
rel=canonical HTTP 標頭在網頁回應中傳送 rel=canonical 標頭。
優點:網頁檔案不會變大。可對應的重複網頁數量不限。
缺點:如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
Sitemap在 Sitemap 指定標準網頁。
優點:易於實作及維護,特別是對大型網站。
缺點:Googlebot 仍須根據您在 Sitemap 中宣告的所有標準網頁判別相關聯的重複網頁。對 Googlebot 來說,Sitemap 的指標效力不及 rel=canonical 對應做法。
301 重新導向使用 301 重新導向告知 Googlebot,重新導向的網址是優於指定網址的版本。只有在要淘汰重複的網頁時,才適用這個方法。
AMP 版本如果其中一個網頁版本是 AMP 網頁,則必須按照 AMP 指南指出標準網頁和 AMP 版本。

HTTP 與 HTTPS 版本

Google 在先前早已將 HTTPS 加密協議作為影響排名的 SEO 因素之一。而你如果只有購買 SSL 憑證,讓網站擁有 HTTPS 的加密協議,卻沒有將所有 HTTP 的版本統一指向至 HTTPS 的話,那麼就會發生同時間擁有 HTTP 與 HTTPS 的重複內容。

HTTPS 重複內容問題
HTTPS 重複內容問題

這個問題會發生,是因為購買 SSL 加密憑證並設定好網站後,沒有確實將原始的 HTTP 網址使用 301 Redirect 轉址至 HTTPS 版本,導致同時間可以訪問 HTTP 與 HTTPS 兩個版本。因此,對於搜尋引擎來說,這兩個完全一樣的內容,卻有兩個不同的網址被收錄,導致重複內容的發生。

在這個時候,就可以透過 CloudFlare 來控制,將網域自動強迫使用 HTTPS 進行瀏覽,或是透過 .htaccess 檔案設定,將 HTTP 自動 301 跳轉至 HTTPS 的網址。如此就能解決 HTTP 與 HTTPS 重複網址內容的問題。

WWW 與 non-WWW

這個問題與 HTTP、HTTPS 情況類似,也就是網域可以同時經由 www.example.com 或 example.com 進行訪問。而這兩個網址都是呈現相同的內容。

如果你的網站同時間存在 HTTP、HTTPS 與 WWW、non-WWW 的問題,那麼就等同於一個內容完全一樣的頁面,同時間你會自動產生 4 個不同的網址,導致一次就產生 4 個重複內容。

而這個問題的解決方法就可以透過 .htaccess 檔案來進行設定,使網站強迫使用 www.example.com 或是強迫使用 example.com 作為標準網址進行訪問。如此就能解決 www 與 non-www 內容重複的問題。

後綴網址

許多使用 .html、.php 或是 .asp 的網站,其主頁通常會是 example.com/index.html 的格式,而你會發現,有時這類型的網站不管是輸入 example.com 或是 example.com/index.html,都可以進入到相同的首頁內容。這也是重複內容的一種。

想要解決這個問題,同樣我們也會使用 .htaccess 來強迫將 example.com/index.html 使用 301 跳轉至 example.com 網址。

或者,我們也可以利用 rel=canonical 來標註標準網址。如此一來,儘管 example.com/index.html 與 example.com 都能訪問相同頁面,但兩個頁面都清楚標示了 rel=canonical 來告訴搜尋引擎,標準的網址是「example.com」(看你指定的是哪一個版本的網址),這樣就不會產生重複內容的問題了。

不過,最佳的方式仍然是既使用 301 跳轉至相同的一個網址,同時也使用 rel=canonical 來宣告單一標準網址,這樣才是最正確的做法。

重複頁面解決方法

實務上,要解決重複頁面的問題,我們最常用的方法有兩種:

方法一:rel=”canonical”

剛剛多次提到的解決方法,就是在你的程式碼 <head> 中,加入「rel=”canonical”」來告訴搜尋引擎,你的標準網址是哪一個。

rel="canonical" 標準網址頁面
rel=”canonical” 標準網址頁面

儘管你今天產生了重複頁面不同網址的情況,但由於你加入了 rel=”canonical” 來宣告你的標準網址,因此 Google 就會將這些重複的頁面忽略,將其都判斷為你指定的標準網址為基準。

但通常我們除了在 <head> 標題中加入 rel=”canonical” 宣告標準網址之外,同時還會使用 301 跳轉方式來統一網址,盡可能的不要產生相似網址重複內容的問題。

方法二:301 Redirect

這個方式是最佳的作法,將你所有重複網址都指向至單一網址,讓所有可能產生的重複頁面,都會自動跳轉至單一的網址,如此就能避免搜尋引擎或使用者會同時間看到多個相似網址的重複頁面內容。

舉例來說,假如我們要將 WWW 自動 301 跳轉至 non-WWW,那麼就可以在 .htaccess 檔案當中,加入以下的程式碼進行判斷:

PHP

如果你想要了解更多 .htaccess 的 301/302 跳轉條件語法,那麼可以參考這篇:使用 .htaccess 實現 Redirect 301/302 重定向轉址規則

整合重複的網址

Google 官方有為大家列舉一般常見的重複內容原因,大部分重複內容的產生都是源自於:

為了支援多種裝置類型:

  • https://example.com/news/無尾熊亂撒野
  • https://m.example.com/news/無尾熊亂撒野
  • https://amp.example.com/news/無尾熊亂撒野

因搜尋參數或工作階段 ID 這類元素的緣故而採用動態網址:

  • https://www.example.com/商品?類別=洋裝&顏色=綠色
  • https://example.com/洋裝/禮服?gclid=ABCD
  • https://www.example.com/洋裝/綠色/綠色洋裝.html

在網誌的不同版面底下放置相同的文章,系統會自動儲存多個網址:

  • https://blog.example.com/洋裝/綠色洋裝真美麗/
  • https://blog.example.com/綠色物件/綠色洋裝真美麗/

伺服器設定為針對 www/非 www、http/https 版本的網址提供相同的內容:

  • http://example.com/綠色洋裝
  • https://example.com/綠色洋裝
  • http://www.example.com/綠色洋裝

從您的網誌聯合發佈到其他網域中網站的內容,與原始內容有部分或全部是重複的:

  • https://news.example.com/日常穿著的綠色洋裝-155672.html (聯合發佈文章)
  • https://blog.example.com/洋裝/綠色洋裝真美麗/3245/ (原始文章)

總結

現在我們了解大部分重複內容與重複頁面所產生的原因與型態,那麼最後快速總結一下幾種,可以幫助我們解決這些可能發生重複內容的方式:

使用 rel=”canonical” 連結標記

您可以在網頁標頭中使用 <link> 標記來指出該網頁與其他網頁內容重複。

如果您要使用 https://example.com/洋裝/綠色洋裝 做為標準網址 (即使可透過其他網址存取相同的內容),請按照下列步驟將這個網址指定為標準網址:

  1. 使用 rel=”canonical”「link 元素」來標記所有重複網頁。如下所示,在重複網頁的 <head> 區段中新增 <link> 元素 (將屬性設為 rel="canonical"),指向標準網頁:
    <link rel="canonical" href="https://example.com/洋裝/綠色洋裝" />
  2. 如果「標準」網頁有行動版,請新增指向行動版網頁的 rel="alternate" 連結:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/洋裝/綠色洋裝">
  3. 為網頁加上 hreflang 或其他適當的重新導向

使用絕對路徑 (而非相對路徑) 來搭配 rel=”canonical” link 元素。

建議結構:https://www.example.com/洋裝/綠色/綠色洋裝.html
「非」建議結構:/洋裝/綠色/綠色洋裝.html

使用 rel=”canonical” HTTP 標頭

如果您能設定伺服器,則可使用 rel="canonical" HTTP 標頭 (而非 HTML 標記) 來指定非 HTML 文件 (例如 PDF 檔案) 的標準網址。

舉例來說,如果您透過多個網址提供 PDF 檔案,可以針對重複的網址傳回 rel="canonical" HTTP 標頭 (如下所示),藉此將 PDF 檔案的標準網址告知 Googlebot:Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google 目前僅針對網頁搜尋結果支援這個方法。

使用絕對路徑 (而非相對路徑) 來搭配 rel=”canonical” link 元素

方法如下:
建議結構:http://www.example.com/downloads/white-paper.pdf
「非」建議結構:/downloads/white-paper.pdf

使用 Sitemap

您可以為每個網頁挑選一個標準網址,然後透過 Sitemap 提交。Sitemap 中列出的所有網頁都是建議的標準網頁;Googlebot 會根據內容相似度判斷哪些網頁屬於重複的網頁 (如果有的話)。

我們「不保證」一定會將 Sitemap 中的網址視為標準網址,但 Sitemap 是為大型網站定義標準網址的簡易方法,也很適合用來告知 Google 您認為哪些是網站上最重要的網頁。

請勿在 Sitemap 中加入非標準網頁。使用 Sitemap 時,您只能在其中指定標準網址。

針對已停用的網址使用 301 重新導向

如果您要淘汰現有的重複網頁,但必須確保在舊網址失效前能順利進行轉換,請使用這個方法。

如果使用者可以透過多種方式進入您的網頁:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

選擇其中一個網址做為標準網址,然後使用 301 重新導向將來自其他網址的流量傳送至您的偏好網址。伺服器端 301 重新導向是確保使用者和搜尋引擎都能導向至正確網頁的最佳方法。301 狀態碼表示網頁已永久遷移至新的位置。

如果您是在使用代管服務的網站上,請搜尋如何設定 301 重新導向的相關說明文件。

今天的重複內容與重複頁面的教學就到這裡,如果你喜歡今天的內容,歡迎分享出去與追蹤我們的粉絲專頁。若有問題,歡迎在下方留言,我們會儘速的回覆給你。

發表留言