GEO / AI SEO 轉型前,先檢查網站可見度 預約診斷
SEO

Google 對於重複內容的建議

Google 官方早在「Demystifying the duplicate content penalty」這篇文章就講白了:重複內容本身不是懲罰的理由,Google 會做的是「過濾」。意思是同一份內容散在多個網址時,Google 只會挑一個版本顯示在搜尋結果,其他重複頁會被默默收起來。根據 G…

Google 對於重複內容的建議精選圖片,呈現辨識 → 收斂 → 強化的 SEO 重點。

Google 對於重複內容的建議:不是懲罰,是過濾(附 2026 AI 搜尋調整)

Google 對於重複內容的建議的文內圖,呈現重複頁、正規頁、合併、索引等 SEO 重點流程。
重複內容:辨識 → 收斂 → 強化。

Google 官方早在「Demystifying the duplicate content penalty」這篇文章就講白了:重複內容本身不是懲罰的理由,Google 會做的是「過濾」。意思是同一份內容散在多個網址時,Google 只會挑一個版本顯示在搜尋結果,其他重複頁會被默默收起來。根據 Google Search Central 的官方說法,只有當重複內容被拿來欺騙、操縱排名時,才會構成處分條件。但請別高興太早,過濾這個動作一樣會害你的排名訊號分散、權重稀釋,到了 2026 年還會連帶影響 AI Overview 的能見度。

TL;DR:Google 不懲罰重複內容,而是「過濾」並只選一個版本顯示。這個過程會分散排名訊號、浪費爬取預算,根據 Google Search Central 官方文件,指定標準網址的訊號強弱排序為「重新導向 > canonical > sitemap > hreflang」。

這篇文章要解決的,是很多人在 PTT、Dcard、各種 SEO 社團裡反覆問的那一句:「重複內容到底會不會被 Google 罰?」答案是「不會」,但這個答案反而更危險。因為它會讓你以為可以放著不管,而你真正要小心的,是那個沉默的「過濾加稀釋」。我自己接手過幾個 WordPress 電商站,老闆都說「我又沒被罰,為什麼流量一直掉」,打開 Google Search Console 一看,標準網址亂指一通,權重早就散到沒人看得見的篩選頁去了。

Google 對重複內容的建議:不是懲罰,是過濾

先把最核心的問題回答清楚:Google 不會因為你的網站有重複內容就主動降權處分。Google Search Central 官方文件寫得很直白,重複內容常見且多半沒有惡意,搜尋引擎會嘗試把重複的版本「群組起來」,挑出一個最能代表這份內容的標準網址來顯示。只有當重複內容是為了操縱搜尋結果、欺騙使用者,例如大量複製他人內容來衝頁數,才會被當成垃圾內容處理。理解這一點,可以拿掉很多不必要的恐慌。

但「過濾」這兩個字才是真正要拆解的觀念。所謂過濾,並不是把你的頁面刪掉,而是 Google 在多個相似網址之間選一個顯示在結果頁。剩下那些重複頁會被收進索引,但不會出現在排名競爭裡。直白講,你沒被罰,可是你也沒被選上。對讀者來說,搜尋體驗是乾淨的;對站長來說,這就是「為什麼我明明沒被處分,排名卻還是掉了」的真相。

這裡有一段歷史脈絡值得帶一下。早年很多人把「排名掉」直接連結到熊貓演算法那種大規模低品質內容處分,於是「重複內容會被懲罰」這個說法就一直流傳。但 Google 的垃圾內容政策講得很清楚,處分的是刻意欺騙的行為,不是單純的內容重複。把這兩件事分開,後面的演算法與技術處理才不會走偏。如果你對這類黑帽手法的界線還不熟,建議先弄清楚「過濾」跟「處分」的差別。

John Mueller 多次在 Search Engine Roundtable 轉述的公開場合中重申「沒有所謂重複內容懲罰」,但他每次都會補一句:你要理解「過濾」帶來的實際影響。這也是這篇文章想強調的反直覺切入點:「不會被罰」其實是更狡猾的訊號,因為你感覺不到被處分,排名卻默默往下滑。Google 對重複內容的態度是過濾而非懲罰,但過濾會造成排名訊號分散、權重稀釋,2026 年還會連帶影響 AI Overview 能見度。

重複內容的定義:完整比對與高度近似都算

接著要把「重複內容」的範圍講清楚,因為很多人以為只有「逐字抄襲」才算,這是嚴重的誤解。在 Google 眼中,重複內容指的是完全相同或高度近似的內容出現在不同網址,涵蓋的範圍遠比你以為的廣。

四種 Google 會判定的重複類型

  • 完整比對(exact duplicate):內容逐字相同,出現在不同網域或不同網址。這是最直觀的一種,例如把同一段商品描述直接貼到十個頁面。
  • 高度近似(near-duplicate):只改幾個詞、調換語順,Google 稱之為「最小差異的複製」。很多人以為改幾個字就過關,其實 Google 的比對演算法對這種花招很敏感。
  • 結構性重複:商品顏色規格頁、排序篩選參數、列印版、AMP 版、手機版不同網址,這類是電商站最常踩的雷,而且通常不是人為抄襲,而是系統自動產生的。
  • 跨網域重複:內容聯播、新聞稿、授權轉載,讓 A.com 跟 B.com 出現相同內容。這種情境在媒體與品牌公關操作中特別常見。

說白一點,Google 判重不看「你是不是故意的」,而是看「這兩個網址的內容夠不夠像」。我碰過一個案例,客戶的商品頁只是把顏色名稱從「曜石黑」換成「深夜黑」,其他文字一字不差,結果 Google 直接把這兩頁歸為重複,標準網址選了比較舊的那一個。這種事你不主動給訊號,Google 就自己猜,而它猜錯的機率其實不低。

這裡要小心一個常見誤區:很多人會把「重複內容」跟關鍵字堆砌混為一談。關鍵字堆砌是同一頁裡重複塞詞,重複內容是不同網址之間的內容撞車,兩者的成因跟處理方式完全不一樣。把這兩個概念分開,後面的工具選擇才不會亂。

沒有懲罰,為什麼排名還是會掉:權重稀釋與爬取預算

這是最多人心裡過不去的那道坎:「Google 都說不罰了,那我的排名到底為什麼往下掉?」答案藏在三個沉默的機制裡:權重稀釋、關鍵字自我競爭、爬取預算浪費。它們不會跳出警告訊息,卻會一點一滴吃掉你的能見度。

權重稀釋是第一個機制。當同一份內容散落在多個網址,外部連結與內部連結的價值會被拆散。假設有三個外部網站分別連到你的三個重複頁,那原本可以集中到一頁的權重,就被切成三份,每一份都不夠強。這對自然排名的傷害是隱性的,你在報表裡看到的是「每頁都差一點點」,很難立刻聯想到是重複內容造成的。

關鍵字自我競爭是第二個。多個相似頁面搶同一組關鍵字,Google 難以判斷該排哪一頁,結果就是每一頁都排不上去。這跟主題叢集的觀念其實是同一件事的兩面:你要的是讓每個關頁面負責一組明確關鍵字,而不是讓三五個頁面互相搶食同一組搜尋意圖。講白了,這就是關鍵字最佳化時最容易漏掉的一環:只顧搶詞,沒注意到自家頁面之間已經在打架。

爬取預算浪費是第三個,也是大型網站最容易忽略的。Googlebot 每次造訪你網站的時間跟抓取數量是有限的,這就是所謂爬取預算。如果你的網站充滿重複頁面,Googlebot 會把寶貴的預算花在抓這些沒有價值的頁面上,導致你真正重要的新內容來不及被收錄。這部分我在處理加速索引相關問題時特別有感,很多站不是內容不好,而是被一堆重複頁拖住了收錄速度。

直白講,Google 不罰你,但它也不會幫你。這五個字請記住,它是處理重複內容時最重要的心法。延伸的觀念與技術細節,可以參考姊妹篇重複內容對 SEO 的影響與重複頁面處理,那篇主打技術操作面,本篇則聚焦在判斷與決策。

canonical、301 轉址、noindex 怎麼選:一張表看懂

講完為什麼要處理,接著是「怎麼選工具」。canonical、301 轉址、noindex 這三個最容易搞混,我用一個判斷原則把它們分開:看頁面還要不要存在,以及要不要傳遞權重。這個判斷順序,是處理重複內容的選擇邏輯核心。

工具適用情境頁面是否可存取是否傳遞權重使用者是否看到跳轉
301 永久轉址頁面已棄用、永久搬家、網址整併舊網址自動跳到新網址傳遞大部分權重是,會直接跳轉
rel=canonical頁面要保留但內容重複(追蹤參數、列印版、變體頁)頁面仍可直接訪問權重集中到標準頁否,使用者無感
noindex不想被索引、也不需要傳遞權重的功能頁(篩選結果、內部搜尋)頁面可訪問不傳遞權重

這張表的重點不是背誦,而是讓你在遇到實際情境時有個決策入口。頁面已經不要了,就用 301 把它永久轉址;頁面要留下來,只是內容跟別頁重複,就上 canonical 把權重收攏;頁面是純功能性的,連索引都不需要,那才輪到 noindex。把這三個弄反,是新手最常見的失誤,例如把該用 canonical 的頁面全部 noindex,結果權重整個斷掉。

Google 官方在「如何使用 rel=canonical 和其他方法指定標準網址」這份文件裡,給了指定標準網址的訊號強弱排序:重新導向 > canonical > sitemap > hreflang。這個排序很重要,它告訴你「愈主動、愈強制的訊號,Google 愈會聽」。所以當你有能力用 301 處理時,就不要只靠 canonical;當你同時有 canonical 跟 hreflang 時,要小心兩者是否互相打架。這類技術 SEO 的細節,往往是排名能不能穩住的關鍵。

canonical 標籤實戰設定:5 個步驟與常見錯誤

把觀念講完了,接著進入實作。canonical 標籤是最多人問、也是最容易設錯的工具,我把它拆成五個步驟,再加上幾個我親眼看過的錯誤。

canonical 設定五步驟

  • 步驟一:決定標準網址。挑那個網址結構乾淨、有意義、被外部連結最多的版本當主版本。這一步很多人跳過,結果後面的 canonical 全部指向錯的頁。
  • 步驟二:在重複頁加上 canonical。在所有重複頁的 head 區加入 <link rel="canonical" href="標準網址">,讓它們聲明自己的主版本是誰。
  • 步驟三:標準頁自己也要 self-canonical。標準頁指向自己,這聽起來多餘,卻是避免 Google 自己亂猜的重要訊號。
  • 步驟四:用工具設定,不要硬改程式碼。WordPress 用 Rank Math SEO 或 Yoast,可以在編輯器的 canonical 欄位直接填,不用碰 theme 檔案。
  • 步驟五:驗證 Google 有沒有聽話。設定完到 Google Search Console 的網址檢查工具看「Google 宣告的標準網址」,確認它跟你預期的一致。

這裡要老實承認一件事:canonical 是參考建議,不是絕對指令。Google 偶爾會自己選別頁當標準版本,這不是 100% 聽話的設定。我在頁面 SEO 做法與檢查清單那篇也提過這點,如果你設了 canonical 卻發現 Google 宣告的標準網址跟你想的不一樣,多半是你的訊號不夠一致,例如 canonical 指向 A,但內部連結跟 sitemap 都指向 B,Google 就會自行判斷。想知道 Google 為什麼會無視 canonical,可以看Google 為什麼會無視你的 Canonical 標籤這篇的拆解。

三個我看過最扯的 canonical 錯誤

第一個,全站指向首頁。這通常是不熟 SEO 的工程師誤把 canonical 當成「把所有權重集中到首頁」的開關,結果整站只剩首頁能排名,內頁全部被當成重複頁過濾掉。第二個,分頁的 canonical 全部指到第一頁。這會讓第二頁以後的內容永遠排不上,Google 收到的訊號是「這整串分頁其實都是第一頁」。第三個,canonical 跟 301 同時用造成訊號打架。一個頁面一邊用 301 跳轉,一邊又留著 canonical 指向別頁,Google 收到兩個互相矛盾的訊號,結果就是延遲判斷或乾脆兩邊都不選。

內容聯播與被抄襲:權重會跑去哪裡

轉載別人內容、或自己文章被別人抄走,這是另一個高頻問題。先給結論:理論上 Google 會盡量把原出處判定為標準版本,但實務上不保證,被抄的一方要主動給訊號來自保。

內容聯播(syndication)的正確做法

如果你是轉載方,想把授權內容放到自己站上,正確做法是在轉載頁加上 cross-domain canonical,指向原作者的網址。這個動作的意義是「我先承認這不是我原創的,權重請還給原作者」。聽起來吃虧,但這反而能避免你的整站被當成抄襲農場處理,長期對E-E-A-T 是加分的。很多品牌公關稿、產業分析文章在發布時,會同步給多家媒體聯播,這時如果你是原作者,務必要求轉載方上 canonical。

被抄襲的自保動作清單

  • canonical 自我指向:原作者頁面要明確 self-canonical,讓 Google 知道「我才是主版本」。
  • 結構化資料標記作者:用 Article Schema 標記作者與發布時間,提供原創性佐證,這跟結構化資料 Schema 的應用是同一條路。
  • DMCA 檢舉:如果對方是惡意整站搬運,直接走 Google 的 DMCA 侵權檢舉程序,要求下架。
  • 保留發布時間證據:截圖、存檔、sitemap 更新時間,這些都是日後舉證「我先發」的依據。

先別灰心,Google 判錯原出處的狀況確實存在,尤其是新站、低權重站,被高權重媒體搶先收錄的情況時有所聞。所以要主動給訊號,不能被動等 Google 猜對。如果你處理的是 YMYL(Your Money Your Life)類型的內容,這件事更重要,因為YMYL 與 E-E-A-T 對原創性與信任的要求更高,被抄走不只是權重問題,還牽動信任評分。

2026 AI 搜尋調整:重複內容在 AI Overview 會被去重

這一段是 2026 年才有、也是中文內容幾乎完全空白的增量。隨著 AI OverviewGoogle AI Mode 持續擴大,Google 會對 AI 搜尋結果做去重(deduplication)。當同一份內容散在多個網址時,AI 引用通常只會顯示一個來源,等於把傳統「過濾」的影響放大到 AI 搜尋層。

對重複內容來說,這是一個新的風險:不只傳統 SERP 被過濾,連 AI 引用機會都被限縮。換句話說,過去你頂多在十條自然結果裡少一條,現在是連 AI 那塊大版面的引用都進不去。對仰賴自然流量的內容站,這個影響是結構性的。先聲明,這部分是產業觀察,Google 官方還沒給完整文件,建議持續追蹤後續政策。

面對 AI 去重的兩個應對方向

第一個方向是經驗與原創性反制。AI 引用偏好獨創、有第一手經驗、有原創資料的內容。當你的頁面跟其他十個站說的一模一樣,AI 沒有理由挑你;但如果你加入了自家實測資料、真實使用情境、別人沒有的觀點,被引用的機率就會高出一截。這跟AEO(答案引擎最佳化)的核心觀念一致:你要提供 AI 無法自己生成的東西。

第二個方向是結構化標記助攻。FAQ、HowTo 這類結構化資料有助於 AI 抽取,雖然它不是萬靈丹,Schema 對 AI 引用的因果效應在業界仍有爭論,但它至少能降低 AI 解讀你內容的成本。搭配GEO(生成式引擎最佳化)的觀念一起做,效果會更完整。簡單講,傳統 SEO 顧的是 Googlebot 看不看得懂你,AI 搜尋顧的是 AI 抽不抽得出你的重點,兩者都要顧。

商品頁與規格頁的重複內容:電商最常踩的雷

電商網站的結構性重複內容,是實務最大宗、卻最少中文文章專門處理的問題。一個商品有六種顏色、四種容量、三種排序方式,排列組合下來可以產生幾十個相似網址,這些全部都是潛在的重複頁。

四種電商重複情境與處理方式

情境產生原因建議處理方式
變體頁(顏色/尺寸/容量)每個變體獨立網址canonical 指向主商品頁,或用參數處理
排序篩選參數頁?sort=price、?color=red 等網址參數canonical 或 Google Search Console 參數處理
分頁(page=2,3…)商品列表分頁每頁 self-canonical,不要全部指到第一頁
商品描述抄原廠直接複製供應商提供的文案改寫並加入自家實測、規格表、使用情境

其中商品描述抄原廠這項,是電商最大宗的重複來源。很多店家拿到供應商給的文案就直接貼,十家有八家的商品描述一模一樣,Google 當然判定為重複。解法不是不寫,而是改寫,加入自家店家的實測心得、規格整理、使用情境照片。這同時也能呼應SEO 文章怎麼寫的核心觀念:原創與經驗才是差異化的來源。如果你賣的東西跟別人一樣,唯一能拉開差距的就是你寫出來的內容。

同類商品共用範本文字也是常見問題。例如「本商品採用航空級鋁合金,輕巧耐用」這種話,所有同類商品都貼一樣的。實務做法是把共用部分抽成參數化區塊,每頁再補上獨特內容,至少讓每個商品頁有 30% 以上的文字是獨有的。這對WordPress SEO 經營者特別有感,因為 WooCommerce 的變體機制天生就容易產生重複網址。

處理重複內容的 5 步驟流程與工具檢查清單

講完觀念與工具,這裡給一條可以照做的處理流程。發現網站有重複內容時,按「找出來、分類、選方式、設定、驗證」五步走,不要跳著做。

  • 步驟一:找出來。用 Google Search Console 的「檢查標準網址」報告,搭配 Screaming Frog 這類站點爬蟲工具,把所有重複頁清單列出來。沒有清單就沒有處理標的。
  • 步驟二:分類。判斷是結構性重複(網址參數、變體頁)還是內容性重複(抄襲、範本複製),兩者的處理路徑不同。
  • 步驟三:選方式。照前面的對照表,在 301、canonical、noindex 之間選一個,或決定直接改寫內容。很多時候改寫比設定工具更根本。
  • 步驟四:設定。改網址結構、加 canonical、設轉址、處理參數,這一步通常需要工程師或懂 WordPress 後台的人協助。
  • 步驟五:驗證。用 GSC 的網址檢查工具確認 Google 認定的標準網址符合預期,並觀察 7 到 28 天看排名與收錄變化。

別想一次到位,重複內容是會持續產生的,尤其是會員系統、篩選功能、商品上架流程都在自動產生網址的站。我會建議每季定期跑一次檢查,把它當成網站最佳化流程的固定環節。這件事就跟自學 SEO 的免費最佳化技巧一樣,不是做一次就結束,而是要養成習慣。

工具搭配上,Google 免費 SEO 工具裡的 Search Console 就能做大部分的標準網址檢查;想進階一點,遇到「已建立索引但未包含內容」這類疑難訊號,可以參考GSC 索引問題排查把報表看熟。如果你的站是 WordPress,Site Kit by Google 能把這些資料拉進後台,省去切換介面的麻煩。

常見錯誤與 FAQ:重複內容的疑問一次回答

這段把最常被問到的問題一次答完,每題都給一句直接答案,再補短說明。後面附上 FAQPage 結構化資料,方便搜尋引擎與 AI 抽取。

Q1:我把同一篇文章發在官網跟 Medium,會怎樣嗎?

會被當成重複內容處理。正解是在 Medium 那篇加上 cross-domain canonical 指回官網,讓 Google 知道官網才是原出處。否則 Medium 的權重高,Google 很可能把 Medium 那篇當標準版本,你自家官網反而被過濾掉。這個原則也適用其他內容曝光平台。

Q2:自己網站兩個頁面內容幾乎一樣,會被罰嗎?

不會被罰,但會被過濾。實務上建議要嘛把兩頁合併成一篇深度內容,要嘛用 canonical 指定其中一頁為標準版本。放著不管的代價就是兩頁都排不好,等於自己跟自己搶排名,這跟SEO 基礎觀念裡講的「集中權重」是同一件事。

Q3:抄來的內容只要改幾個字就不算重複嗎?

不行。Google 認得「最小差異的複製」,只改幾個詞、調換語順這種手法,在它的近似比對演算法面前等於沒改。想避免重複,唯一的路是真的加入獨創內容與觀點,而不是玩文字替換遊戲。這也呼應字數不等於內容品質的道理,內容的價值在於原創,不在於換字。

Q4:noindex 加了就沒事了嗎?

看情況。noindex 告訴 Google 不要索引這一頁,但它也不傳遞權重。如果你的頁面其實有價值、只是內容重複,用 canonical 把權重收攏會比 noindex 更好;noindex 比較適合純功能性、完全不需要排名的頁面,例如內部搜尋結果頁。兩者的差異在前面對照表已經講過,選錯工具會讓權重白白流失。

Q5:canonical 設錯害排名掉了,怎麼補救?

立刻把 canonical 改正,然後用 Google Search Console 的「請求建立索引」重新提交那一頁。接著耐心觀察數週,因為 Google 重新評估標準網址需要時間,不會一改就瞬間復原。補救期間千萬不要又用另一個錯誤設定去「蓋過」前一個,那只會讓訊號更亂。這也是為什麼最常被忽略的技術 SEO 問題往往出在 canonical 這類小設定上。

Q6:多語系網站每個語言版本算重複嗎?

不算,但要正確使用 hreflang 來區分。hreflang 的作用是告訴 Google「這幾個頁面是同一份內容的不同語言版本,請依使用者語言導向」,所以多語系頁面之間不要互相 canonical,否則等於告訴 Google「只保留一個語言版本就好」。這個錯誤在處理多語系站架構時特別容易踩到。

Q7:2026 AI 搜尋下,重複內容還要不要管?

更要管。前面講過,AI Overview 的去重機制會進一步壓縮重複頁的能見度,等於過去只在傳統 SERP 被過濾,現在連 AI 引用都進不去。在2026 SEO 新趨勢的脈絡下,原創性與獨特經驗會是能不能被 AI 引用的決定性因素,重複內容等於自己把這條路堵死。

FAQ 結構化資料(JSON-LD)

回到搜尋意圖:先把最影響判斷的訊號修好

講了這麼多,回到你一開始搜尋這個問題的動機:你想知道重複內容會不會害你被 Google 罰。答案是「不會」,但「不會被罰」不等於「可以放著不管」。真正會害你排名的,是那個沉默的過濾加稀釋,它不會跳警告,卻會讓你的權重一點一滴漏掉。

如果只能先做一件事,我會建議先打開 Google Search Console 的「檢查標準網址」報告,看看 Google 目前把你哪些頁面當成重複頁、標準網址選的是不是你預期的那一頁。這個動作成本最低,卻能立刻看出你網站有沒有訊號打架的問題。看完再決定要不要進一步上 canonical、改 301,或是乾脆改寫內容。

處理重複內容的本質,其實就是在跟 Google 溝通「我這份內容的主版本是誰」。你給的訊號愈一致、愈主動,Google 就愈聽話;你什麼都不給,它就自己猜,而它猜錯的代價全由你承擔。這個觀念不管放到站內 SEO站外 SEO,還是未來的 AI 搜尋都成立。先修正最影響判斷的訊號,觀察 7 到 28 天再做下一步,這是我處理重複內容問題的一貫節奏。這條思路也適用在蜂鳥演算法以來的語意搜尋邏輯:Google 看的是整體訊號的一致性,不是單一標籤的對錯。

如果你的網站已經累積了一堆重複頁面,不知道從哪裡開始整理,或是想了解怎麼把 canonical、轉址、結構化資料一次設定到位,歡迎參考我們的 Vibe Coding SEO 服務。把基礎訊號修乾淨,後面的內容與 AI 搜尋佈局才有辦法真正發揮。重複內容這件事,越早動手,要回來的流量越多。接下來也可以把它跟改善 SEO 的技巧網站程式碼最佳化一起檢視,會看到更完整的外部連結與站內結構全貌。

文章分類

SEO

留下你的問題或補充

你的電子郵件不會被公開。

文章目錄