Google 最新 AI 搜尋引擎演算法更新 - BERT 100%

19 分鐘讀完

Google 在最近宣布了一個重大的更新,這項更新將會大大的影響 Google 搜尋結果當中所有網站的排名。去年 Google 推出了 BERT 演算法,旨在結合 AI 技術,將所有的搜尋都透過 AI 方式進行資料庫的比對與查找,進而替使用者找出最佳的搜尋結果。而這項演算法在去年推出後,僅影響了 10% 的搜尋,但在今年,BERT 演算法已經進步到能夠影響幾乎接近 100% 的搜尋。

除此之外,在今年年底結束之前,Google 還會再推出新的 AI 方法,使得 Google 能夠了解影片的片段是在敘述哪些重點,並能夠輕易的幫助你直接顯示到關鍵的片段當中。例如,你想要搜尋某場棒球比賽的全壘打片段,以後在搜尋時,Google 很可能就可以精準的幫助你將影片的秒數直接調整至你想要看的片段,而非只找出相關影片,要你自己從中去尋找。

Google BERT 演算法

目前 Google BERT 演算法在英文搜尋當中已經趨近於 100% 的運作狀態。這意味著 Google 現在已經可以理解文章當中上下文之間的關係,並且能夠從較長的文章內容當中,根據每個段落其不同的意思,來協助使用者瀏覽最佳的結果。

最新拼寫檢查演算法

Google 同時也持續提升理解拼寫錯誤的能力,截至目前為止,Google 每天都會有 1/10 的查詢會有拼寫錯誤的問題,因此他們正在引入一種新的拼寫演算法,這種演算法使用了「深度神經網路, deep neural net」來分析拼寫錯誤的問題,這能夠非常有效且顯著的改善拼寫錯誤的問題。

Google 將新的拼寫演算法與過去 5 年所做的改進相比較後發現,引入現在的拼寫演算法所改善的效果更加顯著且更為精準。這個新的拼寫演算法除了能夠分析使用者在搜尋時使用錯誤的拼寫,並給予較為正確的建議之外,也能夠

一種新的拼寫演算法能夠使搜尋者在輸入一串句子之後,根據前後文進行判斷,並在 3 毫秒內就能找到正確的結果。

Spelling
Google 引入最新拼寫演算法

We’ve continued to improve our ability to understand misspelled words, and for good reason—one in 10 queries every day are misspelled. Today, we’re introducing a new spelling algorithm that uses a deep neural net to significantly improve our ability to decipher misspellings. In fact, this single change makes a greater improvement to spelling than all of our improvements over the last five years.

Spelling

段落搜尋

這項改變對於 Google 搜尋結果頁面(SERP)所產生的影響尤其明顯,因為 Google 現在會索引的內容不僅僅是「整的頁面」,更多時候會是索引「某個段落」。

舉例來說,你在某篇文章中可能同時包含 A、B、C 三個段落,這三者都是具有相關性的,因此放入在同一個大框架進行說明。而當 Google 進行頁面索引時,會根據每一個段落與其上下文進行分析,並且將其中最相關的段落呈現在搜尋結果頁面當中。

因此,現在的 Google 搜尋能夠更加精準的搜尋到「段落」,它會將所引導的內容進行上下文的匹配,使得你的搜尋結果有別於過去只能顯示與你主題具有相關的內容,現在更加可以精準的「了解你的搜尋意圖」並且找出網站當中「最相關的特定片段」,並顯示在搜尋結果當中。

紫外線玻璃的搜索結果
Google 現在能更加的理解文章的每個段落

Very specific searches can be the hardest to get right, since sometimes the single sentence that answers your question might be buried deep in a web page. We’ve recently made a breakthrough in ranking and are now able to not just index web pages, but individual passages from the pages. By better understanding the relevancy of specific passages, not just the overall page, we can find that needle-in-a-haystack information you’re looking for. This technology will improve 7 percent of search queries across all languages as we roll it out globally.

Passages

次要主題

次要主題也可稱作為「副題」或是「子主題」,主要的意思就是在主要主題周圍,一定會有與其相關的廣泛內容,現在的 Google 透過 BERT 已經可以運用神經網路來了解與主題有高度相關的其他次要內容。

舉例來說,如果你搜尋「家庭健身器材」這個主題,除了本身主要的結果會與家庭健身器材有相關之外,你很有可能也會對相關的次要主題像是「器材預算」、「家庭健身空間」...等等感到興趣。

這項改變預計將會在今年年底開始推出。屆時當你搜尋某一個主題時,就會看到 Google 推薦給你與該主題具相關性的其他次要內容。

Graphic analyzing topics of webpages
Google 將在年底推出在搜尋時提供相關次要主題的搜尋結果

We’ve applied neural nets to understand subtopics around an interest, which helps deliver a greater diversity of content when you search for something broad. As an example, if you search for “home exercise equipment,” we can now understand relevant subtopics, such as budget equipment, premium picks, or small space ideas, and show a wider range of content for you on the search results page. We’ll start rolling this out by the end of this year.

Subtopics

了解影片的關鍵片段

在使用新的 AI 搜尋方法之後,現在 Google 能夠了解影片當中更加深層的語意,並且能夠自動識別精準的關鍵時刻。實際上你現在可能就已經會發現,Google 在某些影片當中會切成好幾個片段,每個片段之間都會有註釋,你可以將滑鼠移入後就會顯示每個段落所代表的意思,並可以藉由點選來直接跳到下一個段落。

舉個例子來說,在一篇食譜的教學影片中,Google 會自動識別每個步驟,當你進行搜尋時,Google 會直接顯示影片的特定時間軸,點選後你就能直接看到你想要查詢的步驟,而不需要從影片開頭自己進行尋找,幫助你更輕鬆的找到你要搜尋的內容。

這項技術預計在 2020 年底前會有 10% 的搜尋將會受到影響。而這也非常有可能將改變日後 Youtuber 在製作內容時的一些內容規劃問題。

Video search result baseball highlights
Google 將會自動識別影片的片段,並直接將你要搜尋的時間軸顯示在結果當中

Using a new AI-driven approach, we’re now able to understand the deep semantics of a video and automatically identify key moments. This lets us tag those moments in the video, so you can navigate them like chapters in a book. Whether you’re looking for that one step in a recipe tutorial, or the game-winning home run in a highlights reel, you can easily find those moments. We’ve started testing this technology this year, and by the end of 2020 we expect that 10 percent of searches on Google will use this new technology.

Understanding key moments in videos

以數據來深入理解

有時最佳的搜尋結果是統計資訊。但是這些統計數據通常蠻藏於大數據當中,一般人並不容易在網路上輕易的理解或是存取這些數據。從 2018 年以來,Google 致力於數據普及項目(或稱數據共享項目),這是一個與美國人口普查、勞工統計、世界銀行...等等相關單位所合作的統計數據開放式知識數據庫。目前將這些大數據集合起來只是第一步,現在我們能夠使用 Google 搜尋使得這些大數據能夠更容易被訪問與使用。

除了運用該資料項目之外,Google 也會根據公開的大數據資料庫進行資料的索引,因此如果你所搜尋的統計數據是能被/有被 Google 索引訪問的,那麼它就能夠精準的回傳數據資訊。

舉例來說,若你在 Google 搜尋「在台北有多少人」這類型的問題時,Google 將會映射到相關的大數據資料庫當中,並且在數十億的資料列中取得相關的數據,並利用最直觀易懂的方式顯示正確的統計資訊。除此之外,它還會顯示與該數據相關的其他資訊,像是其他城市的人口數量統計數據,能夠方便你輕鬆的深入了解特定的主題。

當結果容易使用統計數據來解釋,將會透過大數據中取得對應的數值並顯示完整的數據統計結果
當結果容易使用統計數據來解釋,將會透過大數據中取得對應的數值並顯示完整的數據統計結果

Sometimes the best search result is a statistic. But often stats are buried in large datasets and not easily comprehensible or accessible online. Since 2018, we’ve been working on the Data Commons Project, an open knowledge database of statistical data started in collaboration with the U.S. Census, Bureau of Labor Statistics, World Bank and many others. Bringing these datasets together was a first step, and now we’re making this information more accessible and useful through Google Search.

Deepening understanding through data

這對未來的 SEO 有什麼轉變?

從這 1~2 年來 Google 的演算法更新加入 AI 的神經網路之後,可以發現 SEO 是越來越難操作。從以前開始,學習 SEO 本來就是一件非常艱深,且需要同時理解各種不同面向、領域的技術細節,才能夠全面的去執行 SEO 優化。而現在,學習 SEO 的成本更是隨著 Google 演算法不斷的更新,而導致學習的成本增加,使這件事情更為困難。

從這次 Google 所宣布已經採用的演算法更新,以及即將不久所到來的種種新的演算法,未來的 SEO 將會變得更為的困難去執行優化,並且,對於那些具有統計數據的結果或是新聞,肯定會首當其衝的受到威脅。

參考資料:https://www.blog.google/products/search/search-on/

發佈留言