最新アルゴリズムBERTの説明書【論文から要点を解説】



新アルゴリズムBERTの特徴と対策について

昨年12月に導入されたGoogleの新アルゴリズムBERTは、検索順位の大幅な変動を記録するなど、Googleの検索結果に大きな影響を与えました。本記事では、BERTにどういった技術が採用され、検索にどのような影響を与えるかを、できるだけ分かりやすく説明します。Webサイト運用者の方は、新しいアルゴリズムの導入で、どのような対策が必要になるのか、参考にしていただければ幸いです。



BERTアップデートとは?

Googleは2019年12月10日、最新の検索アルゴリズム「BERT(バート)」を日本語検索に導入したと発表しました。Googleによると英語検索で10%の検索クエリに改善(影響)が見られたと発表しており、日本語検索でも同様に検索順位が大きく変動しました。

GoogleがBERT導入を発表したツイート

新アルゴリズムBERTは「AI(人工知能)による新たな自然言語処理モデル」です。

GoogleがBERTを過去5年間に実行したアップデートの中で最大のものと表現するとおり、文章を理解し求められる検索結果を返す、言語処理性能が大幅に向上しています。近年、急速に普及が広がる、音声検索や文章形式での検索の精度向上にも繋がります。

自然言語処理とは何か

自然言語処理は、人が話す自然な言葉を学習する技術のことです。

例えば、「鮮やかな尾びれの小さい魚」の場合、「鮮やかな魚+尾びれが小さい」と「鮮やかな尾びれ+小さい魚」の2つのパターンが想定されます。人であれば、文脈から前半の文章が正しいと認識しますが、機械にはどちらがふさわしいか非常に難しい問題です。

これは言葉のあいまいさが引き起こす問題であり、自然言語処理の課題のひとつといわれます。BERT導入により、文章形式での処理能力が向上し、こうした複雑な文章を理解する性能が高まっています。

新アルゴリズム「BERT」の仕組み

BERTのメカニズムとは?
BERTは、文字列に含まれる複数の単語の関係性を学習するメカ二ズムを採用しています。文字列に含まれる単語を一度に読み込むことで、単語の前後・距離に関係なく単語同士の関係性を読み取ることが可能です。(これまでは左から右に順番に読み込む)

これまでの言語解析では難しいとされる、単語同士の距離が遠い場合や学習のベースとなるコーパス(言語資料)に掲載された単語以外の表現にも有効であることが、京都大学などの研究によって示されています。

予測精度が向上し続ける

BERTは、学習データが増えるほど予測精度が向上する検索アルゴリズムです。例えば、GoogleのBERTに関する論文によると50万ステップの学習と100万ステップの学習を比較したところ、自然言語の処理精度がおよそ1%向上することが示されています。今後のアップデートにより、自然言語処理の精度はより高まっていきます。

既存の学習モデルと併用できる

BERTは、これまで使われていた言語学習モデルに接続して使用することができ、既存の言語処理モデルを活かしつつ精度を向上できる点も評価されています。

今回BERTが導入された時点で10%の検索クエリに影響が出ましたが、新たな検索アルゴリズムを導入した直後としては、むしろ影響は限定的(少なかった)だったともいえます。これは既存の検索アルゴリズムが、BERTがと並行して動いていることを示していると思われます。

BERTの登場で何が変わるのか

BERTの導入により、「音声検索への対応」と「’あいまい’な検索クエリへの対応」が進みます。

GoogleではBERT導入後の成果事例としていくつか挙げており、今回はその中のひとつをご紹介します。Google(US)検索で「parking on a hill with no curb(縁石のない坂道に駐車する)」と入力した場合、以前(BEFORE)は「縁石がない」ことを検索エンジンが認識できていません。(画像もふさわしくない)

BERT導入後(AFTER)は、「ハンドルを切り車輪を回し、通りに車が転がらないようにする」と書かれているなど、縁石がない坂道に車を止める危険性を認識した対策事例が示されています。

BERT導入の検索結果のビフォーアフター
参照:Understanding searches better than ever before

さらに最新の検索結果では、強調スニペットの不必要な文章が削除され、画像も分かりやすいものに差し替えられています。(2020年1月時点)Googleではこうした細かいアップデートを日々実行しており、自然言語処理だけでなく検索結果表示の最適化にも繋がっています。

最新の検索結果では、より結果表示が洗練されている
強調スニペットの改善が進んでいる

あわせて、日本語でも検索してみます。「縁石のない坂道に駐車する」と検索すると、強調スニペットこそ表示されないものの、GoogleUSと類似した検索意図に合う結果が現れました。

縁石のない坂道における駐車方法が1位に表示
日本語検索も文章形式の検索に対応している

「縁石のない坂道に駐車する」1位のページ内容


上記の例が示す通り、新アルゴリズムBERTの導入により、検索結果の最適化が進んでいます。今後は、検索クエリが単語間をスペースで区切るテクニックが必要な検索方法から直感的な検索へ移行すると言われており、BERTの導入はこうした新たな検索方法に対応していくためにも重要な検索アルゴリズムです。

音声検索と’あいまいさ’への対応

文脈を読み取る新アルゴリズムの導入により、音声検索の精度が大きく向上することが期待されます。

Voicebot.aiの調査によると、アメリカでは2018年時点で1億3千万台のスマートスピーカーが普及しており、その数は増加傾向にあると示されています。スマートフォンを利用した音声検索の割合も増加しておりGoogleは対応を進めています。

音声検索では、検索クエリが長文化・文章化するため、検索エンジンは高度な自然言語処理が求められます。GoogleはBERTの導入により、口語の’あいまい’さへの対応を進めています。

検索結果への影響

BERT導入は、コンテンツの評価とE-A-Tの判断に影響を与えます。

まずコンテンツの質について、BERTは文章の正確さを重視し、検索キーワードにふさわしいコンテンツを文章単位で判断します。これまで「○○は△△です。」といった端的な文章が評価される傾向が強かったものの、今後キーワードによっては長文で濃い内容の回答が重視されるケースが増えるでしょう。

加えて、口語的な検索クエリに対応したことで、FAQコンテンツの重要性が各所で指摘されています。FAQは疑問が口語的な文章で書かれ、対する回答も文章形式で書かれるためBERTに評価されやすいです。実際、検索結果では多くのFAQコンテンツが強調スニペットとして表示されています。

次にE-A-Tの判断について、権威性が問われる記事に知名度(定義は難しい)のある監修者を入れるなど、Webサイトや記事の信頼性がより重要です。BERTを用いて、WebサイトやコンテンツがE-A-Tを満たしているかを見ていくと思われます。

Webサイト製作者は、信頼できる情報であるとクローラーに認識させる、E-A-Tを高める対策を行う必要があります。

BERTのまとめ

今回、Googleが導入した新検索アルゴリズムBERTの特徴についてご紹介しました。Web担当者は、BERTの特徴のうち次の点をぜひ覚えておきましょう。
  • あいまいな言語表現、長文に対応できる
  • FAQコンテンツの重要性が高まった
  • コンテンツのE-A-T対策を講じる必要がある
BERTの導入により、あまり大騒ぎする必要はないでしょう。なぜなら、これまでのSEO対策やコンテンツ評価方法を一変させるものではないためです。Googleが求めるユーザーファーストの姿勢は、変わっていません。

Web担当社は引き続き、信頼できるWebサイト、コンテンツ作成に注力しましょう。

参考文献:
BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
BERTによる日本語構文解析の精度向上