検索エンジンの仕組みと課題


みなさんは検索エンジンについて、どの程度ご存知ですか?
Googleを始めとした検索エンジンは、日常生活において欠かせないツールのひとつです。
私はSEOコンサルタントとして、多くの企業・個人のWeb活用を支援してきました。そこで実感したのが「検索エンジンって何ですか?」聞かれて答えられる人がほとんどいないという事実です。
Webサイト運営者でも、検索エンジンはよく分からないというのが、本音ではないでしょうか。そこでブログ1本目の今回は、検索エンジンの仕組みから詳しくご説明します。検索エンジン将来像についても、ぜひご覧くださいね。


そもそも検索エンジンは何者なのか

はじめに、検索エンジンとは、インターネット上にあるウェブページを検索・表示するためのプログラムのことです。ユーザーは1〜多数のキーワードを指定し検索ボタンを押すと、検索エンジンはユーザーが期待するページを検索結果に表示します。こうした検索エンジンとしては、Googleがよく知られますが、Bingや百度(バイドゥ)など、世界ではGoogle以外にも多数の検索エンジンが存在しています。

こうした検索エンジンは、ユーザーにとってどんな利益を生み出すのでしょうか。
その答えとして、Googleの創業者ラリー・ペイジ氏がかつて語ったとされる言葉をご紹介します。

#完璧な検索エンジンとは、ユーザーの意図を正確に把握し、ユーザーのニーズにぴったり一致する答えを返すものである
このようにGoogleでは検索エンジンを、ユーザーが求める情報、求める形式で提供することを目指しています。例えば、Appleと検索した場合、ユーザには大きく2通りの意図があると考えられます。それは「果物のApple」なのか「IT企業のApple」なのか、という問題です。

検索エンジンは、過去の検索履歴やユーザーの閲覧履歴などから「IT企業のAppleを探しているのではないか」という仮設を瞬時に立てて検索結果に表示します。ユーザーが仮に「Apple 新製品」など2語以上で検索した場合は、単語同士の関連性を判断し、より検索意図に一致した結果を表示することが可能です。

検索エンジンの仕組み〜3つの役割〜

検索エンジンは大きく分けて、クローリング(クローラー)・インデックス(インデクサー)・検索順位(サーチャー)の3つの構成から成り立っています。クローラーが集めた膨大なWeb情報をもとに、インデクサーが検索に使うためのインデックスを生成。サーチャーはユーザーが指定するクエリに対して、インデックスを利用し検索結果にランキングを返します。

クローリング(クローラー)

クローラーが世界中を駆け巡るイメージ画像
大量のクローラーがWeb上を監視している

インターネット上にあるWebサイトの情報を収集するのが、クローラーの役割。クローラーは常にインターネット上を巡回しており、各Webサイトのリンクをたどりながら、文字情報だけでなく画像や動画など様々な種類の情報を集めていきます。

クローラーが巡回する一連の流れをクローリングと呼び、クローリングされた情報は検索結果に反映されます。自分のWebサイトに検索エンジン経由でユーザーを呼び込むためには、まずは自分のWebサイトにクローラーを呼び込む必要があります。

Googleをはじめとした検索エンジンは多数のクローラーを持っていますが、全てのWebサイトを常時監視するのは現状では不可能です。そのため、クローラーは各ページに埋め込まれた大量のリンクを解析し、未収集のページを順番待ち(URLキュー)の状態にします。

URLキューでは常時並び替えが行われており、優先度の高いリンクは順番を飛び越えることができます。優先度の選定には、収集済みURLからの被リンク本数・ページランク・アンカータグの文字列・上位ページ(内部リンク)などの指標から、独自のアルゴリズムで重要度を判断します。

ドメインパワーが高いなど一定の評価を受ける優良なWebサイトは、頻繁にクローラーが自サイトに訪れます。そのため収集待ちURLキューの状態になりやすく、記事の更新後すぐにインデックスされるケースも多いです。

一方、立ち上げたばかりのWebサイトなどはドメインパワーが弱く、外部からの被リンクも少ないため、クローラーに発見されるまでに時間を要します。少しでも早く検索結果に表示されたい場合は、フェッチと呼ばれる方法で検索エンジンに伝える方法があります。Googleでは「URL検査」、Bingでは「URLの送信」といった機能です。フェッチについては、別の機会にまた詳しくご紹介します。

この他、サイトやブログの作成などで有名なCMSWordPress」上でクローラーに自サイトの更新頻度を通知することも可能です。近年はクローラーの性能が上がっており、早いケースだと5分でインデックスされることもあります。これは、時事性が高いコンテンツ(ニュース等)用として作られた、特別仕様のクローラーの利用範囲が拡大しているためと考えられます。

インデックス(インデクサー)

情報を溜め込むインデクサーのイメージ
インデクサーは世界最大の図書館

クローラーが集めた膨大なデータ情報を処理するのが、インデクサーの役割です。インデクサーは、リンクや文字情報、画像、動画などを解析・整理して、自社のデータベースに登録していきます。この一連の流れをインデックスと呼びます。また、ユーザーが検索エンジンを利用した際に、情報を引き出す役割も担っています。

Webサイト運営者は、自サイトの構造・ページの内容を整理することでインデクサーのインデックスに貢献することが可能です。Web運用でよく言われる「いい記事を書いたほうがいい」「サイト構造を見直す」などは、インデクサーの負荷を軽減しインデックス期間を短縮する為に重要な要素です。

やや専門的な話をすると、インデクサーは処理できるバッファサイズ(データ量)が決まっており、画像の低容量化やページの表示速度を早めることで、インデックス作成までのボトルネック解消に繋がり、処理時間が短縮する仕組みです。

GoogleBing、バイドゥなどの大手検索エンジンは、いずれもほとんどインデクサーについての情報を公開していませんが、非常に高性能なインデクサーと大量のデータを保管できるサーバーシステムを自社で保有しています。

検索順位(サーチャー)

検索順位を決めるサーチャーのイメージ
最もふさわしい情報をランキング

 サーチャーは、保管するインデックス情報などをもとに、検索順位を決定する役割を担います。検索順位は、インデクサーが作成したインデックス、検索結果に対応するスニペット情報(タイトル直下の文章や、記事の要約、メタディスクリプション)、ドメインパワーやページランクなどの静的ランキング、記事(単語)のユニークさ、読込時間など多数の基準をもとに決定されます。検査順位は1位から順に検索結果に表示されるため、検索クエリに対して上位表示することが閲覧者数や売上の向上に繋がります。

順位を決定する検査基準項目は、200項目以上と言われています。ただGoogleでは検索基準を公開しておらず、品質評価ガイドラインと呼ばれる「Googleの検索エンジンが、Webサイトとページの品質をどう評価するか」をWebデベロッパー向けにまとめた資料を公開しています。原文はこちらです。内容は英語で書かれていますが、Googleで検索するとWeb製作会社などが和訳した資料などが見つかるので、興味のある方は探してみてください。

検索順位の決定には高度なアルゴリズムと迅速な結果表示が求められるため、Googleでは世界中に保有するデータセンターで負荷を分散させる、ダイナミックDSNと呼ばれる技術が使われています。負荷のかかるDSN情報を数分おきに全て再設定し、最も処理が重いデータを一番負荷が軽いサーバーで常に処理する仕組みを取り入れています。日本から行われた検索も、実は北欧で処理されているケースもあるということです。

サーチャーは、単語のゆらぎ(いちごとイチゴ、苺のような違いなど)やスペルミスを検知して正しい検索結果を返すスペルチェッカーなどの機能も備えており、アップデートのたびに性能が向上しています。検索クエリに対応したリスティング広告を抽出するのも、サーチャーの役割のひとつです。

検索エンジンを巡る最新動向

検索エンジンの開発が進んだことで、検索結果の精度はより高まっています。一方で近年、検索エンジンを巡る数々の課題が提起されています。ここでは、より社会性の高い話題に絞っていくつかご紹介します。

情報は網羅すべきか、過剰なのか

Webの情報は過多なのか
Webの情報はどこまで積み上がる?

Web上には数十億〜数百億ページが存在すると言われていますが、正確な数字は定かではありません。Webはこれまで、数十年に渡り情報のカバー率を上げることが、トピックを探すユーザーにとっての利益でした。いかに欲しい情報を網羅するか、がカギだったのです。

一方で、情報はすでに十分揃っている、という声が専門家の間から聞かれます。規模(情報)の拡大による成長は、時にユーザーとGoogleにとって新たなデメリットとなりえると唱える専門家もいます。

その問題とは、Googleは拡大を続けるインデックス数に起因する、設備投資をどこまで続けられるのかというものです。Webは実態のないデータ情報の集まりですが、検索エンジンを機能させるためのインデックス化には大規模なサーバー施設が必要になります。すでに世界中に巨大なデータサーバーを抱えるといわれるGoogleですが、今後もインデックス数が膨らみ続けた場合、サーバー等の維持コストや設備投資のための資金、サーバー拠点(土地)を増やし続けることはできるのでしょうか。

また、ユーザー視点に立った場合も、必ずしも情報量がユーザビリティに繋がらないという問題があります。ユーザーが検索クエリの答えを求めている場合、単純に結論を知れる1ページがあれば十分でしょう。逆に、同じ検索クエリでもユーザーの趣向や状況によって、求められるランキングが異なるケースもあります。こうした矛盾には、内容ベースフィルタリングと強調フィルタリング、さらに新しい技術による対策が進んでいます。

こうした手法はいずれお話するとして、情報はすでに過多の状態なのではないか、という声も最近は多く聞かれます。

Googleは情報の信頼性を重視する

GoogleYMYLYour Money or Your Life)と呼ばれる領域を中心に、情報の信頼性を検索結果に反映する対策を進めています。具体的には、以下のジャンルがYMYL領域と言われます。

YMYL領域にあたるジャンル
l  商品販売、ECサイト
l  金融取引
l  資産情報
l  健康分野
l  医療
l  ニュース
l  公的な情報(官公庁など)

検索エンジンの研究を行っている機関から、2019年のアップデートにおいて、運営者情報が確認できないサイトやGCM、個人などは下落率が高かったとの情報を得ています。一方で、同ジャンルに該当しながら全く影響していないWebサイトも散見されており、現状の検索アルゴリズムでは対策しきれない課題だともいえます。

Googleが情報の信頼性を重視する理由は、Googleの検索部門に勤めるダニー・サリバン氏が東洋経済の取材に対し「(人々が)情報の評価をしなくなっている」「グーグル検索は偏っている、間違っているとする見方がある」という2つの課題があるためだと発言しています。

情報へのアクセスが容易になり、さらに人々がそれを当たり前のように受け入れる現代において、出てきた検索結果は鵜呑みにされやすいのかもしれません。Googleでは、誤った情報の拡散を防ぐために、一見過剰ともいえるYMYL対策を進めているのです。

検索スパムの排除

Webマーケティングの分野では、SEOと呼ばれるサーチエンジン最適化の手法が活用されています。ただ、ときに行き過ぎた検索エンジン対策を行うケースが散見されます。検索ランキングの1位を確保するには、やみくもにWebサイトを構築するのではなく検索エンジンの評価基準を理解し、SEO対策を実施することが求められます。

こうしたSEOの本質とは、本来ユーザーにとって最高の検索結果を導くための技術ですが、強引に検索上位を確保するブラックSEOと呼ばれる手法も未だに一部では行われています。

検索エンジン側でも状況は把握しており、検索アルゴリズムのアップデートなどを通じてスパム行為を働いたWebサイトやページをランキングから落としたり、インデックスを削除したりする対策を行っています。代表的な検索スパムとして知られるのは、一部のリンク施策・埋め込みテキスト・隠しテキスト・リダイレクトの悪用・自動コンテンツ生成などです。

リアルタイム検索への対応

検索エンジンの仕組み上、リアルタイム検索には弱いという課題があります。ユーザーが情報にアクセスするまでに、クローラー〜インデクサー〜サーチャーという工程を踏む必要があり、TwitterInstagramを始めとしたSNSに比べタイムラグが発生してしまうためです。クロールからインデックスまでを高速化するタイムラグを減らす取り組みも行われていますが、実用化に向けては課題が多く残っています。

検索エンジンGoogleの未来

Googleの検索エンジンはどうなる?
Googleの検索エンジンはどこに向かう?

Googleに代表される検索エンジンは、驚異的なスピードで進化を続けています。近いうちに文字を探すだけのプログラムから脱却する、ともいわれます。鍵を握るとされるナレッジグラフなど、Googleの未来像について考察します。

人間並の思考回路

2014年、Googleのエンジニア部門のレイ・カーツワイル氏が「5年から8年以内に、検索エンジンが人間並の知能を持つ」と発言しました。

検索エンジンが複雑で長文の質問に返答でき、自らより欲しがる情報を探し出すというものです。当時は夢物語のような話でしたが、2019年より導入されたBERT(バート)により、英語の長文を非常に高精度で理解することが可能になりました。

これまでの検索エンジンは、隣接する単語同士の関連性などから検索意図を読み取るアルゴリズムが主体でしたが、BERTにより接続詞を含む文全体の理解が進んでいます。ただし、日本語は英語に比べて文章の難易度が高く、とある研究機関によるBERTの日本語(長文)の理解度は5060%ほどと、まだ未完成であるといわれています。

今後、アップデートを繰り返していく中で、徐々に日本語版のBERTも精度を高めていくでしょう。高度な日本語検索エンジンが誕生したときに、SEOの難易度は一気に高まることでしょう。

世界を理解する取り組み

今後、検索エンジンは情報を整理して、世界中のあらゆる出来事を正確に把握することが可能になるはずです。Googleのジョン・ジャナンドレア氏は、かつて「世界中の情報を整理しようとしている」と語っていました。

すでに膨大な情報がGoogleのサーバーにインデックスとして保存されており、今後は情報をどう活用するかが重要だということでしょう。

現在のインデックス上の情報は、いわばどれも点であり、そのいくつかが短く繋がった状態に過ぎません。現実の世界では、本来こうした情報の点は互いに複雑に絡み合い、様々な事象を構成しています。

そこで、Google2012年にナレッジグラフと呼ばれるKB(データベース)を検索エンジンに導入しました。これは、特定のキーワードの関係性をオブジェクトとしてまとめ、さらにオブジェクト間の関係性を検索結果に応用するというものです。現在は、一歩進んでオブジェクトからイベント(事象)を見出す取り組みが進んでいます。

こうした大量のデータを解析・つなぎ合わせることで、検索エンジンは世界を理解する巨大な頭脳になる可能性を秘めています。

プライバシー保護の徹底

SNSによる情報流出が大きな話題になるなどプライバシーの保護が叫ばれる昨今、検索エンジンもプライバシーに関する課題に直面しています。Googleでは長らく、名前や住所などの情報を隠した匿名情報を、検索エンジンのランキングや広告配信に応用してきました。

ただし、今後はこうした個人情報の収集について、各国が規制を強化しようとしています。そこでGoogleは個人情報の保護を目的として、Googleアカウントへの動線を分かりやすくする、一定期間が過ぎた情報をアカウント上から削除できる仕組み、端末側で機械学習を制御するプログラムの配布、などの独自のプライバシー保護の取り組みをはじめました。

今後は、匿名化したデータを一切利用しないプライバシー重視の動きの中で、検索エンジンの実用性に、かえって悪影響を与える可能性も懸念されます。

今後Webサイト運用者は何を意識すべきか

検索エンジンが高度化していくなか、Webサイト運用者は何を意識すべきでしょうか。Webサイトの質を一層高めることは当然ですが、各コンテンツの強化だけでは今後は差別化が非常に難しくなってきます。それはすなわち、検索順位を上げることが非常に難しくなることを意味しています。

自サイトのコンテンツを、多くのユーザーに届けるためのポイントを見ていきましょう。

SEO対策はより必須、だが難しくなる

SEO対策自体は、スパム行為ではありません。そして多くのユーザーに情報を届けるためには、検索エンジンの各領域に対して、適切な施策を行う必要性が増しています。具体的には、クローラー対策・インデックス最適化・良質なコンテンツの作成、の3点が重要です。

クローラー対策では、Webサイト内の情報を正しく読み取らせる構造データの最適化、良質な被リンクの獲得(外部リンク)、クローラーが巡回しやすい内部構造(内部リンク)、その他にも評価基準となる項目は多数ありますが、ここでは割愛します。いずれにしても、ユーザーが見やすい構造・コンテンツを作ることが何より重要です。

インデックス最適化は、検査エンジンがクエリの回答として利用しやすいWebサイト構成、記事を作成することです。対策手段としては、カニバリの解消やユニークキーワードの最適化などが挙げられます。詳細は、またの機会にお話します。

良質なコンテンツの作成におけるポイントは、明快な文章の構築です。検索クエリにもよりますが、より話し言葉に近く、主語述語、目的語が適切に配された文章を検索エンジンが好む傾向が強くなるでしょう。

日本語の文章解析はGoogleの検索エンジンでも、まだまだ不完全だといえます。目的意識を持った、ユーザーにとって読みやすい文章の作成が重要です。

ローカル施策による指名検索

ローカル施策を始めとした、SEOに依存しすぎない運用体制の構築、今後一層重要になります。指名検索の多さは、最近何かと話題の権威性を示す要素のひとつでもあります。

指名検索の効果が強く現れているWebサイトとしては、食べログやRettyが有名です。両サービス利用者のうち、実に半数近いユーザーは指名検索から流入しています。ノマド系の某有名ブログも、指名検索の多さが目立ちます。

こうした指名検索を増やすためにはいくつか方法があり、Web上での対策としては固有のサイト名を付けること、同ジャンルのコンテンツを強化し同一人物に認知される回数を増やすといった対策が、比較的簡単に実行できるのではないでしょうか。

また、地域にコネクションがある方は、紙媒体による広告や記事掲載といったローカル施策が、指名検索には非常に有効です。特定地域からのアクセスが急増することで、検索ランキングにもいい影響があります。ローカルビジネスを主体とするWebサイトは、SEO施策とローカル施策を組み合わせた施策を行いましょう。

おわりに


 僕は普段、SEOコンサルタントとしてクライアントのWebサイトの対策を行っています。今回は第一回目なので検索エンジンって何?という割とざっくりとしたテーマについて書いてみました。一気に書きなぐったので、間違っている点もあるかもしれません。

検索エンジンの方向性としては、今後より高度化してSEO対策の難易度は格段に上がっていくでしょう。現状あまりうまく機能していない(と思われる)BERTが日本語検索で本領発揮する前に、今のうちにしっかり情報を仕入れて、万全の準備を進めておきたいですね。

次回からは(もし書くなら)より突っ込んだSEO施策に役に立つネタを書きます。では。