Just Living Diversity

マニラでのソーシャルワークとの出会い記録から、日本のソーシャルワーク×多文化/法的支援、インドで暮らし、働き、旅するカラフルさ、インド&野草ごはん、身体を解すこと、レジリエンス/回復についての試行錯誤を記録したく。 私もあなたも、ゆるく受けいれて生きていけるといいなと祈りながら。

Googleの検索のすごさについて

perplexityに聞いてみた

グーグルの検索エンジンがこのように多様な入力パターンに対応できるのは、複数の高度なアルゴリズムと技術を組み合わせているからです。主なロジックとしては以下のようなものが使われています:

  1. 文字の正規化: ひらがな、カタカナ、漢字、アルファベットなどの異なる文字体系を統一的に扱えるよう正規化します。これにより「とうきょう」「トウキョウ」「東京」「Tokyo」などの表記ゆれに対応できます。 正規化・・・・っていうのがあるんだ・・・どうやって~~~ 文字の正規化は、検索エンジンにおいて非常に重要な役割を果たしています。特にグーグル検索のような多言語対応の検索システムでは、以下のような方法で文字の正規化が行われています:
    1. Unicode正規化: 文字列を標準的な形式に変換します。主にNFC(正規化形式C)やNFKC(正規化形式KC)が使用されます。これにより、視覚的に同じに見える文字や類似した文字を統一的に扱うことができます。
    2. 大文字小文字の統一: 検索クエリの大文字と小文字を区別せずに扱います。例えば、「Google」「google」「GOOGLE」は同じものとして扱われます。
    3. アクセント記号の除去: アクセント記号付きの文字(例:é, è, ê)を、アクセントのない基本文字(e)に変換します。
    4. 全角・半角の統一: 全角文字と半角文字を統一的に扱います。例えば、全角の「Google」と半角の「Google」を同等に扱います。
    5. 異体字の統一: 同じ意味を持つ異なる字体(例:「桜」と「櫻」)を統一して扱います。
    6. ひらがな・カタカナの相互変換: 日本語の検索では、ひらがなとカタカナを相互に変換可能な形で扱います。
    7. 同音異字の処理: 発音が同じで表記が異なる単語(例:「バイオリン」と「ヴァイオリン」)を関連付けます。
  2. 形態素解析: 日本語の文章を意味のある最小単位(形態素)に分解し、単語の原型を抽出します。これにより活用形の違いを吸収できます。 へええすごい
  3. 編集距離アルゴリズム: 入力された単語と辞書内の単語との類似度を計算し、スペルミスや打ち間違いを検出・修正します。例えば「東京」と「東恭」のような軽微な誤字を許容できます。 類似度を計算!!
  4. 機械学習モデル: 大量の検索データを学習し、単語や文脈の関連性を理解するモデルを構築します。これにより、同義語や関連語を含む検索結果も提示できます。 これすごいなぁ。機械学習
  5. クエリ拡張: 入力されたキーワードを元に、関連する他のキーワードも含めて検索範囲を拡大します
  6. フォネティックマッチング: 発音の類似性に基づいて単語をマッチングします。これにより「シャツ」と「shirts」のような音声的に近い単語も関連付けられます。 へええ
  7. N-gramインデックス: 文字列をN文字ずつの部分文字列に分割してインデックス化することで、部分一致検索を効率的に行います。   よく分からん…

これらの技術を組み合わせることで、グーグルは多様な入力パターンに対して柔軟に対応し、ユーザーの意図に沿った検索結果を提供することができます。また、継続的な機械学習自然言語処理技術の進化により、検索精度は常に向上し続けています。

キーワード検索システムでの表記ゆれ対策6つ【python】 #自然言語処理 - Qiita

Perplexity AIとGoogleは確かに両方優れた検索技術を持っていますが、Perplexity AIの質問応答システムには以下のような特徴があります:

  1. 自然言語処理 (NLP) の活用: Perplexity AIはGPT-4やClaude 3などの高度な言語モデルを使用し、ユーザーの質問をより深く理解します。これにより、キーワードベースの検索を超えて、質問の文脈や意図を把握できます。
  2. 情報検索と要約: Webクローリングと情報検索技術を組み合わせて、最新の情報を収集し、関連性の高いデータを抽出します。その後、AIが複数のソースからの情報を要約して、簡潔で的確な回答を生成します。
  3. マルチモーダル学習: テキストだけでなく、画像などの視覚データも理解・生成できる能力を持っています。これにより、より包括的な回答が可能になります。
  4. コンテキスト理解: 会話の文脈を記憶し、フォローアップの質問に対してより適切な回答を提供できます
  5. リアルタイムデータ: 毎日インターネットをインデックス化することで、最新の情報を含む回答を提供します
  6. 引用と透明性: 回答の出典を明示し、ユーザーが情報の信頼性を確認できるようにしています
  7. フォローアップ質問の提案: 関連する追加の質問を提案し、ユーザーの探索をサポートします

これらの技術を組み合わせることで、Perplexity AIは質問者の意図をより正確に理解し、適切な回答を生成することができます。ただし、GoogleもAI Overviewsなどの新機能を通じて同様のアプローチを採用しつつあり、両者の機能は徐々に近づいてきています。

 

Google AI Overviewsは、Googleの検索結果に新たに追加された生成AI機能です。この機能には以下のような特徴があります:

  1. 概要生成: 検索クエリに対して、複数のウェブソースから情報を収集し、AIが要約した概要を提供します
  2. 迅速な情報提供: ユーザーが複数のソースを確認する手間を省き、より速く簡単に情報を見つけられるようにします
  3. 実験的な技術: 生成AIを活用した実験的な機能であり、Googleは段階的に多くのユーザーや言語、地域に展開しています
  4. Search Labsでの拡張機能: "AI Overviews and more"という実験的機能をSearch Labsで提供しており、より多くの検索結果でAI Overviewsを表示したり、追加の生成AI機能を利用できます
  5. フィードバック機能: ユーザーは各概要の下部にあるアイコンを使って、有用性や問題点についてフィードバックを提供できます
  6. データ活用: ユーザーの検索行動やフィードバックを活用して、AIモデルの品質向上に努めています
  7. プライバシー保護: レビュアーがデータを確認する際は、ユーザーアカウントから切り離されたデータを使用するなど、プライバシー保護に配慮しています

Google AI Overviewsは、従来の検索結果に生成AIの機能を統合することで、ユーザーにより迅速で包括的な情報提供を目指しています。ただし、生成AIの特性上、誤った情報を提供するリスクもあるため、Googleは継続的に改善と調整を行っています