社畜の所業

社畜の所業

Office365の機能について解説をしていきたいと思います。このブログの情報をご活用いただければ幸いです。たまに他の情報も取り入れていきたいと思います。

【Microsoft365参考書】電子情報開示(コンテンツの検索)で件名を指定しても検索できない。ワードブレイクとは?

電子情報開示(コンテンツの検索)で件名を検索条件に指定しても、うまく検索したいアイテムが表示されない場合があります。

 

件名が日本語である場合は、ワードブレイクの問題であることが想定されます。

 

 

ワードブレイクについて 

キーワードに文字列や単語を指定した検索動作について、例として英語指定による検索の場合は、Word 単位での区切りとなりますので安定した動作が望めます。 

しかしながら、日本語や中国語などの漢字 (2バイト文字) に関しましては英語と比較すると単語の区切りが明確とならず、ご希望の結果が得られないことがあります。 

メールボックスのアイテムの検索においては、インデックス生成時および検索実行時に日本語ワードブレーカにより検索のための単語の切り出し、および正規化などの処理が行われ当該切り出された (ワードブレイクされた) 単語に対して検索を行います。 

このため、意図した検索結果と異なる結果が表示されることがあります。 

  

例として、"本店営業部" という文字列が含まれる場合、"本店営業部" という文字列でインデックス化するのではなく、"本店" / "営業" / "部" というトークンに分割し、インデックス化します。  

  

単語の区切り位置は、システム側での解析処理により決定されます。 

(この区切り位置の解析についてはテキストが出現するコンテキストにより処理結果が異なるため、各語がどのように分割されているかについて断言することは困難です。) 

  

ワード ブレーカーで用いられている形態素解析の技術は、機械翻訳や文字列抽出、校正支援などさまざまな自然言語処理を応用したアプリケーションで利用されている一般的な言語解析アルゴリズムとなりますが、複雑な言語、特に日本語では、通常、文章内の句読点や文字の並び、および漢字などの影響により、抽出される (分割される) 文字列が使用者の期待どおりにならないことがあります。 

  

上記ワード ブレーカーにより、"検索インデックス" に分割され格納されている単語と "検索キーワード" 入力時に分割された単語が一致すると、検索結果に表示される動作となります。 

   

 

検索がうまくいかないときの対処方法 

 

検索言語を変更する 

検索クエリを指定する際、[クエリ言語の国/地域] アイコンから検索言語を日本語に変更することで意図した検索結果になるか確認を行います。 

  

docs.microsoft.com

 [検索クエリの作成 [英語以外の文字~部分をご参照ください。 

  

キーワードを区切って指定する 

英語指定による検索ですと、Word 単位での区切りとなりますため安定した動作が望めますが、日本語に関しましては英語と比較すると単語の区切りが明確とならず、ご希望の検索結果が得られない場合があります。 

そのような場合には、ダブル クォーテーション (  ) で検索対象の単語を囲んでいただき検索を行っていただく方法のほか、検索対象の単語が 2 文字以上の場合は、文字数を減らしたキーワードにて、検索を実施いただくことで意図した結果に近似した結果が得られる可能性があります。 

  

  

キーワード文字列 : "請求額のご連絡に対しキーワード検索を行う場合には、以下のようにキーワードを設定いただくことで、検索可能であると想定されます。 

検索キーワード : 請求 AND 連絡 

  

いくつかの例をご紹介したいと思います。

 

 

1 : "請求書を含むアイテムを検索 

"請求" AND "" 

  

2 : 件名に "請求書を含むアイテムを検索 

(subject:"請求") AND (subject:"") 

  

3 : 件名に "請求を含むアイテムを検索 

subject:"請求" 

  

4 : 件名に "請求書を含むアイテムを検索(一文字単位で指定する) 

(subject:"") AND (subject:"") AND (subject:"") 

 

例5 : 件名に "請求書" または "ご連絡" を含むアイテムを検索 

((subject:"請求") AND (subject:"書"))OR ((subject:"ご") AND (subject:"連絡"))