社畜の所業

社畜の所業

Office365の機能について解説をしていきたいと思います。このブログの情報をご活用いただければ幸いです。たまに他の情報も取り入れていきたいと思います。

【Office365参考書】コンテンツの検索でエクスポートした際の検索不能なアイテムについて

f:id:it-bibouroku:20210404095716p:plain

コンテンツの検索でエクスポートした際に"検索不可能なアイテム"と表示されるものがありますが、どういうものかについてご紹介します。

 

 

検索不可能なアイテムについて 

通常、メールアイテムなどを受信・生成された際、そのメールアイテムにはインデックスが生成・付与される動作になっており、このインデックス情報に基づき、コンテンツの検索にて、アイテムの検索処理が行われるような仕組みになっております。 

しかしながら、添付ファイルにパスワードが設定されているなどの理由により、インデックスの生成が完全に行えず、部分的にインデックスが生成されて処理が行われる場合があり、[インデックス未作成のアイテムの扱いとされます。 

こちらがエクスポート操作画面では、"検索不可能なアイテムとして表示されます。

検索処理が完了した画面上では "インデックス未作成のアイテムと表示されております。 

  

コンテンツの検索結果の 「出力オプション」 は以下のように選択が可能になっておりますが、インデックス未作成のアイテムをエクスポートする場合は、[結果のエクスポート [出力オプションにて、項番 2 または 3 のどちらかを選択することで、エクスポートされる動作になり、項番 1 を選択した場合は、インデックス未作成のアイテムは、エクスポートされない動作になります。 

 

コンテンツの検索結果の 「出力オプション」 の詳細 

  1. [すべてのアイテム(形式が認識できない、暗号化されている、またはその他の理由によりインデックスが作成されなかったアイテムを除く)]

インデックス未作成であるアイテムは除外したエクスポート処理になります。 

  

  1. [すべてのアイテム(形式が認識できない、暗号化されている、またはその他の理由によりインデックスが作成されなかったアイテムを含む)]

インデックス未作成であるアイテムも含めエクスポートされる処理になります。 

  

  1. [形式が認識できない、暗号化されている、またはその他の理由によりインデックスが作成されなかったアイテムのみ]

インデックス未作成であるアイテムのみエクスポートされる処理になります。 

  

なお、2021年4月くらいからエクスポートすると unsearchable.pst というファイルでインデックス未作成のアイテムだけが出力されるようになりました。

 

 インデックス付けが行われない理由について 

・インデックス付けが無効となっているファイルの種類である 

 ".png ".bmpなどのインデックス処理が無効なファイル形式が該当します。  

・インデックス付け時にエラーが発生 

Microsoft 以外のテクノロジを使用して暗号化が行われている 

・該当ファイルがパスワード保護が行われている 

・添付ファイルのサイズや数など

 

部分的にインデックス付きアイテムとして電子メール メッセージが返される可能性があるインデックスの制限は以下のとおりです。

 

インデックス作成の制限 メモ 説明
添付ファイルの最大サイズ (Excel ファイルを除く) 150 MB インデックス作成用に解析する電子メール添付ファイルの最大サイズ。 この制限を超える添付ファイルはインデックス作成用に解析されません。添付ファイルを含むメッセージは部分的にインデックス付きとしてマークされます。

注: 解析とは、インデックス サービスが添付ファイルからテキストを抽出し、句読点やスペースなどの不要な文字を削除し、テキストを単語 (トークン化と呼ばれるプロセスで) に分割してインデックスに格納するプロセスです。
Excel ファイルの最大サイズ 4 MB サイト上にある、またはインデックス作成用に解析される電子メール メッセージに添付された Excel ファイルの最大サイズ。 この制限を超える Excel ファイルは解析されません。ファイルまたは添付ファイルを含むメッセージの電子メールはインデックスなしとしてマークされます。
添付ファイルの最大数 250 インデックス作成のために解析される電子メール メッセージに添付されるファイルの最大数。 メッセージに 250 を超える添付ファイルがある場合、最初の 250 の添付ファイルは解析およびインデックス付けされ、そのメッセージは、解析されなかった追加の添付ファイルがあったため、部分的にインデックスが付いているとマークされます。
添付ファイルの最大深度 30 解析される入れ子になった添付ファイルの最大数。 たとえば、電子メール メッセージに別のメッセージが添付され、添付されたメッセージに Word ドキュメントが添付されている場合、Word ドキュメントと添付されたメッセージにインデックスが作成されます。 この動作は、最大 30 の入れ子になった添付ファイルに対して続行されます。
添付画像の最大数 0 電子メール メッセージに添付されているイメージはパーサーによってスキップされ、インデックスが作成されません。
アイテムの解析に費やされた最大時間 30 秒 インデックス作成のためにアイテムの解析に最大 30 秒の時間が費やされます。 解析時間が 30 秒を超えると、アイテムは部分的にインデックス付きとしてマークされます。
パーサーの最大出力 200 万文字 インデックスが作成されたパーサーからのテキスト出力の最大量。 たとえば、パーサーがドキュメントから 800 万文字を抽出した場合、最初の 200 万文字だけがインデックス付けされます。
最大注釈トーク 200 万 電子メール メッセージのインデックスが作成される場合、各単語には、その単語のインデックスを作成する方法を指定する異なる処理命令が注釈付けされます。 処理命令の各セットは、注釈トークンと呼ばれる。 365 でサービスの品質をOffice、電子メール メッセージの注釈トークンは 200 万個に制限されています。
インデックス内の最大本文サイズ 6,700 万文字 電子メール メッセージの本文内の文字の総数とそのすべての添付ファイル。 電子メール メッセージがインデックス付けされている場合、メッセージの本文とすべての添付ファイル内のすべてのテキストが 1 つの文字列に連結されます。 インデックス付けされたこの文字列の最大サイズは 6,700 万文字です。
本文の最大一意のトーク 100 万 前に説明したように、トークンはコンテンツからテキストを抽出し、句読点とスペースを削除し、インデックスに格納されている単語 (トークンと呼ばれる) に分割した結果です。 たとえば、この語句には "cat, mouse, bird, dog, dog" 5 つのトークンが含まれます。 ただし、これらの 4 つだけが一意のトークンです。 電子メール メッセージごとに 100 万個の一意のトークンの制限があります。ランダム トークンでインデックスが大きすぎるのを防ぐのに役立ちます。

 

 

docs.microsoft.com

 

期間の範囲指定ができない

インデックス未作成のアイテムについては、期間を範囲で指定することができない動作となりました。期間を指定した場合、期間範囲外の情報も出力される動作となります。

例 : 2021/6/1 から 2021/6/31など

 

ただし、日時指定はできますので、特定の日時の情報であれば指定が可能です。

例 : 2021/6/1など