Azure AI Document Intelligenceで高品質なAI-OCRをお手軽に

はじめに

Azure AI Document IntelligenceはAI-OCR技術の1つです。
Azureの環境が整っていれば、導入が容易なサービスです。
サステナブルスターのプロダクトでも活用している技術になります。
本記事は以下のような構成となっています。

  • 前提知識となるOCRについてご説明します。
  • Azure AI Document Intelligenceとは何かについてご説明します
  • 実際のプロダクト(サステナブルスター)での活用事例についてご紹介します。

OCRとは

OCRとは、Optical Character Recognitionの略で、光学文字認識のことを指します。
光学文字認識とは、画像や書類等に記載されている文字の読み取りや解析を行い、テキストデータ化する処理のことを言います。
近年、AIの技術の発展により、AIが事前に学習した画像データをもとに文字認識を行うことができるようになったため、認識精度が飛躍的に向上しました。
AI-OCRの登場により、従来OCRの読み取り精度の低さの課題を解消し、高品質なOCR技術を手軽に導入することが可能となりました。

Azure AI Document Intelligenceとは

Azure AI Document Intelligenceとは、Azure AIサービスの一つです。
ドキュメントからデータを抽出する作業を自動化します。
導入はAzureポータル上でリソースを作成するだけなのでとても簡単です。
Document Intelligenceには計3つのモデルがあり、用途に応じて選択可能です。

モデル名 説明 コスト1
汎用抽出モデル フォームやドキュメントからテキストや表データを抽出するモデル。学習済みのモデルのため、学習データの用意は必要なくドキュメントからデータの抽出が行える。読み取りモデルとレイアウトモデルの2種類がある。 217円/1000ページ
事前構築済みのモデル 請求書や給与明細、領収書等の特定のドキュメント形式を事前学習したモデル。読み取りたいドキュメントが限定されている時におすすめ。 1448円/1000ページ
カスタムモデル ラベル付きデータセットによりAIに学習をさせることが可能なため、ユースケースに合わせてカスタマイズができる 4344円/1000ページ

本記事では、汎用抽出モデルの読み取りモデルとレイアウトモデルについてご紹介します。

読み取りモデルとは

ドキュメントからテキストデータを抽出するモデルです。
段落や行ごとのような枠組みでテキストとその座標情報の取得が可能です。

レイアウトモデルとは

簡単に表現すると読み取りモデル+αのようなモデルです。
具体的には、読み取りモデルによる読み取り内容に加えて、構造化データの読み取りも行います。
つまり、ドキュメント内の表を読み取ることが可能になります。

実際のプロダクトでどのように活用しているか?

サステナブルスターとは

不動産業界システム「サステナブルスター」は、東京ガスが展開しているクラウドサービス(SaaS)のことです。
GRESBを始めとする環境に配慮していることを示すための報告書作成とそれに伴うデータ収集の支援を行うサービスです。

サステナブルスター|東京ガス - TOKYOGAS

Azure AI Document Intelligenceの活用事例

続いて、AI-OCR技術がどの場面で活用されているかをご紹介します。
お客さまがサステナブルスター上で報告書作成を行う際に、月毎にエネルギーデータを入力する必要があります。
この入力作業を効率化するために、AI-OCRによる入力支援をプラグイン機能として展開しています。
ガス/電気の請求書PDFファイルをアップロードすることで、PDF上のガス使用量や電力使用量等の数値をDocument Intelligenceが読み取り、候補となる値を返却します。

Document Intelligenceのモデルは、汎用抽出モデルを選定しています。
選択肢のひとつに、事前構築済みモデルの請求書フォーマットがありましたが、その請求書フォーマットが米国仕様のものが多く、適していませんでした。そのため、汎用抽出モデルのレイアウトモデルを選定しました。
請求書データには表があるフォーマットもあるため、多様な請求書フォーマットに対応できるようレイアウトモデルの選定しました。

さいごに

Azure AI Document Intelligenceは、AI-OCR技術を手軽に導入できるAzureのサービスです。
AzureでAI-OCR技術を試してみたい方は是非利用してみてください!
最後までご精読いただきありがとうございました。


  1. 2024年10月時点