こちらアジラDX推進事業本部

ポストコロナの日本社会にDX推進を

【非定型】ってなんだ?

f:id:asillakan:20200621212435p:plain

■AI-OCR界隈ではお馴染み

 昨今AI-OCR界隈では【非定型】だとか【定型】だとかいった言葉を耳にしますが、特に現在注目を浴びている【非定型】とは何でしょう?アジラのジジラでは現在、レシートと請求書について開発に成功し、ラインナップに加えさせていただいています。
 ベンダーによってこの言葉の使い方はやや違いがあり、目につく文字はすべて文字にしてしまう全文OCRのことを指したり、表のフォーマットは同じでも明細行の数が可変のもの(可変帳票)を読み取るOCRのことを指したりする場合があるようですが、今回はアジラで言う【非定型】について少し詳しくご説明をしたいと思います。

 

■【定型】と【非定型】について

 【定型】のOCRは、読み取る場所や読み取った内容の意味付けをあらかじめ設定しておくタイプのOCRで、ジジラではこの設定のことを「テンプレート」と呼んでいます(他社では「帳票設定」や「読取り位置設定」などと呼ばれます)。例えばタイムカードやアンケート、日報など自社でコントロールが効き、同じフォーマットでそれなりのボリュームがある帳票を読み取りたい場合にこの方式だとマッチしています。
 一方【非定型】は、よく言われるのが「少量多品種」な帳票に向いている、ということです。非定型の場合にはあらかじめ文字を読み取りたい場所や、読み取った内容の意味するところについて設定が不要です。ただし、その帳票が何の種類の帳票なのか、は指定しておく必要があり、それがジジラの場合にはレシートと領収書、ということになります。


 例えば、「請求書」は請求を求めてくる会社によってフォーマットがバラバラで、【定型】として請求してくる会社ごとテンプレートを作っていては、手間がかかってしまい、OCRを導入した意味が無くなってしまいます。【請求書非定型】エンジンならば、【請求元会社名】はここ、【請求元会社住所】はここに、【請求合計金額】はここに書かれている、・・・といった具合にどこに何が書かれているか自動で判断して、必要な項目を綺麗に決まった形のデータに整理して出力してくれます。

 

f:id:asillakan:20200621204700p:plain

 

 特に請求書ならば、色んな会社からやってくることから、そのフォーマットをコントロールできない、数量も1枚から数百枚まで、色々あり得るという特徴から、非定型がとてもマッチするケースとなるのです。

 

■技術的なハードルは【非定型】の方が高い

 【非定型】エンジンの中で最も活躍するアルゴリズムが自然言語処理です。【定型】だと、主役は画像認識なのですが、【非定型】の場合、「合計金額」も「請求総額」も同じ意味の物としてとらえて処理するというような、言語的処理が必要になってきます。
 当然ながらその前段階として文字認識をしているので、内部の処理としては文字認識と自然言語処理の2段構えになります(厳密に言うともっと複雑ですが)ので、定型と違って2種類のAIが計3回動いてるため技術的ハードルは高くなります。ジジラの場合、簡単に【定型】と【非定型】の処理の流れを図示すると下記のようになります。

f:id:asillakan:20200621212720p:plain

 

■「構造化」がキーワード

 【非定型】のアルゴリズムがやっていることは、データの自動構造化ということになります。今脚光をあびているのはたまたまOCRの後段の処理としてですが、実はOCRが無くとも既にデータ化されているけど構造化されていないものも有効な利用対象になります。
 例えばエクセルで流通している経歴書やワードファイルの契約書など、データ化されているけど構造化されていないものから、知りたい情報だけピックアップして共通フォーマットに流し込む、というような用途にも流用することができる技術なのです。
 こう考えると、機械の扱いやすい形に構造化するということは、そこからデータ分析を行いやすくなるということで、非常に価値の高い技術だといえるかと思われます。

 

■非定型のマッチするケース

 前述のとおり、非定型がマッチする読取対象のケースとしては「少量多品種」、つまり「それぞれの種類ごとの枚数はそんなに多くないけど、とにかくフォーマットの種類が多い。ただ、知りたい情報は全て同じ」というような種類のものならば、非定型が有効に活躍できます。
 例えば、請求書、レシート、領収書、発注書、納品書、などの帳票がそれにあたるのですが、ジジラのサービスでは一般的でない非定型な帳票の文字読み取りにも個別のエンジン開発で対応していっておりますので、お悩みの企業様はお気軽にご相談ください。