AIRead (AI OCR) の機能

AIRead (AI OCR) の機能

AIRead の処理の流れ

AIRead は、以下の流れで帳票のデータ化からシステムへの連携までを行います。

AIRead の OCR 機能

AIRead は、画像データ(PDF, PNG, JPEG, TIFF)に書かれた文字画像を読み取りOCR(データ化)します。
読取精度:
 活字     ~ 99%
 手書き数字  ~ 99%
 手書き日本語 ~ 88.2%※
※AIの文字学習機能により99%まで向上させることが可能です

日本語、英語のほか、中国語(簡体字、繁体字)、タイ語、ベトナム語などの東南アジア圏や、ロシア語などの文字の読み取りが可能です。また、海外(シンガポール)での利用実績もございます。

AIRead ができること

AIReadには、OCRに必要なさまざまな機能があります。

  • AIによる帳票の仕分け
  • 傾き・回転補正
  • 拡大・縮小
  • 色の強調・除去
  • 画像全文の読取
  • 罫線抽出・除去
  • 項目の座標補正
  • ルールでの抽出
  • CSV作成 etc…

また AIRead が読み取った項目名、値、信頼度、座標情報をCSVデータに出力することができます。

AIRead の画像処理機能

回転、傾き補正機能

帳票に合わせて向きや傾きを自動補正します。

回転補正 90 / 180 / 270 度

傾き補正 ± 1 ~ 45 度

色の強調・除去機能

特定の色の除去・強調(色を残す)ができます。

(例)
印影(赤色)のみを除去

帳票の拡大、縮小機能

FAXやスキャナなど、解像度が異なる画像サイズを一致させることができます。

FAXとスキャンした画像で解像度が異なっていても、画像を拡大・縮小しOCRが可能です。

帳票の仕分け機能

画像イメージで帳票仕分けを行います。

あらかじめ登録した画像と比較し、一致する画像に仕分けしOCRを行います。

画像内の文字(キーワード)で帳票仕分けを行います。

画像内の文字(キーワード)をもとに仕分けし、定められた形式のCSVファイルを出力します。

AIRead のOCR機能

フリーピッチ・複数行の手書き文字の読み取り

フリーピッチの手書き文字の読み取りが可能です。

チェックマーク、丸囲みの読み取り

チェックマーク、丸囲みの判断が可能です。
読み取り結果は true / false のほか、任意の文字を出力させることも可能です。

バーコード、QRコードの読み取り

バーコード(NW-7※)、QRコードの読み取りが可能です。

※その他のバーコードにも順次対応予定です

全文OCRでテキスト形式で出力

読み取り位置を指定しなくとも、画像全体から文字を抽出しテキストデータを出力します。

罫線を区切りとしCSV形式で出力

読み取り位置を指定しなくとも、画像の矩形(罫線)をもとにCSVデータを出力します。

画像マッチング、抽出し読み取り

傾いて貼付されたシールの読み取りなどに有効です。

後処理補正機能

読み取り時の誤読結果を自動補正します。
補正データは正規表現で自由に追加・変更が可能です。

AIRead Form Editor

座標指定データ抽出機能

専用のエディタを用いてデータ化したい位置や型を指定します。

データ化したい項目を事前に“座標指定”で定義します。

同一の書式で大量のOCR(データ化)に適しています。

FAXでありがちなOCRの課題に対応する機能を備えています。(天地補正、傾き補正、ノイズ除去、低解像度画像の拡大機能など)

手書き、活字のどちらの読み取りに対応しています。

読取位置ずれの自動調整機能

AIが座標指定の定義と実際の帳票で読取位置のずれが発生したとき自動調整します。

・パターン1
当初の読取位置内に最も多くかかる文字列を読み取むよう位置と大きさを補正します。

・パターン2
当初の読取位置から最も近い矩形を検知し読取位置を補正します。

OCRに向いている帳票種類
見積書、注文書(自社指定書式)、納品書、請求書(自社指定書式)、売上伝票、申込書、申請書、作業報告書(日報、月報)、勤怠管理表、届出書、応募はがき ほか

定型帳票定義 自動生成機能

未記入の帳票と記入済みの帳票を取り込みむことで、定型の帳票定義を自動生成します。

二つの帳票画像の差分、矩形、文字の種類を判定し、読取項目が自動作成されます。

AIRead Rule Editor

ルール指定データ抽出機能

専用のエディタを用いてデータ化したいルールを指定します。

同一種類だがレイアウトが異なる帳票のOCR(読取処理)に適しています。

可変の明細行など、座標では定義しきれない帳票のOCR(読取可能)です。

活字の読み取りを前提としています。

データ自動抽出機能

① 項目名(キーワード)との位置関係を意識した抽出ができます。

② 可変の明細をデータがある分だけ抽出できます。

③ 必須項目を設定することで行の読み飛ばしができます。

OCRに向いている帳票種類
見積書・注文書(相手先書式)、納品書・請求書(相手先書式)、通関書類(Invoice、Packing List、船荷証券(B/L))、決算書(B/S、P/L)、勘定科目内訳明細書、知財関連資料、契約書、覚書など、住民票などの公文書 ほか

AIRead Viewer

スタンドアロン型で利用する場合、専用のビューワ(AIRead Viewer)で実行結果を確認、修正することができます。

Web型で利用する場合、OCR(読取)結果をWebブラウザから閲覧・編集可能です。

閲覧・編集画面の設計機能(AIRead Screen Designer)をオプションでご提供します。

AIRead Train Studio

手書き文字の学習機能

誤読した文字は、その文字画像と正解データを教師データとしAIへ追加学習させることで精度を向上させることができます。
AIRead Train Studio HW(GUI)を用いて、直感的に教師データを追加学習させることが可能です。
※本機能は、手書き画像のみの対応となります
※自動学習を実現するには、閲覧・編集画面と連携し、NG画像と正解データの取得ができる前提です

教師データ自動作成機能

オンプレミス環境で、AI OCR用の教師データを自動作成する機能を提供いたします。
これにより、お客様の環境で継続的な識字率の向上が容易に実現できます。

処理の流れ

  1. AIReadの実行
    AIRead(AI OCR)を実行します。オンプレミス環境下に、読み取り結果が出力されます。
  2. 誤読個所の修正
    読取結果をAIRead Viewerで確認します。誤読のあった個所はAIRead Viewerで修正・保存し、CSVファイルに出力します。
  3. 教師データの自動作成
    修正された箇所の文字画像ファイル、修正後の値が、それぞれ教師データ、正解データとして蓄積されます。修正の都度、オンプレミス環境に教師データが蓄積されていきます。
  4. 追加学習の実行
    蓄積された教師データ、正解データを用いて、追加学習を実行します。学習後に作成されたモデル(AIエンジン)を更新することで、識字率の向上が期待できます。

活字文字の学習機能

書類に頻出する単語(業界専門用語・製品名など)や書類に使用されている特殊なフォントは、AIReadで追加学習することでAIの精度を向上させることができます。
AIRead Train Studio(GUI)で頻出単語やフォントデータを追加学習させることが可能です。
※本機能により単語を学習させることで、別の単語の読取精度が落ちる可能性があります
※本機能は手動での学習のみとなります

動作環境

クライアント実行型
(AIRead Stand-alone)

O SWindows 10 / 11
CPU*12 core(推奨 4 core)以上
メモリ*28 GB(推奨 16 GB)以上
ストレージ50 GB 以上の空き領域
*1 Intel® CPU 第2世代以降Coreプロセッサー(Core i3)以上(AVX2命令セットに対応したCPU)
*2 仮想メモリを含む空き領域

サーバ実行型
(AIRead Standard / Trial / Light / Enterprise)

O SWindows Server 2016 / 2019 / 2022
CPU*12 core(推奨 4 core)以上
メモリ*216 GB(推奨 32 GB)以上
ストレージ100 GB 以上の空き領域
*1 Intel® CPU 第2世代以降Coreプロセッサー(Core i3)以上(AVX2命令セットに対応したCPU)
*2 仮想メモリを含む空き領域

プラットフォーム

オンプレミス / AWS / Azure

入出力ファイル

形式ファイル種類
入力ファイルPDF, JPEG, PNG, TIFF
出力ファイルCSV, XML

AIRead をもっと知りたい