Document Understanding Transformer(Donut) modelはOCR機能を備えたトランスフォーマーベースのモデル。
従来のOCRモデルと比べて手軽に情報を文章を抽出できる。カスタムデータセットでFINETUNINGする際も抽出テキストの座標を知っている必要はないので、比較的簡単にデータセットを作成できる。
出力例:
clovaai/donut
利用例[請求金額抽出]
{'predictions': [{'billdate': '2024/03/20', 'billamount': '9555', 'etd': '2024/04/06', 'previousbillamount': '16658'}]}