Document Understanding Transformer(Donut) modelはOCR機能を備えたトランスフォーマーベースのモデル。 従来のOCRモデルと比べて手軽に情報を文章を抽出できる。カスタムデータセットでFINETUNINGする際も抽出テキストの座標を知っている必要はないので、比較的簡単にデータセットを作成できる。
出力例:
{'predictions': [{'billdate': '2024/03/20', 'billamount': '9555', 'etd': '2024/04/06', 'previousbillamount': '16658'}]}
clovaai/donut 利用例[請求金額抽出]