GLM-OCR - 高精度光学的文字認識
GLM-OCRは、複雑なドキュメントの理解を目的としたマルチモーダルOCRモデルであり、GLM-Vエンコーダー–デコーダーアーキテクチャを基盤としています。マルチトークン予測(MTP)損失と、安定した全タスクの強化学習を導入することで、学習効率、認識精度、および汎化性能の向上を実現します。このモデルは、大規模な画像–テキストデータで事前学習されたCogViTの視覚エンコーダー、効率的なトークンのダウンサンプリングを行う軽量なクロスモーダルコネクタ、およびGLM-0.5Bの言語デコーダーを統合しています。PP-DocLayout-V3に基づく、レイアウト分析と並行認識の2段階パイプラインと組み合わせることで、GLM-OCRは、多様なドキュメントレイアウトに対して、堅牢で高品質なOCR性能を実現します。

コメント
コメントはまだありません。