ローカルLLM(自分専用生成AI)はいかが?(13:日本語チューニングモデル)
読者の皆様こんにちは
今日は我々日本人が日常的に使っている日本語とAIの関わりと成長に関するお話です。
私を含む読者の皆様の大半は日常的に日本語を話し、これまで日本語を母語として育ってきたことでしょう。そのため日本語がおかしいと何も迷うことなく"おかしい"と感じるでしょう。例えば"母語として日本語をこれまで育ってきたでしょう。"なんて文章があれば、単語単位では2文前の文章の後半と同じですが、意味が全く通らないことはお分かりいただけると思います。しかし、LLMのモデルの大半は主に英語に向けて開発されており、日本語に特化されているわけではないのです。これは”言語的として文法が間違っているかどうか”といった次元の話ではなく、言語間での文化のバイアス(例えば英語に敬語は存在しないが、日本語には存在する、など)といった次元で齟齬が生じます。
つまりですね、日本人が日本語でAIを快適に正しく利用しようとすると、英語ベースで作られた性能の良いモデルに対し、日本文化と日本語を叩き込んでやらなければならないわけなのです。そこで今回は、ELYZA社によって、アリババ社が公開している"Qwen2.5-32B-Instruct"に対して日本語追加事前学習と長い試行過程を伴うデータによるSupervised Fine Tuning(SFT)を実行し日本語における論理的思考能力を向上させたモデルである"ELYZA-Thinking-1.0-Qwen-32B(以下ELYZAモデル)"の性能比較の結果についてお伝えしたいと思います。
要するにですね、”英語モデルと日本語学習済みモデルの性能結果の比較について考えてみよーぜ”って話です。内容にはELYZA-Thinking-1.0: MCTS を用いた推論パス探索と模倣学習による Reasoning Model の開発を参照しています。
この記事では同規模のパラーメータを持つ他のモデルと、複数のベンチマークを用いて結果を比較しています。
画像はELYZA-Thinking-1.0: MCTS を用いた推論パス探索と模倣学習による Reasoning Model の開発より引用。
結果はReasoning modelの結果を比較した際、ELYZAモデルは5/6のベンチマーク結果で1番、もしくは2番の成果を出しているというものでした。JHunamEvalのみ本家Qwenよりスコアが下がってしまっていますが、これは学習時に使用した問題セットに十分なコーディングタスクが含まれていないことが原因だったようです。Shortcut modelにおいては深い思考がそこまで必要ではない日本語タスクにおける性能が高いことが明らかになっています。
全体的には学習結果に対する課題などが明らかになっている部分もありますが、日本語に特化した学習を行うことで日本語での回答に関するスコアを伸ばせている点がみられています。我々日本人が快適にAIを利用するためには日本語特化の学習が必要であり、今後もまだまだ続いていくことでしょう。

コメント
コメントはまだありません。