知識獲得メカニズム

How Do Large Language Models Acquire Factual Knowledge During Pretraining?

https://doi.org/10.48550/arXiv.2406.11813

大規模言語モデル(LLM)が事前学習で事実知識をどのように獲得するかについての理解は限られている。研究によれば、より多くのデータでの事前学習は事実知識の獲得に大きな効果がなく、トレーニングステップと知識の忘却にはべき乗則関係があること、重複データで訓練されたモデルは知識を早く忘れること、そして大きなバッチサイズで訓練すると忘却に対する耐性が向上することが分かった。これにより、LLMの知識獲得はステップごとに増加するが忘却によって薄まることが示唆され、long-tail知識のパフォーマンスの低さやデータ重複除去の利点の説明が可能となる。