Galactica: A Large Language Model for Science #9

shnakazawa · 2022-12-05T01:44:44Z

Taylor, Ross, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. 2022. “Galactica: A Large Language Model for Science.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2211.09085.

Metaのチームが2022年に発表した仕事
自然言語での入力として渡された内容に対して、文献や数式を引用しながら科学論文（のようなもの）や解説文を自動で生成
文章の生成のみならず、化学式やタンパク質配列の検索・推論など、マルチモーダルなタスクを実行できる
タンパク質配列に自然言語で注釈を付けて入力とすると、その機能キーワードの予測ができるなど、モダリティをまたがったタスクも可能

言語モデルが方程式や化学反応などの専門知識をある程度吸収できているのが個人的には一番の驚き。精度が上がれば知識の集積に加えてその活用部分でもGalacticaによる貢献は大きいと考えられ、科学者の仕事の仕方は大きく変わりそう。

一方、多くの指標でSoTA達成といえど、アウトプットされた内容には多くの間違いを含み、実用に耐えうる精度ではない。この点を理解した上で本論文の貢献を議論し、モデルを使う・出力を見る必要がある。

Abstract

Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2％ versus 49.0％. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3％ to 35.7％, and PaLM 540B on MATH with a score of 20.4％ versus 8.8％. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6％ and 52.9％. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community1.

(DeepL翻訳)

情報の過多は、科学の進歩の大きな障害となっている。科学文献やデータの爆発的な増加により、大量の情報の中から有用な知見を発見することがますます困難になっている。今日、科学的知識は検索エンジンによってアクセスされるが、検索エンジンだけでは科学的知識を整理することはできない。本論文では、Galacticaを紹介する：科学的知識を保存、結合、推論することができる大規模言語モデルである。我々は、論文、参考資料、知識ベース、その他多くのソースからなる大規模な科学コーパスで学習を行う。我々は、様々な科学的タスクにおいて、既存のモデルを凌駕する性能を発揮する。LaTeX方程式などの技術的な知識に関するプローブでは、最新のGPT-3に対して68.2%対49.0%という高い性能を示しました。推論についても、数学的MMLUでChinchillaを41.3％対35.7％、MATHでPaLM 540Bを20.4％対8.8％と上回り、高い性能を発揮しました。また、PubMedQAやMedMCQAなどの下流タスクにおいても、それぞれ77.6％、52.9％のスコアを獲得し、最新鋭の技術を確立しています。また、Galacticaは一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175Bを上回る性能を発揮しています。これらの結果は、科学の新しいインターフェースとしての言語モデルの可能性を示していると考えています。我々は、科学コミュニティの利益のために、このモデルをオープンソース化します1。

コード

https://galactica.org/
- 2022/11/18 (公開から3日後)に、「出力結果に間違いが多い」ということでデモが非公開に (残された課題・議論項参照)
https://github.com/paperswithcode/galai

解決した課題/先行研究との比較

科学的知識へのアクセスは保存（論文やデータベース化）と検索のパラダイムが主流であった
しかしながら、最近の科学的知識の集積速度は一人の人間が処理できる速度を有に超えている
- 例えば、arXivには1日あたり平均516報の投稿があった (2022/5集計)
知識の集積は人が総説論文を書いたり、記事にまとめたり、データベースにアノテーションを付けたりといったことをしている = 人手による作業が知識の集積のボトルネック
本論文はGalactica (GAL) という大規模言語モデルを開発し、科学的知識の自動集積を試みた
- 総説、百科事典の記事、講義ノートなどといった「知識の集積」を自動的に生成できる！
- 論文とコード、タンパク質配列と化合物、理論とLaTeXなど、複数のモダリティにまたがった出力ができる！

技術・手法のポイント

モデルのアーキテクチャはデコーダのみのTransformerをベースにしている。 (本文4.1 Architecture項参照)
モデルのパラメータ数は最大のもので1200億
- GPT-3より少ない
4800万件の論文、コード、教科書、講義ノート、数百万件の化合物・タンパク質データ、科学ウェブサイト、百科事典などといった「科学的知識データ」で学習
- = ある程度クオリティコントロールされたデータのみを学習に使っている
こうしたデータにタスク固有のトークンと引用を示すトークンをつける
- 例えばタンパク質については Fig.1
- 1行1行計算を進めていくような課題は、ワーキングメモリを意味するトークンで包む。例が Fig.3
  - これにより「自然言語の問題文から数式・コードを作る方法」を学習
また、事前学習の段階でデータにプロンプト (指示文) も含めて学習させた
- 事前学習データの補強
- 質疑応答や要約のような一般的なタスクをモデルのユーザーがすぐに (Fine-tuningの手間を少なく) 実行できるように
- タスクのパフォーマンスを向上
  - プロンプトのチューニング (Wei et al., 2021；Sanh et al., 2021；Chung et al., 2022) や質疑応答文章の学習 (Khashabi et al., 2020)が性能を高めることは知られていた

評価指標

一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175B ( Zhang et al., 2022)を上回る性能を発揮
数学的MMLUにおいて、平均スコア41.3％対35.7％でChinchilla (Hoffmann et al., 2022) を上回った
MATHでは、120BモデルがPaLM 540B (Chowdhery et al., 2022) の8.8％に対し、20.4％のスコアを達成
- また、Galacticaはパラメータ数300億で、PaLM (パラメータ数5400億) よりも優れたスコアを示した
LaTeXの数式処理では、GPT-3 (Brown et al., 2020) の49.0%に対し、Galacticaは68.2%のスコアを達成
PubMedQA (77.6％) やMedMCQA dev (52.9％) などの下流の科学的タスクでもSoTAを達成した
- 他の指標ではChinchillaに負けているもの多し
化学式の命名法則IUPACの学習もできた (と書いているが Accuracy 39%)
タンパクの配列予測や機能キーワードの推論でもある程度の精度を示した

上記はSoTAレベルに到達したものの話。他にも様々な課題に取り組まれており、例えばチェスをしたりもしている。

残された課題・議論

データセットの偏り
- 論文はオープンアクセスのものしか参照していない
- 分子やタンパクなどもある閾値で集めるデータを絞っている
- (人為的に偏った) 学習データの集め方が原因で、出力結果にも偏りがあるかもしれない
アウトプットされた内容にはかなり間違いを含む。一方、その形は非常に「それっぽい」ので、読む側が正しい知識を持っていないと簡単に騙されそう。
- 「嘘を嘘と見抜けない人には難しい」がさらに難易度を上げてやってきた感じ。
- 実際の利用シーンとしては「知らないこと」を調べるために使いたいので、この課題は今後の解決が強く待たれる。
- すでに色々と物議を醸している
- 科学的知識の正しさを定量的に評価する指標がないというのも、この論文を通して明確になった課題かもしれない。

技術的には、こうした実装でこれだけの知識を集約でき、これだけのものが生成できる事実がとてもおもしろく、意義深いものであるのは間違いない。
一方で、非常にキャッチーな技術であるだけに、デモの一般公開 + 今回の喧伝の仕方は少し勇み足だったのかもしれない。

重要な引用

2 Related Work の項目で、本論文でGalacticaが取り組んだ各タスクでどのようなアプローチがこれまで取られてきたかが列挙されている。
「計算機による科学的知識の集積のサポート」というアイデアを出した古い記事
- Bush, Vannevar. 1945. “As We May Think.” Atlantic Monthly 176 (July): 101–8.
- Licklider, J. C. R. 1960. “Man-Computer Symbiosis.” IRE Transactions on Human Factors in Electronics HFE-1 (1): 4–11.
プロンプトを事前学習に含めるというアイデアの由来
- Wei, Jason, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2021. “Finetuned Language Models Are Zero-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2109.01652.
- Sanh, Victor, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, et al. 2021. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2110.08207.
- Chung, Hyung Won, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, et al. 2022. “Scaling Instruction-Finetuned Language Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2210.11416.
- Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. 2020. “UnifiedQA: Crossing Format Boundaries With a Single QA System.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2005.00700.
ライバルモデル
- BLOOM
- OPT-175B
  - Zhang, Susan, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, et al. 2022. “OPT: Open Pre-Trained Transformer Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2205.01068.
- Chinchilla
  - Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, et al. 2022. “Training Compute-Optimal Large Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2203.15556.
- PaLM 540B
  - Chowdhery, Aakanksha, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, et al. 2022. “PaLM: Scaling Language Modeling with Pathways.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2204.02311.
- GPT-3
  - Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Galactica: A Large Language Model for Science #9

Galactica: A Large Language Model for Science #9

shnakazawa commented Dec 5, 2022

Galactica: A Large Language Model for Science #9

Galactica: A Large Language Model for Science #9

Comments

shnakazawa commented Dec 5, 2022

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

関連する仕事