Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Galactica: A Large Language Model for Science #9

Open
shnakazawa opened this issue Dec 5, 2022 · 0 comments
Open

Galactica: A Large Language Model for Science #9

shnakazawa opened this issue Dec 5, 2022 · 0 comments
Labels
Natural language processing Papers related to NLP Transformer Papers using transformer

Comments

@shnakazawa
Copy link
Contributor

Taylor, Ross, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. 2022. “Galactica: A Large Language Model for Science.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2211.09085.

  • Metaのチームが2022年に発表した仕事
  • 自然言語での入力として渡された内容に対して、文献や数式を引用しながら科学論文(のようなもの)や解説文を自動で生成
  • 文章の生成のみならず、化学式やタンパク質配列の検索・推論など、マルチモーダルなタスクを実行できる
  • タンパク質配列に自然言語で注釈を付けて入力とすると、その機能キーワードの予測ができるなど、モダリティをまたがったタスクも可能

言語モデルが方程式や化学反応などの専門知識をある程度吸収できているのが個人的には一番の驚き。精度が上がれば知識の集積に加えてその活用部分でもGalacticaによる貢献は大きいと考えられ、科学者の仕事の仕方は大きく変わりそう。

一方、多くの指標でSoTA達成といえど、アウトプットされた内容には多くの間違いを含み、実用に耐えうる精度ではない。この点を理解した上で本論文の貢献を議論し、モデルを使う・出力を見る必要がある。

Image from Gyazo

Abstract

Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2% versus 49.0%. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3% to 35.7%, and PaLM 540B on MATH with a score of 20.4% versus 8.8%. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6% and 52.9%. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community1.

(DeepL翻訳)

情報の過多は、科学の進歩の大きな障害となっている。科学文献やデータの爆発的な増加により、大量の情報の中から有用な知見を発見することがますます困難になっている。今日、科学的知識は検索エンジンによってアクセスされるが、検索エンジンだけでは科学的知識を整理することはできない。本論文では、Galacticaを紹介する:科学的知識を保存、結合、推論することができる大規模言語モデルである。我々は、論文、参考資料、知識ベース、その他多くのソースからなる大規模な科学コーパスで学習を行う。我々は、様々な科学的タスクにおいて、既存のモデルを凌駕する性能を発揮する。LaTeX方程式などの技術的な知識に関するプローブでは、最新のGPT-3に対して68.2%対49.0%という高い性能を示しました。推論についても、数学的MMLUでChinchillaを41.3%対35.7%、MATHでPaLM 540Bを20.4%対8.8%と上回り、高い性能を発揮しました。また、PubMedQAやMedMCQAなどの下流タスクにおいても、それぞれ77.6%、52.9%のスコアを獲得し、最新鋭の技術を確立しています。また、Galacticaは一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175Bを上回る性能を発揮しています。これらの結果は、科学の新しいインターフェースとしての言語モデルの可能性を示していると考えています。我々は、科学コミュニティの利益のために、このモデルをオープンソース化します1。

コード

解決した課題/先行研究との比較

  • 科学的知識へのアクセスは保存(論文やデータベース化)と検索のパラダイムが主流であった
  • しかしながら、最近の科学的知識の集積速度は一人の人間が処理できる速度を有に超えている
    • 例えば、arXivには1日あたり平均516報の投稿があった (2022/5集計)
  • 知識の集積は人が総説論文を書いたり、記事にまとめたり、データベースにアノテーションを付けたりといったことをしている = 人手による作業が知識の集積のボトルネック
  • 本論文はGalactica (GAL) という大規模言語モデルを開発し、科学的知識の自動集積を試みた
    • 総説、百科事典の記事、講義ノートなどといった「知識の集積」を自動的に生成できる!
    • 論文とコード、タンパク質配列と化合物、理論とLaTeXなど、複数のモダリティにまたがった出力ができる!

技術・手法のポイント

  • モデルのアーキテクチャはデコーダのみのTransformerをベースにしている。 (本文4.1 Architecture項参照)

  • モデルのパラメータ数は最大のもので1200億

    • GPT-3より少ない
  • 4800万件の論文、コード、教科書、講義ノート、数百万件の化合物・タンパク質データ、科学ウェブサイト、百科事典などといった「科学的知識データ」で学習

    • = ある程度クオリティコントロールされたデータのみを学習に使っている
  • こうしたデータにタスク固有のトークンと引用を示すトークンをつける

    • 例えばタンパク質については Fig.1
      Image from Gyazo

    • 1行1行計算を進めていくような課題は、ワーキングメモリを意味するトークンで包む。例が Fig.3

      • これにより「自然言語の問題文から数式・コードを作る方法」を学習
        Image from Gyazo
  • また、事前学習の段階でデータにプロンプト (指示文) も含めて学習させた

    • 事前学習データの補強
    • 質疑応答や要約のような一般的なタスクをモデルのユーザーがすぐに (Fine-tuningの手間を少なく) 実行できるように
    • タスクのパフォーマンスを向上
      • プロンプトのチューニング (Wei et al., 2021;Sanh et al., 2021;Chung et al., 2022) や質疑応答文章の学習 (Khashabi et al., 2020)が性能を高めることは知られていた

評価指標

  • 一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175B ( Zhang et al., 2022)を上回る性能を発揮
  • 数学的MMLUにおいて、平均スコア41.3%対35.7%でChinchilla (Hoffmann et al., 2022) を上回った
  • MATHでは、120BモデルがPaLM 540B (Chowdhery et al., 2022) の8.8%に対し、20.4%のスコアを達成
    • また、Galacticaはパラメータ数300億で、PaLM (パラメータ数5400億) よりも優れたスコアを示した
  • LaTeXの数式処理では、GPT-3 (Brown et al., 2020) の49.0%に対し、Galacticaは68.2%のスコアを達成
  • PubMedQA (77.6%) やMedMCQA dev (52.9%) などの下流の科学的タスクでもSoTAを達成した
    • 他の指標ではChinchillaに負けているもの多し
  • 化学式の命名法則IUPACの学習もできた (と書いているが Accuracy 39%)
  • タンパクの配列予測や機能キーワードの推論でもある程度の精度を示した

上記はSoTAレベルに到達したものの話。他にも様々な課題に取り組まれており、例えばチェスをしたりもしている。

残された課題・議論

技術的には、こうした実装でこれだけの知識を集約でき、これだけのものが生成できる事実がとてもおもしろく、意義深いものであるのは間違いない。
一方で、非常にキャッチーな技術であるだけに、デモの一般公開 + 今回の喧伝の仕方は少し勇み足だったのかもしれない。

重要な引用

  • 2 Related Work の項目で、本論文でGalacticaが取り組んだ各タスクでどのようなアプローチがこれまで取られてきたかが列挙されている。
  • 「計算機による科学的知識の集積のサポート」というアイデアを出した古い記事
    • Bush, Vannevar. 1945. “As We May Think.” Atlantic Monthly 176 (July): 101–8.
    • Licklider, J. C. R. 1960. “Man-Computer Symbiosis.” IRE Transactions on Human Factors in Electronics HFE-1 (1): 4–11.
  • プロンプトを事前学習に含めるというアイデアの由来
    • Wei, Jason, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2021. “Finetuned Language Models Are Zero-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2109.01652.
    • Sanh, Victor, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, et al. 2021. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2110.08207.
    • Chung, Hyung Won, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, et al. 2022. “Scaling Instruction-Finetuned Language Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2210.11416.
    • Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. 2020. “UnifiedQA: Crossing Format Boundaries With a Single QA System.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2005.00700.
  • ライバルモデル
    • BLOOM
    • OPT-175B
      • Zhang, Susan, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, et al. 2022. “OPT: Open Pre-Trained Transformer Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2205.01068.
    • Chinchilla
      • Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, et al. 2022. “Training Compute-Optimal Large Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2203.15556.
    • PaLM 540B
      • Chowdhery, Aakanksha, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, et al. 2022. “PaLM: Scaling Language Modeling with Pathways.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2204.02311.
    • GPT-3

関連する仕事

  • Elicit : 自然言語による論文の検索 (GPT-3ベース)
  • Connected papers : 関連度を基準とした論文の検索

などのML使った論文検索サービスと組み合わさると、(それぞれの強みが異なるので) 知識の整理がより簡単にできるようになりそう。

2022年11月30日にOpenAIよりChatGPTというサービスが公開された。これはGPT-3をベースとしているらしく、テキストで投げかけた話題に会話形式で応答してくれる。日本語にも対応。
驚くような質の高い会話ができることもある一方で、頓珍漢な回答をしてくることもある。この課題はGalacticaと共通。

GPT-4が2022年12月〜2023年2月頃に公開予定という情報がある。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Natural language processing Papers related to NLP Transformer Papers using transformer
Projects
None yet
Development

No branches or pull requests

1 participant