Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

LLM周辺の論説について調べる #12

Closed
coalg opened this issue Mar 22, 2023 · 42 comments
Closed

LLM周辺の論説について調べる #12

coalg opened this issue Mar 22, 2023 · 42 comments
Labels
social News and Social Affairs

Comments

@coalg
Copy link
Owner

coalg commented Mar 22, 2023

GPT-4が労働市場に与える影響と各職種のリスク評価──OpenAIの研究者が論文発表 - ITmedia NEWS

方法は、1016の職業について、職業ごとに測定するタスクを決定し、人間が特定のタスクを実行するのに必要な時間を、GPT-4を使うことで少なくとも50%短縮できるかどうかを調査するというもの。
その結果、プログラミングとテキスト執筆のスキルはLLMの影響を受けやすく、科学的、批判的思考スキルを必要とする職業は影響を受けにくいことが示されたという。
つまり、数学者、ジャーナリスト、翻訳者、作家、Webデザイナー、会計士などは影響を受けやすく、グラフィックデザイナー、SEO担当者、財務管理者などは影響を受けにくい。

2行目と3行目の文章が噛み合っていない(数学を科学と言うのも違う気もするが、数学者は科学的、批判的思考スキルを必要とする職業ではないのか?)。

ただし、研究者たちは、この結果にはいくつか制限があることも認めている。そもそもラベル付けをしたアノテーターは対象とした職業に属しておらず、タスクを単純なラベルで要約することでバイアスが生じた可能性がある。また、GPTがまことしやかな情報をでっち上げたとしてもタスクを実行したとみなした可能性がある。

この行の後段はHallucination(幻覚)のことを述べているが、この現象は制限という言い方で軽く見積もることは出来ないと考える。特に専門職では検証こそが本質的なタスクのため、正確性はその分野におけるAI導入の成否に直結する問題だろう。

ACMの論説を見ていく。

Gary Marcus(専門は認知科学)

AI's Jurassic Park Moment | blog@CACM | Communications of the ACM

幻覚によって誤情報をノーコストで生成できることの脅威を述べているが、幻覚が何故起きるのかについて考えを述べていない。偽情報に対する社会的な懸念について意見が終始している。取るべき対策は1. AI投稿BANする体制を整える 2. 誤情報を名誉毀損と同等の扱いにすべきではないか(訴訟対象とする) 3. humanIDのように人間を認証する仕組みの強化 4. 古典的AI(データベース、知識網、推論)で誤情報を潰す仕組みが作れないか。

特に4.が根本的な対応だが、言わんとするところがやや曖昧である。

Bertrand Meyer (専門はプログラミング言語設計。Eiffelの作者)

What Do ChatGPT and AI-based Automatic Program Generation Mean for the Future of Software

エンジニア界隈では悪口が目立つが、筆者はChatGPT(LLM)はオブジェクト指向プログラミングやワールドワイドウェブの発明に匹敵するものと考えている。

筆者がChatGPTとやり取りした実例を上げて適用限界について論じている。プログラミングに論点を絞っているので誤情報の生成についてはやや楽観的な見方をしているようである(ただ、プログラムではalmost exactは意味がなく深刻な問題を引き起こす可能性があることについては言及している)。これまでの歴史を鑑みても自然言語からプログラムを生成する試みはあったが、このレベルの抽象度から生成を行うツールは当然なかった。プログラミングの風景は一変するだろう。人間はこれから形式仕様などを勉強したらいいのではないか(要件、仕様、検証)。

Gary Marcus and Ernest Davis(専門は認知科学と計算機科学)

Large Language Models like ChatGPT say The Darnedest Things | blog@CACM | Communications of the ACM

LLMの幻覚をあら捜ししているだけで、幻覚が何故起きるかについては考察していない。学者の意見とは思えず読むだけ時間の無駄という感想。

Orit Hazzan(専門は教育(計算機科学))

ChatGPT in Computer Science Education | blog@CACM | Communications of the ACM

ChatGPTはすべての教育システムに激甚な影響を与えると言われている(Nguyen, 2023; Huang, 2023)。計算機科学の専門家育成ワークショップでChatGPTが与える影響についてヒアリングを行った際のレポート。

  • ChatGPTを無視するのは不可能
  • 「取り入れるか否か」ではなく、「どのように取リ入れるか」を考えている段階
  • AIの倫理や哲学、技術職の未来といった社会学的側面について注意を払うべき
  • ChatGPTを使って知識を広げ、ChatGPTの回答を精査することにより情報の正しさ・質・信頼性を判断するスキルを養う、ChatGPTは児童の能力を高めるためのツールであるという見方
  • ChatGPTが応えられる計算機科学の質問であっても、思考スキルとしては人間が学ぶものとして時代遅れのものではない点を強調する計算機科学の宿題をChatGPTに提案させた
  • ChatGPTの回答と生徒自身に考えさせた回答を比較し違いを述べさせる
  • 教師自身のツールとして使う。教材(授業計画、ワークシート、テスト)の作成、反転授業(ChatGPTが解答を作り生徒が説明する)、アクティブラーニングや自己学習の促進など。ChatGPTを組み込むことにより教授法の変化が期待されている。

Vivienne Sze (専門は低消費電力エレクトロニクス)

Why Businesses Must Untether Deep Learning | blog@CACM | Communications of the ACM

AIは滅茶苦茶計算能力が必要になる。GPT-3は1730億パラメータで10^23以上の計算が必要(数百万ドルは掛かっている)。完成したモデルであっても実行には高価なプロセッサのクラスタが必要になる。とにかくローカルで動かすのが大変なため、クラウドでの利用が主流になるだろう。しかしセキュリティや高い即応性が求められるアプリケーションでは、クラウドで扱わずローカルで動かしたい場合がある。

ローカルAIの実現にはハードウェアとソフトウェアの両面の設計を考える必要がある。処理速度だけでなく、発熱と電力消費も考えないといけない。ハードウェアとソフトウェアの両面から最適化を行う必要がある。環境負荷の低いアルゴリズム設計・ハードウェア設計を考えていきたいね。というエッセイ。あんまりChatGPTと関係ない。


以下はOpenAIの研究者とYan LeCunの反応

Hallucinations Could Blunt ChatGPT’s Success - IEEE Spectrum

幻覚の問題を重視した記事。OpenAIのIlya Sutskeverはこれは一時的な現象であり、特にreinforcement learning with human feedback (RLHF)のような手法によって問題は解決するだろうと述べている。対してYann LeCunは幻覚はLLMに内在する根本的な欠陥だと述べている。人間の信念・知識は言語以外の情報によっても構成されるため、言語のみの学習によって非言語的な知識を獲得するのは無理だろうということ。Sutskeverはテキストの中に必要な現実の知識が表現されていると反論しているが、説得力がないと思う。テキストに現実の知識が表現されているかどうかはRLHFの成否に懸かっており今後の評価は不透明だが、前提が薄弱な中embeddingでモデルを正しい単語・文字列・概念に対応付けられると主張しても無駄ではないだろうか。


国内のNLP研究者たちの反応(NLP2023)

@coalg
Copy link
Owner Author

coalg commented Mar 22, 2023

ビル・ゲイツ

The Age of AI has begun

ビル・ゲイツはエンジニアとしての経歴もあるはずだが、この記事は一般読者に寄り添ったやや夢想的な内容を含む。ビジネス生産性・医療・教育・リスクについて広い視点でバランス良く言及している。幻覚の問題は2年以内には解決するのではないか、という楽観的な認識を持っている。

@coalg coalg changed the title 深層学習とLLM周りについて調べる(論説など) LLM周辺の論説について調べる Mar 22, 2023
@coalg
Copy link
Owner Author

coalg commented Mar 22, 2023

GPTの事前学習データが汚染されている、モデル評価がずさんなことを指摘した記事

GPT-4 and professional benchmarks: the wrong answer to the wrong question

  • GPT-4の訓練データは2021/9までのもの
  • Codeforcesのeasy問題は2021年以前のものは10/10で全問正解できているが、(学習データがない)直近の問題を解かせると0/10という成績
  • GPT-4が問題とその正解を覚えているだけではないかという疑惑は、GPT-4にCodeforceの2021以前の問題タイトルを聞くと、問題のURLを返してくることからも濃厚(というか部分的にはクロ。GPT-4はインターネットにアクセスしないので、訓練データの内容を返している)
    • 司法試験についてはCaseTextなどから協力を得て学習しているので、解いたことのない問題に対しても適切な回答を生成している
  • OpenAIのデータコンタミネーションへの対策はイマイチ。事前学習データと評価用データの分離について、評価例の部分文字列を50文字ほど拾い上げて、訓練例との部分一致を確認している。これは評価データが少し変わるだけで別ものと評価されるため、非常に脆い手法といえる。
  • モデルのベンチマークにも濫用が見られる。司法試験や医師試験を突破できるかどうかは尺度として正しくない。これらの職業は専門知識偏重なことが知られており、実践的なスキルを軽視することは言語モデルの得意なタスクを過剰に強調している。
  • 試験でベンチマークを取るのはやめて、現実のタスクをどれだけこなせるか、更に言うと専門家職のタスクについて定性的な研究を行い、どのようにAIの利用が適合すべきかを研究するべき

詳しい経緯は記事著者のTwitterスレッドを参照

@coalg coalg added the social News and Social Affairs label Mar 22, 2023
@coalg
Copy link
Owner Author

coalg commented Mar 22, 2023

GitHub Copilot X: The AI-powered developer experience | The GitHub Blog

ChatGPT-likeなインターフェースの追加、プルリクエストのワークフローとの統合(descriptionのサジェスト)、ドキュメントを学習しての回答生成など。しかし、Naranayan and Kapoor, 2023で指摘されているように、開発者がサジェストされたコードの40%を編集せずそのまま流用している状況では、生産性の向上は限定的になると考えられる。

@coalg
Copy link
Owner Author

coalg commented Mar 23, 2023

Introducing Mozilla.ai: Investing in trustworthy AI

3000万ドル規模のスタートアップ&コミュニティ(OpenAIが100億ドル超えであることを鑑みるとケタが3つ違う)。GoogleやMicrosoftがAI倫理チームを解雇した今、透明性と説明責任を重んじるMozillaの高邁な姿勢には注目すべきものがある。

@coalg
Copy link
Owner Author

coalg commented Mar 23, 2023

[2303.12712] Sparks of Artificial General Intelligence: Early experiments with GPT-4

以下abstractのDeepL訳

人工知能(AI)研究者は、様々な領域やタスクで顕著な能力を発揮する大規模言語モデル(LLM)を開発・改良しており、学習や認知に関する我々の理解に挑戦しています。OpenAIが開発した最新のモデルGPT-4は、前例のない規模の計算機とデータを用いて学習されました。本論文では、GPT-4がまだOpenAIによって活発に開発されていた初期のバージョンを調査した結果について報告する。GPT-4は、ChatGPTやGoogleのPaLMと同様に、従来のAIモデルよりも一般的な知能を持つLLMの新しいコホートの一部であると主張する。これらのモデルの上昇する能力とその意味について議論します。GPT-4は、言語を使いこなすだけでなく、数学、コーディング、視覚、医学、法律、心理学などにまたがる斬新で難しいタスクを、特別な促しを必要とせずに解決できることを実証する。さらに、GPT-4は、これらの課題のすべてにおいて、人間レベルの性能に極めて近く、ChatGPTのような先行モデルをしばしば大きく凌駕しています。このように、GPT-4は、人工知能(AGI)の初期バージョンとして、その能力の広さと深さを評価することができると考えています。GPT-4の探索では、その限界を発見することに特に重点を置き、より深く、より包括的なバージョンのAGIに向けて前進するための課題を議論しています(次の単語予測を超えた新しいパラダイムを追求する必要性もあります)。最後に、今回の技術革新が社会に与える影響と、今後の研究の方向性について考察を行う。

@coalg
Copy link
Owner Author

coalg commented Mar 23, 2023

Cheating is All You Need

SourceGraphのCodyというツールの紹介記事だが、AIアシスタント懐疑派を諭すような内容。AIが80%正しいコードを書くなら人間が残りの20%を手修正に費やすだけで単純計算で生産性は5倍になるだろと言っている(流石に単純計算すぎる…)。LLMは質問の文脈を考慮しないのでSourceGraphで検索クエリから関連するコードを収集してLLMに渡してあげればいい感じに動いてくれるのでは、というのがcheating is all you needの意味。

@coalg
Copy link
Owner Author

coalg commented Mar 24, 2023

ChatGPT Retrieval Plugin

OpenAIからローカルデータを取得するためのプラグインが公開された。

またChatGPT pluginsで外部サービスとの連携が図られている。

ChatGPT Gets Its “Wolfram Superpowers”!—Stephen Wolfram Writings

連携対象のうちWolfram側の記事。これで苦手とされていた算数などが得意になるか。

@coalg
Copy link
Owner Author

coalg commented Mar 26, 2023

Shinichiro Hamaji (プログラマ)

LLM に思ったこと(2023-03-26)

結局、論理というか、「確実に正しいものを積んでいって非自明なものを生む」というプロセスの不在が気にいらないんだよな。自然科学って基本的に、なんか世界に対する観測事実があって、それをモデル化して、そこから演繹してくと色々便利です、という話だと思うんだけど、計算機科学は、モデル化あたりまで人間が勝手にできる、つまり世界を好き勝手に作れるところが魅力だと思ってたのだけど、今 AI と呼ばれている、帰納的な AI はそれがないんだよな。「AI が何故こんなに賢いのか?」を人間が考えないといけないというのは、まさに自然科学ぽい

@coalg
Copy link
Owner Author

coalg commented Mar 26, 2023

@coalg
Copy link
Owner Author

coalg commented Mar 28, 2023

大規模言語モデルの驚異と脅威 - Speaker Deck

技術観点でここ数ヶ月の動きがよくまとまっている。hallucination、バイアスの改善については取り組みがある程度のことは触れているが、見解は述べていない。

@coalg
Copy link
Owner Author

coalg commented Apr 3, 2023

Samuel R. Bowman(専門はNLP、計算機言語学、言語モデルなど)

@coalg
Copy link
Owner Author

coalg commented Apr 4, 2023

@coalg
Copy link
Owner Author

coalg commented Apr 10, 2023

抜粋

While some of our training data includes personal information that is available on the public internet, we want our models to learn about the world, not private individuals. So we work to remove personal information from the training dataset where feasible, fine-tune models to reject requests for personal information of private individuals, and respond to requests from individuals to delete their personal information from our systems. These steps minimize the possibility that our models might generate responses that include the personal information of private individuals.

DeepL訳

トレーニングデータの中には、インターネット上で公開されている個人情報も含まれていますが、私たちは、モデルが個人ではなく、世界について学ぶことを望んでいます。そのため、可能な限りトレーニングデータセットから個人情報を削除し、個人の個人情報に対するリクエストを拒否するようにモデルを微調整し、個人からの個人情報の削除リクエストに対応するようにしています。このような取り組みにより、個人情報を含む回答をモデルが生成する可能性を最小限に抑えています。

講評

これって省略された発言を埋めるとこういう意味だよね?

可能な限りトレーニングデータセットから個人情報を削除し、 (削除できなかった場合は、学習済のモデルから個人情報を簡単に削除できないので) 個人の個人情報に対するリクエストを拒否するようにモデルを微調整し、(実質的にアクセスできなくすることで) 個人からの個人情報の削除リクエストに対応するようにしています (Jailbreakingに対応できるとは言っていない)

@coalg
Copy link
Owner Author

coalg commented Apr 10, 2023

これは論説ではないがよく出来たオモチャなのでメモっておこう…

@coalg
Copy link
Owner Author

coalg commented Apr 16, 2023

特に何かが読み解けるとは思えないが…

@coalg
Copy link
Owner Author

coalg commented Apr 18, 2023

Sparks of AGIの著者講演

Sparks of AGI: early experiments with GPT-4 - YouTube

@coalg
Copy link
Owner Author

coalg commented Apr 18, 2023

@coalg
Copy link
Owner Author

coalg commented Apr 18, 2023

カテライ・アメリア、井出和希、岸本充生(大阪大学ELSIセンター)

【pdf】生成的AI(Generative AI)の倫理的・法的・社会的課題(ELSI)論点の概観

@coalg
Copy link
Owner Author

coalg commented Apr 26, 2023

François Chollet(Keras作者、Googleの深層学習エンジニア)

https://twitter.com/fchollet/status/1646955558946344960
https://twitter.com/fchollet/status/1646955564893868032

Really striking how every AI hype tweet is explicitly trying to induce FOMO. "You're getting left behind. All your competitors are using this. Everyone else is making more money than you. Everyone else is more productive. If you're not using the latest XYZ you're missing out."
The only rational move is to ignore all such pronouncements, much like you should have ignored all such pronouncements in 2021 and 2022.
News worth paying attention to is not deliberately formulated to induce strong (negative) emotional responses.

DeepL訳

AIの宣伝ツイートはすべて、FOMOを誘発するような内容になっているのがとても印象的です。"あなたは取り残される。競合他社はみんなこれを使っている。他のみんなは、あなたよりお金を稼いでいる。他のみんなはもっと生産性が高い。最新のXYZを使ってないなら、あなたは損をしている。"
唯一の合理的な動きは、2021年と2022年にそのような発表をすべて無視すべきだったように、そのような発表をすべて無視することです。
注目すべきニュースは、強い(ネガティブな)感情的反応を誘発するために意図的に作られたものではありません。

以下も

https://twitter.com/fchollet/status/1649135297194754048

Ten years ago, "AGI" was a philosophical and scientific concept. Today, it's a marketing term. And still no progress on the actual goal.
(Do note: "no progress towards AGI" doesn't mean "no progress in AI capabilities" -- there's been great progress in AI capabilities. But infinitesimal progress on the problem of general intelligence.)

I see many folks in the replies asking for a definition of intelligence. Yes, it is 100% necessary to rigorously define intelligence before you can judge AGI progress or lack thereof.
Here's the one I've been using: https://arxiv.org/abs/1911.01547
Under this definition, ~0 progress.

DeepL訳(ちょっとだけ手直し)

10年前、「AGI」は哲学的・科学的な概念でした。今日では、マーケティング用語になっている。そして、実際の目標にはまだ何の進展もない。
(注意:「AGIへの進歩がない」というのは「AI能力の進歩がない」という意味ではなく、AI能力には大きな進歩があったのです。しかし、一般知能の問題については、ほとんど進展がない)
返信欄には、「知性の定義」を求める声が多く寄せられていますね。そうですね、AGIの進歩や不足を判断する前に、知性を厳密に定義することが100%必要です。
私が使っている定義はこちらです: https://arxiv.org/abs/1911.01547
この定義のもとでは、進展はゼロに近いです。

@coalg
Copy link
Owner Author

coalg commented Apr 30, 2023

Yoav Goldberg (専門は自然言語処理と機械学習)

Some remarks on Large Language Models

@coalg
Copy link
Owner Author

coalg commented May 21, 2023

@coalg
Copy link
Owner Author

coalg commented Jun 3, 2023

@coalg
Copy link
Owner Author

coalg commented Jun 27, 2023

@coalg coalg closed this as completed Jul 21, 2023
@coalg
Copy link
Owner Author

coalg commented Aug 18, 2023

@coalg
Copy link
Owner Author

coalg commented Aug 23, 2023

@coalg
Copy link
Owner Author

coalg commented Sep 27, 2023

「AIが人類を支配したら?」が現実味を帯びてきた件 加速する“AIアライメント”議論の現在地(1/4 ページ) - ITmedia NEWS

山川と金井は研究者であるにも関わらず現状の理解度が低い(上述のKeras作者の発言を見れば分かるように、昔は「AGIは作れませんと言われていた」の次に「できちゃうけど~」は単純に偽。我々はまだAGIを何か知らない)。「マーケティング用語」としてのAGIについて語っているのだろう。

@coalg
Copy link
Owner Author

coalg commented Oct 1, 2023

Navigating the Jagged Technological Frontier | Digital Data Design Institute at Harvard

ChatGPT 4がコンサルの生産性に与えた影響についての研究。key findingsのDL訳は以下の通り。

  • AIフロンティア内のタスクにおいて、ChatGPT-4はパフォーマンスを大幅に向上させ、速度を25%以上、人間評価のパフォーマンスを40%以上、タスク完了を12%以上向上させた。
  • この研究では「凸凹の技術的フロンティア」という概念が導入されており、AIはあるタスクでは優れているが、他のタスクでは劣っている。
  • AIの利用には2つのパターンがある: 「ケンタウロス」は、自分自身とAIの間でタスクを分担し委任するタイプで、「サイボーグ」は、ワークフローをAIと統合するタイプである。

@coalg
Copy link
Owner Author

coalg commented Oct 26, 2023

SFの世界がやってくる?“神のようなAI”が生まれる日 | NHK | ビジネス特集 | 生成AI・人工知能

Gary Marcusに規制論のコメントを取りに行っている。若干引く…

@coalg
Copy link
Owner Author

coalg commented Nov 1, 2023

The architecture of today's LLM applications - The GitHub Blog

活用例(DeepL訳)。

  • NASAとIBMは最近、NASAの地球科学データへのアクセスを増やすために、最大の地理空間AIモデルをオープンソース化した。気候の影響の発見と理解を加速させることが期待されている。
  • ジョンズ・ホプキンス応用物理学研究所が、現場で訓練を受けていない兵士に、確立された治療手順に基づいた医療ガイダンスを平易な英語で提供する会話型AIエージェントをどのように設計しているかをお読みください。
  • DuolingoMercado Libreのような企業は、GitHub Copilotを利用して、より多くの人々が他の言語を(無料で)学ぶのを支援し、ラテンアメリカにおける電子商取引を民主化しようとしている。

@coalg
Copy link
Owner Author

coalg commented Nov 9, 2023

Measuring Hallucinations in RAG Systems - Vectara

LLMの幻覚を見ている度合いを測定する手法。取り扱い注意。

@coalg
Copy link
Owner Author

coalg commented Nov 9, 2023

GitHub、Copilotの将来像となる「Copilot Workspace」発表。人間がコードを書くことなく、Copilotが仕様作成からコード作成、デバッグまで実行。GitHub Universe 2023 - Publickey

GitHub、コードの脆弱性を発見後、修正コードまで自動生成してくれる「Code scanning autofix 」発表。GitHub Universe 2023 - Publickey

GitHubはユーザーにコードを書かせない方向の製品を売るよう舵を切ったようだ。当然コードの生成精度はメジャー言語でしか上がらないため、PythonやJavaScriptなどのヘゲモニーを強化する選択をしたとも言える。

@coalg
Copy link
Owner Author

coalg commented Nov 27, 2023

生成AI指針、罰則盛らず 政府、開発・利用を促進:時事ドットコム

経済産業相は「一律の規制ではなく、イノベーションの促進と規律のバランス確保が重要だ」と強調。有識者からも「事業者にとって使い勝手が良く、実効性も確保できる指針の在り方について検討を深めるべきだ」との意見が相次いだ。

@coalg
Copy link
Owner Author

coalg commented Dec 16, 2023

@coalg
Copy link
Owner Author

coalg commented Feb 12, 2024

@coalg
Copy link
Owner Author

coalg commented Jun 1, 2024

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
social News and Social Affairs
Projects
None yet
Development

No branches or pull requests

1 participant