# 第5章: 大規模言語モデル

この章では、大規模言語モデル (LLM; Large Language Model) の利用し、様々なタスクに取り組む。大規模言語モデルをプログラムからAPI経由で呼び出すことを想定しており、そのAPIの利用で費用が発生する可能性があることに留意せよ。

In [1]:
from google.colab import userdata
import google.generativeai as genai

GOOGLE_API_KEY = userdata.get("GOOGLE_API_KEY")
genai.configure(api_key=GOOGLE_API_KEY)


## 40. Zero-Shot推論

以下の問題の解答を作成せよ。ただし、解答生成はzero-shot推論とせよ。

```
9世紀に活躍した人物に関係するできごとについて述べた次のア～ウを年代の古い順に正しく並べよ。

ア　藤原時平は，策謀を用いて菅原道真を政界から追放した。
イ　嵯峨天皇は，藤原冬嗣らを蔵人頭に任命した。
ウ　藤原良房は，承和の変後，藤原氏の中での北家の優位を確立した。
```

出典: [令和5年度第1回高等学校卒業程度認定試験問題](https://www.mext.go.jp/a_menu/koutou/shiken/kakomon/1411255_00010.htm) [日本史AB 問題](https://www.mext.go.jp/content/20240523-mxt_syogai02-mext_000031286_03nihonshi.pdf) 日本史B 1 問3

In [2]:
model = genai.GenerativeModel("gemini-1.5-flash")
question = "9世紀に活躍した人物に関係するできごとについて述べた次のア～ウを年代の古い順に正しく並べよ。\n\nア　藤原時平は，策謀を用いて菅原道真を政界から追放した。\nイ　嵯峨天皇は，藤原冬嗣らを蔵人頭に任命した。\nウ　藤原良房は，承和の変後，藤原氏の中での北家の優位を確立した。"
response = model.generate_content(question)
print(response.text)

これらの出来事を年代順に並べると以下のようになります。

1. **イ　嵯峨天皇は，藤原冬嗣らを蔵人頭に任命した。**  嵯峨天皇の治世は809年から823年。藤原冬嗣は810年頃に蔵人頭に任命されています。

2. **ウ　藤原良房は，承和の変後，藤原氏の中での北家の優位を確立した。** 承和の変は842年。その後の混乱の中で藤原良房が権勢を伸ばし、北家の優位を確立しました。

3. **ア　藤原時平は，策謀を用いて菅原道真を政界から追放した。** 菅原道真の左遷は894年。

したがって、年代順はイ→ウ→アとなります。



## 41. Few-Shot推論

以下の問題と解答を与え、問題40で示した質問の解答をfew-shot推論（この場合は4-shot推論）で生成せよ。

```
日本の近代化に関連するできごとについて述べた次のア～ウを年代の古い順に正しく並べよ。

ア　府知事・県令からなる地方官会議が設置された。
イ　廃藩置県が実施され，中央から府知事・県令が派遣される体制になった。
ウ　すべての藩主が，天皇に領地と領民を返還した。

解答: ウ→イ→ア
```

出典: [令和5年度第1回高等学校卒業程度認定試験問題](https://www.mext.go.jp/a_menu/koutou/shiken/kakomon/1411255_00010.htm) [日本史AB 問題](https://www.mext.go.jp/content/20240523-mxt_syogai02-mext_000031286_03nihonshi.pdf) 日本史A 1 問8


```
江戸幕府の北方での対外的な緊張について述べた次の文ア～ウを年代の古い順に正しく並べよ。

ア　レザノフが長崎に来航したが，幕府が冷淡な対応をしたため，ロシア船が樺太や択捉島を攻撃した。
イ　ゴローウニンが国後島に上陸し，幕府の役人に捕らえられ抑留された。
ウ　ラクスマンが根室に来航し，漂流民を届けるとともに通商を求めた。

解答: ウ→ア→イ
```

出典: [令和5年度第1回高等学校卒業程度認定試験問題](https://www.mext.go.jp/a_menu/koutou/shiken/kakomon/1411255_00010.htm) [日本史AB 問題](https://www.mext.go.jp/content/20240523-mxt_syogai02-mext_000031286_03nihonshi.pdf) 日本史B 3 問3

```
中居屋重兵衛の生涯の期間におこったできごとについて述べた次のア～ウを，年代の古い順に正しく並べよ。

ア　アヘン戦争がおこり，清がイギリスに敗北した。
イ　異国船打払令が出され，外国船を撃退することが命じられた。
ウ　桜田門外の変がおこり，大老の井伊直弼が暗殺された。

解答: イ→ア→ウ
```

出典: [令和4年度第1回高等学校卒業程度認定試験問題](https://www.mext.go.jp/a_menu/koutou/shiken/kakomon/1411255_00007.htm) [日本史 問題](https://www.mext.go.jp/content/20240513-mxt_syogai02-mext_00002452_03nihonshi.pdf) 日本史A 1 問1


```
加藤高明が外務大臣として提言を行ってから、内閣総理大臣となり演説を行うまでの時期のできごとについて述べた次のア～ウを，年代の古い順に正しく並べよ。

ア　朝鮮半島において，独立を求める大衆運動である三・一独立運動が展開された。
イ　関東大震災後の混乱のなかで，朝鮮人や中国人に対する殺傷事件がおきた。
ウ　日本政府が，袁世凱政府に対して二十一カ条の要求を突き付けた。

解答: ウ→ア→イ
```

出典: [令和4年度第1回高等学校卒業程度認定試験問題](https://www.mext.go.jp/a_menu/koutou/shiken/kakomon/1411255_00007.htm) [日本史 問題](https://www.mext.go.jp/content/20240513-mxt_syogai02-mext_00002452_03nihonshi.pdf) 日本史A 2 問4


In [3]:
shot1 = "日本の近代化に関連するできごとについて述べた次のア～ウを年代の古い順に正しく並べよ。\n\nア　府知事・県令からなる地方官会議が設置された。\nイ　廃藩置県が実施され，中央から府知事・県令が派遣される体制になった。\nウ　すべての藩主が，天皇に領地と領民を返還した。\n\n解答: ウ→イ→ア"
shot2 = "江戸幕府の北方での対外的な緊張について述べた次の文ア～ウを年代の古い順に正しく並べよ。\n\nア　レザノフが長崎に来航したが，幕府が冷淡な対応をしたため，ロシア船が樺太や択捉島を攻撃した。\nイ　ゴローウニンが国後島に上陸し，幕府の役人に捕らえられ抑留された。\nウ　ラクスマンが根室に来航し，漂流民を届けるとともに通商を求めた。\n\n解答: ウ→ア→イ"
shot3 = "中居屋重兵衛の生涯の期間におこったできごとについて述べた次のア～ウを，年代の古い順に正しく並べよ。\n\nア　アヘン戦争がおこり，清がイギリスに敗北した。\nイ　異国船打払令が出され，外国船を撃退することが命じられた。\nウ　桜田門外の変がおこり，大老の井伊直弼が暗殺された。\n\n解答: イ→ア→ウ"
shot4 = "加藤高明が外務大臣として提言を行ってから、内閣総理大臣となり演説を行うまでの時期のできごとについて述べた次のア～ウを，年代の古い順に正しく並べよ。\n\nア　朝鮮半島において，独立を求める大衆運動である三・一独立運動が展開された。\nイ　関東大震災後の混乱のなかで，朝鮮人や中国人に対する殺傷事件がおきた。\nウ　日本政府が，袁世凱政府に対して二十一カ条の要求を突き付けた。\n\n解答: ウ→ア→イ"
prompt = shot1 + shot2 + shot3 + shot4 + question
response = model.generate_content(prompt)
print(response.text)

解答：ウ→イ→ア


解答：ウ→ア→イ


解答：イ→ア→ウ


解答：ウ→ア→イ


解答：イ→ウ→ア



## 42. 多肢選択問題の正解率

[JMMLU](https://github.com/nlp-waseda/JMMLU) のいずれかの科目を大規模言語モデルに解答させ、その正解率を求めよ。

In [4]:
import pandas as pd
import re

# モデルの初期化
model = genai.GenerativeModel("gemini-1.5-flash")

def solve_multiple_choice(problem, option_a, option_b, option_c, option_d):
    """Geminiに4択問題を解かせる関数"""
    prompt = f"""以下の4択問題を解いてください。

問題: {problem}

選択肢:
(A) {option_a}
(B) {option_b}
(C) {option_c}
(D) {option_d}

回答は A, B, C, D のいずれか1文字で答えてください。"""

    response = model.generate_content(prompt)
    text = response.text.strip().upper()

    # 正規表現で A～D の一文字を抽出
    match = re.search(r'\b([ABCD])\b', text)
    return match.group(1) if match else None

def calculate_multiple_choice_accuracy(df, question_col_index, option_a_col_index, option_b_col_index, option_c_col_index, option_d_col_index, answer_col_index, verbose=True):
    """4択問題の正解率を計算する関数"""
    correct_count = 0
    total_count = 0
    results = []

    for index, row in df.iterrows():
        try:
            question = row[question_col_index]
            option_a = row[option_a_col_index]
            option_b = row[option_b_col_index]
            option_c = row[option_c_col_index]
            option_d = row[option_d_col_index]
            correct_answer = str(row[answer_col_index]).strip().upper()

            # 無効な正解データをスキップ
            if correct_answer not in {'A', 'B', 'C', 'D'}:
                if verbose:
                    print(f"スキップ（無効な正解）: {correct_answer}")
                continue

            gemini_answer = solve_multiple_choice(question, option_a, option_b, option_c, option_d)

            is_correct = gemini_answer == correct_answer
            if is_correct:
                correct_count += 1

            results.append({
                '問題': question,
                'Geminiの回答': gemini_answer,
                '正解': correct_answer,
                '正誤': '正解' if is_correct else '不正解'
            })

            total_count += 1

            if verbose:
                print(f"問題: {question}")
                print(f"(A) {option_a}, (B) {option_b}, (C) {option_c}, (D) {option_d}")
                print(f"Geminiの回答: {gemini_answer}")
                print(f"正解: {correct_answer}")
                print(f"結果: {'正解' if is_correct else '不正解'}\n")

        except Exception as e:
            print(f"行 {index} の処理中にエラー: {e}")

    accuracy = (correct_count / total_count) * 100 if total_count > 0 else 0
    results_df = pd.DataFrame(results)

    print("\n--- 結果一覧 ---")
    print(results_df)
    print(f"\n正解率: {accuracy:.2f}% ({correct_count}/{total_count})")

    return accuracy

if __name__ == "__main__":
    csv_file_path = 'japanese_history.csv'  # CSVファイル名

    # 列インデックス（0から始まる）
    question_col_index = 0
    option_a_col_index = 1
    option_b_col_index = 2
    option_c_col_index = 3
    option_d_col_index = 4
    answer_col_index = 5

    try:
        df = pd.read_csv(csv_file_path, header=None, encoding='utf-8')  # encoding適用
        calculate_multiple_choice_accuracy(
            df,
            question_col_index,
            option_a_col_index,
            option_b_col_index,
            option_c_col_index,
            option_d_col_index,
            answer_col_index,
            verbose=True  # 出力を抑える場合は False に
        )
    except FileNotFoundError:
        print(f"エラー：ファイルが見つかりません: {csv_file_path}")
    except Exception as e:
        print(f"予期せぬエラーが発生しました: {e}")


問題: 「1252年，６代将軍に{ }が就任した」の空欄に当てはまるものは？
(A) 以仁王, (B) 宗尊親王, (C) 西園寺公経, (D) 九条頼嗣
Geminiの回答: B
正解: B
結果: 正解

問題: 反戦長詩「君死にたまふこと勿れ」を発表した女流歌人は誰か
(A) 大塚楠緒子, (B) 与謝野晶子, (C) 平塚雷鳥, (D) 景山英子
Geminiの回答: B
正解: B
結果: 正解

問題: 「1924年，立憲政友会から脱党した清浦首相支持派が{ }を結成した」の空欄に当てはまるものは？
(A) 立憲国民党, (B) 立憲民政党, (C) 憲政会, (D) 政友本党
Geminiの回答: B
正解: D
結果: 不正解

問題: 「三奉行の最高格は{ }である」の空欄に当てはまるものは？
(A) 江戸町奉行, (B) 勘定奉行, (C) 大坂町奉行, (D) 寺社奉行
Geminiの回答: A
正解: D
結果: 不正解

問題: 1882年に設立された機械紡績工場を答えよ
(A) 大阪紡績会社, (B) 新町紡績所, (C) 鹿児島紡績工場, (D) 天満紡績所
Geminiの回答: A
正解: A
結果: 正解

問題: 「1837年，元大坂町奉行所与力の{ }が窮民の救済を求めて蜂起した」の空欄に当てはまるものは？
(A) 大塩平八郎, (B) 平田篤胤, (C) 生田万, (D) 由井正雪
Geminiの回答: A
正解: A
結果: 正解

問題: 1928年に実施された共産党員の大量検挙を何というか
(A) 二・二六事件, (B) 四・一六事件, (C) 四・三０事件, (D) 三・一五事件
Geminiの回答: D
正解: D
結果: 正解

問題: 「{ }年，フランシスコ=ザビエルが鹿児島に来航し,領主島津氏の許可を得て布教を開始した」の空欄に当てはまるものは？
(A) 1549, (B) 1547, (C) 1543, (D) 1551
Geminiの回答: A
正解: A
結果: 正解

問題: 「薩摩藩主島津重豪は，1827年に{ }を抜擢して藩政改革に当たらせた」の空欄に当てはまるものは？
(A) 鍋島直正, (B) 村田清風, (C) 調所広郷, (D) 吉田東洋
Geminiの回答: C
正解: C
結果: 正解

## 43. 応答のバイアス

問題42において、実験設定を変化させると正解率が変化するかどうかを調べよ。実験設定の例としては、大規模言語モデルの温度パラメータ、プロンプト、多肢選択肢の順番、多肢選択肢の記号などが考えられる。

正解の選択肢を全てDに入れ替えて解答させる例。

## 44. 対話

以下の問いかけに対する応答を生成せよ。

> つばめちゃんは渋谷駅から東急東横線に乗り、自由が丘駅で乗り換えました。東急大井町線の大井町方面の電車に乗り換えたとき、各駅停車に乗車すべきところ、間違えて急行に乗車してしまったことに気付きました。自由が丘の次の急行停車駅で降車し、反対方向の電車で一駅戻った駅がつばめちゃんの目的地でした。目的地の駅の名前を答えてください。

参考: [東急線・みなとみらい線路線案内](https://www.tokyu.co.jp/railway/station/map.html)

In [5]:
model = genai.GenerativeModel("gemini-1.5-flash")
chat = model.start_chat(history=[])
prompt1 = "つばめちゃんは渋谷駅から東急東横線に乗り、自由が丘駅で乗り換えました。東急大井町線の大井町方面の電車に乗り換えたとき、各駅停車に乗車すべきところ、間違えて急行に乗車してしまったことに気付きました。自由が丘の次の急行停車駅で降車し、反対方向の電車で一駅戻った駅がつばめちゃんの目的地でした。目的地の駅の名前を答えてください。"
response = chat.send_message(prompt1)
print(response.text)

つばめちゃんは急行に乗ってしまい、自由が丘の次の駅で降りたことになります。東急大井町線の自由が丘駅から大井町方面の急行は、次の停車駅は「二子玉川」です。そこで降りて反対方向の電車で一駅戻ると「田園調布」になります。

よって、つばめちゃんの目的地の駅は**田園調布**です。



## 45. マルチターン対話

先ほどの応答に続けて、以下の追加の問いかけに対する応答を生成せよ。

> さらに、つばめちゃんが自由が丘駅で乗り換えたとき、先ほどとは反対方向の急行電車に間違って乗車してしまった場合を考えます。目的地の駅に向かうため、自由が丘の次の急行停車駅で降車した後、反対方向の各駅停車に乗車した場合、何駅先の駅で降りれば良いでしょうか？

In [6]:
prompt2 = "さらに、つばめちゃんが自由が丘駅で乗り換えたとき、先ほどとは反対方向の急行電車に間違って乗車してしまった場合を考えます。目的地の駅に向かうため、自由が丘の次の急行停車駅で降車した後、反対方向の各駅停車に乗車した場合、何駅先の駅で降りれば良いでしょうか？"
response = chat.send_message(prompt2)
print(response.text)

自由が丘駅から大井町線方面の急行に乗車した場合、次の停車駅は二子玉川です。しかし、反対方向（渋谷方面）の急行に乗車してしまった場合、次の停車駅は「武蔵小杉」です。

そこで降りて、反対方向の各駅停車に乗車します。武蔵小杉駅から自由が丘方面の各駅停車は、自由が丘を通過し、次の駅は「久が原」です。その後は「奥沢」「自由が丘」と各駅に停車します。

しかし、問題文では「目的地の駅に向かうため」とあります。  先の回答で、目的地の駅は田園調布だと推測しました。  武蔵小杉から田園調布に向かうには、自由が丘で乗り換え、大井町方面の各駅停車に乗る必要があります。そのため、武蔵小杉から各駅停車で自由が丘まで行き、そこから大井町方面の各駅停車に乗車する必要があります。  

したがって、武蔵小杉から各駅停車で**自由が丘**まで乗車する必要があります。  質問の意図が「何駅先」なのかが曖昧ですが、このケースでは、武蔵小杉から田園調布を目指す場合、自由が丘で乗り換えが必要なため、単純に駅数を数えることはできません。  武蔵小杉から自由が丘までは複数駅に相当します。



## 46. 川柳の生成

適当なお題を設定し、川柳の案を10個作成せよ。

In [7]:
model = genai.GenerativeModel("gemini-1.5-flash")
prompt = "お題はゴールデンウィークで川柳の案を10個作成せよ。"
response = model.generate_content(prompt)
print(response.text)

1. GW満喫　川辺で昼寝　風心地
2. 混む高速　渋滞ノロノロ　胃が痛い
3. 花見酒　宴たけなわ　春の夜
4. 子供と川遊び　笑顔キラキラ　夏の予感
5. 旅行計画　あれもこれもと　財布寂し
6. バーベキュー　炭火の匂い　思い出作
7. 休み満喫　充電完了　明日からまた
8. 家でゴロゴロ　Netflix三昧　至福の時
9. 帰省ラッシュ　電車ぎゅうぎゅう　身動きせず
10. 五月晴れ　家族写真　笑顔輝く





## 47. LLMによる評価

大規模言語モデルを評価者（ジャッジ）として、問題46の川柳の面白さを10段階で評価せよ。

In [12]:
response2 = model.generate_content("以下の10個の川柳を10段階で評価せよ。答え方は数値のみで。\n" + response.text )
print(response2.text)

7
6
8
9
6
7
7
8
6
9



## 48. LLMによる評価の頑健性

問題47で行ったLLMによるテキストの評価に関して、その頑健さ（脆弱さ）を調査せよ。最も単純な方法は、同じ評価を何回か繰り返した時のスコアの分散を調べることであろう。また、川柳の末尾に特定のメッセージを追加することで、評価スコアを恣意的に操作することも可能であろう。

In [21]:
import numpy as np

results = []

for _ in range(30):
    response3 = model.generate_content("以下の10個の川柳を10段階で評価せよ。答え方は数値のみで。\n" + response.text)
    try:
        scores = [int(s) for s in response3.text.strip().split()]
        if len(scores) == 10:
            results.append(scores)
    except ValueError:
        print("無効な出力がありました:", response3.text)

results_array = np.array(results)

variances = np.var(results_array, axis=0)  # 川柳ごとに分散を計算

print("各川柳の分散:", variances)
print("平均分散:", np.mean(variances))


KeyboardInterrupt: 

## 49. トークン化

以下の文章（夏目漱石の『吾輩は猫である』の冒頭部分）のトークン数を計測せよ。

>　吾輩は猫である。名前はまだ無い。
>
>　どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。


In [10]:
model = genai.GenerativeModel("gemini-1.5-flash")
prompt = "吾輩は猫である。名前はまだ無い。\n\n\tどこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。"
token_info = model.count_tokens(prompt)

token_info

total_tokens: 251