In [18]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("stabilityai/japanese-stablelm-instruct-gamma-7b")
model = AutoModelForCausalLM.from_pretrained(
  "stabilityai/japanese-stablelm-instruct-gamma-7b",
  torch_dtype=torch.half
)
model.eval()

if torch.cuda.is_available():
    model = model.to("cuda")

def build_prompt(user_query, inputs="", sep="\n\n### "):
    # sys_msg = "あなたは国語教師です。以下の問題を考え、正しい選択肢を説明してください。"
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    msgs = [": \n" + user_query, ": \n"]
    if inputs:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + inputs)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p


Loading checkpoint shards: 100%|██████████| 3/3 [00:07<00:00,  2.44s/it]


In [6]:
import pandas as pd
N3 = pd.read_csv('./N3_answers.csv')
N3

Unnamed: 0,Question,Options,Answer,Answer_Option
0,今日は___寒くないので、上着はいらないと思う。,a.ただ b.たいして c.なんとかして,a.ただ,['a']
1,今日は___品物を見ていただけで、何も買わなかった。,a.ただ b.いくら c.せっかく,a.,['a']
2,___怒らないでわたしの話を聞いてください。,a.どうか b.どうも c.どんなに,d.どうぞ,[]
3,転んだ子供は今にも___顔をしていた。,a.泣いた b.泣きそうな c.泣くような,b.,['b']
4,せっかくカメラを___、みんなで写真を撮ろう。,a.持ってきて b.持ってきたら c. 持ってきたのだから,a.持ってきて,['a']
...,...,...,...,...
79,先生の説明を聞いている___だんだんわかってきた。,a.うちに b.たびに c.ところを,c.,['c']
80,今朝___喉が痛かった。,a.起きたとき b.起きたついでに c.起きてるうちに,b.起きたついでに\n\n### 指示: \n文法を基づいて、最もよい,['b']
81,祖父は年を取って、最近___なかった。今日もかぎの場所を忘れた。,a.忘れかけに b.忘れにくく c.忘れっぽく,A.b 「忘れやすい」を形容詞化した表現だが、「忘れっぽ,['b']
82,この店には高い品物___並んでいる。,a.ぐらい b.なんか c.しか d.ばかり,この店には高い品物ばかり並んでいる。a.ぐらい b.なんか c.,"['a', 'b', 'c']"


In [19]:
def ask_sensei(question, options):
    question = question.replace("___", "[MASK]")
    # Infer with prompt without any additional input
    user_inputs = {
        "user_query":'まず、文法を基づいて、最もよい選択肢のアルファベットを一つ選びなさい。次に、文法について、十五字以内説明しなさい。',
        "inputs": f"問題：{question}　選択肢：{options}"
    }

    prompt = build_prompt(**user_inputs)

    # print(prompt)
    input_ids = tokenizer.encode(
        prompt, 
        add_special_tokens=True, 
        return_tensors="pt"
    )

    attention_mask = torch.ones_like(input_ids).to('cuda')  # Create attention mask with all 1s for non-padding tokens

    tokens = model.generate(
        input_ids.to(device=model.device),
        attention_mask=attention_mask, 
        max_new_tokens=64,
        temperature=1,
        repetition_penalty=1.1,
        top_p=0.95,
        do_sample=True,
    )
    out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
    print(out)
    print("------------")
    return out

In [20]:
sensei_ans = []
for index, row in N3.iterrows():
    answer = ask_sensei(row.Question, row.Options)
    sensei_ans.append(answer)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1.選択肢「c.なんとか」が正解であり、これは、主語を「today」（今日）から「Today」（今）に直すことで文意を変えています。同様
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢c.せっかく　が一番適しています。　理由は、助詞「せっ」は助動詞（終止形の変化で接続語と意味的な役割を
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


単語「～」「～になりましょう。どこでも良いですが、敷居が高いか、お店に入りづらいなどの場所は避けましょう。また、周�
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


正しい回答：a.
理由：泣いたか泣きそうだったことが推測できる。実際の出来事や状態（泣いた/泣きそう）から推論（
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


文法的に最も正しい選択肢はCです。それが私たちの言語上の正規化であり、「持ってきた」というのが完了時制でしょう。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


一番正しい形式は「駅に着くと」（第三項）を「3時に」（主節）に関連付けたことから、bです。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


誤：a.これは文法に反しています。正：b.
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


赤かった。の直後の状態（現在進行形）を表現しているので、b.見ていると
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


aとcの2点から選ぶことができるが、文法的にはbを選ぶべき。なぜなら、cが「～がある」という場合の意味になり、そうで
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1.「廃品」という意味を持つ動詞「discard（ディスカード）」は不規則変化する言葉ではなく、第三人称単数形を一部変えるだけ
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a)は誤用。b)は正解
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


正解：b.なっている

これが、文法について説明を始める上で考えられるアプローチだ。ある語（句や節）が話の全体から見た文のど
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


文法上は「こと」だろう
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢Aが誤りです。魚を食べることは肉を食べることと同義だからです。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢1に注意してください。aに「長い時間」という語句があり、それは「消化器官」と同じ綴りの単語で始まるからです。「
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1文目がbだと間違っています。誤用の使い方が存在するためです。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Aは「話す」、Bは「話すことだけが」、Cは「あなたは話していないで、何が行われるのか」と意味を表すために使用されます。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


文法：動詞waitは過去完了の形に置かれており、時制から文章全体が過去にあることが分かる。続くb.の代名詞itは単数形だが、
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


文法：子供が生まれる日が近づいたが、夫の僕は何もできない。ただこんな時間を過ごすばかりだ
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


アルファベットb.だけでもは誤り、文脈は「ちょっと1杯くらい」を言っているから、だけという粗野な表現につながります。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


回答：a.正しい意味において選択肢が正確であり、b.~d.間違っています。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.
- 「一度会った」と表現が過去形になっているので、緊急性が低そう。

b.
- 時制が現在形だけなので、強調した言い方
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


アルファベット：c

理由（15語以内）：この問題は三つのオプションを提供します。人形に話を聞かせてもわからないでしょう。一
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


「[マスク]」は「〜しない（しえない）」を意味する副詞句を修飾する、「置いておけない」や「持って帰らない」という動�
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1. a.：「い」は存在動詞で、受身形の動詞を作ります。これは自然現象や他の行動を表します。
2. b.： ～べきと考えられ
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.は冠詞が使用されており、適切であります。b.は願望の意味で「できる」を表すことが出来る接頭語のwantが付く形容�
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢bは、is, be動詞であり、完了形/完了助動詞が用いられています。この構文では、過去または推量の完了(「～しました
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


私は、「b」を推奨します。なぜならば、「b」を修正すれば、同じ結果を達成することができ、そうする価値はあるが、別の表
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.の「ような」という語句だけが問題を引き起こし得る可能性がありますが、どちらにしても論理的に不正確です。「ような」が意味するの
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢aは、誤った解答であり、正当化はできません。この場合、選択肢aがある動詞｢似る｣に対する形容�����
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1.	選択肢を再構成（前の記事でやった手順）：「子供が食べられる」料理にするには、どのような調理法を試すことができますか？a
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


男女の差異がある文章です。「b.ように」
------------


In [None]:
N3['Answer_Update'] = sensei_ans

In [None]:
import numpy as np
N3['Answer_Option_Update'] = N3['Answer_Update'].str.findall(r'a|b|c')

In [None]:
pd.set_option('display.max_rows', None)
display(N3)
pd.set_option('display.max_rows', 10)

Unnamed: 0,Question,Options,Answer,Answer_Option
0,今日は___寒くないので、上着はいらないと思う。,a.ただ b.たいして c.なんとかして,a.ただ,[a]
1,今日は___品物を見ていただけで、何も買わなかった。,a.ただ b.いくら c.せっかく,a.,[a]
2,___怒らないでわたしの話を聞いてください。,a.どうか b.どうも c.どんなに,d.どうぞ,[]
3,転んだ子供は今にも___顔をしていた。,a.泣いた b.泣きそうな c.泣くような,b.,[b]
4,せっかくカメラを___、みんなで写真を撮ろう。,a.持ってきて b.持ってきたら c. 持ってきたのだから,a.持ってきて,[a]
5,3時に駅で待ち合わせした。駅に着くと、彼女はもう___。,a.来た b.来ていた,a,[a]
6,チャイムが鳴ったので玄関の外に出ると、宅配便の人が___。,a.来た b.いた,a.来た,[a]
7,目が痛いので、鏡で___、赤かった。,a.見てみると b.見ていると c.見ていたら,b. 見ていると,[b]
8,今は___お金もない。旅行は無理だ。,a.忙しければ b.暇もなければ c.時間もあれば,c,[c]
9,図書館で古い本は捨てられることに___。,a.した b.なった,a. した,[a]


In [None]:
a = 'a'
b = 'b'
c = 'c'
d = 'd'
e = 'e'
f = 'f'
g = 'g'

N3_correct_answers = [b,a,a,b,c,b,b,a,b,b,b,b,a,a,a,b,b,b,a,a,d,c,a,b,d,a,a,a,b,b,a,b,a,c,a,b,a,b,b,b,b,b,b,b,c,e,c,b,g,c,a,d,b,b,c,a,c,a,a,b,a,c,c,b,d,a,a,c,a,c,b,a,c,a,c,a,c,b,a,a,c,d,b]
N2_correct_answers = []

In [None]:
# N3['correct_answer'] = N3_correct_answers
N3.to_csv("./N3_answers.csv", index=False)