In [6]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("stabilityai/japanese-stablelm-instruct-gamma-7b")
model = AutoModelForCausalLM.from_pretrained(
  "stabilityai/japanese-stablelm-instruct-gamma-7b",
  torch_dtype=torch.half
)
model.eval()

if torch.cuda.is_available():
    model = model.to("cuda")

def build_prompt(user_query, inputs="", sep="\n\n### "):
    # sys_msg = "あなたは国語教師です。以下の問題を考え、正しい選択肢を説明してください。"
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    msgs = [": \n" + user_query, ": \n"]
    if inputs:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + inputs)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p


Loading checkpoint shards: 100%|██████████| 3/3 [00:05<00:00,  1.86s/it]


RuntimeError: CUDA error: an illegal memory access was encountered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [None]:
import pandas as pd
N3 = pd.read_csv('./N3_answers.csv')
N3

Unnamed: 0,Question,Options,Answer,Answer_Option
0,今日は___寒くないので、上着はいらないと思う。,a.ただ b.たいして c.なんとかして,a.ただ,['a']
1,今日は___品物を見ていただけで、何も買わなかった。,a.ただ b.いくら c.せっかく,a.,['a']
2,___怒らないでわたしの話を聞いてください。,a.どうか b.どうも c.どんなに,d.どうぞ,[]
3,転んだ子供は今にも___顔をしていた。,a.泣いた b.泣きそうな c.泣くような,b.,['b']
4,せっかくカメラを___、みんなで写真を撮ろう。,a.持ってきて b.持ってきたら c. 持ってきたのだから,a.持ってきて,['a']
...,...,...,...,...
79,先生の説明を聞いている___だんだんわかってきた。,a.うちに b.たびに c.ところを,c.,['c']
80,今朝___喉が痛かった。,a.起きたとき b.起きたついでに c.起きてるうちに,b.起きたついでに\n\n### 指示: \n文法を基づいて、最もよい,['b']
81,祖父は年を取って、最近___なかった。今日もかぎの場所を忘れた。,a.忘れかけに b.忘れにくく c.忘れっぽく,A.b 「忘れやすい」を形容詞化した表現だが、「忘れっぽ,['b']
82,この店には高い品物___並んでいる。,a.ぐらい b.なんか c.しか d.ばかり,この店には高い品物ばかり並んでいる。a.ぐらい b.なんか c.,"['a', 'b', 'c']"


In [None]:
def ask_sensei(question, options):
    question = question.replace("___", "[MASK]")
    # Infer with prompt without any additional input
    user_inputs = {
        "user_query":'まず、文法を基づいて、最もよい選択肢のアルファベットを一つ選びなさい。次に、文法について、十五字以内で説明しなさい。',
        "inputs": f"問題：{question} 選択肢：{options}"
    }

    prompt = build_prompt(**user_inputs)

    # print(prompt)
    input_ids = tokenizer.encode(
        prompt, 
        add_special_tokens=True, 
        return_tensors="pt"
    )

    attention_mask = torch.ones_like(input_ids).to('cuda')  # Create attention mask with all 1s for non-padding tokens

    tokens = model.generate(
        input_ids.to(device=model.device),
        attention_mask=attention_mask, 
        max_new_tokens=64,
        temperature=1,
        repetition_penalty=1.1,
        # top_p=0.95,
        do_sample=False,
    )
    out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
    print(out)
    print("------------")
    return out

In [None]:
sensei_ans = []
for index, row in N3.iterrows():
    answer = ask_sensei(row.Question, row.Options)
    sensei_ans.append(answer)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


b.today is not [MASK] cold
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


"ただ"。この例文は「今日は～（=品物）を見るためだけに来たが、買わなかった」という意味になります。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


文法的に考えると、アメリカ英語のアルファベット順では「b.」が良いと思います。それには理由が3つあります。1）先頭の文字は母音で
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


この問題に関して、a,cから文法的な誤りが発生し得る。bは意味不明になる場合がある。したがって、bに[MARGINAL]マークを付け、「
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


(A) c.持ってきたのだから
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a：「駅に着く」が完了形か不完了形か分からないので、文法的によくありません。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


これは間違いです。正確な文法では選択肢はcになります。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢aは、動詞"see"（視）の現在進行形、bは過去形、cは過去分詞の名詞節的用法だから間違っています
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


まず文法的に言うと、前述の3つの選択肢でそれが単語かどうかは異なります。「時間もあれば」は1つの言葉として見ることが
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


問題文中の「古い」（old）が形容詞であり、主語の「本」で修飾される点で、「捨てられることに」（disposed）が動詞の名��
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢Aは、「しまった」(意味：自分がミスを犯した時などに、後悔する気持ち)を表す形容動詞「凹む」の過去進行
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


正解：b.なっている
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a とよく似ているが、c で使うような
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢Aは正解で、選択肢Bは誤りです。主語-動詞の前置を使った動詞の意味を表現するため、この選択肢で動詞
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


文法的に正確な回答：これは、正誤両方の解釈可能な短くて主語が省略された疑問文で、文法上正しく、どちらか一つの形式で「
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢b.
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


答え1：「b.会ったばかりで」　理由2：「a.会うばかりではなく」や「c.will not have time to meet anyone because of the busyness with work 忙しい仕事」と
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


b.待ってばかりいる。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


aが正解で、文法的には、-ing形が主語になる構造なので、前置詞+ingにしています。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


aは誤り：「だけ」（only）は否定的用法にすることができる[1]。そのため、医師は本当にアルコールを止めるべきである。選択肢c.
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1.	b.伝わるように
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1番目の選択肢が正解。それに「どうでも」と思える程度でしょ？
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a. - (理由)彼女らは実際に買って経験することを好む。壊れそうだ。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


正解：c.置いていない

なぜ？「置いていない」は、「-'re」だから文法的に正しいが、他の二つは「無」の「be」なので不適
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


「彼女」(3)と「今」(4)の接続詞and（英語）は「関係代名詞」(6)。動詞が未来の意味を持つので、これは将来
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢cは文法的におかしく、動詞「わけ」を修飾語形にしています。これに対して、b, aに関して、その後を続ける必然性が
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢のアルファベット順 : wahz
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


まず「はず」を排除すべきでしょう。他に可能性はありません。次に選択肢「はず」を消去すれば残りは二つです。そこから決定する必要
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


アルファベットaが誤りです。これは「彼ら」の性格ともいえるため、人称代名詞で第3者を表すaの使用は避けられているからです
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


ここで、より多くが「形容詞」を参照します。名詞（noun）と形容詞（adjective）はいずれも、他の単語や表現物の意味を定義
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


A.選択肢1は、この例で使用された形容詞を含む疑問文を持っている。cに比べれば、文の意味が変化する可能性が高く、aで
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢cに注目してください。これが正解です。理由は、男女別のデータが、グラフ上で「並行」(vertical) に重ねられており、図中央
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1）最初の選択肢が正解だと思います。
2）選択肢Aの主語により、これが「地球上」で行われていることが読者に伝わります。他
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


この問題における正解は、[MASK]です。 単語「覚えた」は、前置詞（「〜を」という意味）＋名詞動詞を使った形
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢b.「太陽の光が部屋いっぱいに入る」カーテン
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a）涙の主体的行動。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


パソコンが機能するには、プログラマーが必要です。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.選択肢が正解
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


誤りの選択肢bは文法的でなく、正しい選択肢aはaは助詞であり、意味上も「の」と同じ働きをする助詞の1つです。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.正解。b.は不正解。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


誤り文bを、正しく文aに直すための修正箇所を教えて下さい。私がやっていることは何ですか？

a.について = a.に従って =
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢a.について：「か」が「k」で始まり、母音が「i」で繰り返されることから、この単語は「a.」の上位バリエーショ
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢a.「わたし」が主語に当たります。これは私が考えられる限り、正しくない（「わたし」は普通受動的な文章内で使用すべき）。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.[MASK] is a good choice, because it has the same [MASK] of what we read in the example sentence, and thus they are connected to each other. It tells us about something positive about what the speaker was considering to do. It would not sound right, but could work if it is negative,
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


正解：e
お父さんが「少なくとも」（ぐらい）疲れているだろうと推測する前置詞「at least」が含まれているので、この表現は「
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a:「で」が「だ」「だけ」の主語に対応せず誤用、d:過去を回想する場面でも、時制の表現が過去形でもなく未来を描いた表現、という意
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.「出てくる」は誤用かもしれない。文中では、対象物は実際に存在するが、話者はそれを想像する状態にあり、実体を伴うものではな
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


最善の回答（および正しくない選択肢）：a.これは不自然な単語使用です。ほかのいくつかの例には、痛め、涼しくなって
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.この文章には、「お借り」する場所が単数形であるのに対して、「お貸し」する場所が複数形です。結果、「お借り」する主語に
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


"a".これが正解です。その理由は、「企業は…」（英語）と主張しています。最初から出ている企業は無効化されなくても、他の人が矛
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢cは正しくない（誤）。他の場所からの情報で「a」が正しいのだろうと思うが、「b, c, d」全て間違いだ。 「c」が「
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1.行かれますか - 3文字
2.参りますか - 6文字
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


これらの句の動詞句の形態は、主語が受身能動を作り出すことに留意してください。また、動詞句「be + 形容詞」は、強制性を
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a. 英語的に正しく言えば、“addiction”だが、日本語的に言った場合に正しく言うと、「薬物依存症」。実際、「薬物中毒者
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


aについては、「-つ」で終わる動詞形が適切だと思います。従って、bの方が良いでしょう。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a 「洗う」という動詞に対して、「される」を後置する構文は誤用（文法的に正しくない）です。また、同様の理由からc 「��
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


一番良い選択肢はc.プロらしいです。これが私の観点です。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1: a 2: b
アルファベットが「c」で始まっていて、英語として完全じゃないので最初の選択肢が正解
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢a、正しい（bだと、「私は」と言うと「行く」主語が二人称になり誤り、cだと三人称の「youは」が間違える）
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢bが正解です。これは最も良い形だと思いますが、僕は他の人に話しやすいように直接話そうとしています。英語を見たことが
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a（払う）が正解で、bとcは文法的に間違っています。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


最初の提案が誤りであることに同意する。 "立て札" と「入る」の前置詞(in, inside)を含む表現から構成され、不可能の限定的形態
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


「a」 - 文法的に正確ではなく、言い回しも不自然だ。「b」 - 文法的に妥当だが、意味をなさない。「c」- 文法的に妥当で
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.



------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢aは間違っている。「しては」は「する」では意味が通じない。選択肢bは正解だ。動詞を表す辞書に対して「す
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


答えは「c」です。動詞「なあ」についての注意点として、これは「だろ？」や「分かる？」と解釈できることをお話しすべきでしょ
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a.ことから
この選択肢が正しい「主語」だろう。意思、動作や判断、感情などの行為を示す単語の後に置く。
一人称代名詞
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢c。単純に逆転すれば、「絶対に勝てない」ことは非常に重要なことだからです。（2019年6月23日）
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


b.「書いています」
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


選択肢b. 暖房を入れよう　が正解　：暖房を入れれば寒いが良くなる、と考えられる。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


aは最も良い選択肢のアルファベットと考えられます。文中の"b. "および"c. "は副詞句ですが、それぞれ接続詞と形
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


b.本棚を物色しているうちに夕方になってしまった。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


正解：[b].　日本で高い山は多く存在し、その中で富士山が一番高い山だからです。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


一般的な英語話者には、「I might have to settle down at this level of living.」が正解だろう。これは、日本人的なニュアンスとして、「(例えば)現在の生活水準で
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


最も良いアルファベットは「b」だと思う。困ったことと比べる言葉で用いる助詞形「なら」で正しくないのは「くらいではない」だ
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


a 遠慮しながら人手伝いを頼むことは「礼儀正しく」です（文法）b 本当は自分でやってしまったほうが良かった。
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


c.のに対して
------------


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


1. a, andの前で転置助詞が来る場合の規則上の疑問形態は「質問」。しかし、動詞は後で述べられる場合もあり（不定
------------


RuntimeError: CUDA error: an illegal memory access was encountered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [None]:
N3['Answer_Update'] = sensei_ans

In [None]:
import numpy as np
N3['Answer_Option_Update'] = N3['Answer_Update'].str.findall(r'a|b|c')

In [None]:
pd.set_option('display.max_rows', None)
display(N3)
pd.set_option('display.max_rows', 10)

Unnamed: 0,Question,Options,Answer,Answer_Option
0,今日は___寒くないので、上着はいらないと思う。,a.ただ b.たいして c.なんとかして,a.ただ,[a]
1,今日は___品物を見ていただけで、何も買わなかった。,a.ただ b.いくら c.せっかく,a.,[a]
2,___怒らないでわたしの話を聞いてください。,a.どうか b.どうも c.どんなに,d.どうぞ,[]
3,転んだ子供は今にも___顔をしていた。,a.泣いた b.泣きそうな c.泣くような,b.,[b]
4,せっかくカメラを___、みんなで写真を撮ろう。,a.持ってきて b.持ってきたら c. 持ってきたのだから,a.持ってきて,[a]
5,3時に駅で待ち合わせした。駅に着くと、彼女はもう___。,a.来た b.来ていた,a,[a]
6,チャイムが鳴ったので玄関の外に出ると、宅配便の人が___。,a.来た b.いた,a.来た,[a]
7,目が痛いので、鏡で___、赤かった。,a.見てみると b.見ていると c.見ていたら,b. 見ていると,[b]
8,今は___お金もない。旅行は無理だ。,a.忙しければ b.暇もなければ c.時間もあれば,c,[c]
9,図書館で古い本は捨てられることに___。,a.した b.なった,a. した,[a]


In [None]:
a = 'a'
b = 'b'
c = 'c'
d = 'd'
e = 'e'
f = 'f'
g = 'g'

N3_correct_answers = [b,a,a,b,c,b,b,a,b,b,b,b,a,a,a,b,b,b,a,a,d,c,a,b,d,a,a,a,b,b,a,b,a,c,a,b,a,b,b,b,b,b,b,b,c,e,c,b,g,c,a,d,b,b,c,a,c,a,a,b,a,c,c,b,d,a,a,c,a,c,b,a,c,a,c,a,c,b,a,a,c,d,b]
N2_correct_answers = []

In [None]:
# N3['correct_answer'] = N3_correct_answers
N3.to_csv("./N3_answers.csv", index=False)