# Loading Data

In [11]:
import glob

langs = ['en', 'de', 'fi', 'ja']

tasks = ['negation1', 'negation2', 
         'numerals1', 'numerals2', 
         'spatial1', 'spatial2', 
         'temporal1', 'temporal2', 
         'comparative1', 'comparative2',
         'counters']

files = [{'task': task, 'lang': lang, 'path': file} for lang in langs for task in tasks for file in glob.glob(f'/home/norrman/GitHub/multi-morph-checklist/export/*{task}*/{lang}.txt')]
for file in files:
    if '_fam/' in file['path']:
        file['polite'] = 'fam'
    elif '_norm/' in file['path']:
        file['polite'] = 'norm'
    elif '_form/' in file['path']:
        file['polite'] = 'form'
    else:
        file['polite'] = ''

files

[{'task': 'negation1',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/negation1/en.txt',
  'polite': ''},
 {'task': 'negation2',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/negation2/en.txt',
  'polite': ''},
 {'task': 'numerals1',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/numerals1/en.txt',
  'polite': ''},
 {'task': 'numerals2',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/numerals2/en.txt',
  'polite': ''},
 {'task': 'spatial1',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/spatial1/en.txt',
  'polite': ''},
 {'task': 'spatial2',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/spatial2/en.txt',
  'polite': ''},
 {'task': 'temporal1',
  'lang': 'en',
  'path': '/home/norrman/GitHub/multi-morph-checklist/export/temporal1/en.txt',
  'polite': ''},
 {'task': 'temporal2',
  'lang': 'en',
  'path': '/h

In [12]:
TARGET_PATTERN = {
    'en': { # {N1} (is/are) {NEG} {P2}, but {P1} is/are.
           'negation1': r".*"
                        r"C\:\s(?:(?P<N1A>\w+)\sand\s(?P<N1B>\w+)|(?P<N1>\w+))\s(?:is|are)\snot\s((?:a|an)\s)?(?P<P2>.+?),\sbut\s(?:(?P<P1A>.+?)\sand\s(?P<P1B>.+?)|(?P<P1>.+?))\s(?:is|are)\."
                        r".*",
                        
            # {N1} (is/are) a {N2}, {P1} are {P2}.
           'negation2': r".*"
                        r"C\:\s(?:(?P<N1A>\w+)\sand\s(?P<N1B>\w+)|(?P<N1>\w+))\s(?:is|are)\s((?:a|an)\s)?(?P<N2>.+?),\s(?:(?P<P1A>.+?)\sand\s(?P<P1B>.+?)|(?P<P1>.+?))\s(?:is|are)\s((?:a|an)\s)?(?P<P2>.+?)\."
                        r".*",
            # C: There are {N1} {N2} and {N3} {N4} {P3}. 
            # Q: How many {P2} in total are {P3}? 
            # A: {P1}.
           'numerals1': r".*"
                        r"C\:\sThere\s(?:is|are)\s(?P<N1A>.+?)\s(?P<N2A>.+?)\sand\s(?P<N1B>.+?)\s(?P<N2B>.+?)\s(?P<P3>.+?)\.\s.*"
                        r"Q\:\sHow\smany\s(?P<P2>.+?)\s.*"
                        r"A:\s(?P<P1>.+?)\."
                        r".*",

            # C: There are {N1A} {P2} and {N1B} {N2} {P3}. Kirk ate {N1C} pineapples. 
            # Q: How many pineapples are on the table? 
            # A: {P1}.
           'numerals2': r".*"
                        r"C\:\sThere\s(?:is|are)\s(?P<N1A>.+?)\s(?P<P2>.+?)\sand\s(?P<N1B>.+?)\s(?P<N2>.+?)\s(?P<P3>.+?)\.\s.*ate\s(?P<N1C>.+?)\s.*"
                        r"A:\s(?P<P1>.+?)\."
                        r".*",

            # C: The {N2} is {N1} and the {P2} are {P1}. 
            # Q: Where are the phones? 
            # A: Next to the shelf.
           'spatial1': r".*"
                       r"C\:\sThe\s(?P<N2>.+?)\s(?:is|are)\s(?P<N1>.+?)\sand\sthe\s(?P<P2>.+?)\s(?:is|are)\s(?P<P1>.+?)\."
                       r".*",
              # C: The {P2} and the {N2} are {P1}. Kirk puts the pens {N1}. 
              # Q: Where is the book? 
              # A: Behind the table.
           'spatial2': r".*"
                       r"C\:\sThe\s(?P<P2>.+?)\sand\sthe\s(?P<N2>.+?)\sare\s(?P<P1>.+?)\.\s\w+\sputs\sthe\s\w+\s(?P<N1>.+?)\."
                       r".*",
               # C: {P1} and {N1} were {N2}, but Lola changed careers and is now a {P2}. 
               # Q: Who is a farmer? 
               # A: Lola.
           'temporal1': r".*"
                        r"C\:\s(?P<P1>.+?)\sand\s(?P<N1>.+?)\swere\s(?P<N2>.+?),\s.*is\snow\san?\s(?P<P2>.+?)\."
                        r".*",
               # C: {P1} and {N1} are {N2}, but Audrey will change careers and will be a {P2}. 
               # Q: Who will be a policeman? 
               # A: Audrey.
           'temporal2': r".*"
                        r"C\:\s(?P<P1>.+?)\sand\s(?P<N1>.+?)\sare\s(?P<N2>.+?),\s.*will\sbe\san?\s(?P<P2>.+?)\.\sQ"
                        r".*",
               # C: {N1} is {N2} than {P1}. 
               # Q: Who is {P2}? 
               # A: Lola.
           'comparative1': r".*"
                           r"C\:\s(?P<N1>.+?)\sis\s(?P<N2>.+?)\sthan\s(?P<P1>.+?)\.\sQ\:\sWho\sis\s(?P<P2>.+?)\?"
                           r".*",
               # C: If the {P1} was more expensive, Lola would {P2} it. If the {N1} was cheaper, Lola would rent it. 
               # Q: What would Lola rent if it was less cheap? 
               # A: The house.
           'comparative2': r".*"
                           r"C\:\sIf\sthe\s(?P<P1>.+?)\swas\s.*would\s(?P<P2>.+?)\sit\.\sIf\sthe\s(?P<N1>.+?)\swas\s"
                           r".*",
           },
    'de': { # {N1} (ist/sind) {NEG} {P2}, aber {P1} ist/sind es.'
           'negation1': r".*"
                        r"C\:\s(?:(?P<N1A>\w+)\sund\s(?P<N1B>\w+)|(?P<N1>\w+))\s(?:ist|sind)\skeine?\s(?P<P2>.+?),\saber\s(?:(?P<P1A>.+?)\sund\s(?P<P1B>.+?)|(?P<P1>.+?))\s(?:ist|sind)\ses\."
                        r".*",

            # {N1} ist/sind ein {N2} und {P1} sind {P2}.
           'negation2': r".*"
                        r"C\:\s(?:(?P<N1A>\w+)\sund\s(?P<N1B>\w+)|(?P<N1>\w+))\s(?:ist|sind)\s(eine?\s)?(?P<N2>.+?)\sund\s(?:(?P<P1A>.+?)\sund\s(?P<P1B>.+?)|(?P<P1>.+?))\s(?:ist|sind)\s(eine?\s)?(?P<P2>.+?)\."
                        r".*",

            # C: Es gibt {N1} {N2} und {N3} {N4} {P3}. 
            # Q: Wie viele {P2} liegen insgesamt {P3}? 
            # A: {P1}.
           'numerals1': r".*"
                        r"C\:\sEs\sgibt\s(?P<N1A>.+?)\s(?P<N2A>.+?)\sund\s(?P<N1B>.+?)\s(?P<N2B>.+?)\s(?P<P3>.+?)\.\s.*"
                        r"Q\:\sWie\sviele\s(?P<P2>.+?)\s.*"
                        r"A:\s(?P<P1>.+?)\."
                        r".*",
            # C: Es gibt {N1A} {P2} und {N1B} {N2} {P3}. Katja aß {N1C} Wassermelone. 
            # Q: Wie viele Wassermelonen gibt es auf dem Tisch? 
            # A: {P1}.
           'numerals2': r".*"
                        r"C\:\sEs\sgibt\s(?P<N1A>.+?)\s(?P<P2>.+?)\sund\s(?P<N1B>.+?)\s(?P<N2>.+?)\s(?P<P3>.+?)\.\s.*aß\s(?P<N1C>.+?)\s.*"
                        r"A:\s(?P<P1>.+?)\."
                        r".*",
            # C: Der {N2} liegt {N1} und die {P2} liegen {P1}. 
            # Q: Wo sind die Bücher? 
            # A: Vor dem Regal.
           'spatial1': r".*"
                       r"C\:\s(?:Der|Die|Das)\s(?P<N2>.+?)\s(?:liegt|liegen)\s(?P<N1>.+?)\sund\s(?:der|die|das)\s(?P<P2>.+?)\s(?:liegt|liegen)\s(?P<P1>.+?)\."
                       r".*",
              # C: Das {P2} und die {N2} liegen {P1}. Judith legt die Papiere {N1}. 
              # Q: Wo ist das Buch? 
              # A: Vor dem Sofa.
           'spatial2': r".*"
                       r"C\:\s(?:Der|Die|Das)\s(?P<P2>.+?)\sund\s(?:der|die|das)\s(?P<N2>.+?)\s(?:liegt|liegen)\s(?P<P1>.+?)\.\s\w+\slegt\s(?:der|die|das|den)\s\w+\s(?P<N1>.+?)\."
                       r".*",
               # C: {P1} und {N1} waren {N2}, aber Klaus hat den Beruf gewechselt und wird {P2}. 
               # Q: Wer ist Manager? 
               # A: Klaus.
           'temporal1': r".*"
                        r"C\:\s(?P<P1>.+?)\sund\s(?P<N1>.+?)\swaren\s(?P<N2>.+?),\s.*und\swird\s(?P<P2>.+?)\."
                        r".*",
               # C: {P1} und {N1} sind {N2}, aber Günter wechselt den Beruf und wird {P2}. 
               # Q: Wer wird Buchhalter? 
               # A: Günter.
           'temporal2': r".*"
                        r"C\:\s(?P<P1>.+?)\sund\s(?P<N1>.+?)\ssind\s(?P<N2>.+?),\s.*und\swird\s(?P<P2>.+?)\."
                        r".*",
               # C: {N1} ist {N2} als {P1}. 
               # Q: Wer ist {P2}? 
               # A: Stefan.
           'comparative1': r".*"
                           r"C\:\s(?P<N1>.+?)\sist\s(?P<N2>.+?)\sals\s(?P<P1>.+?)\.\sQ\:\sWer\sist\s(?P<P2>.+?)\?"
                           r".*",
               # C: Wäre die {P1} älter, würde sie Stefan {P2}. Wäre das {N1} teurer, würde es Stefan mieten. 
               # Q: Was würde Stefan mieten, wäre es weniger neu? 
               # A: Die Wohnung.
           'comparative2': r".*"
                           r"C\:\s\w+\s\w+\s(?P<P1>.+?)\s\w+,\s\w+\s\w+\s\w+\s(?P<P2>.+?)\.\s\w+\s\w+\s(?P<N1>.+?)\s\w+,"
                           r".*",
           },          
    'fi': { # {N1} {NEG} ole {P2} mutta {P1} on/ovat.
           'negation1': r".*"
                        r"C\:\s(?:(?P<N1A>\w+)\sja\s(?P<N1B>\w+)|(?P<N1>\w+))\s(?:ei|eivät)\sole\s(?P<P2>.+?)\smutta\s(?:(?P<P1A>.+?)\sja\s(?P<P1B>.+?)|(?P<P1>.+?))\s(?:on|ovat)\."
                        r".*",

           # {N1} on {N2}, {P1} ovat {P2}. 
           'negation2': r".*"
                        r"C\:\s(?:(?P<N1A>\w+)\sja\s(?P<N1B>\w+)|(?P<N1>\w+))\s(?:on|ovat)\s(?P<N2>.+?),\s(?:(?P<P1A>.+?)\sja\s(?P<P1B>.+?)|(?P<P1>.+?))\s(?:on|ovat)\s(?P<P2>.+?)\."
                        r".*",
              # C: {P3} on {N1} {N2} ja {N3} {N4}. 
              # Q: Kuinka monta {P2} on {P3} yhteensä? 
              # A: {P1}.
           'numerals1': r".*"
                        r"C\:\s(?P<P3>.+?)\son\s(?P<N1A>.+?)\s(?P<N2A>.+?)\sja\s(?P<N1B>.+?)\s(?P<N2B>.+?)\.\s.*"
                        r"Q\:\sKuinka\smonta\s(?P<P2>.+?)\s.*"
                        r"A:\s(?P<P1>.+?)\."
                        r".*",
              # C: {P3} on {N1A} {P2} ja {N1B} {N2}. Ylvä söi {N1C} vesimelonia. 
              # Q: Kuinka monta vesimelonia on pöydällä? '
              # A: {P1}.        
           'numerals2': r".*"
                        r"C\:\s(?P<P3>.+?)\son\s(?P<N1A>.+?)\s(?P<P2>.+?)\sja\s(?P<N1B>.+?)\s(?P<N2>.+?)\.\s.*söi\s(?P<N1C>.+?)\s.*"
                        r"A:\s(?P<P1>.+?)\."
                        r".*",
              # C: {N2} on {N1} ja {P2} {P1}. 
              # Q: Missä ovat paperit? 
              # A: Tuolin edessä.
           'spatial1': r".*"
                       r"C\:\s(?P<N2>.+?)\s(?:on|ovat)\s(?P<N1>.+?)\sja\s(?P<P2>.+?)\s(?P<P1>.+?)\."
                       r".*",
              # C: {P2} ja {N2} ovat {P1}. Okko laittaa paperit {N1}. 
              # Q: Missä on kynä? 
              # A: Hyllyn päällä.
           'spatial2': r".*"
                       r"C\:\s(?P<P2>.+?)\sja\s(?P<N2>.+?)\s(?:on|ovat)\s(?P<P1>.+?)\.\s\w+\slaittaa\s\w+\s(?P<N1>.+?)\."
                       r".*",
               # C: {P1} ja {N1} olivat {N2} mutta Hellä vaihtoi uraa ja on nyt {P2}. 
               # Q: Kuka on lakimies? 
               # A: Hellä.
           'temporal1': r".*"
                        r"C\:\s(?P<P1>.+?)\sja\s(?P<N1>.+?)\solivat\s(?P<N2>.+?)\smutta\s.*on\snyt\s(?P<P2>.+?)\."
                        r".*",
               # C: {P1} ja {N1} ovat {N2} mutta Jaakko vaihtaa uraa ja tulee olemaan {P2}. 
               # Q: Kuka tulee olemaan kirjanpitäjä? 
               # A: Jaakko.
           'temporal2': r".*"
                        r"C\:\s(?P<P1>.+?)\sja\s(?P<N1>.+?)\sovat\s(?P<N2>.+?)\smutta\s.*ja\stulee\solemaan\s(?P<P2>.+?)\."
                        r".*",
               # C: {N1} on {N2} kuin {P1}. 
               # Q: Kumpi on {P2}? 
               # A: Okko.
           'comparative1': r".*"
                           r"C\:\s(?P<N1>.+?)\son\s(?P<N2>.+?)\skuin\s(?P<P1>.+?)\.\sQ\:\sKumpi\son\s(?P<P2>.+?)\?"
                           r".*",
               # C: Jos kirja olisi pienempi, Jaakko {P2} sitä. Jos {N1} olisi isompi, Jaakko käyttäisi sitä. 
               # Q: Mitä Jaakko käyttäisi jos se olisi vähemmän iso? 
               # A: {P1}.
           'comparative2': r".*"
                           r"C\:\sJos\s\w+.*,\s\w+\s(?P<P2>.+?)\s(?:sitä|sen).\sJos\s(?P<N1>.+?)\solisi\s.*A:\s(?P<P1>.+?)\."
                           r".*",
           },
    'ja': {# {N1}は{P2}(じゃないけど/ではないですが/ございませんが)、{P1}はそうです。
           'negation1': r".*"
                        r"C\:\s(?:(?P<N1A>.+)と(?P<N1B>.+)|(?P<N1>.+))は(?P<P2>.+?)(?:じゃないけど|ではないですが|ではございませんが)、(?:(?P<P1A>.+)と(?P<P1B>.+)|(?P<P1>.+))はそう(?:です|だ|でございます)。"
                        r".*",

           # {N1}は{N2}、{P1}は{P2}だ。
           'negation2': r".*"
                        r"C\:\s(?:(?P<N1A>.+)と(?P<N1B>.+)|(?P<N1>.+))は(?P<N2>.+?)、(?:(?P<P1A>.+)と(?P<P1B>.+)|(?P<P1>.+))は(?P<P2>.+?)(?:だ|です|でございます)。\s?Q\:"
                        r".*",
       
              # C: {P3}に{N1}の{N2}と{N3}の{N4}がある。
              # Q: {P3}にはいくつの{P2}がある？
              # A: {P1}。
           'numerals1': r".*"
                        r"C\:\s(?P<P3>.+?)に(?P<N1A>.+?)の(?P<N2A>.+?)と(?P<N1B>.+?)の(?P<N2B>.+?)が(?:ある|あります|ございます)。.*"
                        r"Q\:\s.*にはいくつの(?P<P2>.+?)が(?:ある|あります|ございます).*"
                        r"A:\s(?P<P1>.+?)(?:です|ございます)?。"
                        r".*",

              # C: {P3}に{N1A}の{P2}と{N1B}の{N2}がございます。富美子はりんごを二個召し上がりました。
              # Q: テーブルの上にりんごはいくつございますか。
              # A: {P1}ございます。        
           'numerals2': r".*"
                        r"C\:\s(?P<P3>.+?)に(?P<N1A>.+?)の(?P<P2>.+?)と(?P<N1B>.+?)の(?P<N2>.+?)が(?:ある|あります|ございます)。.*を(?P<N1C>.+?)(?:食べた|食べました|召し上がりました)。.*"
                        r"A:\s(?P<P1>.+?)(?:です|ございます)?。"
                        r".*",
            # C: {N2}は{N1}、{P2}は{P1}にございます。
            # Q: 紙はどこにございますかか。
            # A: 机の上にございます。
           'spatial1': r".*"
                       r"C\:\s(?P<N2>.+?)は(?P<N1>.+?)、(?P<P2>.+?)は(?P<P1>.+?)に(?:ある|あります|ございます)。"
                       r".*",
            # C: {P2}と{N2}は{P1}にございます。富美子様は電話を{N1}に置かれました。
            # Q: 本はどこにございますか。
            # A: ソファの下にございます。
           'spatial2': r".*"
                       r"C\:\s(?P<P2>.+?)と(?P<N2>.+?)は(?P<P1>.+?)(?:だ|にあります|にございます)。.*を(?P<N1>.+?)に(?:置いた|置きます|置かれました)。"
                       r".*",
            # C: {P1}と{N1}は{N2}でいらっしゃいましたが、笑子様はご転職されて今は{P2}でいらっしゃいます。 
            # Q: 誰が歌手でいらっしゃいますか。
            # A: 笑子様でございます。
           'temporal1': r".*"
                        r"C\:\s(?P<P1>.+?)と(?P<N1>.+?)は(?P<N2>.+?)(?:だった|でした|でいらっしゃいました).*今は(?P<P2>.+?)(?:。|です|でいらっしゃいます)"
                        r".*",
            # C: {P1}と{N1}は{N2}でいらっしゃいますが、春花様はご転職して{P2}になられます。
            # Q: 警官には誰がなられますか。
            # A: 春花様でございます。
           'temporal2': r".*"
                        r"C\:\s(?P<P1>.+?)と(?P<N1>.+?)は(?P<N2>.+?)(?:だけど|ですが|でいらっしゃいますが)、.*転職して(?P<P2>.+?)(?:になる|になります|になられます)。"
                        r".*",
            # C: {N1}は{P1}より{N2}でいらっしゃいます。
            # Q: 誰が{P2}でいらっしゃいますか？
            # A: 実様でございます。
           'comparative1': r".*"
                           r"C\:\s(?P<N1>.+?)は(?P<P1>.+?)より(?P<N2>.+?)(?:。|だ。|です。|でいらっしゃいます。)"
                           r".*Q\:\s(?:どっち|誰|どちら)が(?P<P2>.+?)(?:？|だ|です|でいらっしゃいます)"
                           r".*",
            # C: もしその{P1}がもっと美しかったならば、龍様はそれを{P2}でしょう。もしその{N1}がもっと大きかったならば、龍様はそれを売るでしょう。
            # Q: 何がもっと醜くなかったならば、龍様はそれを売るでしょうか。
            # A: 船でございます。
           'comparative2': r".*"
                           r"C\:\sもしその(?P<P1>.+?)がもっと.*それを(?P<P2>.+?)(?:だろう|でしょう)。もしその(?P<N1>.+?)がもっと"
                           r".*",
            # C: 棚の上に{N1}の物がありますが、それらは辞書です。
            # Q: 棚の上にいくつの辞書がありますか。
            # A: {P1}です。
            'counters': r".*"
                        r"C\:\s(?P<P2>.+?)に(?P<N1>.+?)の物.*A:\s(?P<P1>.+?)(?:。|です。|ございます。)"
                        r".*",
           },
}

CONJ = {"en": "and",
        "de": "und",
        "fi": "ja",
        "ja": "と"}

NEG = {"en": ("not", "no"),
       "de": ("keine", "kein"),
       "fi": ("ei", "eivät"),
       "ja": ("じゃない", "ではない", 
               "じゃありません", "ではありません", 
               "ございません")}

In [13]:
# NAMES -
#      En - Dennis, Lisa
#      De - Thorsten Marie
#      Fi - Antti, Kati
#      Ja - 昭夫, 文江

# JOBS -
#      En - programmer, therapist
#      De - programmierer, therapeutin
#      Fi - ohjelmoija, terapeutti
#      Ja - プログラマー、療法士

# OBJECT
#      En - bottle, box
#      De - Flasche, Schachtel
#      Fi - pullo, laatikko
#      Ja - ボトル、ボックス

# FRUITS -
#      En - peach, persimmon
#      De - Pfirsich, Dattelpflaume
#      Fi - persikka, persimoni
#      Ja - いちじく、さくらんぼ

# PLACE - 
#      En - drawer, freezer
#      De - Schublade, Gefrierschrank
#      Fi - laatikko, pakastin
#      Ja - 引き出し、冷凍庫

# COMPS -
#      En - wider, thinner
#      De - breiter, dünner
#      Fi - leveämpi, ohuempi
#      Ja - より広い、より薄い

# ACTION -
#      En - discarded
#      De - weggeworfen
#      Fi - olisi hylännyt
#      Ja - 捨てた



ONE_SHOT_PROMPTS = {
                    'en': {'negation1': 'C: Dennis is not a programmer, but Lisa is. Q: Who is a programmer? A: Lisa.', 
                           'negation2': 'C: Dennis is a programmer, Lisa is a therapist. Q: Who is not a programmer? A: Lisa.', 
                           'numerals1': 'C: There are two peaches and six persimmons on the table. Q: How many fruits in total are on the table? A: Eight.', 
                           'numerals2': 'C: There are eight peaches and nine persimmons on the table. Lisa ate two peaches. Q: How many peaches are on the table? A: Six.', 
                           'spatial1': 'C: The bottle is behind the drawer and the box is next to the freezer. Q: Where is the box? A: Next to the freezer.', 
                           'spatial2': 'C: The bottle and the box are behind the drawer. Dennis puts the box on the ground. Q: Where is the bottle? A: Behind the drawer.', 
                           'temporal1': 'C: Dennis and Lisa were writers, but Lisa changed careers and is now a therapist. Q: Who is a therapist? A: Lisa.', 
                           'temporal2': 'C: Dennis and Lisa are writers, but Lisa will change careers and will be a therapist. Q: Who will be a therapist? A: Lisa.', 
                           'comparative1': 'C: Lisa is wider than Dennis. Q: Who is thinner? A: Dennis.', 
                           'comparative2': 'C: If the drawer was wider, Lisa would discard it. If the freezer was thinner, Lisa would discard it. Q: What would Lisa discard if it was less thin? A: The drawer.',
                           }, 
                    'de': {'negation1': 'C: Thorsten ist keine Programmierer, aber Marie ist es. Q: Wer ist Programmierer? A: Lisa.', 
                           'negation2': 'C: Thorsten ist eine Programmierer und Marie ist eine Therapeutin. Q: Wer ist keine Programmierer? A: Marie.', 
                           'numerals1': 'C: Es gibt eine Pfirsich und zwei Dattelpflaume auf dem Tisch. Q: Wie viele Früchte liegen insgesamt auf dem Tisch? A: Drei.', 
                           'numerals2': 'C: Es gibt acht Pfirsich und acht Dattelpflaume auf dem Tisch. Katja aß zwei Pfirsich. Q: Wie viele Pfirsich gibt es auf dem Tisch? A: Sechs.', 
                           'spatial1': 'C: Die Flasche liegt hinter der Schublade und die Schachtel liegen vor dem Gefrierschrank. Q: Wo sind die Schachtel? A: Vor dem Gefrierschrank.', 
                           'spatial2': 'C: Die Flasche und die Schachtel liegen hinter der Schublade. Marie legt die Schachtel auf den Boden. Q: Wo ist die Flasche? A: Hinter der Schublade.', 
                           'temporal1': 'C: Thorsten und Marie waren Programmierer, aber Marie hat den Beruf gewechselt und wird Therapeutin. Q: Wer ist Therapeutin? A: Marie.', 
                           'temporal2': 'C: Thorsten und Marie sind Programmierer, aber Marie wechselt den Beruf und wird Therapeutin. Q: Wer wird Therapeutin? A: Marie.', 
                           'comparative1': 'C: Lisa ist breiter als Thorsten. Q: Wer ist dünner? A: Thorsten.', 
                           'comparative2': 'C: Wäre die Schublade breiter, würde sie Thorsten wegwerfen. Wäre der Gefrierschrank dünner, würde sie Thorsten wegwerfen. Q: Was würde Stefan wegwerfen, wäre es weniger dünn? A: Die Schublade.',
                           }, 
                    'fi': {'negation1': 'C: Antti ei ole ohjelmoija mutta Kati on. Q: Kuka on ohjelmoija? A: Kati.', 
                           'negation2': 'C: Antti on ohjelmoija, Kati on terapeutti. Q: Kuka ei ole ohjelmoija? A: Kati.', 
                           'numerals1': 'C: Pöydällä on yksi persikka ja yksi persimoni. Q: Kuinka monta hedelmää on pöydällä yhteensä? A: Kaksi.', 
                           'numerals2': 'C: Pöydällä on seitsemän persikka ja kahdeksan persimoni. Antti söi yhden persikan. Q: Kuinka monta banaania on pöydällä? A: Kuusi.', 
                           'spatial1': 'C: Pullo on kaapin vieressä ja laatikko pakastimen edessä. Q: Missä on laatikko? A: Pakastimen edessä.', 
                           'spatial2': 'C: Pullo ja laatikko ovat kaapin päällä. Antti laittaa pullo maahan. Q: Missä on laatikko? A: Pakastimen edessä.', 
                           'temporal1': 'C: Antti ja Kati olivat ohjelmoijia mutta Kati vaihtoi uraa ja on nyt terapeutti. Q: Kuka on terapeutti? A: Kati.', 
                           'temporal2': 'C: Antti ja Kati ovat ohjelmoijia mutta Kati vaihtaa uraa ja tulee olemaan terapeutti. Q: Kuka tulee olemaan terapeutti? A: Kati.', 
                           'comparative1': 'C: Kati on leveämpi kuin Antti. Q: Kumpi on ohuempi? A: Antti.', 
                           'comparative2': 'C: Jos laatikko olisi leveämpi, Kati hylkäisi sen. Jos pakastin olisi ohuempi, Kati hylkäisi sen. Q: Mitä Kati hylkäisi jos se olisi vähemmän ohuempi? A: Laatikon.',
                           }, 
                    'ja_fam': {'negation1': 'C: 昭夫はプログラマーじゃないけど、文江はそうだ。 Q: 誰がプログラマー？ A: 文江。', 
                           'negation2': 'C: 昭夫はプログラマー、文江は療法士だ。 Q: プログラマーじゃないのは誰？ A: 文江。', 
                           'numerals1': 'C: テーブルの上に一個のいちじくと一個のさくらんぼがある。 Q: テーブルの上にはいくつの果物がある？ A: 二個。', 
                           'numerals2': 'C: テーブルの上に五個のいちじくと五個のさくらんぼがある。昭夫はいちじくを一個食べた。 Q: テーブルの上にいちじくはいくつある？ A: 四個。', 
                           'spatial1': 'C: ボトルは引き出しの上、ボックスは冷凍庫の前にある。 Q: ボトルはどこ？ A: 引き出しの上。', 
                           'spatial2': 'C: ボトルとボックスは引き出しの上だ。昭夫はボックスを床に置いた。 Q: ボトルはどこ？ A: 引き出しの上。', 
                           'temporal1': 'C: 昭夫と文江はプログラマーだったけど、文江は転職して今は療法士。 Q: 誰が療法士？ A: 文江。', 
                           'temporal2': 'C: 昭夫と文江はプログラマーだけど、文江は転職して療法士になる。 Q: 療法士には誰がなるか？ A: 文江。', 
                           'comparative1': 'C: 昭夫は文江より広い。 Q: どっちが薄い？ A: 文江。', 
                           'comparative2': 'C: もしその引き出しがもっと広かったら、昭夫はそれを捨てるだろう。もしその冷凍庫がもっと薄かったら、昭夫はそれを捨てるだろう。 Q: 何がもっと薄くなかったとしたら、昭夫はそれを捨てるか？ A: 引き出し。',
                           'counters': 'C: 引き出しの隣に四つの物があるが、それは包丁だ。 Q: 引き出しの隣にいくつの包丁がある？ A: 四丁。',},
                     'ja_norm': {'negation1': 'C: 昭夫はプログラマーではないですが、文江はそうです。 Q: 誰がプログラマーですか。 A: 文江です。', 
                           'negation2': 'C: 昭夫はプログラマー、文江は療法士です。 Q: プログラマーでないのは誰ですか。 A: 文江です。', 
                           'numerals1': 'C: テーブルの上に十個のいちじくと十個のさくらんぼがあります。 Q: テーブルの上にはいくつの果物がありますか。 A: 二十個です。', 
                           'numerals2': 'C: テーブルの上に七個のいちじくと九個のさくらんぼがあります。昭夫はいちじくを一個食べました。 Q: テーブルの上にいちじくはいくつありますか。 A: 六個です。', 
                           'spatial1': 'C: ボトルは引き出しの上、ボックスは冷凍庫の前にあります。 Q: ボトルはどこにありますか。 A: 引き出しの上です。', 
                           'spatial2': 'C: ボトルとボックスは引き出しの上にあります。昭夫はボックスを床に置きます。 Q: ボトルはどこにありますか。 A: 引き出しの上。', 
                           'temporal1': 'C: 昭夫と文江はプログラマーでしたが、文江は転職して今は療法士です。 Q: 誰が療法士ですか。 A: 文江です。', 
                           'temporal2': 'C: 昭夫と文江はプログラマーですが、文江は転職して療法士になります。 Q: 療法士には誰がなりますか。 A: 文江です。', 
                           'comparative1': 'C: 昭夫は文江より広いです。 Q: どちらが薄いですか。 A: 文江です。', 
                           'comparative2': 'C: もしその引き出しがもっと広かったら、昭夫はそれを捨てるでしょう。もしその冷凍庫がもっと薄かったら、昭夫はそれを捨てるでしょう。 Q: 何がもっと薄くなかったとしたら、昭夫はそれを捨てますか。 A: 引き出しです。',
                           'counters': 'C: 引き出しの隣に九つの物がありますが、それらは包丁です。 Q: 引き出しの隣にいくつの包丁がありますか。 A: 九丁です。',},
                     'ja_form': {'negation1': 'C: 昭夫様はプログラマーではございませんが、文江様はそうでございます。 Q: 誰がプログラマーでございますか。 A: 文江様でございます。', 
                           'negation2': 'C: 昭夫様はプログラマー、文江様は療法士でございます。 Q: プログラマーでないのは誰でございますか。 A: 文江様でございます。', 
                           'numerals1': 'C: テーブルの上に二個のいちじくと三個のさくらんぼがございます。 Q: テーブルの上にはいくつの果物がございますか。 A: 五個ございます。', 
                           'numerals2': 'C: テーブルの上に八個のいちじくと十個のさくらんぼがございます。昭夫はいちじくを二個召し上がりました。 Q: テーブルの上にいちじくはいくつございますか。 A: 六個ございます。', 
                           'spatial1': 'C: ボトルは引き出しの上、ボックスは冷凍庫の前にございます。 Q: ボトルはどこにございますかか。 A: 引き出しの上にございます。', 
                           'spatial2': 'C: ボトルとボックスは引き出しの上にございます。昭夫様はボックスを床に置かれました。 Q: ボトルはどこにございますか。 A: 引き出しの上にございます。', 
                           'temporal1': 'C: 昭夫様と文江様はプログラマーでいらっしゃいましたが、文江様はご転職されて今は療法士でいらっしゃいます。 Q: 誰が療法士でいらっしゃいますか。 A: 文江様でございます。', 
                           'temporal2': 'C: 昭夫様と文江様はプログラマーでいらっしゃいますが、文江様はご転職して療法士になられます。 Q: 療法士には誰がなられますか。 A: 文江様でございます。', 
                           'comparative1': 'C: 昭夫様は文江様より広いでいらっしゃいます。 Q: 誰が薄いでいらっしゃいますか？ A: 文江様でございます。', 
                           'comparative2': 'C: もしその引き出しがもっと広かったならば、昭夫様はそれを捨てるでしょう。もしその冷凍庫がもっと薄かったならば、昭夫様はそれを捨てるでしょう。 Q: 何がもっと薄くなかったならば、昭夫様はそれを捨てるでしょうか。 A: 引き出しでございます。',
                           'counters': 'C: 引き出しの隣に七つの物がございますが、それらは包丁でございます。 Q: 引き出しの隣にいくつの包丁がございますか。 A: 七丁ございます。',}
                }

ALTERED_ONE_SHOT_PROMPTS = {
                    'en': {'negation1': 'C: Dennis is not a programmer, but Lisa is. Q: Who is not a programmer? A: Dennis.', 
                           'negation2': 'C: Dennis is a programmer, Lisa is a therapist. Q: Who is not a therapist? A: Dennis.', 
                           'numerals1': 'C: There are two peaches and six persimmons on the table. Q: How many fruits in total are on the table? A: Eight.', 
                           'numerals2': 'C: There are eight peaches and nine persimmons on the table. Lisa ate two peaches. Q: How many peaches are on the table? A: Six.', 
                           'spatial1': 'C: The bottle is behind the drawer and the box is next to the freezer. Q: Where is the bottle? A: Behind the drawer.', 
                           'spatial2': 'C: The bottle and the box are behind the drawer. Dennis puts the box on the ground. Q: Where is the box? A: On the ground.', 
                           'temporal1': 'C: Dennis and Lisa were writers, but Lisa changed careers and is now a therapist. Q: Who is a writier? A: Dennis.', 
                           'temporal2': 'C: Dennis and Lisa are writers, but Lisa will change careers and will be a therapist. Q: Who is a writer? A: Dennis and Lisa.', 
                           'comparative1': 'C: Lisa is wider than Dennis. Q: Who is wider? A: Dennis.', 
                           'comparative2': 'C: If the drawer was wider, Lisa would discard it. If the freezer was thinner, Lisa would discard it. Q: What would Lisa discard if it was less wide? A: The freezer.',
                           }, 
                    'de': {'negation1': 'C: Thorsten ist keine Programmierer, aber Marie ist es. Q: Wer ist keine Programmierer? A: Thorsten.', 
                           'negation2': 'C: Thorsten ist eine Programmierer und Marie ist eine Therapeutin. Q: Wer ist keine Therapeutin? A: Thorsten.', 
                           'numerals1': 'C: Es gibt eine Pfirsich und zwei Dattelpflaume auf dem Tisch. Q: Wie viele Früchte liegen insgesamt auf dem Tisch? A: Drei.', 
                           'numerals2': 'C: Es gibt acht Pfirsich und acht Dattelpflaume auf dem Tisch. Katja aß zwei Pfirsich. Q: Wie viele Pfirsich gibt es auf dem Tisch? A: Sechs.', 
                           'spatial1': 'C: Die Flasche liegt hinter der Schublade und die Schachtel liegen vor dem Gefrierschrank. Q: Wo sind die Flasche? A: Hinter der Schublade.', 
                           'spatial2': 'C: Die Flasche und die Schachtel liegen hinter der Schublade. Marie legt die Schachtel auf den Boden. Q: Wo ist die Schachtel? A: Auf den Boden.', 
                           'temporal1': 'C: Thorsten und Marie waren Programmierer, aber Marie hat den Beruf gewechselt und wird Therapeutin. Q: Wer ist Programmierer? A: Thorsten.', 
                           'temporal2': 'C: Thorsten und Marie sind Programmierer, aber Marie wechselt den Beruf und wird Therapeutin. Q: Wer ist Programmierer? A: Thorsten und Marie.', 
                           'comparative1': 'C: Lisa ist breiter als Thorsten. Q: Wer ist breiter? A: Lisa.', 
                           'comparative2': 'C: Wäre die Schublade breiter, würde sie Thorsten wegwerfen. Wäre der Gefrierschrank dünner, würde sie Thorsten wegwerfen. Q: Was würde Stefan wegwerfen, wäre es weniger breit? A: Der Gefrierschrank.',
                           }, 
                    'fi': {'negation1': 'C: Antti ei ole ohjelmoija mutta Kati on. Q: Kuka ei ole ohjelmoija? A: Antti.', 
                           'negation2': 'C: Antti on ohjelmoija, Kati on terapeutti. Q: Kuka ei ole terapeutti? A: Antti.', 
                           'numerals1': 'C: Pöydällä on yksi persikka ja yksi persimoni. Q: Kuinka monta hedelmää on pöydällä yhteensä? A: Kaksi.', 
                           'numerals2': 'C: Pöydällä on seitsemän persikka ja kahdeksan persimoni. Antti söi yhden persikan. Q: Kuinka monta banaania on pöydällä? A: Kuusi.', 
                           'spatial1': 'C: Pullo on kaapin vieressä ja laatikko pakastimen edessä. Q: Missä on pullo? A: Kaapin vieressä.', 
                           'spatial2': 'C: Pullo ja laatikko ovat kaapin päällä. Antti laittaa pullo maahan. Q: Missä on pullo? A: Maahan.', 
                           'temporal1': 'C: Antti ja Kati olivat ohjelmoijia mutta Kati vaihtoi uraa ja on nyt terapeutti. Q: Kuka on ohjelmoijia? A: Antti.', 
                           'temporal2': 'C: Antti ja Kati ovat ohjelmoijia mutta Kati vaihtaa uraa ja tulee olemaan terapeutti. Q: Kuka on ohjelmoijia? A: Antti ja Kati.', 
                           'comparative1': 'C: Kati on leveämpi kuin Antti. Q: Kumpi on leveämpi? A: Kati.', 
                           'comparative2': 'C: Jos laatikko olisi leveämpi, Kati hylkäisi sen. Jos pakastin olisi ohuempi, Kati hylkäisi sen. Q: Mitä Kati hylkäisi jos se olisi vähemmän leveämpi? A: Pakastin.',
                           }, 
                    'ja_fam': {'negation1': 'C: 昭夫はプログラマーじゃないけど、文江はそうだ。 Q: 誰がプログラマーじゃない？ A: 昭夫。', 
                           'negation2': 'C: 昭夫はプログラマー、文江は療法士だ。 Q: 療法士じゃないのは誰？ A: 昭夫。', 
                           'numerals1': 'C: テーブルの上に一個のいちじくと一個のさくらんぼがある。 Q: テーブルの上にはいくつの果物がある？ A: 二個。', 
                           'numerals2': 'C: テーブルの上に五個のいちじくと五個のさくらんぼがある。昭夫はいちじくを一個食べた。 Q: テーブルの上にいちじくはいくつある？。 A: 四個。', 
                           'spatial1': 'C: ボトルは引き出しの上、ボックスは冷凍庫の前にある。 Q: ボックスはどこ？ A: 冷凍庫の前。', 
                           'spatial2': 'C: ボトルとボックスは引き出しの上だ。昭夫はボックスを床に置いた。 Q: ボックスはどこ？ A: 床に。', 
                           'temporal1': 'C: 昭夫と文江はプログラマーだったけど、文江は転職して今は療法士。 Q: 誰がプログラマー？ A: 昭夫。', 
                           'temporal2': 'C: 昭夫と文江はプログラマーだけど、文江は転職して療法士になる。 Q: 誰がプログラマー？ A: 昭夫と文江。', 
                           'comparative1': 'C: 昭夫は文江より広い。 Q: どっちが広い？ A: 昭夫。', 
                           'comparative2': 'C: もしその引き出しがもっと広かったら、昭夫はそれを捨てるだろう。もしその冷凍庫がもっと薄かったら、昭夫はそれを捨てるだろう。 Q: 何がもっと広くなかったとしたら、昭夫はそれを捨てるか。 A: 冷凍庫。',
                           'counters': 'C: 引き出しの隣に四つの物があるが、それは包丁だ。 Q: 引き出しの隣にいくつの包丁がある？ A: 四丁。',},
                     'ja_norm': {'negation1': 'C: 昭夫はプログラマーではないですが、文江はそうです。 Q: 誰がプログラマーではないか。 A: 昭夫です。', 
                           'negation2': 'C: 昭夫はプログラマー、文江は療法士です。 Q: 療法士でないのは誰ですか。 A: 昭夫です。', 
                           'numerals1': 'C: テーブルの上に十個のいちじくと十個のさくらんぼがあります。 Q: テーブルの上にはいくつの果物がありますか。 A: 二十個です。', 
                           'numerals2': 'C: テーブルの上に七個のいちじくと九個のさくらんぼがあります。昭夫はいちじくを一個食べました。 Q: テーブルの上にいちじくはいくつありますか。 A: 六個です。', 
                           'spatial1': 'C: ボトルは引き出しの上、ボックスは冷凍庫の前にあります。 Q: ボックスはどこにありますか。 A: 冷凍庫の前です。', 
                           'spatial2': 'C: ボトルとボックスは引き出しの上にあります。昭夫はボックスを床に置きます。 Q: ボックスはどこにありますか。 A: 床にあります。', 
                           'temporal1': 'C: 昭夫と文江はプログラマーでしたが、文江は転職して今は療法士です。 Q: 誰がプログラマーですか。 A: 昭夫です。', 
                           'temporal2': 'C: 昭夫と文江はプログラマーですが、文江は転職して療法士になります。 Q: 誰がプログラマーですか。 A: 昭夫と文江です。', 
                           'comparative1': 'C: 昭夫は文江より広いです。 Q: どちらが広いですか。 A: 昭夫です。', 
                           'comparative2': 'C: もしその引き出しがもっと広かったら、昭夫はそれを捨てるでしょう。もしその冷凍庫がもっと薄かったら、昭夫はそれを捨てるでしょう。 Q: 何がもっと広くなかったとしたら、昭夫はそれを捨てますか。 A: 冷凍庫です。',
                           'counters': 'C: 引き出しの隣に九つの物がありますが、それらは包丁です。 Q: 引き出しの隣にいくつの包丁がありますか。 A: 九丁です。',},
                     'ja_form': {'negation1': 'C: 昭夫様はプログラマーではございませんが、文江様はそうでございます。 Q: 誰がプログラマーでございませんか。 A: 昭夫様でございます。', 
                           'negation2': 'C: 昭夫様はプログラマー、文江様は療法士でございます。 Q: 療法士でないのは誰でございますか。 A: 昭夫様でございます。', 
                           'numerals1': 'C: テーブルの上に二個のいちじくと三個のさくらんぼがございます。 Q: テーブルの上にはいくつの果物がございますか。 A: 五個ございます。', 
                           'numerals2': 'C: テーブルの上に八個のいちじくと十個のさくらんぼがございます。昭夫はいちじくを二個召し上がりました。 Q: テーブルの上にいちじくはいくつございますか。 A: 六個ございます。', 
                           'spatial1': 'C: ボトルは引き出しの上、ボックスは冷凍庫の前にございます。 Q: ボックスはどこにございますかか。 A: 冷凍庫の前にございます。', 
                           'spatial2': 'C: ボトルとボックスは引き出しの上にございます。昭夫様はボックスを床に置かれました。 Q: ボックスはどこにございますか。 A: 床にございます。', 
                           'temporal1': 'C: 昭夫様と文江様はプログラマーでいらっしゃいましたが、文江様はご転職されて今は療法士でいらっしゃいます。 Q: 誰がプログラマーでいらっしゃいますか。 A: 昭夫様でございます。', 
                           'temporal2': 'C: 昭夫様と文江様はプログラマーでいらっしゃいますが、文江様はご転職して療法士になられます。 Q: 誰がプログラマーでいらっしゃいますか。 A: 昭夫様と文江様でございます。', 
                           'comparative1': 'C: 昭夫様は文江様より広いでいらっしゃいます。 Q: 誰が広いでいらっしゃいますか？ A: 昭夫様でございます。', 
                           'comparative2': 'C: もしその引き出しがもっと広かったならば、昭夫様はそれを捨てるでしょう。もしその冷凍庫がもっと薄かったならば、昭夫様はそれを捨てるでしょう。 Q: 何がもっと広くなかったならば、昭夫様はそれを捨てるでしょうか。 A: 冷凍庫でございます。',
                           'counters': 'C: 引き出しの隣に七つの物がございますが、それらは包丁でございます。 Q: 引き出しの隣にいくつの包丁がございますか。 A: 七丁ございます。',}
                }

PREFIX = {'ja_fam': '日本語でお答えて。',
                          'ja_form': '日本語でお答えください。',
                          'ja_norm': '日本語で答えてください。',
                          'en': 'Please answer the question in English.',
                          'de': 'Bitte beantworten Sie die Frage auf Deutsch.',
                          'fi': 'Vastaa kysymykseen suomeksi.'}

KEYS = {'ja': {'C': '文脈', 'Q': '質問', 'A': '回答'},
       'en': {'C': 'Context', 'Q': 'Question', 'A': 'Answer'},
       'de': {'C': 'Kontext', 'Q': 'Frage', 'A': 'Antwort'},
       'fi': {'C': 'Konteksti', 'Q': 'Kysymys', 'A': 'Vastaus'},}

In [14]:
import re

def get_targets(prompt, lang, task):
    groups = re.search(TARGET_PATTERN[lang][task], prompt)
    if not groups:
        print(task)
        print(lang)
        print(prompt)
    
    targets = {k: v.lower() for k, v in groups.groupdict().items() if v}
    # if task in {'negation1', 'negation2'}: 
    #     new_items = {}
    #     remove_keys = []
    #     for k, v in targets.items():
    #         if CONJ[lang] in v:
    #             print(v)
    #             v1, v2 = v.split(CONJ[lang] if lang == 'ja' else f' {CONJ[lang]} ')
    #             new_items[k+'A'], new_items[k+'B'] = v1.strip(), v2.strip()
    #             remove_keys.append(k)
    #     targets.update(new_items)
    #     for k in remove_keys:
    #         del targets[k]

    return targets

In [15]:
import json
import os
from collections import Counter
path = '/home/norrman/GitHub/multi-morph-checklist/M2C.json'

if not os.path.isfile(path):
    data = {}
    ind = 0
    for doc in files:
        with open(doc['path'], 'r') as f:
            for line in f:
                context, question, answer = line.strip().replace('C: ', '').replace('Q: ', '|').replace('A: ', '|').split('|')
                context, question, answer = context.strip(), question.strip(), answer.strip()
                lang, task, polite = doc['lang'], doc['task'], doc['polite']
                lang_p = lang + f'_{polite}' if polite else lang

                data[ind] = {
                              'task': task,
                              'lang': lang_p,
                              'prefix': PREFIX[lang_p],
                              'context': context.strip(),
                              'question': question.strip(),
                              'answer': answer.strip(),
                              'prompt': f"{KEYS[lang]['C']}: {context} {KEYS[lang]['Q']}: {question} {KEYS[lang]['A']}:",
                              'targets': get_targets(line, lang, task),
                              'example_prompt': ONE_SHOT_PROMPTS[lang_p][task].replace('C: ', KEYS[lang]['C']+': ').replace('Q: ', KEYS[lang]['Q']+': ').replace('A: ', KEYS[lang]['A']+': '),
                              'altered_example_prompt': ALTERED_ONE_SHOT_PROMPTS[lang_p][task].replace('C: ', KEYS[lang]['C']+': ').replace('Q: ', KEYS[lang]['Q']+': ').replace('A: ', KEYS[lang]['A']+': '),
                              'raw_response': {},
                              'response': {}
                            }
                
                ind += 1
    counts = Counter([d['lang'] for d in data.values()])
    print(counts)
    json.dump(data, open(path, 'w'), indent=4)
else:
    print('ERROR: OUTFILE ALREADY EXISTS')

Counter({'ja_fam': 5500, 'ja_norm': 5500, 'ja_form': 5500, 'en': 5000, 'de': 5000, 'fi': 5000})


## Post Processing Responses

In [36]:
import json

data = json.load(open('/home/norrman/GitHub/multi-morph-checklist/M2C_responses.json'))

In [37]:
for id, item in data.items():
    # item['response']["xlm_oneshot_2beam"] = item['response']["xlm_oneshot_1beam"]
    # del item['response']["xlm_oneshot_1beam"]

    for k, v in item['response'].items():
        if k == "xglm_oneshot_altex_1beam":
            prompt = f"{item['prefix']} {item['altered_example_prompt'] }"
            item['response'][k] = v[len(prompt):]
        elif k == "xglm_oneshot_altex_2beam": 
            prompt = f"{item['prefix']} {item['altered_example_prompt']}"
            item['response'][k] = v[len(prompt):]
        elif k == "xlm_oneshot_1beam":
            prompt = f"{item['prefix']} {item['example_prompt']}"
            item['response'][k] = v[len(prompt):]
        elif k == "xlm_oneshot_2beam":
            prompt = f"{item['prefix']} {item['example_prompt']}"
            item['response'][k] = v[len(prompt):]
        elif k == "xlm_zeroshot_1beam": 
            prompt = f"{item['prefix']}"
            item['response'][k] = v[len(prompt):]
        elif k == "xlm_zeroshot_2beam":
            prompt = f"{item['prefix']}"
            item['response'][k] = v[len(prompt):]

data

{'0': {'task': 'negation1',
  'lang': 'en',
  'prefix': 'Please answer the question in English.',
  'context': 'Susan is not an architect, but Lola is. ',
  'question': 'Who is an architect? ',
  'answer': 'Lola.',
  'prompt': 'Context: Susan is not an architect, but Lola is.  Question: Who is an architect?  Answer:',
  'targets': {'N1': 'susan', 'P2': 'architect', 'P1': 'lola'},
  'example_prompt': 'Context:  Dennis is not a programmer, but Lisa is. Question: Who is a programmer? Answer: Lisa.',
  'altered_example_prompt': 'Context: Dennis is not a programmer, but Lisa is. Question: Who is not a programmer? Answer: Dennis.',
  'response': {'xglm_oneshot_altex_1beam': ' Susan. Context: Susan is not an architect.',
   'xglm_oneshot_altex_2beam': ' Susan. Context: Dennis is not a programmer, but Lisa is.',
   'xlm_oneshot_1beam': 'Lola. Context: Dennis is not a programmer, but Lisa is.',
   'xlm_zeroshot_1beam': ' Susan is an architect.',
   'xlm_zeroshot_2beam': ' Susan is an architect,

In [38]:
for id, item in data.items():
    item['response']["xlm_oneshot_2beam"] = item['response']["xlm_oneshot_1beam"]
    del item['response']["xlm_oneshot_1beam"]

In [39]:
data

{'0': {'task': 'negation1',
  'lang': 'en',
  'prefix': 'Please answer the question in English.',
  'context': 'Susan is not an architect, but Lola is. ',
  'question': 'Who is an architect? ',
  'answer': 'Lola.',
  'prompt': 'Context: Susan is not an architect, but Lola is.  Question: Who is an architect?  Answer:',
  'targets': {'N1': 'susan', 'P2': 'architect', 'P1': 'lola'},
  'example_prompt': 'Context:  Dennis is not a programmer, but Lisa is. Question: Who is a programmer? Answer: Lisa.',
  'altered_example_prompt': 'Context: Dennis is not a programmer, but Lisa is. Question: Who is not a programmer? Answer: Dennis.',
  'response': {'xglm_oneshot_altex_1beam': ' Susan. Context: Susan is not an architect.',
   'xglm_oneshot_altex_2beam': ' Susan. Context: Dennis is not a programmer, but Lisa is.',
   'xlm_zeroshot_1beam': ' Susan is an architect.',
   'xlm_zeroshot_2beam': ' Susan is an architect, Lola is an architect, and Susan is an architect',
   'xlm_oneshot_2beam': 'Lola. C

In [40]:
# json.dump(data, open('/home/norrman/GitHub/multi-morph-checklist/M2C_responses_fixed.json', 'w'), indent=4)

In [46]:
data = json.load(open('/home/norrman/GitHub/multi-morph-checklist/M2C_responses_fixed.json'))
data["20000"]

{'task': 'numerals2',
 'lang': 'ja_form',
 'prefix': '日本語でお答えください。',
 'context': 'テーブルの上に八個のイチゴと十個のカキがございます。富美子はイチゴを二個召し上がりました。',
 'question': 'テーブルの上にイチゴはいくつございますか。',
 'answer': '六個ございます。',
 'prompt': '文脈: テーブルの上に八個のイチゴと十個のカキがございます。富美子はイチゴを二個召し上がりました。 質問: テーブルの上にイチゴはいくつございますか。 回答:',
 'targets': {'P3': 'テーブルの上',
  'N1A': '八個',
  'P2': 'イチゴ',
  'N1B': '十個',
  'N2': 'カキ',
  'N1C': '二個',
  'P1': '六個'},
 'example_prompt': '文脈:  テーブルの上に八個のいちじくと十個のさくらんぼがございます。昭夫はいちじくを二個召し上がりました。質問: テーブルの上にいちじくはいくつございますか。回答: 六個ございます。',
 'altered_example_prompt': '文脈: テーブルの上に八個のいちじくと十個のさくらんぼがございます。昭夫はいちじくを二個召し上がりました。質問: テーブルの上にいちじくはいくつございますか。回答: 六個ございます。',
 'response': {'xglm_oneshot_altex_1beam': '答: 六個ございます。 文脈: テーブルの上に八',
  'xglm_oneshot_altex_2beam': '答: 六個ございます。 文脈: テーブルの上に八',
  'xlm_zeroshot_1beam': '答: イチゴは、三個、カキは、二個',
  'xlm_zeroshot_2beam': '答: イチゴは三個、カキは二個です。',
  'xlm_oneshot_2beam': ': 六個ございます。 文脈: テーブルの上に八'}}