In [1]:
import yaml
from itertools import chain
import json
import pandas as pd

In [2]:
with open("minna-no-ds.yaml", "r", encoding="utf-8") as f:
    ds = yaml.load(f, Loader=yaml.FullLoader)

In [3]:
lessons = [ds[f'lesson-{str(i+1).zfill(2)}'] for i in range(24)]

In [4]:
GROUP_EXCEPTIONS = {
    '1': ['伸ばします'],
    '2': ['起きます', 'できます']
}

def group(verb):
    for group_num, exception_verbs in GROUP_EXCEPTIONS.items():
        if verb['kanji'] in exception_verbs:
            return int(group_num)
    if (verb['kanji'][-3:] == 'します' and len(verb['kanji']) > 4) or verb['kanji'][-3:] == '来ます':
        return 3
    elif verb['romaji'][-5] == 'e' or len(verb['kana']) == 3 or len(verb['kanji']) == 3:
        return 2
    elif verb['romaji'][-5] == 'i':
        return 1

In [None]:
VERB_EXCEPTIONS = ['役に 立ちます']
def get_verbs(lesson):
    verbs = []
    for word in lesson:
        if 2 not in word['edition']:
            continue
        if 'を' in word['kana']:
            continue
        if word['kanji'] in VERB_EXCEPTIONS:
            continue
        if word['kanji'] is None:
            word['kanji'] = word['kana']
        if word['kanji'] == '行ます':
            word['kanji'] = '行きます'
        if word['kanji'] == '住ます':
            word['kanji'] = '住みます'
        if word['kana'][-2:] == 'ます':
            cleaned = {'kanji': word['kanji'], 'kana' : word['kana'], 'romaji' : word['romaji'], 'group': group(word)}
            verbs.append(cleaned)
    return verbs

In [6]:
verbs = list(chain.from_iterable([get_verbs(lesson) for lesson in lessons]))
verbs

[{'kanji': '起きます', 'kana': 'おきます', 'romaji': 'okimasu', 'group': 2},
 {'kanji': '寝ます', 'kana': 'ねます', 'romaji': 'nemasu', 'group': 2},
 {'kanji': '働きます', 'kana': 'はたらきます', 'romaji': 'hatarakimasu', 'group': 1},
 {'kanji': '休みます', 'kana': 'やすみます', 'romaji': 'yasumimasu', 'group': 1},
 {'kanji': '勉強します', 'kana': 'べんきょうします', 'romaji': 'benkyōshimasu', 'group': 3},
 {'kanji': '終わります', 'kana': 'おわります', 'romaji': 'owarimasu', 'group': 1},
 {'kanji': '行きます', 'kana': 'いきます', 'romaji': 'ikimasu', 'group': 1},
 {'kanji': '来ます', 'kana': 'きます', 'romaji': 'kimasu', 'group': 3},
 {'kanji': '帰ります', 'kana': 'かえります', 'romaji': 'kaerimasu', 'group': 1},
 {'kanji': '食べます', 'kana': 'たべます', 'romaji': 'tabemasu', 'group': 2},
 {'kanji': '飲みます', 'kana': 'のみます', 'romaji': 'nomimasu', 'group': 1},
 {'kanji': '見ます', 'kana': 'みます', 'romaji': 'mimasu', 'group': 2},
 {'kanji': '聞きます', 'kana': 'ききます', 'romaji': 'kikimasu', 'group': 1},
 {'kanji': '読みます', 'kana': 'よみます', 'romaji': 'yomimasu', 'group': 1},
 {'kanji':

In [7]:
manual_verbs_kanji = [
    '飛びます', '登ります', '走ります', 'もぐります', '飛び込みます', '逆立ちます', 'ほいます', 'けります', 
    '振ります', '持ち上げます', '投げます', 'たたきます', '引きます', '押します', '曲げます', '伸ばします', '転びます', 
    '振り向きますます'
]
manual_verbs_kana = [
    'とびます', 'のぼります', 'はしります', 'もぐります', 'とびこみます', 'さかだちます', 'ほいます', 'けります', 'ふります', 
    'もちあげます', 'なげます', 'たたきます', 'ひきます', 'おします', 'まげます', 'のばします', 'ころびます', 'ふりむきます'
]
manual_verbs_romaji = [
    'tobimasu', 'noborimasu', 'hashirimasu', 'mogurimasu', 'tobikomimasu', 'sakadachimasu', 'hoimasu', 'kerimasu',
    'furimasu', 'mochiagemasu', 'nagemasu', 'tatakimasu', 'hikimasu', 'oshimasu', 'magemasu', 'nobashimasu',
    'korobimasu', 'furimukimasu'
]

In [8]:
manual_verbs = [{'kanji': manual_verbs_kanji[i], 'kana': manual_verbs_kana[i], 'romaji': manual_verbs_romaji[i]} for i in range(len(manual_verbs_kana))]
for verb in manual_verbs:
    verb['group'] = group(verb)
manual_verbs

[{'kanji': '飛びます', 'kana': 'とびます', 'romaji': 'tobimasu', 'group': 1},
 {'kanji': '登ります', 'kana': 'のぼります', 'romaji': 'noborimasu', 'group': 1},
 {'kanji': '走ります', 'kana': 'はしります', 'romaji': 'hashirimasu', 'group': 1},
 {'kanji': 'もぐります', 'kana': 'もぐります', 'romaji': 'mogurimasu', 'group': 1},
 {'kanji': '飛び込みます', 'kana': 'とびこみます', 'romaji': 'tobikomimasu', 'group': 1},
 {'kanji': '逆立ちます', 'kana': 'さかだちます', 'romaji': 'sakadachimasu', 'group': 1},
 {'kanji': 'ほいます', 'kana': 'ほいます', 'romaji': 'hoimasu', 'group': 1},
 {'kanji': 'けります', 'kana': 'けります', 'romaji': 'kerimasu', 'group': 1},
 {'kanji': '振ります', 'kana': 'ふります', 'romaji': 'furimasu', 'group': 1},
 {'kanji': '持ち上げます', 'kana': 'もちあげます', 'romaji': 'mochiagemasu', 'group': 2},
 {'kanji': '投げます', 'kana': 'なげます', 'romaji': 'nagemasu', 'group': 2},
 {'kanji': 'たたきます', 'kana': 'たたきます', 'romaji': 'tatakimasu', 'group': 1},
 {'kanji': '引きます', 'kana': 'ひきます', 'romaji': 'hikimasu', 'group': 1},
 {'kanji': '押します', 'kana': 'おします', 'romaji': 'oshima

In [9]:
verbs_complete = verbs + manual_verbs
verbs_complete

[{'kanji': '起きます', 'kana': 'おきます', 'romaji': 'okimasu', 'group': 2},
 {'kanji': '寝ます', 'kana': 'ねます', 'romaji': 'nemasu', 'group': 2},
 {'kanji': '働きます', 'kana': 'はたらきます', 'romaji': 'hatarakimasu', 'group': 1},
 {'kanji': '休みます', 'kana': 'やすみます', 'romaji': 'yasumimasu', 'group': 1},
 {'kanji': '勉強します', 'kana': 'べんきょうします', 'romaji': 'benkyōshimasu', 'group': 3},
 {'kanji': '終わります', 'kana': 'おわります', 'romaji': 'owarimasu', 'group': 1},
 {'kanji': '行きます', 'kana': 'いきます', 'romaji': 'ikimasu', 'group': 1},
 {'kanji': '来ます', 'kana': 'きます', 'romaji': 'kimasu', 'group': 3},
 {'kanji': '帰ります', 'kana': 'かえります', 'romaji': 'kaerimasu', 'group': 1},
 {'kanji': '食べます', 'kana': 'たべます', 'romaji': 'tabemasu', 'group': 2},
 {'kanji': '飲みます', 'kana': 'のみます', 'romaji': 'nomimasu', 'group': 1},
 {'kanji': '見ます', 'kana': 'みます', 'romaji': 'mimasu', 'group': 2},
 {'kanji': '聞きます', 'kana': 'ききます', 'romaji': 'kikimasu', 'group': 1},
 {'kanji': '読みます', 'kana': 'よみます', 'romaji': 'yomimasu', 'group': 1},
 {'kanji':

In [10]:
df_verbs = pd.DataFrame(verbs_complete)
df_verbs

Unnamed: 0,kanji,kana,romaji,group
0,起きます,おきます,okimasu,2
1,寝ます,ねます,nemasu,2
2,働きます,はたらきます,hatarakimasu,1
3,休みます,やすみます,yasumimasu,1
4,勉強します,べんきょうします,benkyōshimasu,3
...,...,...,...,...
134,押します,おします,oshimasu,1
135,曲げます,まげます,magemasu,2
136,伸ばします,のばします,nobashimasu,1
137,転びます,ころびます,korobimasu,1


In [11]:
df_verbs.to_excel('verbs.xlsx', index=False)


In [12]:
with open("verbs.json", "w") as outfile:
    json.dump(verbs, outfile)