## Unidic 中古和文を用いた分ち書き

In [1]:
import pandas as pd
from pathlib import Path
import sys, os
sys.path.append(os.path.abspath('../../common/preprocessings/'))
from Tokenizer import MeCabTokenizer

In [2]:
# tokenizerの生成
tokenizer = MeCabTokenizer('../../dic/UniDic-wabun_1603/')

In [4]:
# 既存のDataframe
df = pd.read_pickle('../../data/pickles/haiku_df.pickle')
df.head()

Unnamed: 0,作者,フルネーム,俳句,季語,季節,分かち書き,名詞,動詞,形容詞,副詞
0,bashou,松尾芭蕉,姥桜さくや老後の思ひ出,桜,春,姥桜 さく や 老後 の 思ひ 出,姥桜 さく 老後 出,思ふ,,
1,bashou,松尾芭蕉,年は人にとらせていつも若夷,,,年 は 人 に とら せ て いつも 若 夷,年 人 夷,とる せる,,いつも
2,bashou,松尾芭蕉,花の顔に晴うてしてや朧月,花,春,花 の 顔 に 晴 うて し て や 朧月,花 顔 晴 朧月,うてる する,,
3,bashou,松尾芭蕉,盛なる梅にす手引風も哉,梅,春,盛 なる 梅 に す 手引 風 も 哉,盛 梅 手引 風 哉,,,
4,bashou,松尾芭蕉,あち東風や面々さばき柳髪,東風,春,あ ち 東風 や 面々 さばき 柳 髪,東風 面々 さばき 柳 髪,ちる,,


In [4]:
selected_df = df[['作者', 'フルネーム', '俳句', '季語', '季節']].copy()
selected_df.head()

Unnamed: 0,作者,フルネーム,俳句,季語,季節
0,bashou,松尾芭蕉,姥桜さくや老後の思ひ出,桜,春
1,bashou,松尾芭蕉,年は人にとらせていつも若夷,,
2,bashou,松尾芭蕉,花の顔に晴うてしてや朧月,花,春
3,bashou,松尾芭蕉,盛なる梅にす手引風も哉,梅,春
4,bashou,松尾芭蕉,あち東風や面々さばき柳髪,東風,春


In [5]:
# 分ち書きを適用
selected_df['分ち書き'] = selected_df['俳句'].map(lambda x : " ".join(tokenizer.wakati(x)))
selected_df.head()

Unnamed: 0,作者,フルネーム,俳句,季語,季節,分ち書き
0,bashou,松尾芭蕉,姥桜さくや老後の思ひ出,桜,春,姥桜 さく や 老後 の 思ひ出
1,bashou,松尾芭蕉,年は人にとらせていつも若夷,,,年 は 人 に とら せ て いつ も 若 夷
2,bashou,松尾芭蕉,花の顔に晴うてしてや朧月,花,春,花 の 顔 に 晴 うて し て や 朧月
3,bashou,松尾芭蕉,盛なる梅にす手引風も哉,梅,春,盛 なる 梅 に す 手引 風 も 哉
4,bashou,松尾芭蕉,あち東風や面々さばき柳髪,東風,春,あち 東風 や 面々 さばき 柳 髪


In [7]:
# 名詞と動詞を原形に変換して取り出す
def filter(txt, pos):
    words = []
    if pos == '名詞':
        for token in tokenizer.filter_by_pos(txt, pos=(pos)):
            words.append(token.base)
    elif pos == '動詞':
        for token in tokenizer.filter_by_pos(txt, pos=(pos)):
            words.append(token.lemma)
    return ' '.join(words)


selected_df['名詞'] = selected_df['俳句'].map(lambda x: filter(x, pos='名詞'))
selected_df['動詞'] = selected_df['俳句'].map(lambda x: filter(x, pos='動詞'))
selected_df.head()

Unnamed: 0,作者,フルネーム,俳句,季語,季節,分ち書き,名詞,動詞
0,bashou,松尾芭蕉,姥桜さくや老後の思ひ出,桜,春,姥桜 さく や 老後 の 思ひ出,姥桜 老後 思ひ出,咲く
1,bashou,松尾芭蕉,年は人にとらせていつも若夷,,,年 は 人 に とら せ て いつ も 若 夷,年 人 若 夷,取る
2,bashou,松尾芭蕉,花の顔に晴うてしてや朧月,花,春,花 の 顔 に 晴 うて し て や 朧月,花 顔 朧月,晴れる 打てる 為る
3,bashou,松尾芭蕉,盛なる梅にす手引風も哉,梅,春,盛 なる 梅 に す 手引 風 も 哉,梅 手引 風,為る
4,bashou,松尾芭蕉,あち東風や面々さばき柳髪,東風,春,あち 東風 や 面々 さばき 柳 髪,東風 面々 柳 髪,捌く


In [8]:
# haiku_dfを書き換え
# selected_df.to_pickle('../../data/pickles/haiku_df.pickle')

In [9]:
df = pd.read_pickle('../../data/pickles/haiku_df.pickle')
df.head()

Unnamed: 0,作者,フルネーム,俳句,季語,季節,分ち書き,名詞,動詞
0,bashou,松尾芭蕉,姥桜さくや老後の思ひ出,桜,春,姥桜 さく や 老後 の 思ひ出,姥桜 老後 思ひ出,咲く
1,bashou,松尾芭蕉,年は人にとらせていつも若夷,,,年 は 人 に とら せ て いつ も 若 夷,年 人 若 夷,取る
2,bashou,松尾芭蕉,花の顔に晴うてしてや朧月,花,春,花 の 顔 に 晴 うて し て や 朧月,花 顔 朧月,晴れる 打てる 為る
3,bashou,松尾芭蕉,盛なる梅にす手引風も哉,梅,春,盛 なる 梅 に す 手引 風 も 哉,梅 手引 風,為る
4,bashou,松尾芭蕉,あち東風や面々さばき柳髪,東風,春,あち 東風 や 面々 さばき 柳 髪,東風 面々 柳 髪,捌く


## 名詞と動詞を一つの文字列として連結させたDataframeの作成

In [12]:
pos_df = pd.DataFrame()
for name, group in df.groupby('フルネーム'):
    for pos in ['名詞', '動詞']:
        pos_df.loc[name, pos] = ' '.join(group[pos].dropna().tolist())
    
pos_df

Unnamed: 0,名詞,動詞
与謝蕪村,庭 鶯 日 すがら 老 武者 大根 若菜 百 枝 花 主 春 海 辛崎 朧 いく 与謝 海 ...,鳴く 侮る 戻る 為る 降る 笑う 掛ける 見える 見る 過ぐす 為る 売る 捨てる 遣...
夏目漱石,初夢 金 煩悩 百 八 今朝 春 春王 正月 蟹 軍さ 元日 先 親 山里 割木 わる 鏡餅...,拾う 死ぬ 為る 減る 生まれる 砕ける 応える 始める 賜わる 有る 摘む 生まれる ...
小林一茶,青梅 手 蛙 蓮 花 虱 茨 花 時鳥 身 五月雨 夜 山 穴 五月雨 雪 しな 山 門 木...,掛ける 寝る 捨てる 跨ぐ 咲く 降る 隠れる 下る 通す 給う-尊敬 如く 散る ...
尾崎放哉,教場 机 冬 暇 電信 材 菜 たね 道 鯉幟 雨 萩 小家 町はづれ 寒菊 臼 下 病 春...,休む 下す 居る 転ぶ 為る 有る 言う 為る 暗れる 行く 見える 降る 晴れる 咲く...
杉田久女,元旦 束の間 髪 松 社前 舳 松 内海 日 霙 松 町 雨 初句 会 正月 胼 手 ね ご...,起きる 出でる 結ぶ 統べる 荒れる 取れる 来る 洗う 凪ぐ 見る 出でる 飾る 籠もる ...
松尾芭蕉,姥桜 老後 思ひ出 年 人 若 夷 花 顔 朧月 梅 手引 風 東風 面々 柳 髪 餅 雪 ...,咲く 取る 晴れる 打てる 為る 為る 捌く 成す 飽く 浮かれる 縺れる 吹く 唸る 立...
正岡子規,高砂 松 二タ 子 門 松 元日 一 輪 福寿 草 元朝 虚空 不二 許り 初空 烏 富士 ...,開く 為る 使う 突く 尽きる 来る 差す-他動詞 知る 着る 灯す 動く 引...
河東碧梧桐,初日 朱雀 通り 静 薮 入 小道 元日 寺 上京 万歳 寺 門 元日 袴 蓬莱 海老 歯朶...,差す-他動詞 戻る 放る 入る 脱ぐ 捨てる 遊ぶ 隠れる 売る 初める 切る 許りる ...
芥川龍之介,白梅 夕 雨 士族 町 南殿 春 雨 海 霞 島人 徐福 幾 世 ひる 海 饅頭 名 城 春...,為る 食らう 去る 霞む 見る 奉る 固まる 咲く 滴らす 為る 為る 霞む 曇る 切る ...
高浜虚子,門松 其中 都 餅 酒 けさ 春 酒 餅 今朝 春 元日 比 枝 愛宕 雪 山 もと 恋 も...,立つ 好く 好く 妻せる 娶る 見る 当たる 為る 使う 為る 始める 有る 捨てる...


In [13]:
# pos_df.to_pickle('../../data/pickles/pos_df.pickle')