## Data Gathering

In [1]:
import sys, os
sys.path.append(os.pardir)
from common.utils import *

haijins = ['basyo', 'kikaku', 'ransetu','kyorai','jousou','kyoroku', 'sanpuu', 'sikou','hokusi', 'yaba', 'etujin', 'sora', 'izen', 'dohou']

data = {}
for i, h in enumerate(haijins):
    path = '../data/{}.csv'.format(h)
    data[h] = csv_haiku_extract(path, 1)

In [2]:
data.keys()

dict_keys(['basyo', 'kikaku', 'ransetu', 'kyorai', 'jousou', 'kyoroku', 'sanpuu', 'sikou', 'hokusi', 'yaba', 'etujin', 'sora', 'izen', 'dohou'])

In [3]:
data['basyo'][:2]

['於春々大哉春と云々\n', '青くてもあるべきものを唐辛子\n']

## Data Cleaning

In [4]:
import re

def clean_text(text):
    '''get rid of \n'''
    text = re.sub('\n', '', text)
    return text 

In [5]:
# remove \n 
for haijin in data.keys():
    data[haijin] = [clean_text(haiku) for haiku in data[haijin]]
data['basyo']

['於春々大哉春と云々',
 '青くてもあるべきものを唐辛子',
 '青ざしや草餅の穂に出でつらん',
 '青柳の泥にしだるる潮干かな',
 'あかあかと日はつれなくも秋の風',
 '秋風に折れて悲しき桑の杖',
 '秋風の吹けども青し栗の毬',
 '秋風の遣戸の口やとがり声',
 '秋風や桐に動きて蔦の霜',
 '秋風や薮も畠も不破の関',
 '秋来にけり耳を訪ねて枕の風',
 '秋来ぬと妻恋ふ星や鹿の革',
 '秋涼し手ごとにむけや瓜茄子',
 '秋近き心の寄るや四畳半',
 '秋十年却って江戸を指す故郷',
 '秋に添うて行かばや末は小松川',
 '秋の色糠味噌壷もなかりけり',
 '秋の風伊勢の墓原なほ凄し',
 '秋の夜を打ち崩したる咄かな',
 '秋深き隣は何をする人ぞ',
 '秋もはやはらつく雨に月の形',
 '秋を経て蝶もなめるや菊の露',
 '曙はまだ紫にほととぎす',
 'あけぼのや白魚白きこと一寸',
 '明け行くや二十七夜も三日の月',
 'あこくその心も知らず梅の花',
 '朝顔に我は飯食う男哉',
 '朝顔は酒盛知らぬ盛り哉',
 '朝顔は下手の書くさへあはれなり',
 '蕣や是も又我が友ならず',
 '朝顔や昼は錠おろす門の垣',
 '朝茶飲む僧静かなり菊の花',
 '朝露や撫でて涼しき瓜の土',
 '朝な朝な手習ひすすむきりぎりす',
 'あさむつや月見の旅の明け離れ',
 '朝夜さを誰がまつしまぞ片心',
 '足洗うてつひ明けやすき丸寝かな',
 '紫陽花や帷子時の薄浅黄',
 '紫陽花や薮を小庭の別座舗',
 '明日の月雨占なはん比那が嶽',
 '明日は粽難波の枯葉夢なれや',
 '遊び来ぬ鰒釣りかねて七里まで',
 'あち東風や面々さばき柳髪',
 '暑き日を海に入れたり最上川',
 'あつみ山や吹浦かけて夕涼み',
 'あなたふと木の下闇も日の光',
 'あなむざんや甲の下のきりぎりす',
 'あの雲は稲妻を待つたより哉',
 'あの中に蒔絵書きたし宿の月',
 '海士の顔まづ見らるるや芥子の花',
 '海士の屋は小海老にまじるいとど哉',
 '雨折々思ふことなき早苗哉',
 '雨の日や世間の秋を堺町',
 'あやめ生ひけり軒の鰯のされかうべ',
 'あやめ草足に結ばん草履の緒',
 '鮎の子の白魚送る別れ哉',
 '荒海や佐

In [6]:
# extract nouns and verbs

import MeCab

def extract_noun_verb(morphemes):
    words = []
    words += extract_words_lexicalCategory('名詞', morphemes)
#     words += extract_words_lexicalCategory('動詞', morphemes)
    return words

m_tagger = MeCab.Tagger('-Ochasen')

for haijin in data.keys():
    data[haijin] = morphological_analyzer(m_tagger, data[haijin])
    data[haijin] = extract_noun_verb(data[haijin])
data['basyo']

['於春',
 '哉春',
 '云々',
 'もの',
 '唐辛子',
 '青',
 '草餅',
 '穂',
 '出',
 '青柳',
 '泥',
 '潮干',
 '日',
 '秋',
 '風',
 '秋風',
 '桑',
 '杖',
 '秋風',
 'ども',
 '栗',
 '毬',
 '秋風',
 '遣戸',
 '口',
 '声',
 '秋風',
 '桐',
 '蔦',
 '霜',
 '秋風',
 '薮',
 '畠',
 '不破',
 '関',
 '秋',
 '来',
 '耳',
 '枕',
 '風',
 '秋',
 '妻',
 '恋',
 '星',
 '鹿',
 '革',
 '秋涼',
 '手',
 'ごと',
 '瓜',
 '茄子',
 '秋',
 '心',
 '四畳半',
 '秋',
 '十',
 '年',
 '江戸',
 '故郷',
 '秋',
 '末',
 '小松川',
 '秋',
 '色',
 '糠味噌',
 '壷',
 '秋',
 '風',
 '伊勢',
 '墓',
 '原',
 'なほ',
 '秋',
 '夜',
 '咄',
 '秋',
 '隣',
 '何',
 '人',
 '秋',
 '雨',
 '月',
 '形',
 '秋',
 '蝶',
 '菊',
 '露',
 '曙',
 '紫',
 'ほととぎす',
 'あけぼの',
 '白魚',
 'こと',
 '一',
 '寸',
 '明け',
 '二',
 '十',
 '七',
 '夜',
 '三',
 '日',
 '月',
 '心',
 '梅',
 '花',
 '朝顔',
 '我',
 '飯',
 '男',
 '哉',
 '朝顔',
 '酒',
 '盛',
 '盛り',
 '哉',
 '朝顔',
 '下手',
 'さ',
 'あはれ',
 '蕣',
 '是',
 '友',
 '朝顔',
 '昼',
 '錠',
 '門',
 '垣',
 '朝',
 '茶',
 '僧',
 '静か',
 '菊',
 '花',
 '朝露',
 '瓜',
 '土',
 '手',
 '習',
 'きりぎりす',
 'むつ',
 '月見',
 '旅',
 '明け',
 '離れ',
 '朝',
 '夜',
 'さ',
 '誰',
 'しま',
 '心',
 '足',
 'てつ',
 '丸寝',
 '紫陽花',
 '帷子',


In [7]:
def combine_text(list_of_text):
    combined_text = ' '.join(list_of_text)
    return combined_text

In [8]:
data_combined = {key: [combine_text(value)] for (key, value) in data.items()}

In [9]:
import pandas as pd 

data_df = pd.DataFrame.from_dict(data_combined).transpose()
data_df.columns = ['Haiku']
data_df.head()

Unnamed: 0,Haiku
basyo,於春 哉春 云々 もの 唐辛子 青 草餅 穂 出 青柳 泥 潮干 日 秋 風 秋風 桑 杖 ...
kikaku,鐘 ひとつ 日 江戸 春 日 春 鶴 歩み 哉 元日 炭 売 十 指 はま 弓 当時 紅裏 ...
ransetu,霜 朝 嵐 生姜 味噌 柳 ふか おのれ あらし 夕 燕 汐 蟹 裾 なごり 哉 舟 屋 秋...
kyorai,初春 家 譲り 太刀 かん 商人 空音 ゆたか いせの 春 元日 土 顔 月 雪 ため 門 ...
jousou,まじ はり 紙子 切 背 門口 入江 千鳥 水底 顔 小鴨 哉 しづか さ 数珠 はず 網代...


In [10]:
full_names = [
    '松尾芭蕉',
    '宝井其角',
    '服部嵐雪',
    '向井去来',
    '内藤丈草',
    '森川許六',
    '杉山杉風',
    '各務支考',
    '立花北枝',
    '志太野坡',
    '越智越人',
    '河合曾良',
    '広瀬惟然',
    '服部土芳',
]

data_df['full_name'] = full_names
data_df.head()

# data_df.to_pickle('corpus.pkl')

Unnamed: 0,Haiku,full_name
basyo,於春 哉春 云々 もの 唐辛子 青 草餅 穂 出 青柳 泥 潮干 日 秋 風 秋風 桑 杖 ...,松尾芭蕉
kikaku,鐘 ひとつ 日 江戸 春 日 春 鶴 歩み 哉 元日 炭 売 十 指 はま 弓 当時 紅裏 ...,宝井其角
ransetu,霜 朝 嵐 生姜 味噌 柳 ふか おのれ あらし 夕 燕 汐 蟹 裾 なごり 哉 舟 屋 秋...,服部嵐雪
kyorai,初春 家 譲り 太刀 かん 商人 空音 ゆたか いせの 春 元日 土 顔 月 雪 ため 門 ...,向井去来
jousou,まじ はり 紙子 切 背 門口 入江 千鳥 水底 顔 小鴨 哉 しづか さ 数珠 はず 網代...,内藤丈草


In [11]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data_cv = cv.fit_transform(data_df.Haiku)
data_dtm = pd.DataFrame(data_cv.toarray(), columns=cv.get_feature_names())
data_dtm.index = data_df.index
data_dtm.head()

Unnamed: 0,あい,あか,あかし,あかつき,あかり,あき,あきの,あく,あけ,あけぼの,...,麦飯,麻の葉,麻木,黄色,黒み,黒森,黒髪山,鼻息,鼻紙,龍門
basyo,0,0,0,0,0,0,0,0,0,1,...,1,0,0,0,0,1,1,0,0,1
kikaku,0,0,0,0,1,0,0,0,0,0,...,1,0,0,0,0,0,0,1,0,0
ransetu,0,1,0,0,0,0,1,1,1,0,...,0,0,0,0,0,0,0,0,0,0
kyorai,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
jousou,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,2,0,0,0,0,0


In [12]:
# import pickle
# data_dtm.to_pickle("../pickles/dtm.pkl")
# pickle.dump(cv, open("../pickles/cv.pkl", "wb"))