# 「こころ」を形態素解析
― 1行＝1文(単語分割されたもの)

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('KH_Coder/data/kokoro.csv')

In [3]:
data

Unnamed: 0,テキスト,部,章,章（ラベル）
0,私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。こ...,[1]上＿先生と私,1_01,上・一
1,私が先生と知り合いになったのは鎌倉である。その時私はまだ若々しい書生であった。暑中休暇を利...,[1]上＿先生と私,1_01,上・一
2,学校の授業が始まるにはまだ大分日数があるので鎌倉におってもよし、帰ってもよいという境遇にい...,[1]上＿先生と私,1_01,上・一
3,宿は鎌倉でも辺鄙な方角にあった。玉突きだのアイスクリームだのというハイカラなものには長い畷...,[1]上＿先生と私,1_01,上・一
4,私は毎日海へはいりに出掛けた。古い燻ぶり返った藁葺の間を通り抜けて磯へ下りると、この辺にこ...,[1]上＿先生と私,1_01,上・一
...,...,...,...,...
1210,それから二、三日して、私はとうとう自殺する決心をしたのです。私に乃木さんの死んだ理由がよく...,[3]下＿先生と遺書,3_56,下・五十六
1211,私は妻を残して行きます。私がいなくなっても妻に衣食住の心配がないのは仕合せです。私は妻に残...,[3]下＿先生と遺書,3_56,下・五十六
1212,私が死のうと決心してから、もう十日以上になりますが、その大部分はあなたにこの長い自叙伝の一...,[3]下＿先生と遺書,3_56,下・五十六
1213,しかし私は今その要求を果たしました。もう何にもする事はありません。この手紙があなたの手に落...,[3]下＿先生と遺書,3_56,下・五十六


In [4]:
# Janomeのインストール
#!pip install janome | tail -n 1

In [5]:
# Janomeのロード
from janome.tokenizer import Tokenizer

In [6]:
# Tokenizerインスタンスの生成 
t = Tokenizer()

# テキストを引数として、形態素解析の結果、記号以外を配列で抽出する関数を定義 
def extract_words(text):
    tokens = t.tokenize(text)
#    return [token.base_form for token in tokens 
#        if token.part_of_speech.split(',')[0] in['名詞', '動詞']]
    return [token.base_form for token in tokens 
        if not token.part_of_speech.split(',')[0] in['記号']]

In [7]:
data['テキスト_形態素'] = data['テキスト'].apply(extract_words)

In [8]:
data

Unnamed: 0,テキスト,部,章,章（ラベル）,テキスト_形態素
0,私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。こ...,[1]上＿先生と私,1_01,上・一,"[私, は, その, 人, を, 常に, 先生, と, 呼ぶ, で, いる, た, だから,..."
1,私が先生と知り合いになったのは鎌倉である。その時私はまだ若々しい書生であった。暑中休暇を利...,[1]上＿先生と私,1_01,上・一,"[私, が, 先生, と, 知り合い, に, なる, た, の, は, 鎌倉, だ, ある,..."
2,学校の授業が始まるにはまだ大分日数があるので鎌倉におってもよし、帰ってもよいという境遇にい...,[1]上＿先生と私,1_01,上・一,"[学校, の, 授業, が, 始まる, に, は, まだ, 大分, 日数, が, ある, の..."
3,宿は鎌倉でも辺鄙な方角にあった。玉突きだのアイスクリームだのというハイカラなものには長い畷...,[1]上＿先生と私,1_01,上・一,"[宿, は, 鎌倉, で, も, 辺鄙, だ, 方角, に, ある, た, 玉突き, だの,..."
4,私は毎日海へはいりに出掛けた。古い燻ぶり返った藁葺の間を通り抜けて磯へ下りると、この辺にこ...,[1]上＿先生と私,1_01,上・一,"[私, は, 毎日, 海, へ, はいる, に, 出掛ける, た, 古い, 燻, ぶり, 返..."
...,...,...,...,...,...
1210,それから二、三日して、私はとうとう自殺する決心をしたのです。私に乃木さんの死んだ理由がよく...,[3]下＿先生と遺書,3_56,下・五十六,"[それから, 二, 三, 日, する, て, 私, は, とうとう, 自殺, する, 決心,..."
1211,私は妻を残して行きます。私がいなくなっても妻に衣食住の心配がないのは仕合せです。私は妻に残...,[3]下＿先生と遺書,3_56,下・五十六,"[私, は, 妻, を, 残す, て, 行く, ます, 私, が, いる, ない, なる, ..."
1212,私が死のうと決心してから、もう十日以上になりますが、その大部分はあなたにこの長い自叙伝の一...,[3]下＿先生と遺書,3_56,下・五十六,"[私, が, 死ぬ, う, と, 決心, する, て, から, もう, 十, 日, 以上, ..."
1213,しかし私は今その要求を果たしました。もう何にもする事はありません。この手紙があなたの手に落...,[3]下＿先生と遺書,3_56,下・五十六,"[しかし, 私, は, 今, その, 要求, を, 果たす, ます, た, もう, 何, に..."


In [9]:
data.to_csv('こころ_形態素.csv')

In [10]:
text = '私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。'
# Tokenizerインスタンスの生成 
t = Tokenizer()
tokens = t.tokenize(text)

In [11]:
for token in tokens:
    print(token)

私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
その	連体詞,*,*,*,*,*,その,ソノ,ソノ
人	名詞,一般,*,*,*,*,人,ヒト,ヒト
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
常に	副詞,一般,*,*,*,*,常に,ツネニ,ツネニ
先生	名詞,一般,*,*,*,*,先生,センセイ,センセイ
と	助詞,格助詞,一般,*,*,*,と,ト,ト
呼ん	動詞,自立,*,*,五段・バ行,連用タ接続,呼ぶ,ヨン,ヨン
で	助詞,接続助詞,*,*,*,*,で,デ,デ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。
だから	接続詞,*,*,*,*,*,だから,ダカラ,ダカラ
ここ	名詞,代名詞,一般,*,*,*,ここ,ココ,ココ
でも	助詞,副助詞,*,*,*,*,でも,デモ,デモ
ただ	接続詞,*,*,*,*,*,ただ,タダ,タダ
先生	名詞,一般,*,*,*,*,先生,センセイ,センセイ
と	助詞,格助詞,引用,*,*,*,と,ト,ト
書く	動詞,自立,*,*,五段・カ行イ音便,基本形,書く,カク,カク
だけ	助詞,副助詞,*,*,*,*,だけ,ダケ,ダケ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
本名	名詞,一般,*,*,*,*,本名,ホンミョウ,ホンミョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
打ち明け	動詞,自立,*,*,一段,未然形,打ち明ける,ウチアケ,ウチアケ
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
。	記号,句点,*,*,*,*,。,。,。
