## 自然言語処理 入門

### 事前準備

コマンドプロンプトを開き、以下のコマンドでMeCabをインストール（for Windows）

pip install mecab

※ MeCabについて: https://taku910.github.io/mecab/

※インストール方法 参考サイト：https://qiita.com/yukinoi/items/990b6933d9f21ba0fb43

### ライブラリのインポート

In [None]:
# 日本語の文章を形態素解析できるライブラリをインポート
import MeCab

### 分かち書き

In [None]:
# 引数の -Owakati は、分かち書きをするための引数
mecab = MeCab.Tagger("-Owakati")

# 分かち書きしたい文章を、引数として入力
text = mecab.parse("私はデータサイエンティストです")

# 出力
print(text)

### 形態素解析

In [None]:
# 引数の -Ochasen は、形態素解析をするための引数
mecab = MeCab.Tagger("-Ochasen")

# 分かち書きしたい文章を、引数として入力
text = mecab.parse("私はデータサイエンティストです")

# 出力
print(text)

In [None]:
# 引数を指定しなくても形態素解析ができる
mecab = MeCab.Tagger()

# 分かち書きしたい文章を、引数として入力
text = mecab.parse("私はデータサイエンティストです")

# 出力
print(text)

### 単語の出現回数を調べる

In [None]:
import MeCab

# テキストファイルを開く
# 中身は、夏目漱石の"吾輩は猫である"の一節（ちなみに、著作権が切れているので自由に使える）
# 日本語はエンコーディングの指定をしないと読み込めない
with open("neko-1.txt", encoding="utf_8") as f:
    # ファイルの読込み
    data = f.read()  

In [None]:
# 読み込んだデータの確認
data

In [None]:
# 分かち書きした文章を用意
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse(data)

In [None]:
# 格納するために空欄の辞書を作成
words = {}

# split()で分かち書きした文章から単語を取り出す
for word in text.split():
    # 単語をキーとして値に1を足していく。
    # 辞書に単語がない、すなわち初めて辞書に登録するときは0+1になる。
    words[word] = words.get(word, 0) + 1

In [None]:
# リストに取り出して単語の出現回数でソート
# vは出現回数、kは単語を指す
d = [(v, k) for k, v in words.items()]

# 出現回数が少ないものから多いものに並び替え
d.sort()

# 出現回数が多い順に並べる
d.reverse()

In [None]:
# 単語出現回数が多い上位30個を出力
for count, word in d[:30]:
    print(count, word)

### 出現した単語の数をベクトル化&単語の出現回数をカウント

In [None]:
import MeCab
import pandas as pd

# データの読込み
with open("neko-1.txt", encoding="utf_8") as f:
    data = f.read()

# 読み込んだデータの分かち書き
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse(data)

In [None]:
import numpy as np
# 単語をベクトル化するためのライブラリ
from sklearn.feature_extraction.text import CountVectorizer

# 関数を変数として定義する
count = CountVectorizer()
# array型に変換
docs = np.array([text])
# ベクトル化
vec = count.fit_transform(docs)

In [None]:
# 単語の出現回数をカウント
pd.DataFrame(vec.toarray(), columns=count.get_feature_names())

### TF-IDF

In [None]:
import MeCab
from sklearn.feature_extraction.text import TfidfVectorizer

# データの読込み
with open("neko-1.txt", encoding="utf_8") as f:
    data = f.read()

# 読み込んだデータの分かち書き
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse(data)

# 関数を変数として定義する
vec_tfidf = TfidfVectorizer()
# ベクトル化する文字列
doc = np.array([text])
# ベクトル化
vec = vec_tfidf.fit_transform(doc)

In [None]:
# 単語数
print('Vocabulary size: {}'.format(len(vec_tfidf.vocabulary_)))

In [None]:
import pandas as pd

# ベクトル化したものを表示
pd.DataFrame(vec.toarray(), columns=vec_tfidf.get_feature_names())