# Natural Language Processing
日本語や英語のような 自然発生的に生まれた言語 のことを指し、プログラミング言語のような人工言語(Artificial Language)とは対比の存在</br>
自然言語処理(NLP, Natural Language Processing)とは、人間が日常的に使っている 自然言語をコンピュータに処理させる技術</br>
自然言語処理を用いたタスクには、文書分類・機械翻訳・文書要約・質疑応答・対話など

## 自然言語処理でよく使われるワード
- トークン： 自然言語を解析する際、文章の最小単位として扱われる文字や文字列のこと
- タイプ： 単語の種類を表す用語
- 文章： まとまった内容を表す文のこと。自然言語処理では一文を指すことが多い
- 文書： 複数の文章から成るデータ一件分を指すことが多い
- コーパス： 文書または音声データにある種の情報を与えたデータ
- シソーラス： 単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書
- 形態素： 意味を持つ最小の単位。「食べた」という単語は、2つの形態素「食べ」と「た」に分解できる
- 単語： 単一または複数の形態素から構成される小さな単位
- 表層： 原文の記述のこと
- 原形： 活用する前の記述のこと
- 特徴： 文章や文書から抽出された情報のこと
- 辞書： 自然言語処理では、単語のリストを指す

## 言語による違い
言語ごとに問題の所在、難しさが異なるのが自然言語処理の特徴

# 文章の単語分割
文章の単語分割の手法は大きく二つ存在し、形態素解析 と Ngram がある</br>

## Ngram
N文字ごとに単語を切り分ける 、または N単語ごとに文章を切り分ける解析手法のこと</br>
形態素解析のように辞書や文法的な解釈が不要であるため、言語に関係なく用いることができる</br>
1文字、あるいは1単語ごとに切り出したものを モノグラム 、2文字（単語）ごとに切り出したものを バイグラム 、3文字（単語）ごとに切り出したものを トリグラム と呼ぶ</br>
- Pros
  - 辞書や文法的な解釈が不要であるため、 言語に関係なく 用いることができる
  - 特徴抽出の漏れが発生しにくい
- Cons
  - ノイズが大きくなることがある

## 形態素解析
形態素とは、意味を持つ最小の言語単位 のことであり、単語は一つ以上の形態素を持つ</br>
辞書を利用して形態素に分割し、さらに形態素ごとに品詞などのタグ付け（情報の付与）を行うことを指す</br>
- Pros
  - ノイズが少ない
- Cons
  - 辞書の性能差が生じてしまう

単語分割：文章を単語に分割すること</br>
品詞タグ付け：単語を品詞に分類して、タグ付けをする処理のこと</br>
形態素解析：形態素への分割と品詞タグ付けの作業をまとめたもの</br>


## MeCab
形態素解析を行うにあたりあらかじめ形態素解析ツールが用意されており、日本語の形態素解析器として代表的なものにMeCabやjanomeなどがある</br>
MeCabやjanomeは辞書を参考に形態素解析</br>
MeCabではMeCab.Tagger()の引数を変更することによりデータの出力形式を変更できる</br>
例のように、"-Owakati"を引数とすると単語ごとに分ける分かち書き、"-Ochasen"を引数とすると形態素解析を行う

In [18]:
import MeCab

# 形態素解析
mecab = MeCab.Tagger("-Ochasen")
string = mecab.parse("ダックスフンドが歩いている。")
print(string)

# 単語分割
mecab = MeCab.Tagger("-Owakati")
string = mecab.parse("ダックスフンドが歩いている。")
print(string)


ダックスフンド	ダックスフンド	ダックスフンド	名詞-一般		
が	ガ	が	助詞-格助詞-一般		
歩い	アルイ	歩く	動詞-自立	五段・カ行イ音便	連用タ接続
て	テ	て	助詞-接続助詞		
いる	イル	いる	動詞-非自立	一段	基本形
。	。	。	記号-句点		
EOS

ダックスフンド が 歩い て いる 。 



## janome
janomeも有名な日本語の形態素解析器の1つ</br>
Tokenizerのtokenizeメソッドに解析したい文字列を渡すことで形態素解析できる</br>
tokenizeメソッドの返り値はタグ付けされたトークン（Tokenオブジェクト）のリスト</br>

tokenizeメソッドの引数に wakati=True を指定することにより分かち書きをさせることができる</br>
wakati=Trueにした時の返り値は 分かち書きのリスト</br>

各トークン（Tokenオブジェクト）に対して、Token.surfaceで表層形、Token.part_of_speechで品詞を取り出せる</br>
表層形とは、文中において文字列として実際に出現する形式</br>

In [23]:
from janome.tokenizer import Tokenizer

# 形態素解析
print("######### {:^20} #########".format("形態素解析"))
tokenizer = Tokenizer()
tokens = tokenizer.tokenize("明日は晴れるだろうか。")
for token in tokens:
    print(token)

print("######### {:^20} #########".format("WAKATI"))
# 分かち書き
t = Tokenizer(wakati=True)
tokens_v2 = t.tokenize("すもももももももものうち")
print(tokens_v2)

print("######### {:^20} #########".format("名詞と動詞を取り出す"))
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("豚の肉を食べた")
word = []
# 名詞と動詞を取り出す
for token in tokens:
    # print(token.part_of_speech)
    part_of_speech = token.part_of_speech.split(",")[0]
    if part_of_speech in ["名詞", "動詞"]:
        word.append(token.surface)
print(word)

#########        形態素解析         #########
明日	名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
晴れる	動詞,自立,*,*,一段,基本形,晴れる,ハレル,ハレル
だろ	助動詞,*,*,*,特殊・ダ,未然形,だ,ダロ,ダロ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
か	助詞,副助詞／並立助詞／終助詞,*,*,*,*,か,カ,カ
。	記号,句点,*,*,*,*,。,。,。
#########        WAKATI        #########
<generator object Tokenizer.__tokenize_stream at 0x139d9c6d0>
#########      名詞と動詞を取り出す      #########
['豚', '肉', '食べ']


## Ngram
Ngramとは、 先ほど述べたようにN文字ごとに単語を切り分ける 、または N単語ごとに文章を切り分ける 解析手法</br>
Ngramのアルゴリズムは以下のgen_Ngramように書くことができる</br>
単語のNgramを求めたい場合は、引数に単語と切り出したい数</br>
文章のNgramを求めたい場合は、janomeのtokenize関数を用いて分かち書きのリストを作成し、その分かち書きのリストと切り出したい数を引数に入れる



In [41]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("太郎はこの本を二郎を見た女性に渡した。", wakati=True)
tokens = list(tokens)

def gen_Ngram(words,N):
    # Ngramを生成
    ngram = []
    for i in range(len(words)-N+1):
        cw = "".join(words[i:i+N])
        # print(cw)
        ngram.append(cw)
    return ngram

print(gen_Ngram(tokens, 2))
print(gen_Ngram(tokens, 3))


['太郎は', 'はこの', 'この本', '本を', 'を二', '二郎', '郎を', 'を見', '見た', 'た女性', '女性に', 'に渡し', '渡した', 'た。']
['太郎はこの', 'はこの本', 'この本を', '本を二', 'を二郎', '二郎を', '郎を見', 'を見た', '見た女性', 'た女性に', '女性に渡し', 'に渡した', '渡した。']


# 正規化
自然言語処理では、複数の文書から特徴を抽出する場合、入力ルールが統一されておらず表記揺れが発生している場合があり得る（例 iPhoneとiphone）</br>
同じはずの単語を別のものとして解析してしまい、意図しない解析結果が発生する可能性がある</br>
全角を半角に統一や大文字を小文字に統一等、ルールベースで文字を変換することを 正規化と言う</br>
正規化を行い過ぎると本来区別すべき内容も区別できなくなるため注意が必要</br>

- 表記揺れ
  - 同じ文書の中で、同音・同義で使われるべき語句が異なって表記されていること
- 正規化
  - 表記揺れを防ぐためルールベースで文字や数字を変換すること

## ライブラリによる正規化
文字列の正規化において、ライブラリの NEologdを用いると容易に正規化を行うことができる

In [2]:
import neologdn

# 半角カタカナを全角に統一
a = neologdn.normalize("ｶﾀｶﾅ")
print(a)
# 長音短縮
b = neologdn.normalize("長音短縮ウェーーーーイ")
print(b)
# 似た文字の統一
c = neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
print(c)
# 全角英数字を半角に統一 + 不要なスペースの削除
d = neologdn.normalize("　　　ＤＬ　　デ  ィ ープ ラ  ーニング　　　　　")
print(d)
# 繰り返しの制限
e = neologdn.normalize("かわいいいいいいいいい", repeat=6)
print(e)

カタカナ
長音短縮ウェーイ
いろんなハイフン-
DLディープラーニング
かわいいいいいい


## 自分自身で正規化をするための方法
文書中に「iphone」「iPhone」の２種類の単語があった時に、これらを同一のものとして扱うために表記を統一する必要がある</br>
大文字を小文字に揃えたいときは、 .lower() を文字列につけることにより揃えることができる</br>

正規化では、数字の置き換えを行うことがある</br>
数字の置き換えを行う理由としては、 数値表現が多様で出現頻度が高い割には自然言語処理のタスクに役に立たない場合があるからである</br>
ニュース記事を「スポーツ」や「政治」のようなカテゴリに分類するタスクを考える</br>
この時、記事中には多様な数字表現が出現するが、カテゴリの分類にはほとんど役に立たないと考えられる</br>
そのため、 数字を別の記号に置き換えて語彙数を減らす</br>
```python
re.sub(正規表現, 置換する文字列, 置換される文字列全体 [, 置換回数])
```


In [7]:
text = "iPhone, IPAD, MacBook"
# 「iPhone, IPAD, MacBook」を小文字にして出力
# 同一のものとして扱うために表記を統一
print(text.lower())

# 数字の置き換え
import re
def normalize_number(text):
    replaced_text = re.sub("\d", "!", text)
    return replaced_text
replaced_text = normalize_number("終日は前日よりも39.03ドル(0.19%)高い。")
print(replaced_text)

iphone, ipad, macbook
終日は前日よりも!!.!!ドル(!.!!%)高い。


## 正規表現
自然言語処理では、解析に必要ないと思われる文字列の集合を置き換えることによりデータ量を減らす
正規表現とは、文字列の集合を一つの文字や別の文字列で置き換える表現法</br>
文字列の検索機能などで広く利用されている</br>
```
正規表現	意味
\d or [0-9]	数字
\D or [^0-9]	数字以外
\s or [\t\n\r\f\v]	空白
\w or [a-xA-Z0-9_]	英数字
\W or [\a-zA-Z0-9_]	英数字以外
```

# 自然言語のベクトル表現
## 文書のベクトル表現
文書のベクトル表現とは、 文書中に単語がどのように分布しているかをベクトルとして表現すること</br>

## Bag of Words(BOW)
例えば、「トマトときゅうりだとトマトが好き」という文は以下のようなベクトル表現に変換できる</br>
（が、きゅうり、好き、だと、と、トマト） = (1, 1, 1, 1, 1, 2)</br>
各単語の出現回数は表現されていますが、どこに出現したかの情報は失われる</br>
構造や語順の情報が失われてる</br>
このようなベクトル表現方法を Bag of Words(BOW)という

- カウント表現：先ほどの例のように、文書中の各単語の出現数に着目する方法
- バイナリ表現：出現頻度を気にせず、文章中に各単語が出現したかどうかのみに着目する方法
- tf-idf表現：tf-idfという手法で計算された、文章中の各単語の重み情報を扱う方法


## BOW カウント表現
カウント表現では文書中の各単語の出現回数をカウントすることによって、文書をベクトルに変換していく</br>
Pythonでは、 gensim という主にテキスト解析を対象とした機械学習ライブラリを用いることで、自動的に計算をすることが可能</br>

1. dictionary = gensim.corpora.Dictionary(分かち書きされた文章) により、文書に登場する単語の辞書dictionaryをあらかじめ作成
2. dictionary.doc2bow(分かち書きされた文章の各単語) でBag of Wordsを作成することができ、出力結果としては (id, 出現回数)のリスト を作成
3. dictionary.token2id で各単語のid番号を取得できる

In [10]:
from gensim import corpora
from janome.tokenizer import Tokenizer

text1 = "すもももももももものうち"
text2 = "料理も景色もすばらしい"
text3 = "私の趣味は写真撮影です"

t = Tokenizer()
tokens1 = t.tokenize(text1, wakati=True)
tokens2 = t.tokenize(text2, wakati=True)
tokens3 = t.tokenize(text3, wakati=True)

documents = [tokens1, tokens2, tokens3]
# corporaを使い単語辞書を作成してください。
dictionary = corpora.Dictionary(documents)

# 各単語のidを表示
print(dictionary.token2id)

# Bag of Wordsの作成
bow_corpus = [dictionary.doc2bow(d) for d in documents]

# (id, 出現回数)のリストを出力
print(bow_corpus)

print()
# bow_corpusの内容を出力
texts = [text1, text2, text3]
for i in range(len(bow_corpus)):
    print(texts[i])
    for j in range(len(bow_corpus[i])):
        index = bow_corpus[i][j][0]
        num = bow_corpus[i][j][1]
        print("\"", dictionary[index], "\" が " ,num, "回", end=", ")
    print()

{'うち': 0, 'すもも': 1, 'の': 2, 'も': 3, 'もも': 4, 'すばらしい': 5, '料理': 6, '景色': 7, 'です': 8, 'は': 9, '写真': 10, '撮影': 11, '私': 12, '趣味': 13}
[[], [], []]

すもももももももものうち

料理も景色もすばらしい

私の趣味は写真撮影です



## BOW tf-idfによる重み付け(理論)
「BOW_カウント表現」で行ったカウント表現では、文章を特徴付ける単語の出現回数を特徴量として扱う</br>
tf-idfは単語の出現頻度である tftf (Term frequency) と、</br>
その単語がどれだけ珍しいか（希少性）をしめす逆文書頻度 idfidf(Inverse Document Frequency) の 積で 表される</br>

![](./images/tf-idf_theory.png)

idfiは単語{t_{i}} を含む文書数が少ないほど大きな値となるので、</br>
多くの文書に出現する語（一般的な語）の重要度を下げ、特定の文書にしか出現しない単語の重要度を上げる役割を果たすことが式からわかる</br>
つまり、tf-idfでは、特定の文書中にのみ多く出現し、他の文書ではあまり出現しないような、 出現の分布に偏りのある単語の重要度が高くなる</br>


## BOW tf-idfによる重み付け（実装）
scikit-learnが提供しているパッケージTfidfVectorizerを用いて実装</br>
TfidfVectorizerは、「BOW　tf-idfによる重み付け（理論）」で説明した式を少し改良した形で実装されていますが、本質的な部分は同じ</br>
TfidfVectorizerを用いた文書のベクトル表現化の実装

vecs.toarray()のn行目が、もとの文書docsのn番目のベクトル表現に対応していて、</br>
vecs.toarray()のn列目が、全ての単語のベクトル表現に対応</br>
![](./images/tf-idf.png)

In [2]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# 表示するときに有効数字２桁で表示
np.set_printoptions(precision=2)
docs = np.array([
    "リンゴ リンゴ",
    "リンゴ ゴリラ",
    "ゴリラ ラッパ"
])
# ベクトル表現に変換
# use_idf=False にすると、tfのみの重み付けになる
# token_pattern="(?u)\\b\\w+\\b" を追加することで除外しないようにする必要がある
# "(?u)\\b\\w+\\b"は、「1文字以上の任意の文字列」を表す正規表現
vectorizer = TfidfVectorizer(use_idf=True, token_pattern="(?u)\\b\\w+\\b")
vecs = vectorizer.fit_transform(docs)

print(vectorizer.get_feature_names_out())
# tf-idf値を格納した行列を取得
print(vecs.toarray())

['ゴリラ' 'ラッパ' 'リンゴ']
[[0.   0.   1.  ]
 [0.71 0.   0.71]
 [0.61 0.8  0.  ]]


## cos類似度
これまでに文書を定量的に判断するために、文書のベクトル化を学んできた</br>
そのベクトルを比較することにより、文書同士の類似度を解析できる</br>
ベクトルとベクトルがどれだけ近いものか示してくれるものに cos類似度というものがある</br>

cos類似度は下記の数式で表され、ベクトルのなす角のコサイン(0~1)を表す</br>
そのためcos類似度は、二つのベクトルの方向が近いときに高い値を、反対の方向に向いている時に小さい値をとる</br>
「1に近い場合は似ていて、0に近いときは似ていない」 

![](./images/cos.png)

np.dot()は内積を表し、np.linalg.normはベクトルのノルム（ベクトルの長さ）を表している

In [4]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

docs = np.array([
    "リンゴ リンゴ", "リンゴ ゴリラ", "ゴリラ ラッパ"
])
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u"(?u)\\b\\w+\\b")
vecs = vectorizer.fit_transform(docs)
vecs = vecs.toarray()

# cos類似度を求める関数を定義
def cosine_similarity(v1, v2):
    cos_sim = np.dot(v1, v2) / (np.linalg.norm(v1)*np.linalg.norm(v2))
    return cos_sim

# 類似度を比較
print("{:1.3F}".format(cosine_similarity(vecs[0], vecs[1])))
print("{:1.3F}".format(cosine_similarity(vecs[0], vecs[2])))
print("{:1.3F}".format(cosine_similarity(vecs[1], vecs[2])))

0.707
0.000
0.428


# 単語のベクトル表現
前節では文書をベクトル表現として表していましたが、今回は単語をベクトル化する</br>
単語をベクトルで表現すると、単語の意味の近さの数値化や同義語の探索などが行える</br>
単語をベクトル化するツールに Word2Vecというものがある</br>
単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮するツール</br>
日本人が日常的に使う語彙数は数万から数十万といわれていますが、Word2Vecでは各単語を200次元程度のベクトルとして表現できる</br>

```
「王様」 - 「男」+ 「女」 = 「女王」
「パリ」 - 「フランス」 + 「日本」 = 「東京」
```

Word2Vec に「livedoor newsコーパス」というニュース記事の文書データを与え、単語の関係性を学習</br>
Word2Vec を用いて"男"という単語と関連性が高い文字列を調べていく</br>
フローは以下のようになる

1. ニュース記事をテキストコーパスとして取り出し、文章とカテゴリーに分ける。 : 「globモジュール」、「with文」、「コーパスの呼び出し」
2. 取り出した文書を品詞ごとに分割し、リストにする。: 「janome(3)」
3. Word2Vecでモデルを生成。: 「Word2Vec（実装）」
4. 男との関連性が高い語を調べる。: 「Word2Vec（実装）」


## globモジュール
globモジュールはファイルやディレクトリを操作するときに便利なモジュールであり、正規表現を用いてパスを指定
- ファイル：文書、写真、音楽など、ユーザーが操作・管理する情報の最小単位
- ディレクトリ：ファイルをまとめる入れ物のこと
- パス：コンピュータ上でファイルやディレクトリの場所のこと

globモジュールが osモジュール （基本的にファイルやディレクトリを操作するときに用いるモジュール）と異なる点は、</br>
特殊な文字や文字列を用いて賢くファイルを検索できる点</br>
アスタリスク * を用いて以下の例のように記述すると、 testディレクトリにあるtxtファイルを全て表示させることができる

In [7]:
import glob
# ./images/ の中にあるファイルを表示
lis = glob.glob("images/*")
print(lis[0:3])

['images/kernel_principal.png', 'images/cosin.png', 'images/coefficient_of_determination.png']


## with文
通常ファイルを読み込む際には、open()でファイルを開き、read()等でファイルを読み込み、close()でファイルを閉じる</br>
下の例のopen()の第二引数"r"はファイルを開くときのモードを指定するもので、この場合だとreadの意で読み込み専用であることを示している</br>
他にも、例えば書き込み専用ならwriteの意で"w"と指定する</br>
しかしこの表記の仕方だと、close()を書き忘れてしまったり、途中でエラーが発生しファイルが閉じられず、メモリが無駄に占有される恐れがある</br>
with文　を用いると、ファイルが自動的にclose()されたり、ファイルを開いている際にエラーが発生しても適切な例外処理が自動的に行われるので、とても便利


In [8]:
with open("csv/csv0.csv", "r", encoding="utf-8") as f:
    print(f.read())

2021,Tokyo,2222222
2021,Ohsaka,2222222
2021,Hokaido,2222222
2021,Fukuoka,2222222
2021,Nagano,2222222
2021,Aichi,2222222



## コーパスの取り出し
コーパスとは、 文書または音声データにある種の情報を与えたデータ のこと</br>
livedoor newsコーパス とは、ダウンロード元によると以下のようなデータ</br>
https://www.rondhuit.com/download.html#ldcc



In [10]:
import glob

def load_livedoor_news_corpus():
    category = {
        "it-life-hack":1,
        "sports-watch": 2,
        "topic-news":3
    }
    texts  = [] # 全ての記事の文章をここに格納
    labels = [] # docsに格納される記事の1〜9のカテゴリーを、ラベルとして扱う
    # 全てのカテゴリーのディレクトリについて実行
    for name, label in category.items():
        # {c_name}にcategory.items()から取得したカテゴリー名c_nameをformatメソッドを用いて埋め込む
        files = glob.glob("./corpus/{name}/{name}*.txt".format(name=name))
        # 各記事について、本文の情報を以下のように取得します。
        for file in files:
            # with文を用いるため、close()は不要です。
            with open(file, "r", encoding="utf-8") as f:
                # 改行文字で分割
                lines = f.read().splitlines()
                # 分割すると0番目にurl, 1番目に日付、2番目にタイトル、3番目以降に記事本文が記載されています。
                # 記事中の本文を1行にまとめてしまいます。
                text = "".join(lines[2:])

            texts.append(text)
            labels.append(label)

    return texts, labels

texts, labels = load_livedoor_news_corpus()
print("\nlabel: ", labels[0], "\ntexts:\n", texts[0])
print("\nlabel: ", labels[1000], "\ntexts:\n", texts[1000])


label:  1 
texts:
 Ultrabookをパワーアップ！　mSATA対応の小型SSDがマイクロンより登場マイクロンジャパンは、従来の「Crucial m4 SSD」の性能と信頼性をそのまま維持しつつも、1/8のサイズまで超小型化したSSD「Crucial m4 mSATA SSD」を発売する。最近流行のUltrabookや過般性の高いモバイル機器でmSATA対応のガジェットであれば「Crucial m4 mSATA SSD」に乗せ換えることが可能だ。実売想定価格は32GBで5千100円、64GBが7千200円、128GBが1万1千800円、256GBが2万3千800円と、値段もそこそこ手ごろな価格に設定されている。出荷は7月下旬より。最近では急速に普及しつつあるUltrabookだが搭載するSSDの容量が少ないと嘆いているような人もいるだろう。かといってBTOで購入時に大容量モデルを選択すると予算をオーバーしてしまうようなケースでは、間に合う容量でとりあえず購入しておいて「Crucial m4 mSATA SSD」を後から装着するという方法もイレギュラーながら使える方法だろう。 mSATA対応のUltrabookなら差し替えるだけでOK  デスクトップ用マザーでもmSATA対応なら利用できる また、Ultrabookだけでなく、ノートPCでmSATAインターフェイスが余っているというようなケースでは、それを利用してストレージ容量を増やすということもできる。既存のハードディスクの性能を向上させるキャッシュとしても使用可能。Crucial m4 mSATA SSDは、Intel スマート・レスポンス・テクノロジーおよびNVELO製キャッシングソフトウェアDataplexTM に対応しているので既存のHDDと組み合わせることでパフォーマンスをアップさせることも可能だ。◆製品情報メーカー：マイクロンジャパン製品名：Crucial m4 mSATA SSD 型番：CT032M4SSD3、CT064M4SSD3、CT128M4SSD3、CT256M4SSD3容量： 32GB/64GB/128GB/256GBサイズ：29.83（幅）×50.80（奥行き）×3.8（高さ）mm重さ：10g インターフェイス：SATA 6Gb/秒（SATA 3Gb/秒互換） 連続読取

## Word2Vec（実装）
学習に使用するリスト（分かち書きされた文書）を Word2Vec関数 の引数とすることで、モデルを生成</br>
「BOW カウント」等で扱ったjanome.tokenizerを使って予め 分かち書き を行う</br>
かち書きの際、各単語について品詞を調べる</br>
日本語では、「名詞、動詞、形容詞、形容動詞」以外は単語の関連性の分析に使えないので、「名詞、動詞、形容詞、形容動詞」のみの分かち書きリストを作成

- Word2Vecのよく使う引数は主に以下
  - size ：ベクトルの次元数
  - window ：この数の前後の単語を、関連性のある単語と見なして学習を行う
  - min_count ：n回未満登場する単語を破棄

適切に学習が行われた後、 modelに対し .most_similar(positive=["単語"]) </br>
のようにmost_similar()メソッドを用いるとその単語との類似度が高いものが出力される

In [19]:
import glob
from janome.tokenizer import Tokenizer
from gensim.models import word2vec


def load_livedoor_news_corpus():
    category = {
        "peachy":1,
        "smax":2
    }
    texts  = []
    labels = []
    
    for name, label in category.items():
        files = glob.glob("./corpus/{name}/{name}*.txt".format(name=name))
        for file in files:
            with open(file, "r", encoding="utf-8") as f:
                lines = f.read().splitlines() 
                text = "".join(lines[2:])
            texts.append(text)
            labels.append(label)

    return texts, labels

#texts, labels = load_livedoor_news_corpus()
# 品詞を取り出し「名詞、動詞、形容詞、形容動詞」のリスト作成
def tokenize(part):
    tokens = t.tokenize(",".join(part))
    word = []
    for token in tokens:
        part_of_speech = token.part_of_speech.split(",")[0]
 
        if part_of_speech in ["名詞", "動詞", "形容詞", "形容動詞"]:
            word.append(token.surface)            
    return word

# ラベルと文章に分類
texts, labels = load_livedoor_news_corpus()
t = Tokenizer() # 最初にTokenizerインスタンスaを作成する
sentences = tokenize(texts[0:100])  # データ量が多いため制限

#word2vec.Word2Vecの引数に関して、size=100, min_count=5, window=15
# model = word2vec.Word2Vec.load(sentences)
# print(model.most_similar(positive=["男"]))
#TODO: https://github.com/RaRe-Technologies/gensim/issues/3028 need a migration for new version

## Doc2Vec
Doc2Vecは、Word2Vecを応用した 文章をベクトル化する技術</br>
「文書のベクトル表現」にてBOWで文章のベクトル化を勉強しましたが、</br>
BOWとの大きな違いは 文の語順 も特徴として考慮に入れることができる点</br>

- 文書のベクトル表現にて学んだBOWの欠点
  - 単語の語順情報がない
  - 単語の意味の表現が苦手

二点の欠点をDoc2Vecは補っている

### 実装
「コーパスの取り出し」にて作成したlivedoor newsコーパスのdocs[0],docs[1],docs[2],docs[3]の類似度を比較
フローは以下

1. 分かち書き
   1. 文章をjanomeのTokenizerを用い、分かち書きにし
2. TaggedDocument クラスのインスタンスを作成
   1. TaggedDocumentの引数にwords="分かち書きされた各要素", tags=["タグ"]を与えると、 TaggedDocument クラスのインスタンスを作成
   2. TaggedDocumentをリストに格納し、これをDoc2Vecに渡す
3. Doc2Vec でモデルの生成
   1. モデルの学習は以下のように記述
   ```
   model = Doc2Vec(documents=リスト, min_count=1)
   ```
   2. min_count:最低この回数出現した単語のみを学習に使用   
4. 類似度の出力
   1. 類似度の出力は以下のように記述
   ```
   for i in range(4):
       print(model.docvecs.most_similar("d"+str(i)))
   ```


In [22]:
import glob
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument
from janome.tokenizer import Tokenizer

def load_livedoor_news_corpus():
    category = {
        "dokujo-tsushin": 1,
        "sports-watch": 2,
    }
    texts  = []
    labels = []
    for name, label in category.items():
        files = glob.glob("./corpus/{name}/{name}*.txt".format(name=name))
        for file in files:
            with open(file, "r", encoding="utf-8") as f:
                lines = f.read().splitlines() 
                text = "".join(lines[2:])
            texts.append(text)
            labels.append(label)

    return texts, labels

texts, labels = load_livedoor_news_corpus()
# Doc2Vecの処理
token = [] # 各docsの分かち書きした結果を格納するリスト
training_docs = [] # TaggedDocumentを格納するリスト
t = Tokenizer() # 最初にTokenizerインスタンスを作成
for i in range(4):
    
    # docs[i] を分かち書きして、tokenに格納します
    token.append(t.tokenize(texts[i], wakati=True))
    
    # TaggedDocument クラスのインスタンスを作成して、結果をtraining_docsに格納
    # タグは "d番号"
    training_docs.append(TaggedDocument(words=token[i], tags=["d" + str(i)]))

model = Doc2Vec(documents=training_docs, min_count=1)
for i in range(4):
    print(model.docvecs.most_similar("d"+str(i)))
#TODO: need a migration to new version

TypeError: object of type 'generator' has no len()

# 日本語テキストの分類
日本語テキストのカテゴリを分類する技術</br>
日本語テキストのカテゴリの分類は以下の順番で実装
1. livedoor newsの読み込みと分類：「コーパスの取り出し」
2. データを訓練データと検証データに分割する：（参考：機械学習概論 ホールドアウト法の理論と実践）
3. tf-idfで訓練データと検証データをベクトル化する：「BOW tf-idfによる重み付け（実装）」、「fit関数」
4. ランダムフォレストで学習：教師あり学習の「ランダムフォレスト」（参考：教師あり学習分類 ランダムフォレスト）
5. 実装：「コーパスのカテゴリをランダムフォレストで分類」
6. 精度を上げる


## fit関数
scikit-learn の変換系クラス(StandardScaler、Normalizer、TfidfVectorizer など)には、 </br>
fit(), fit_transform(), transform() などの関数がある</br>

fit()関数 ：渡されたデータの統計（最大値、最小値、平均、など）を取得して、メモリに保存。</br>
transform()関数 ：fit()で取得した情報を用いてデータを書き換える。</br>
fit_transform()関数 ：fit()の後にtransform()を実施する。</br>

fit()関数 は訓練データセットからパラメーターを学習するために使用され、 tranform()関数 は　学習したパラメーターに基づいてデータが再形成される</br>
つまり、訓練データの場合は fit_transform関数 を用い、</br>
検証データの場合は,訓練データの fit() の結果に基づくので、 transform()関数 を行う必要がある</br>

![](./images/fit_function.png)

## コーパスのカテゴリをランダムフォレストで分類
livedoornewsコーパスのカテゴリをランダムフォレストで分類
1. livedoor newsの読み込みと分類：「コーパスの取り出し」（参考：2.2.4）
2. データを訓練データと検証データに分割する：（参考：機械学習概論 ホールドアウト法の理論と実践）
3. tf-idfで訓練データと検証データをベクトル化する：「BOW tf-idfによる重み付け（実装）」、「fit関数」
4. ランダムフォレストで学習：教師あり学習の「ランダムフォレスト」（参考：教師あり学習分類 ランダムフォレスト）
5. 実装：「コーパスのカテゴリをランダムフォレストで分類」←（現在やろうとしている箇所）
6. 精度を上げる


In [25]:
import glob
import random
from sklearn.model_selection import train_test_split
from janome.tokenizer import Tokenizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier

# 乱数の固定
random.seed(0)

def load_livedoor_news_corpus():
# livedoor newsの読み込みと分類(自然言語処理基礎2.2.4)
    category = {
        "dokujo-tsushin": 1,
        "it-life-hack":2,
        "kaden-channel": 3
    }
    texts  = []
    labels = []

    for name, label in category.items():
        files = glob.glob("./corpus/{name}/{name}*.txt".format(name=name))

        text = ""
        for file in files[:15]:#実行時間の関係上、読み込むファイルを制限しています。
            with open(file, "r", encoding="utf-8") as f:
                lines = f.read().splitlines() 
                text = "".join(lines[2:])

            texts.append(text)
            labels.append(label)

    return texts, labels

texts, labels = load_livedoor_news_corpus()

# データを訓練データと検証データに分割(機械学習概論2.2.2)
train_data, test_data, train_labels, test_labels = train_test_split(texts, labels, test_size=0.2, random_state=0)

# テキストを分割する関数
t=Tokenizer()
tokenize = lambda doc : t.tokenize(doc, wakati=True)

# tf-idfで訓練データと検証データをベクトル化(自然言語処理基礎2.1.4, 2.4.2)
vectorizer = TfidfVectorizer(tokenizer=tokenize)
train_matrix = vectorizer.fit_transform(train_data)
test_matrix = vectorizer.transform(test_data)

# ランダムフォレストで学習
clf = RandomForestClassifier(n_estimators=100)
clf.fit(train_matrix, train_labels)

# 精度の出力
print(clf.score(train_matrix, train_labels))
print(clf.score(test_matrix, test_labels))

1.0
0.8888888888888888


## 精度を上げる
2.4.3 コーパスのカテゴリをランダムフォレストで分類で実装したカテゴリ予測の精度を上げる</br>
TfidfVectorizer() のパラメーターに tokenizer=関数 を設定すると、指定した関数でテキストを分割できる</br>
たとえば、以下の関数を tokenizer= の引数とすると、「名詞、動詞、形容詞、形容動詞」を含んだテキストでベクトル化することになる</br>
※今回は助詞などを省き、カテゴリの予測精度向上を試みましたが、モデルによっては助詞などを含めた方が良い場合がある

In [26]:
from janome.tokenizer import Tokenizer
t=Tokenizer()
def tokenize(text):
    tokens = t.tokenize(",".join(text))
    noun = []
    for token in tokens:
    # 品詞を取り出し
        partOfSpeech = token.part_of_speech.split(",")[0]
 
        if partOfSpeech == "名詞":
            noun.append(token.surface)        
        if partOfSpeech == "動詞":        
            noun.append(token.surface)
        if partOfSpeech == "形容詞":
            noun.append(token.surface)        
        if partOfSpeech == "形容動詞":        
            noun.append(token.surface)            
    return noun
