# Natural Language Processing
日本語や英語のような 自然発生的に生まれた言語 のことを指し、プログラミング言語のような人工言語(Artificial Language)とは対比の存在</br>
自然言語処理(NLP, Natural Language Processing)とは、人間が日常的に使っている 自然言語をコンピュータに処理させる技術</br>
自然言語処理を用いたタスクには、文書分類・機械翻訳・文書要約・質疑応答・対話など

## 自然言語処理でよく使われるワード
- トークン： 自然言語を解析する際、文章の最小単位として扱われる文字や文字列のこと
- タイプ： 単語の種類を表す用語
- 文章： まとまった内容を表す文のこと。自然言語処理では一文を指すことが多い
- 文書： 複数の文章から成るデータ一件分を指すことが多い
- コーパス： 文書または音声データにある種の情報を与えたデータ
- シソーラス： 単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書
- 形態素： 意味を持つ最小の単位。「食べた」という単語は、2つの形態素「食べ」と「た」に分解できる
- 単語： 単一または複数の形態素から構成される小さな単位
- 表層： 原文の記述のこと
- 原形： 活用する前の記述のこと
- 特徴： 文章や文書から抽出された情報のこと
- 辞書： 自然言語処理では、単語のリストを指す

## 言語による違い
言語ごとに問題の所在、難しさが異なるのが自然言語処理の特徴

# 文章の単語分割
文章の単語分割の手法は大きく二つ存在し、形態素解析 と Ngram がある</br>

## Ngram
N文字ごとに単語を切り分ける 、または N単語ごとに文章を切り分ける解析手法のこと</br>
形態素解析のように辞書や文法的な解釈が不要であるため、言語に関係なく用いることができる</br>
1文字、あるいは1単語ごとに切り出したものを モノグラム 、2文字（単語）ごとに切り出したものを バイグラム 、3文字（単語）ごとに切り出したものを トリグラム と呼ぶ</br>
- Pros
  - 辞書や文法的な解釈が不要であるため、 言語に関係なく 用いることができる
  - 特徴抽出の漏れが発生しにくい
- Cons
  - ノイズが大きくなることがある

## 形態素解析
形態素とは、意味を持つ最小の言語単位 のことであり、単語は一つ以上の形態素を持つ</br>
辞書を利用して形態素に分割し、さらに形態素ごとに品詞などのタグ付け（情報の付与）を行うことを指す</br>
- Pros
  - ノイズが少ない
- Cons
  - 辞書の性能差が生じてしまう

単語分割：文章を単語に分割すること</br>
品詞タグ付け：単語を品詞に分類して、タグ付けをする処理のこと</br>
形態素解析：形態素への分割と品詞タグ付けの作業をまとめたもの</br>


## MeCab
形態素解析を行うにあたりあらかじめ形態素解析ツールが用意されており、日本語の形態素解析器として代表的なものにMeCabやjanomeなどがある</br>
MeCabやjanomeは辞書を参考に形態素解析</br>
MeCabではMeCab.Tagger()の引数を変更することによりデータの出力形式を変更できる</br>
例のように、"-Owakati"を引数とすると単語ごとに分ける分かち書き、"-Ochasen"を引数とすると形態素解析を行う

In [18]:
import MeCab

# 形態素解析
mecab = MeCab.Tagger("-Ochasen")
string = mecab.parse("ダックスフンドが歩いている。")
print(string)

# 単語分割
mecab = MeCab.Tagger("-Owakati")
string = mecab.parse("ダックスフンドが歩いている。")
print(string)


ダックスフンド	ダックスフンド	ダックスフンド	名詞-一般		
が	ガ	が	助詞-格助詞-一般		
歩い	アルイ	歩く	動詞-自立	五段・カ行イ音便	連用タ接続
て	テ	て	助詞-接続助詞		
いる	イル	いる	動詞-非自立	一段	基本形
。	。	。	記号-句点		
EOS

ダックスフンド が 歩い て いる 。 



## janome
janomeも有名な日本語の形態素解析器の1つ</br>
Tokenizerのtokenizeメソッドに解析したい文字列を渡すことで形態素解析できる</br>
tokenizeメソッドの返り値はタグ付けされたトークン（Tokenオブジェクト）のリスト</br>

tokenizeメソッドの引数に wakati=True を指定することにより分かち書きをさせることができる</br>
wakati=Trueにした時の返り値は 分かち書きのリスト</br>

各トークン（Tokenオブジェクト）に対して、Token.surfaceで表層形、Token.part_of_speechで品詞を取り出せる</br>
表層形とは、文中において文字列として実際に出現する形式</br>

In [23]:
from janome.tokenizer import Tokenizer

# 形態素解析
print("######### {:^20} #########".format("形態素解析"))
tokenizer = Tokenizer()
tokens = tokenizer.tokenize("明日は晴れるだろうか。")
for token in tokens:
    print(token)

print("######### {:^20} #########".format("WAKATI"))
# 分かち書き
t = Tokenizer(wakati=True)
tokens_v2 = t.tokenize("すもももももももものうち")
print(tokens_v2)

print("######### {:^20} #########".format("名詞と動詞を取り出す"))
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("豚の肉を食べた")
word = []
# 名詞と動詞を取り出す
for token in tokens:
    # print(token.part_of_speech)
    part_of_speech = token.part_of_speech.split(",")[0]
    if part_of_speech in ["名詞", "動詞"]:
        word.append(token.surface)
print(word)

#########        形態素解析         #########
明日	名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
晴れる	動詞,自立,*,*,一段,基本形,晴れる,ハレル,ハレル
だろ	助動詞,*,*,*,特殊・ダ,未然形,だ,ダロ,ダロ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
か	助詞,副助詞／並立助詞／終助詞,*,*,*,*,か,カ,カ
。	記号,句点,*,*,*,*,。,。,。
#########        WAKATI        #########
<generator object Tokenizer.__tokenize_stream at 0x139d9c6d0>
#########      名詞と動詞を取り出す      #########
['豚', '肉', '食べ']


## Ngram
Ngramとは、 先ほど述べたようにN文字ごとに単語を切り分ける 、または N単語ごとに文章を切り分ける 解析手法</br>
Ngramのアルゴリズムは以下のgen_Ngramように書くことができる</br>
単語のNgramを求めたい場合は、引数に単語と切り出したい数</br>
文章のNgramを求めたい場合は、janomeのtokenize関数を用いて分かち書きのリストを作成し、その分かち書きのリストと切り出したい数を引数に入れる



In [41]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("太郎はこの本を二郎を見た女性に渡した。", wakati=True)
tokens = list(tokens)

def gen_Ngram(words,N):
    # Ngramを生成
    ngram = []
    for i in range(len(words)-N+1):
        cw = "".join(words[i:i+N])
        # print(cw)
        ngram.append(cw)
    return ngram

print(gen_Ngram(tokens, 2))
print(gen_Ngram(tokens, 3))


['太郎は', 'はこの', 'この本', '本を', 'を二', '二郎', '郎を', 'を見', '見た', 'た女性', '女性に', 'に渡し', '渡した', 'た。']
['太郎はこの', 'はこの本', 'この本を', '本を二', 'を二郎', '二郎を', '郎を見', 'を見た', '見た女性', 'た女性に', '女性に渡し', 'に渡した', '渡した。']


# 正規化
自然言語処理では、複数の文書から特徴を抽出する場合、入力ルールが統一されておらず表記揺れが発生している場合があり得る（例 iPhoneとiphone）</br>
同じはずの単語を別のものとして解析してしまい、意図しない解析結果が発生する可能性がある</br>
全角を半角に統一や大文字を小文字に統一等、ルールベースで文字を変換することを 正規化と言う</br>
正規化を行い過ぎると本来区別すべき内容も区別できなくなるため注意が必要</br>

- 表記揺れ
  - 同じ文書の中で、同音・同義で使われるべき語句が異なって表記されていること
- 正規化
  - 表記揺れを防ぐためルールベースで文字や数字を変換すること

## ライブラリによる正規化
文字列の正規化において、ライブラリの NEologdを用いると容易に正規化を行うことができる

In [2]:
import neologdn

# 半角カタカナを全角に統一
a = neologdn.normalize("ｶﾀｶﾅ")
print(a)
# 長音短縮
b = neologdn.normalize("長音短縮ウェーーーーイ")
print(b)
# 似た文字の統一
c = neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
print(c)
# 全角英数字を半角に統一 + 不要なスペースの削除
d = neologdn.normalize("　　　ＤＬ　　デ  ィ ープ ラ  ーニング　　　　　")
print(d)
# 繰り返しの制限
e = neologdn.normalize("かわいいいいいいいいい", repeat=6)
print(e)

カタカナ
長音短縮ウェーイ
いろんなハイフン-
DLディープラーニング
かわいいいいいい


## 自分自身で正規化をするための方法
文書中に「iphone」「iPhone」の２種類の単語があった時に、これらを同一のものとして扱うために表記を統一する必要がある</br>
大文字を小文字に揃えたいときは、 .lower() を文字列につけることにより揃えることができる</br>

正規化では、数字の置き換えを行うことがある</br>
数字の置き換えを行う理由としては、 数値表現が多様で出現頻度が高い割には自然言語処理のタスクに役に立たない場合があるからである</br>
ニュース記事を「スポーツ」や「政治」のようなカテゴリに分類するタスクを考える</br>
この時、記事中には多様な数字表現が出現するが、カテゴリの分類にはほとんど役に立たないと考えられる</br>
そのため、 数字を別の記号に置き換えて語彙数を減らす</br>
```python
re.sub(正規表現, 置換する文字列, 置換される文字列全体 [, 置換回数])
```


In [7]:
text = "iPhone, IPAD, MacBook"
# 「iPhone, IPAD, MacBook」を小文字にして出力
# 同一のものとして扱うために表記を統一
print(text.lower())

# 数字の置き換え
import re
def normalize_number(text):
    replaced_text = re.sub("\d", "!", text)
    return replaced_text
replaced_text = normalize_number("終日は前日よりも39.03ドル(0.19%)高い。")
print(replaced_text)

iphone, ipad, macbook
終日は前日よりも!!.!!ドル(!.!!%)高い。


## 正規表現
自然言語処理では、解析に必要ないと思われる文字列の集合を置き換えることによりデータ量を減らす
正規表現とは、文字列の集合を一つの文字や別の文字列で置き換える表現法</br>
文字列の検索機能などで広く利用されている</br>
```
正規表現	意味
\d or [0-9]	数字
\D or [^0-9]	数字以外
\s or [\t\n\r\f\v]	空白
\w or [a-xA-Z0-9_]	英数字
\W or [\a-zA-Z0-9_]	英数字以外
```

# 自然言語のベクトル表現
## 文書のベクトル表現
文書のベクトル表現とは、 文書中に単語がどのように分布しているかをベクトルとして表現すること</br>

## Bag of Words(BOW)
例えば、「トマトときゅうりだとトマトが好き」という文は以下のようなベクトル表現に変換できる</br>
（が、きゅうり、好き、だと、と、トマト） = (1, 1, 1, 1, 1, 2)</br>
各単語の出現回数は表現されていますが、どこに出現したかの情報は失われる</br>
構造や語順の情報が失われてる</br>
このようなベクトル表現方法を Bag of Words(BOW)という

- カウント表現：先ほどの例のように、文書中の各単語の出現数に着目する方法
- バイナリ表現：出現頻度を気にせず、文章中に各単語が出現したかどうかのみに着目する方法
- tf-idf表現：tf-idfという手法で計算された、文章中の各単語の重み情報を扱う方法


## BOW カウント表現
カウント表現では文書中の各単語の出現回数をカウントすることによって、文書をベクトルに変換していく</br>
Pythonでは、 gensim という主にテキスト解析を対象とした機械学習ライブラリを用いることで、自動的に計算をすることが可能</br>

1. dictionary = gensim.corpora.Dictionary(分かち書きされた文章) により、文書に登場する単語の辞書dictionaryをあらかじめ作成
2. dictionary.doc2bow(分かち書きされた文章の各単語) でBag of Wordsを作成することができ、出力結果としては (id, 出現回数)のリスト を作成
3. dictionary.token2id で各単語のid番号を取得できる