# 自然言語

人間によって日常の意思疎通のために用いられる、文化的背景を持って自然に発展してきた言語である。

自然言語をプログラムで扱うときは、必ず数値化（ベクトル化）してやる必要がある。

# 用語解説

* コーパス：テキストや発話を大規模に集めてデータベース化した言語資料
* 形態素解析：文章を一つずつ品詞分解して文章がどのような単語で構成されていて、どのような意味を持つかを判断
* Ngram：N文字づつ文字を取り出す。検索インデックス作成などに用いられる
* bag-of-words：文書中に単語が含まれるか否かを判定する。01の場合もあるし、個数を含む場合もある
* 固有表現抽出：固有名詞を抽出してくる
* 構造解析(係り受け)：「黒い眼の大きい少女」の「黒い」と「大きい」はどこにかかるのか
* 文脈解析：「スーパーに行った。そこで、リンゴを買った」の「そこ」が何を表すか
* 意味解析：上述「黒い」と「大きい」が本来どちらにかかるのが正しいのかを、前後の文脈より判断する

# Bagof-Words

最も基本的な「文章→ベクトル」に変換する手法である。

**文A：**私は、東京へ観光に行きました。

**文B：**私は、美容院へ行きたい。

----
私　　　　　→[1,0,0,0,0,0,0,0,0,0,0]

は　　　　　→[0,1,0,0,0,0,0,0,0,0,0]

、　　　　　→[0,0,1,0,0,0,0,0,0,0,0]

東京　　　　→[0,0,0,1,0,0,0,0,0,0,0]

へ　　　　　→[0,0,0,0,1,0,0,0,0,0,0]

観光　　　　→[0,0,0,0,0,1,0,0,0,0,0]

に　　　　　→[0,0,0,0,0,0,1,0,0,0,0]

行きました　→[0,0,0,0,0,0,0,1,0,0,0]

。　　　　　→[0,0,0,0,0,0,0,0,1,0,0]

美容院　　　→[0,0,0,0,0,0,0,0,0,1,0]

行きたい　　→[0,0,0,0,0,0,0,0,0,0,1]

----

**文A：**私は、東京へ観光に行きました。

**[1,1,1,1,1,1,1,1,1,0,0]**

**文B：**私は、美容院へ行きたい。

**[1,1,1,0,0,0,0,0,1,1,1]**

# Ngram

任意の文字列や文書を連続したn個の文字で分割するテキスト分割方法。

簡易な検索インデックス作成などに用いられる。

In [10]:
text='私は、先週の日曜日に、東京へ観光へ行きました。'

def get_ngram(text,n):
    '''Ngramを取得する
    引数：
    　text：処理したい自然言語
    　n：取り出したい文字数
    返り値：
    　ngram_list：単語が格納されたリスト
    処理概要：
    　文字列と数値を受け取り、Ngramリストを返す
    '''
    ngram=[]
    sub_text=''
    for i in range(len(text)-n):
        ngram.append(text[i:i+n])
    
    return ngram

ngram = get_ngram(text,3)
print(ngram)

['私は、', 'は、先', '、先週', '先週の', '週の日', 'の日曜', '日曜日', '曜日に', '日に、', 'に、東', '、東京', '東京へ', '京へ観', 'へ観光', '観光へ', '光へ行', 'へ行き', '行きま', 'きまし', 'ました']


# 形態素解析

文法的な情報の注記の無い自然言語のテキストデータから、辞書と呼ばれる単語の品詞情報にもとづき、言語で意味を持つ最小単位（形態素）に分割し、品詞等を判別する作業である。

## 有名な形態素解析エンジン

janome：環境構築が容易で、学習用に用いられる

mecab：充実した辞書で、最新の単語も随時更新されている

In [24]:
# ライブラリ読み込み
from janome.tokenizer import Tokenizer

In [22]:
# インスタンス化
t = Tokenizer()

# 形態素解析
text = 'すもももももももものうち'
for token in t.tokenize(text):
    print('================')
    print(token)

すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ


In [25]:
# インスタンス化
t = Tokenizer()

# 形態素解析
text = '私は、先週の日曜日に、東京へ観光へ行きました。'
for token in t.tokenize(text):
    print('================')
    print(token)

私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
先週	名詞,副詞可能,*,*,*,*,先週,センシュウ,センシュー
の	助詞,連体化,*,*,*,*,の,ノ,ノ
日曜日	名詞,副詞可能,*,*,*,*,日曜日,ニチヨウビ,ニチヨービ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
、	記号,読点,*,*,*,*,、,、,、
東京	名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
へ	助詞,格助詞,一般,*,*,*,へ,ヘ,エ
観光	名詞,サ変接続,*,*,*,*,観光,カンコウ,カンコー
へ	助詞,格助詞,一般,*,*,*,へ,ヘ,エ
行き	動詞,自立,*,*,五段・カ行促音便,連用形,行く,イキ,イキ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。


## Janome公式

https://mocobeta.github.io/janome/api/janome.html

# 実際の使い方

**Ngram：**使い道はそう多くはありませんが、前述したとおり、辞書が手元にない状態でも、簡易な辞書的なものを作れますし、長い複数の文書からNgramを作成すると、各文書で多く出現するNgramは、その文書の特徴を表しますので、クラスタリングなどにも用いることが出来ます。

**形態素解析：**ほとんどの場合、このアルゴリズム単体では用いません。形態素解析で、品詞ごとに分解し、固有表現抽出に利用したり、この後の講座で実施する「word2vec(単語のベクトル化)」や「TFIDF(単語の重要度推定)」で使用するデータセットの作成などに利用します。

**固有表現抽出：**例えば、OCR(光学認識)で読み込んだ文字列の中から、店舗名を見つけてきたり出来ます。