# 自然言語処理入門

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_5/intro-to-nlp.ipynb)

テキストデータの処理と分析の基礎である自然言語処理を概観しましょう。

まず、テキストデータの前処理を段階を踏んで見ていきます。

次に、簡単な例から自然言語処理の考え方を学びます。

## テキストデータの前処理

テキストデータを分析する際には、基本的に以下の処理が行われます。

1. 分かち書き（形態素解析）
2. 品詞付与
3. 係り受け解析
4. 固有表現抽出
5. 原形抽出


形態素は、「言葉が意味を持つまとまりの単語の最小単位」で、形態素解析は、文章を一つ一つの形態素に分ける技術です。単語が区切られていない日本語などの言語では特に重要です。

日本語を例に、`spaCy`と`GiNZA`というライブラリを使って処理の過程を見ていきましょう。

`spaCy`では上の一連の処理をまとめて行ってくれます。

テキストデータとして、オー・ヘンリー（結城浩訳）[『最後の一枚の葉』](https://www.hyuki.com/trans/leaf.html)の冒頭部分を使います。

In [4]:
text = """
ワシントン・スクエア西にある小地区は、 道路が狂ったように入り組んでおり、 「プレース」と呼ばれる区域に小さく分かれておりました。 この「プレース」は不可思議な角度と曲線を描いており、 一、二回自分自身と交差している通りがあるほどでした。 かつて、ある画家は、この通りが貴重な可能性を持っていることを発見しました。 例えば絵や紙やキャンバスの請求書を手にした取り立て屋を考えてみてください。 取り立て屋は、この道を歩き回ったあげく、 ぐるりと元のところまで戻ってくるに違いありません。 一セントも取り立てることができずにね。
それで、芸術家たちはまもなく、奇妙で古いグリニッチ・ヴィレッジへとやってきました。 そして、北向きの窓と十八世紀の切り妻とオランダ風の屋根裏部屋と安い賃貸料を探してうろついたのです。 やがて、彼らは しろめ製のマグやこんろ付き卓上なべを一、二個、六番街から持ち込み、 「コロニー」を形成することになりました。
ずんぐりした三階建ての煉瓦造りの最上階では、スーとジョンジーがアトリエを持っていました。 「ジョンジー」はジョアンナの愛称です。 スーはメイン州の、ジョンジーはカリフォルニア州の出身でした。 二人は八番街の「デルモニコの店」の定食で出会い、 芸術と、チコリーのサラダと、ビショップ・スリーブの趣味がぴったりだとわかって、 共同のアトリエを持つことになったのでした。
"""

In [5]:
# ライブラリのインストール

!pip install spacy ginza ja-ginza
!pip install sklearn pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3[0m[39;49m -> [0m[32;49m22.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3[0m[39;49m -> [0m[32;49m22.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [6]:
# ライブラリのインポート
import spacy

# 日本語モデルのロード
nlp = spacy.load("ja_ginza")

# 解析
doc = nlp(text)

# 結果の確認
for token in doc:
    print(token)



ワシントン
・
スクエア
西
に
ある
小
地区
は
、
道路
が
狂っ
た
よう
に
入り組ん
で
おり
、
「
プレース
」
と
呼ば
れる
区域
に
小さく
分かれ
て
おり
まし
た
。
この
「
プレース
」
は
不可思議
な
角度
と
曲線
を
描い
て
おり
、
一
、
二
回
自分自身
と
交差
し
て
いる
通り
が
ある
ほど
でし
た
。
かつて
、
ある
画家
は
、
この
通り
が
貴重
な
可能性
を
持っ
て
いる
こと
を
発見
し
まし
た
。
例えば
絵
や
紙
や
キャンバス
の
請求書
を
手
に
し
た
取り立て
屋
を
考え
て
み
て
ください
。
取り立て
屋
は
、
この
道
を
歩き回っ
た
あげく
、
ぐるり
と
元
の
ところ
まで
戻っ
て
くる
に
違い
あり
ませ
ん
。
一
セント
も
取り立てる
こと
が
でき
ず
に
ね
。


それ
で
、
芸術家
たち
は
ま
も
なく
、
奇妙
で
古い
グリニッチ
・
ヴィレッジ
へ
と
やっ
て
き
まし
た
。
そして
、
北向き
の
窓
と
十八
世紀
の
切り妻
と
オランダ
風
の
屋根裏
部屋
と
安い
賃貸料
を
探し
て
うろつい
た
の
です
。
やがて
、
彼
ら
は
しろ
め
製
の
マグ
や
こんろ
付き
卓上
なべ
を
一
、
二
個
、
六
番
街
から
持ち込み
、
「
コロニー
」
を
形成
する
こと
に
なり
まし
た
。


ずんぐり
し
た
三
階
建て
の
煉瓦
造り
の
最上階
で
は
、
スー
と
ジョンジー
が
アトリエ
を
持っ
て
い
まし
た
。
「
ジョンジー
」
は
ジョアンナ
の
愛称
です
。
スー
は
メイン州
の
、
ジョンジー
は
カリフォルニア州
の
出身
でし
た
。
二人
は
八
番
街
の
「
デルモニコ
の
店
」
の
定食
で
出会い
、
芸術
と
、
チコリー
の
サラダ
と
、
ビショップ
・
スリーブ
の
趣味
が
ぴったり
だ
と
わかっ
て
、
共同
の
アトリエ
を
持つ
こと
に
なっ
た
の
でし
た
。




形態素解析の結果には、語の原形や品詞の情報も含まれます。

In [8]:
for token in doc:
    print(f"{token}\t{token.lemma_}\t{token.pos_}\t{token.tag_}")


	
	NUM	空白
ワシントン	ワシントン	PROPN	名詞-固有名詞-地名-一般
・	・	SYM	補助記号-一般
スクエア	スクエア	NOUN	名詞-普通名詞-一般
西	西	NOUN	名詞-普通名詞-一般
に	に	ADP	助詞-格助詞
ある	ある	VERB	動詞-非自立可能
小	小	NOUN	接頭辞
地区	地区	NOUN	名詞-普通名詞-一般
は	は	ADP	助詞-係助詞
、	、	PUNCT	補助記号-読点
道路	道路	NOUN	名詞-普通名詞-一般
が	が	ADP	助詞-格助詞
狂っ	狂う	VERB	動詞-一般
た	た	AUX	助動詞
よう	よう	AUX	形状詞-助動詞語幹
に	だ	AUX	助動詞
入り組ん	入り組む	VERB	動詞-一般
で	で	SCONJ	助詞-接続助詞
おり	おる	VERB	動詞-非自立可能
、	、	PUNCT	補助記号-読点
「	「	PUNCT	補助記号-括弧開
プレース	プレース	NOUN	名詞-普通名詞-一般
」	」	PUNCT	補助記号-括弧閉
と	と	ADP	助詞-格助詞
呼ば	呼ぶ	VERB	動詞-一般
れる	れる	AUX	助動詞
区域	区域	NOUN	名詞-普通名詞-一般
に	に	ADP	助詞-格助詞
小さく	小さい	ADJ	形容詞-一般
分かれ	分かれる	VERB	動詞-一般
て	て	SCONJ	助詞-接続助詞
おり	おる	VERB	動詞-非自立可能
まし	ます	AUX	助動詞
た	た	AUX	助動詞
。	。	PUNCT	補助記号-句点
この	この	DET	連体詞
「	「	PUNCT	補助記号-括弧開
プレース	プレース	NOUN	名詞-普通名詞-一般
」	」	PUNCT	補助記号-括弧閉
は	は	ADP	助詞-係助詞
不可思議	不可思議	ADJ	名詞-普通名詞-形状詞可能
な	だ	AUX	助動詞
角度	角度	NOUN	名詞-普通名詞-一般
と	と	ADP	助詞-格助詞
曲線	曲線	NOUN	名詞-普通名詞-一般
を	を	ADP	助詞-格助詞
描い	描く	VERB	動詞-一般
て	て	SCONJ	助詞-接続助詞
おり	おる	VERB	動詞-非自立可能
、	、	PUNCT	補助記号-読点
一	一	NUM	名詞-数詞
、	、	NUM	補助記号-読点
二	二	NUM	名詞-数詞
回	回	NOUN	名詞-普通名詞-助数詞可能
自分

係り受け（単語の修飾関係）は、次のように確認できます。

In [9]:
import pandas as pd

# 解析結果をpandasのDataFrameに入れる

df = pd.DataFrame({
    "text": token.text,
    "lemma_": token.lemma_,
    "pos_": token.pos_,
    "tag_": token.tag_,
    "dep_": token.dep_,
    "children": list(token.children)
} for token in doc)

In [10]:
df

Unnamed: 0,text,lemma_,pos_,tag_,dep_,children
0,\n,\n,NUM,空白,dep,[]
1,ワシントン,ワシントン,PROPN,名詞-固有名詞-地名-一般,compound,[]
2,・,・,SYM,補助記号-一般,compound,[]
3,スクエア,スクエア,NOUN,名詞-普通名詞-一般,compound,[]
4,西,西,NOUN,名詞-普通名詞-一般,obl,"[ワシントン, ・, スクエア, に]"
...,...,...,...,...,...,...
335,の,の,SCONJ,助詞-準体助詞,mark,[でし]
336,でし,です,AUX,助動詞,fixed,[]
337,た,た,AUX,助動詞,aux,[]
338,。,。,PUNCT,補助記号-句点,punct,[]


In [12]:
# 係り受けの図を表示する

spacy.displacy.render(doc, style="dep")

それでは、単語の使用頻度を数えてみましょう。

In [13]:
from collections import Counter

# 単語の頻度を数える
counter = Counter(token.lemma_ for token in doc)

# 出現頻度top 20を出力する
for word, count in counter.most_common(20):
    print(f"{count:>5} {word}")

   21 、
   19 の
   14 た
   13 。
   12 と
   11 は
   11 て
   11 を
    7 に
    6 が
    6 ます
    5 だ
    5 「
    5 」
    5 する
    5 です
    4 

    4 ある
    4 で
    4 こと


句読点や助詞など、意味がなさそうな言葉ばかりです。

より意味がある語を取り出すために、分析対象とする品詞を指定しましょう。具体的には、内容語である名詞、動詞、形容詞（、固有名詞）を指定すればよいでしょう。

In [15]:
# 分析対象とする品詞の指定
include_pos = ("NOUN", "VERB", "ADJ", "PROPN")

# 再度単語の頻度を数える
counter = Counter(token.lemma_ for token in doc if token.pos_ in include_pos)

# 出現頻度top 20を出力する
for word, count in counter.most_common(20):
    print(f"{count:>5} {word}")

    4 こと
    3 ある
    3 おる
    3 いる
    3 持つ
    3 ジョンジー
    2 プレース
    2 通り
    2 取り立て
    2 屋
    2 くる
    2 番
    2 街
    2 なる
    2 スー
    2 アトリエ
    1 ワシントン
    1 スクエア
    1 西
    1 小


ちょっとよくなりました。でも、「こと」「ある」「いる」などの一般的な名詞や動詞が多いように思えます。

これらを不要語として指定し、除去しましょう。

In [18]:
# 分析対象とする品詞と不要語（ストップワード）を指定する
include_pos = ("NOUN", "VERB", "ADJ", "PROPN")
stopwords = ("する", "ある", "おる", "ない", "いう", "もの", "こと", "よう", "なる", "ほう", "いる", "くる")

# 再度単語の頻度を数える
counter = Counter(token.lemma_ for token in doc
                  if token.pos_ in include_pos and token.lemma_ not in stopwords)

# 出現頻度top 20を出力する
for word, count in counter.most_common(20):
    print(f"{count:>5} {word}")

    3 持つ
    3 ジョンジー
    2 プレース
    2 通り
    2 取り立て
    2 屋
    2 番
    2 街
    2 スー
    2 アトリエ
    1 ワシントン
    1 スクエア
    1 西
    1 小
    1 地区
    1 道路
    1 狂う
    1 入り組む
    1 呼ぶ
    1 区域


ずっと良くなりました。これだけの作業で、Bag-of-Wordsを作成することができました。

---

## 自然言語処理とは

日本語や英語など、私たちが普段使っている言葉を自然言語（Natural Language）と言います。自然言語処理（Natural Language Processing）とは、自然言語を処理する分野です。

自然言語処理の目標は、人の話す言葉をコンピュータに理解させ、私たちにとって役に立つことをコンピュータに行わせることです。

私たちの言葉は「文字」によって表現することができます。そして、言葉の意味は「単語」（正確には形態素）によって構成されます。そのため、自然言語をコンピュータに理解させるためには、「単語の意味」を理解させることが重要です。

ここでは、統計情報から単語の意味を表現する手法を学びます。

## 統計的な手法

自然言語処理の研究や応用のために目的をもって収集されたテキストデータを「コーパス」と呼びます。WikipediaやGoogle Newsなどのテキストデータや、シェイクスピアや夏目漱石などの作品群もコーパスです。

コーパスはテキストデータであり、そこに含まれる文章は人によって書かれたものです。これはつまり、コーパスには自然言語に対する人の知識が含まれているということです。文章の書き方、単語の選び方、単語の意味などがコーパスには含まれています。

カウントベースの手法の目標は、人の知識が詰まったコーパスから、自動的に、効率よく、そのエッセンスを抽出することです。

## 簡単なコーパスの前処理

テキストデータを単語に分割し、分割した単語を単語IDのリストへ変換することで、データの前処理を行いましょう。

In [22]:
text = "You say goodbye and I say hello."

In [23]:
# 小文字に変換
text = text.lower()
text

'you say goodbye and i say hello.'

In [24]:
# 句点の前にスペースを挿入
text = text.replace(".", " .")
text

'you say goodbye and i say hello .'

In [25]:
# 文を単語に分割する
words = text.split(' ')
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

In [26]:
# 単語のIDと単語の対応表を作る

word_to_id = {}
id_to_word = {}

for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

In [27]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [28]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

この2つの辞書を使えば、単語から単語IDの検索と、単語IDから単語の検索ができます。

In [29]:
id_to_word[2]

'goodbye'

In [30]:
word_to_id["i"]

4

最後に、単語のリストを単語IDのリストに変換し、NumPy配列に変換します。

In [31]:
import numpy as np

corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

これでコーパスの前処理は終了です。

## 単語の分散表現


次に、コーパスを使って単語の意味を抽出しましょう。具体的には、単語をベクトルで表すことを目指します。これは、自然言語処理の分野では、単語の分散表現と呼ばれます。

単語の分散表現に関する手法は、「単語の意味は、周囲の単語によって形成される」というアイデアに基づいています。これは、分布仮説と呼ばれるものです。

分布仮説では、単語自体には意味がなく、その単語の「コンテキスト（文脈）」によって、単語の意味が形成されると言われています。

たしかに、意味的に同じ単語は、同じような文脈で多く出現します。

例えば、

* I drink beer.
* We drink wine.

のようにdrinkの近くには飲み物があらわれやすいでしょう。


* I guzzle beer.
* We guzzle wine.

のような文章では、guzzleという単語がdrinkと同じような文脈で使われていることが分かります。そして、guzzleとdrinkが近い意味の単語だということが導けます。

## 共起行列

分布仮説に基づいて、単語をベクトルで表す方法を考えます。

素直な方法は、周囲の単語を数えることです。

さきほど用意したコーパスに含まれるそれぞれの単語について、そのコンテキスト（目当ての単語の周囲）に含まれる単語の頻度を数えていきます。

例えば、youという単語に着目すると、

||you|say|goodbye|and|i|hello|.|
|---|---|---|---|---|---|---|---|
|you|0|1|0|0|0|0|0|

このような表現になります。

全ての語に対してこれを数えると、

||you|say|goodbye|and|i|hello|.|
|---|---|---|---|---|---|---|---|
|you|0|1|0|0|0|0|0|
|say|1|0|1|0|1|1|0|
|goodbye|0|1|0|1|0|0|0|
|and|0|0|1|0|1|0|0|
|i|0|1|0|1|0|0|0|
|hello|0|1|0|0|0|0|1|
|.|0|0|0|0|0|1|0|

となります。

これをNumPy配列にすることで、共起行列ができます。この共起行列を使うと、各単語の分散表現が求められます。

In [32]:
C = np.array([
    [0, 1, 0, 0, 0, 0, 0],
    [1, 0, 1, 0, 1, 1, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 0, 1, 0, 1, 0, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 1, 0, 0, 0, 0, 1],
    [0, 0, 0, 0, 0, 1, 0],
])

In [33]:
# youの分散表現
print(id_to_word[0], C[0])

you [0 1 0 0 0 0 0]


In [36]:
# andの分散表現
print(id_to_word[3], C[3])

and [0 0 1 0 1 0 0]


In [37]:
def create_co_matrix(corpus, vocab_size, window_size=1):
    corpus_size = len(corpus)
    co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32)
    
    for idx, word_id in enumerate(corpus):
        for i in range(1, window_size + 1):
            left_idx = idx - i
            right_idx = idx + i
            
            if left_idx >= 0:
                left_word_id = corpus[left_idx]
                co_matrix[word_id, left_word_id] += 1
            
            if right_idx < corpus_size:
                right_word_id = corpus[right_idx]
                co_matrix[word_id, right_word_id] += 1
        
    return co_matrix

単語の分散表現を使うことで、単語の類似度を計算するなど、より高度な処理ができるようになります。

## TF-IDF