# テキストデータの前処理

テキストデータを分析する際には、基本的に以下の処理が行われます。

1. 形態素解析
    * 単語分割
    * 品詞付与
    * 原形抽出
2. 構文解析

日本語を例に、`spaCy`と`GiNZA`というライブラリを使って処理の過程を見ていきましょう。

`spaCy`では上の一連の処理をまとめて行ってくれます。

テキストデータとして、オー・ヘンリー（結城浩訳）[『最後の一枚の葉』](https://www.hyuki.com/trans/leaf.html)の冒頭部分を使います。

In [6]:
text = """
ワシントン・スクエア西にある小地区は、 道路が狂ったように入り組んでおり、 「プレース」と呼ばれる区域に小さく分かれておりました。 この「プレース」は不可思議な角度と曲線を描いており、 一、二回自分自身と交差している通りがあるほどでした。 かつて、ある画家は、この通りが貴重な可能性を持っていることを発見しました。 例えば絵や紙やキャンバスの請求書を手にした取り立て屋を考えてみてください。 取り立て屋は、この道を歩き回ったあげく、 ぐるりと元のところまで戻ってくるに違いありません。 一セントも取り立てることができずにね。
それで、芸術家たちはまもなく、奇妙で古いグリニッチ・ヴィレッジへとやってきました。 そして、北向きの窓と十八世紀の切り妻とオランダ風の屋根裏部屋と安い賃貸料を探してうろついたのです。 やがて、彼らは しろめ製のマグやこんろ付き卓上なべを一、二個、六番街から持ち込み、 「コロニー」を形成することになりました。
ずんぐりした三階建ての煉瓦造りの最上階では、スーとジョンジーがアトリエを持っていました。 「ジョンジー」はジョアンナの愛称です。 スーはメイン州の、ジョンジーはカリフォルニア州の出身でした。 二人は八番街の「デルモニコの店」の定食で出会い、 芸術と、チコリーのサラダと、ビショップ・スリーブの趣味がぴったりだとわかって、 共同のアトリエを持つことになったのでした。
"""

In [7]:
!pip install cymem==2.0.6 murmurhash==1.0.6



In [8]:
!pip install preshed==3.0.8 thinc==8.2.2



In [9]:
!pip install spacy==3.7.4



In [10]:
!pip install ja-ginza



In [11]:
# ライブラリのインストール（初回のみ）

!pip install spacy ginza ja-ginza
!pip install scikit-learn pandas



In [12]:
# ライブラリのインポート
import spacy

# 日本語モデルのロード
nlp = spacy.load("ja_ginza")

# 解析
doc = nlp(text)

# 結果の確認
for token in doc:
    print(token)



ワシントン
・
スクエア
西
に
ある
小
地区
は
、
道路
が
狂っ
た
よう
に
入り組ん
で
おり
、
「
プレース
」
と
呼ば
れる
区域
に
小さく
分かれ
て
おり
まし
た
。
この
「
プレース
」
は
不可思議
な
角度
と
曲線
を
描い
て
おり
、
一
、
二
回
自分自身
と
交差
し
て
いる
通り
が
ある
ほど
でし
た
。
かつて
、
ある
画家
は
、
この
通り
が
貴重
な
可能性
を
持っ
て
いる
こと
を
発見
し
まし
た
。
例えば
絵
や
紙
や
キャンバス
の
請求書
を
手
に
し
た
取り立て
屋
を
考え
て
み
て
ください
。
取り立て
屋
は
、
この
道
を
歩き回っ
た
あげく
、
ぐるり
と
元
の
ところ
まで
戻っ
て
くる
に
違い
あり
ませ
ん
。
一
セント
も
取り立てる
こと
が
でき
ず
に
ね
。


それ
で
、
芸術家
たち
は
ま
も
なく
、
奇妙
で
古い
グリニッチ
・
ヴィレッジ
へ
と
やっ
て
き
まし
た
。
そして
、
北向き
の
窓
と
十八
世紀
の
切り妻
と
オランダ
風
の
屋根裏
部屋
と
安い
賃貸料
を
探し
て
うろつい
た
の
です
。
やがて
、
彼
ら
は
しろ
め
製
の
マグ
や
こんろ
付き
卓上
なべ
を
一
、
二
個
、
六
番
街
から
持ち込み
、
「
コロニー
」
を
形成
する
こと
に
なり
まし
た
。


ずんぐり
し
た
三
階
建て
の
煉瓦
造り
の
最上階
で
は
、
スー
と
ジョンジー
が
アトリエ
を
持っ
て
い
まし
た
。
「
ジョンジー
」
は
ジョアンナ
の
愛称
です
。
スー
は
メイン州
の
、
ジョンジー
は
カリフォルニア州
の
出身
でし
た
。
二人
は
八
番
街
の
「
デルモニコ
の
店
」
の
定食
で
出会い
、
芸術
と
、
チコリー
の
サラダ
と
、
ビショップ
・
スリーブ
の
趣味
が
ぴったり
だ
と
わかっ
て
、
共同
の
アトリエ
を
持つ
こと
に
なっ
た
の
でし
た
。




形態素解析の結果には、語の原形や品詞の情報も含まれます。

In [13]:
for token in doc:
    print(f"{token}\t{token.lemma_}\t{token.pos_}\t{token.tag_}")


	
	NUM	空白
ワシントン	ワシントン	PROPN	名詞-固有名詞-地名-一般
・	・	SYM	補助記号-一般
スクエア	スクエア	NOUN	名詞-普通名詞-一般
西	西	NOUN	名詞-普通名詞-一般
に	に	ADP	助詞-格助詞
ある	ある	VERB	動詞-非自立可能
小	小	NOUN	接頭辞
地区	地区	NOUN	名詞-普通名詞-一般
は	は	ADP	助詞-係助詞
、	、	PUNCT	補助記号-読点
道路	道路	NOUN	名詞-普通名詞-一般
が	が	ADP	助詞-格助詞
狂っ	狂う	VERB	動詞-一般
た	た	AUX	助動詞
よう	よう	AUX	形状詞-助動詞語幹
に	だ	AUX	助動詞
入り組ん	入り組む	VERB	動詞-一般
で	で	SCONJ	助詞-接続助詞
おり	おる	VERB	動詞-非自立可能
、	、	PUNCT	補助記号-読点
「	「	PUNCT	補助記号-括弧開
プレース	プレース	NOUN	名詞-普通名詞-一般
」	」	PUNCT	補助記号-括弧閉
と	と	ADP	助詞-格助詞
呼ば	呼ぶ	VERB	動詞-一般
れる	れる	AUX	助動詞
区域	区域	NOUN	名詞-普通名詞-一般
に	に	ADP	助詞-格助詞
小さく	小さい	ADJ	形容詞-一般
分かれ	分かれる	VERB	動詞-一般
て	て	SCONJ	助詞-接続助詞
おり	おる	VERB	動詞-非自立可能
まし	ます	AUX	助動詞
た	た	AUX	助動詞
。	。	PUNCT	補助記号-句点
この	この	DET	連体詞
「	「	PUNCT	補助記号-括弧開
プレース	プレース	NOUN	名詞-普通名詞-一般
」	」	PUNCT	補助記号-括弧閉
は	は	ADP	助詞-係助詞
不可思議	不可思議	ADJ	名詞-普通名詞-形状詞可能
な	だ	AUX	助動詞
角度	角度	NOUN	名詞-普通名詞-一般
と	と	ADP	助詞-格助詞
曲線	曲線	NOUN	名詞-普通名詞-一般
を	を	ADP	助詞-格助詞
描い	描く	VERB	動詞-一般
て	て	SCONJ	助詞-接続助詞
おり	おる	VERB	動詞-非自立可能
、	、	PUNCT	補助記号-読点
一	一	NUM	名詞-数詞
、	、	NUM	補助記号-読点
二	二	NUM	名詞-数詞
回	回	NOUN	名詞-普通名詞-助数詞可能
自分

構文解析の結果は、次のように確認できます。

In [14]:
import pandas as pd

# 解析結果をpandasのDataFrameに入れる

df = pd.DataFrame({
    "text": token.text,
    "lemma_": token.lemma_,
    "pos_": token.pos_,
    "tag_": token.tag_,
    "dep_": token.dep_,
    "children": list(token.children)
} for token in doc)

In [15]:
df

Unnamed: 0,text,lemma_,pos_,tag_,dep_,children
0,\n,\n,NUM,空白,dep,[]
1,ワシントン,ワシントン,PROPN,名詞-固有名詞-地名-一般,compound,[]
2,・,・,SYM,補助記号-一般,compound,[]
3,スクエア,スクエア,NOUN,名詞-普通名詞-一般,compound,[]
4,西,西,NOUN,名詞-普通名詞-一般,obl,"[ワシントン, ・, スクエア, に]"
...,...,...,...,...,...,...
335,の,の,SCONJ,助詞-準体助詞,mark,[でし]
336,でし,です,AUX,助動詞,fixed,[]
337,た,た,AUX,助動詞,aux,[]
338,。,。,PUNCT,補助記号-句点,punct,[]


In [16]:
# 係り受けの図を表示する

spacy.displacy.render(doc, style="dep")

前処理が完了したところで、データの確認として単語の使用頻度を数えてみましょう。

In [17]:
from collections import Counter

# 単語の頻度を数える
counter = Counter(token.lemma_ for token in doc)

# 出現頻度top 20を出力する
for word, count in counter.most_common(20):
    print(f"{count:>5} {word}")

   21 、
   19 の
   14 た
   13 。
   12 と
   11 は
   11 て
   11 を
    7 に
    6 が
    6 ます
    5 だ
    5 「
    5 」
    5 する
    5 です
    4 

    4 ある
    4 で
    4 こと


句読点や助詞など、意味がなさそうな言葉ばかりです。

より意味がある語を取り出すために、分析対象とする品詞を指定しましょう。具体的には、内容語である名詞、動詞、形容詞（、固有名詞）を指定すればよいでしょう。

In [20]:
# 分析対象とする品詞の指定
include_pos = ("NOUN", "VERB", "ADJ", "PROPN")

# 再度単語の頻度を数える
counter = Counter(token.lemma_ for token in doc if token.pos_ in include_pos)

# 出現頻度top 20を出力する
for word, count in counter.most_common(20):
    print(f"{count:>5} {word}")

    4 こと
    3 ある
    3 おる
    3 いる
    3 持つ
    3 ジョンジー
    2 プレース
    2 通り
    2 取り立て
    2 屋
    2 くる
    2 番
    2 街
    2 なる
    2 スー
    2 アトリエ
    1 ワシントン
    1 スクエア
    1 西
    1 小


ちょっとよくなりました。でも、「こと」「ある」「いる」などの一般的な名詞や動詞が多いように思えます。

これらを不要語として指定し、除去しましょう。

In [21]:
# 分析対象とする品詞と不要語（ストップワード）を指定する
include_pos = ("NOUN", "VERB", "ADJ", "PROPN")
stopwords = ("する", "ある", "おる", "ない", "いう", "もの", "こと", "よう", "なる", "ほう", "いる", "くる")

# 再度単語の頻度を数える
counter = Counter(token.lemma_ for token in doc
                  if token.pos_ in include_pos and token.lemma_ not in stopwords)

# 出現頻度top 20を出力する
for word, count in counter.most_common(20):
    print(f"{count:>5} {word}")

    3 持つ
    3 ジョンジー
    2 プレース
    2 通り
    2 取り立て
    2 屋
    2 番
    2 街
    2 スー
    2 アトリエ
    1 ワシントン
    1 スクエア
    1 西
    1 小
    1 地区
    1 道路
    1 狂う
    1 入り組む
    1 呼ぶ
    1 区域


ずっと良くなりました。

これは、語の出現頻度を要素としたテキストデータのベクトル表現で、Bag of Wordsと呼ばれます。

## tf-idf

Bag of Wordsは、「多く出現する語ほど重要である」という直観的な考え方に基づいてテキストデータの特徴を表現したベクトルであり、文書分類を含む多くの自然言語処理タスクに有用です。

しかし、いろいろな文書に多く出現すると予測される「わたし」などの言葉は、出現頻度のわりにさほど重要ではないと考えられます。今回の処理のようにこのような言葉を不要語として指定し、分析から除外することもできますが、この点を考慮した単語の重要度の指標として、tf-idfがあります。

tf-idfは、term frequency（単語頻度）-inverse document frequency（逆文書頻度）の略です。具体的には、「ある文書内である単語がどれくらい多い頻度で出現するか」を表すterm frequencyと、「全文書内である単語を含む文書がどれくらい少ない頻度で出現するか」を表すinverse document frequencyをかけ合わせた値です。どの文書にもよく出てくる単語の重要度を下げて、あまり出てこない単語の重要度を上げるために工夫された指標です。

$$
tf-idf = tf（単語頻度） \times \frac{N（文書総数）}{n（単語が出現する文書数）}
$$



tf-idfはヒューリスティックな指標で理論的な根拠はあまりありませんが、重要語を上手く抽出でき、文書を特徴づけることができることが知られています。

そのため、頻度の代わりにtf-idfを要素としてテキストデータをベクトル化することがよく行われています。