<a href="https://colab.research.google.com/github/Momo227/nlp_practice/blob/Chapter4/Chapter4/Chapter4_2_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**ストップワード**：自然言語処理をする際に、一般的で役に立たないなどの理由で処理対象外にする単語のこと。

例えば…
    助詞や助動詞の機能語（「は」 「の」 「です」 「ます」 など）
 * 出現頻度が高い割に役に立たない
 * 計算量や性能に悪影響を及ぼす

方式
* 辞書による方式
* 出現頻度による方式

**辞書による方式**：予めスワップワードを辞書に定義しておき、辞書内に含まれる単語をテキストから除去する。

素朴で簡単だが、欠点も。。
* 辞書を作るためのコストが高い。
* あるデータセットで有効な辞書が別のデータセットでは役に立たない→対象としているデータセットによって辞書を作り替える必要がある

今回すること
1.   ダウンロードしたデータを読みこむ
2.   open関数を用いてファイルを開き、一定ずつ読み込んでいく
3.   stripメソッドを使って記号を取り除く
4.   setメソッドを使ってリストを集合に変換する（リストより集合の方が、検索が早いため）
5.   読み込めたらストップワードを除去する関数を定義する
6.   Janomeで形態素解析をしてテキストを単語に分割し、単語列とスワップファートを与える関数（5. ）から単語列の中でスワップワードが含まれているものがあれば除去する。





In [None]:
pip install janome

Collecting janome
[?25l  Downloading https://files.pythonhosted.org/packages/a8/63/98858cbead27df7536c7e300c169da0999e9704d02220dc6700b804eeff0/Janome-0.4.1-py2.py3-none-any.whl (19.7MB)
[K     |████████████████████████████████| 19.7MB 1.3MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.4.1


In [None]:
with open('Japanese.txt', 'r', encoding='utf-8') as f:
    stopwords = [w.strip() for w in f]
    stopwords = set(stopwords)

In [None]:
def remove_stopwords(words, stopwords):
    words = [w for w in words if w not in stopwords]
    return words

In [None]:
from janome.tokenizer import Tokenizer
t = Tokenizer(wakati=True)
text = 'りんごをいくつか買う。'
words = t.tokenize(text)

In [None]:
words

<generator object Tokenizer.__tokenize_stream at 0x7f4bb0cad4d0>

In [None]:
remove_stopwords(words, stopwords)

['りんご', 'を', 'か', '買う', '。']

**出現頻度による方式**：リスト内の単語を頻度をカウントし、高頻度(低頻度)の単語をテキストから除去する

・高頻度の単語を除去する時→それらの単語テスト内で占める割合が高い一方、役に立たない時

（ex. "of", "the", …）

今回の作業
1.   open関数を用いてファイルを開き、readで読み込む。
2.   コーパスは形態素解析済みで、各単語は空白で区切られているので、Pythonのsplitメソッドを使って単語分割をする。
3.   各単語の出現頻度をカウントする。（Python組み込みのCounterクラスを使う）
      
      →リストを与えて初期化することで、各要素の頻度をカウントする。
4.   得られた上位n件の単語スワップワードとみなし、先程定義した、remove_stopwordsを使ってストップを除去する。


In [11]:
with open('ja.text8', 'r', encoding='utf-8') as f:
    text = f.read()
    words = text.split()

In [12]:
from collections import Counter
Counter(['cat', 'dog', 'cat'])

Counter({'cat': 2, 'dog': 1})

In [13]:
fdist = Counter(words)
fdist.most_common(n=10)

[('の', 34758),
 ('、', 33214),
 ('。', 22662),
 ('に', 21765),
 ('は', 20387),
 ('を', 18005),
 ('た', 17003),
 ('が', 14859),
 ('で', 14634),
 ('て', 10976)]