# 自然言語処理における前処理
* 機械学習モデルに食わせる以前の前処理について
* このプロセスでは、文書を構成する文字列をどう決定づけるべきかについての意思決定が含まれる

参考
* http://haya14busa.com/python-nltk-natural-language-processing/
* 情報検索の基礎
    + https://nlp.stanford.edu/IR-book/html/htmledition/irbook.html
    

# package

## nltk
* 定番ライブラリ

In [1]:
! pip install nltk



## see
* オブジェクトが反応できる関数を列挙するライブラリ

In [2]:
! pip install see



In [4]:
see(stem)

     ismodule               help()                 .ISRIStemmer()
     .LancasterStemmer()    .PorterStemmer()       .RSLPStemmer()
     .RegexpStemmer()       .SnowballStemmer()     .StemmerI()
     .WordNetLemmatizer()                          .api
     .isri                  .lancaster             .porter
     .regexp                .rslp                  .snowball
     .util                  .wordnet

# method

In [3]:
from nltk import stem
from nltk import tokenize
from nltk.corpus import stopwords
from see import see

## トークナイゼーション
* 「なにがtokenか」は有用な議論だが、省略

In [5]:
tokenize.word_tokenize("hello world!")

['hello', 'world', '!']

## ストップワード
* ありふれた語彙を落とす

In [6]:
stopset = set(stopwords.words('english'))
stopwords.words('english')[0:5]

['i', 'me', 'my', 'myself', 'we']

## ステミング
* token normalizationのための手法のひとつ
    + token normalization: 文字列のうえでは多少の相違があるものを、一致させる処理
* ステミングとレンマ処理
    + ある語の屈折形や派生的な関連形を，共 通基盤系に帰着させること
* nltk
    + case-folding つまり `word.lower()` が自動でかかる
    * ステミング方法がいくつかある
        * Porter, Snowball, Lancaster だけ把握しておけば良さそう？
        * http://blog.csdn.net/you1314520me/article/details/54970983
    * WordNetLemmatizer というものも
        * Lemmatize, レンマ処理: 見出語化する
        * https://stackoverflow.com/questions/25534214/nltk-wordnet-lemmatizer-shouldnt-it-lemmatize-all-inflections-of-a-word

In [7]:
stemmer = stem.LancasterStemmer()
stemmer.stem('dialogue')

'dialog'

# example

まずトークナイゼーションし、ストップワードと短すぎる語を弾いたのち、ステミング処理をかける

In [8]:
s = 'He grinned and said, "I make lots of money.  On weekdays I receive an average of 50 orders a day from all over the globe via the Internet."'

In [9]:
[ stemmer.stem(w) 
     for w in tokenize.word_tokenize(s)
     if w not in stopset and len(w) >= 3  ]

['grin',
 'said',
 'mak',
 'lot',
 'money',
 'weekday',
 'receiv',
 'av',
 'ord',
 'day',
 'glob',
 'via',
 'internet']