In [19]:
# punkt,stopwords,wordnet,omwのダウンロード
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Unzipping corpora/omw-1.4.zip.


True

# 前処理

本プログラムでは英語の文章に対する前処理を対象とする.

## 文の分割

まず, 文章を1文ずつに分割する処理を行う. 英語の文章はおおよそピリオド(.)とクエスチョンマーク(?)で1文ずつに分割することができる. しかし敬称(Dr. Mr.)や省略形(...)の例外が存在する. ここでは文章を1文ずつに分割する処理を行うためライブラリであるnltkライブラリを用いて処理を行う.

In [5]:
from nltk.tokenize import sent_tokenize,word_tokenize

# 文に分割
mytext = "Need to finalize the demo corpus which will be used for this notebook and it should be done soon !!. It should be done by the ending of this month. But will it? This notebook has been run 4 times !!"
my_sentences = sent_tokenize(mytext)
my_sentences

['Need to finalize the demo corpus which will be used for this notebook and it should be done soon !!.',
 'It should be done by the ending of this month.',
 'But will it?',
 'This notebook has been run 4 times !',
 '!']

## 単語への分割

In [6]:
for sentence in my_sentences:
    print(sentence)
    print(word_tokenize(sentence))

Need to finalize the demo corpus which will be used for this notebook and it should be done soon !!.
['Need', 'to', 'finalize', 'the', 'demo', 'corpus', 'which', 'will', 'be', 'used', 'for', 'this', 'notebook', 'and', 'it', 'should', 'be', 'done', 'soon', '!', '!', '.']
It should be done by the ending of this month.
['It', 'should', 'be', 'done', 'by', 'the', 'ending', 'of', 'this', 'month', '.']
But will it?
['But', 'will', 'it', '?']
This notebook has been run 4 times !
['This', 'notebook', 'has', 'been', 'run', '4', 'times', '!']
!
['!']


## ストップワードの処理

ある記事を単語に分割したものを用いて, その記事が政治, スポーツ, ビジネス, その他のどれに分類されるかを判定する分類器を作成するタスクを考える. 単語の中には「a」,「the」,「on」のように英語で頻繁に用いられる単語がある. これらの単語は分類器の作成に寄与しないストップワードと呼ばれ, 前処理の段階で除外される. さらに例にあげたタスクは記事を対象としているため「news」という単語もストップワードになりえる. このように一般にはストップワードではないが, 扱っているコーパスが特定分野のものであるときにはその分野で頻出する単語もストップワードになる. ここではnltkのストップワードを用いて除外を行う.

In [9]:
from string import punctuation
from nltk.corpus import stopwords

# stopwordsを表示
stop_words = stopwords.words('english')
print(stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [13]:
def preprocess_corpus(texts):
    """文を単語に分割してストップワードを除外する関数
    
    Args:
    texts : list of texts
    
    Returns:
    list of words with stop words excluded
    """
    mystopwords = set(stopwords.words("english"))
    def remove_stops_digits(tokens):
        # lower() : すべての文字を小文字にする
        # isdigit() : 文字列が数字か英字か, true->数字, false->英字
        # punctuation : 句読点のリスト
        return [token.lower() for token in tokens if token not in mystopwords
               and not token.isdigit() and token not in punctuation]
    return [remove_stops_digits(word_tokenize(text)) for text in texts]

In [14]:
preprocess_corpus(my_sentences)

[['need', 'finalize', 'demo', 'corpus', 'used', 'notebook', 'done', 'soon'],
 ['it', 'done', 'ending', 'month'],
 ['but'],
 ['this', 'notebook', 'run', 'times'],
 []]

## ステミング
ステミングは接頭辞を取り除いて単語を基本形に直す処理を行うことである. 例えば「car」と「cars」という単語はどちらもステミングすると「car」という単語になる.


In [15]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("cars")) # ステミングが適切な例
print(stemmer.stem("revolution")) # ステミングが適切でない例

car
revolut


## 見出し語化
見出し語化は単語を基本となる単語(見出し語)に直す処理を行うことである. 定義はステミングに近いが内容は異なる. 単語「better」はステミングでは「better」のままであるが見出し語化を行うと「good」になる.

In [20]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(stemmer.stem("better")) # ステミング
print(lemmatizer.lemmatize("better",pos="a")) # 見出し語化

better
good
