<a href="https://colab.research.google.com/github/tomonari-masada/course-nlp2020/blob/master/01_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 テキストデータの扱い方：基本中の基本編

* テキストデータは、長い長い文字列。
* 長い長い文字列のままでは、普通は分析できない。
* 今回は、自然言語処理における基本的な前処理について学ぶ。
* また、今回は、英語データのみを扱う。
 * 日本語データは、次回、扱う。


今回のnotebook作成にあたって、下記のリポジトリを参考にしました。

 * https://github.com/dipanjanS/nlp_essentials

## 01-01 大文字小文字間の変換

* Pythonの文字列型のメソッドを使えば、可能。

* 問：元のテキストにあった大文字と小文字の区別を無くしてしまうことのメリットとデメリットは何か？

In [1]:
text = 'The quick brown fox jumped over The Big Dog'
text

'The quick brown fox jumped over The Big Dog'

In [2]:
text.lower()

'the quick brown fox jumped over the big dog'

In [3]:
text.upper()

'THE QUICK BROWN FOX JUMPED OVER THE BIG DOG'

In [4]:
# 各トークンの一文字目を大文字にする。
text.title()

'The Quick Brown Fox Jumped Over The Big Dog'

## 01-02 NLTKを使ってみる

* NLTKは、Pythonの有名な自然言語処理ライブラリ。2001年スタートらしい。

* https://www.nltk.org/

In [5]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /usr/share/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /usr/share/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /usr/share/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

### Tokenization

* 文に分ける、単語に分ける、など、長い文字列としての言語データをより小さな単位へと分割することを、一般にtokenizationと言う。
* segmentationと言うこともある。

In [6]:
# Pythonの文字列は、複数行にわたっていても、丸括弧でくくれば一つの長い文字列になる。
# （ただし、最後の行を除いて、末尾に空白を入れておくのを忘れないように。）

sample_text = ("US unveils world's most powerful supercomputer, beats China. " 
               "The US has unveiled the world's most powerful supercomputer called 'Summit', " 
               "beating the previous record-holder China's Sunway TaihuLight. With a peak performance "
               "of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, "
               "which is capable of 93,000 trillion calculations per second. Summit has 4,608 servers, "
               "which reportedly take up the size of two tennis courts.")
sample_text

"US unveils world's most powerful supercomputer, beats China. The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight. With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second. Summit has 4,608 servers, which reportedly take up the size of two tennis courts."

In [7]:
# 文ごとに分割
nltk.sent_tokenize(sample_text)

["US unveils world's most powerful supercomputer, beats China.",
 "The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight.",
 'With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second.',
 'Summit has 4,608 servers, which reportedly take up the size of two tennis courts.']

* 問：下に示すword tokenizationのメリットとデメリットは何か？

In [8]:
# 単語ごとに分割
print(nltk.word_tokenize(sample_text))

['US', 'unveils', 'world', "'s", 'most', 'powerful', 'supercomputer', ',', 'beats', 'China', '.', 'The', 'US', 'has', 'unveiled', 'the', 'world', "'s", 'most', 'powerful', 'supercomputer', 'called', "'Summit", "'", ',', 'beating', 'the', 'previous', 'record-holder', 'China', "'s", 'Sunway', 'TaihuLight', '.', 'With', 'a', 'peak', 'performance', 'of', '200,000', 'trillion', 'calculations', 'per', 'second', ',', 'it', 'is', 'over', 'twice', 'as', 'fast', 'as', 'Sunway', 'TaihuLight', ',', 'which', 'is', 'capable', 'of', '93,000', 'trillion', 'calculations', 'per', 'second', '.', 'Summit', 'has', '4,608', 'servers', ',', 'which', 'reportedly', 'take', 'up', 'the', 'size', 'of', 'two', 'tennis', 'courts', '.']


## 01-03 spaCyを使ってみる

* spaCyも、Pythonの有名な自然言語処理ライブラリ。2015年スタートらしい。

* https://spacy.io/

### Tokenization

In [9]:
import spacy
nlp = spacy.load('en')

In [10]:
text_spacy = nlp(sample_text)

In [11]:
[obj.text for obj in text_spacy.sents]

["US unveils world's most powerful supercomputer, beats China.",
 "The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight.",
 'With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second.',
 'Summit has 4,608 servers, which reportedly take up the size of two tennis courts.']

* 問： 下のword tokenizationは、先ほどのword tokenizationとどう違うか？

In [12]:
print([obj.text for obj in text_spacy])

['US', 'unveils', 'world', "'s", 'most', 'powerful', 'supercomputer', ',', 'beats', 'China', '.', 'The', 'US', 'has', 'unveiled', 'the', 'world', "'s", 'most', 'powerful', 'supercomputer', 'called', "'", 'Summit', "'", ',', 'beating', 'the', 'previous', 'record', '-', 'holder', 'China', "'s", 'Sunway', 'TaihuLight', '.', 'With', 'a', 'peak', 'performance', 'of', '200,000', 'trillion', 'calculations', 'per', 'second', ',', 'it', 'is', 'over', 'twice', 'as', 'fast', 'as', 'Sunway', 'TaihuLight', ',', 'which', 'is', 'capable', 'of', '93,000', 'trillion', 'calculations', 'per', 'second', '.', 'Summit', 'has', '4,608', 'servers', ',', 'which', 'reportedly', 'take', 'up', 'the', 'size', 'of', 'two', 'tennis', 'courts', '.']


## 01-04 HTML文書の前処理

* __`<p>`__や__`<a>`__や__`<div>`__など、頻繁に使うHTMLタグは頭に入れておいてください。

* なぜなら、ある程度HTMLタグが読めてはじめて、スクレイピングのコードを書くための、HTMLソースの下調べができるからです。
 * 自前でWeb上から分析対象のテキストデータを取得するときは、ダウンロードしようとするWebページのHTMLの構造を自分の目で確認する。

* 問：誰かによって整備されたデータセットではなく、自前でHTML文書をスクレイピングすることのメリットとデメリットは何か？

### HTML文書のダウンロード
* いくつか方法はあるが、ここではrequestsモジュールを使う。

In [13]:
import requests

data = requests.get('http://www.gutenberg.org/cache/epub/8001/pg8001.html')
content = data.text
print(content[2745:3948])

<p id="id00011" style="margin-top: 2em">*** START OF THE PROJECT GUTENBERG EBOOK, THE BIBLE, KING JAMES, BOOK 1***</p>

<p id="id00012" style="margin-top: 4em">This eBook was produced by David Widger
with the help of Derek Andrew's text from January 1992
and the work of Bryan Taylor in November 2002.</p>

<h1 id="id00013" style="margin-top: 5em">Book 01        Genesis</h1>

<p id="id00014">01:001:001 In the beginning God created the heaven and the earth.</p>

<p id="id00015" style="margin-left: 0%; margin-right: 0%">01:001:002 And the earth was without form, and void; and darkness was
           upon the face of the deep. And the Spirit of God moved upon
           the face of the waters.</p>

<p id="id00016">01:001:003 And God said, Let there be light: and there was light.</p>

<p id="id00017">01:001:004 And God saw the light, that it was good: and God divided the<br/>

           light from the darkness.<br/>
</p>

<p id="id00018">01:001:005 And God called the li

### Beautiful Soupの利用

* HTML文書の構造を解析するためによく使われるライブラリ。

* 参考資料：「Beautiful Soup 4によるスクレイピングの基礎」

 * https://www.atmarkit.co.jp/ait/articles/1910/18/news015.html

In [14]:
import re
from bs4 import BeautifulSoup

def strip_html_tags(text):
    soup = BeautifulSoup(text, "html.parser")
    stripped_text = soup.get_text()
    # 下の正規表現の意味を説明してみよう。
    stripped_text = re.sub(r'[\r|\n|\r\n]+', '\n', stripped_text)
    return stripped_text

clean_content = strip_html_tags(content)
print(clean_content[1163:1957])

*** START OF THE PROJECT GUTENBERG EBOOK, THE BIBLE, KING JAMES, BOOK 1***
This eBook was produced by David Widger
with the help of Derek Andrew's text from January 1992
and the work of Bryan Taylor in November 2002.
Book 01        Genesis
01:001:001 In the beginning God created the heaven and the earth.
01:001:002 And the earth was without form, and void; and darkness was
           upon the face of the deep. And the Spirit of God moved upon
           the face of the waters.
01:001:003 And God said, Let there be light: and there was light.
01:001:004 And God saw the light, that it was good: and God divided the
           light from the darkness.
01:001:005 And God called the light Day, and the darkness he called
           Night. And the evening and the morning were the first day.



## 演習1-1
* clean_contentを単語に分割し、各単語の出現頻度を求め、出現頻度の高い順に上位100の単語を、出現頻度とともに表示しよう。
* clean_contentの内容をすべて小文字に変換した後で同じことをしてみよう。

In [15]:
# 演習1-1の答案




## 01-05 アクセント記号の除去

* unicodedataというライブラリを使う。

 * https://docs.python.org/3/library/unicodedata.html

* 'NFKD'は何を意味するか？ （Wikipedia「Unicode正規化」）

 * https://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96

* PythonにおけるUnicode HOWTO

 * https://docs.python.org/ja/3/howto/unicode.html

* テキストデータの前処理においてアクセント記号を除去することのメリットとデメリットは何か？

In [16]:
import unicodedata

def remove_accented_chars(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    return text

In [17]:
s = ("Le bon sens est la chose du monde la mieux partagée; car chacun pense "
  "en être si bien pourvu, que ceux même qui sont les plus difficiles à "
  "contenter en toute autre chose n'ont point coutume d'en désirer plus "
  "qu'ils en ont.")
s

"Le bon sens est la chose du monde la mieux partagée; car chacun pense en être si bien pourvu, que ceux même qui sont les plus difficiles à contenter en toute autre chose n'ont point coutume d'en désirer plus qu'ils en ont."

In [18]:
remove_accented_chars(s)

"Le bon sens est la chose du monde la mieux partagee; car chacun pense en etre si bien pourvu, que ceux meme qui sont les plus difficiles a contenter en toute autre chose n'ont point coutume d'en desirer plus qu'ils en ont."

## 01-06 特殊文字、数字、記号の除去

* reモジュールを使う。reはregular expression(正規表現)のこと。

* 問：テキストデータの前処理において特殊文字、数字、記号などを除去することのメリットとデメリットは何か？

In [19]:
# 問：下で使われている２つの正規表現はそれぞれどういう意味か？

import re

def remove_special_characters(text, remove_digits=False):
    pattern = r'[^a-zA-Z0-9\s]' if not remove_digits else r'[^a-zA-Z\s]'
    text = re.sub(pattern, '', text)
    return text


In [20]:
s = "Well this was fun! See you at 7:30, What do you think!!? #$@@9318@ 🙂🙂🙂"
s

'Well this was fun! See you at 7:30, What do you think!!? #$@@9318@ 🙂🙂🙂'

In [21]:
remove_special_characters(s, remove_digits=True)

'Well this was fun See you at  What do you think  '

In [22]:
remove_special_characters(s)

'Well this was fun See you at 730 What do you think 9318 '

## 01-07 contraction

* 英語には様々な省略表現がある。これを元に戻す。

In [23]:
!pip install contractions
!pip install textsearch

Collecting contractions
  Downloading contractions-0.0.25-py2.py3-none-any.whl (3.2 kB)
Collecting textsearch
  Downloading textsearch-0.0.17-py2.py3-none-any.whl (7.5 kB)
Installing collected packages: textsearch, contractions
Successfully installed contractions-0.0.25 textsearch-0.0.17
You should consider upgrading via the '/opt/conda/bin/python3.7 -m pip install --upgrade pip' command.[0m
You should consider upgrading via the '/opt/conda/bin/python3.7 -m pip install --upgrade pip' command.[0m


In [24]:
s = "Y'all can't expand contractions I'd think! You wouldn't be able to. How'd you do it?"
s

"Y'all can't expand contractions I'd think! You wouldn't be able to. How'd you do it?"

In [25]:
import contractions

contractions_list = list(contractions.contractions_dict.items())
print(len(contractions_list))

247


In [26]:
print(contractions_list)

[("ain't", 'are not'), ("aren't", 'are not'), ("can't", 'can not'), ("can't've", 'can not have'), ("'cause", 'because'), ("could've", 'could have'), ("couldn't", 'could not'), ("couldn't've", 'could not have'), ("didn't", 'did not'), ("doesn't", 'does not'), ("don't", 'do not'), ("hadn't", 'had not'), ("hadn't've", 'had not have'), ("hasn't", 'has not'), ("haven't", 'have not'), ("he'd", 'he would'), ("he'd've", 'he would have'), ("he'll", 'he will'), ("he'll've", 'he will have'), ("he's", 'he is'), ("how'd", 'how did'), ("how're", 'how are'), ("how'd'y", 'how do you'), ("how'll", 'how will'), ("how's", 'how is'), ("I'd", 'I would'), ("I'd've", 'I would have'), ("I'll", 'I will'), ("I'll've", 'I will have'), ("I'm", 'I am'), ("I've", 'I have'), ("isn't", 'is not'), ("it'd", 'it would'), ("it'd've", 'it would have'), ("it'll", 'it will'), ("it'll've", 'it will have'), ("it's", 'it is'), ("let's", 'let us'), ("ma'am", 'madam'), ("mayn't", 'may not'), ("might've", 'might have'), ("mightn'

In [27]:
contractions.fix(s)

'you all can not expand contractions I would think! You would not be able to. how did you do it?'

In [28]:
s = "It's pool-season from this week, isn't it? Oh yes. I've gotta go and buy a swimming suit, then."
contractions.fix(s)

'it is pool-season from this week, is not it? Oh yes. I have got to go and buy a swimming suit, then.'

## 01-08 NLTKでstemming

* 語尾が変化する単語の、その変化を無くして、語幹を得る。
* 得られる語幹は、英単語として通用しない文字列になることが多い。
* Stemming and Lemmatization in Python
 * https://www.datacamp.com/community/tutorials/stemming-lemmatization-python


* 問：テキストデータの前処理としてstemmingをすることのメリットとデメリットは何か？
* 問：様々な種類のstemmerがあるのはなぜか？

In [29]:
# Porter Stemmerを使ってみる （stemmerと言えばこれ、というぐらい良く知られている。）
from nltk.stem import PorterStemmer
ps = PorterStemmer()

ps.stem('jumping'), ps.stem('jumps'), ps.stem('jumped')

('jump', 'jump', 'jump')

In [30]:
ps.stem('lying')

'lie'

In [31]:
ps.stem('strange')

'strang'

## 01-09 NLTKでlemmatization（不完全版）

* 語形が変わる単語を原型に戻す。
* 原型は、英語の単語として通用する。

* 問：テキストデータの前処理としてlemmatizationをすることのメリットとデメリットは何か？

In [32]:
# WordNetを辞書として使うlemmatizer

from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()

In [33]:
help(wnl.lemmatize)

Help on method lemmatize in module nltk.stem.wordnet:

lemmatize(word, pos='n') method of nltk.stem.wordnet.WordNetLemmatizer instance



In [34]:
# 名詞
print(wnl.lemmatize('cars', 'n'))
print(wnl.lemmatize('boxes', 'n'))

car
box


In [35]:
# 動詞
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))

run
eat


In [36]:
# 形容詞
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

sad
fancy


In [37]:
# 指定した品詞が間違っていると、うまくいかない。
# （品詞を取得する方法は、すぐ後で解説する。）
print(wnl.lemmatize('ate', 'n'))
print(wnl.lemmatize('fancier', 'v'))
print(wnl.lemmatize('fancier'))

ate
fancier
fancier


## 01-10 NLTKによるtokenizationとlemmatizationの組み合わせ

In [38]:
s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'

tokens = nltk.word_tokenize(s)
print(tokens)

['The', 'brown', 'foxes', 'are', 'quick', 'and', 'they', 'are', 'jumping', 'over', 'the', 'sleeping', 'lazy', 'dogs', '!']


In [39]:
# ここでのlemmatizationは、品詞情報を使っていないので、不完全。下でこれを改良する。

lemmatized_text = ' '.join(wnl.lemmatize(token) for token in tokens)
lemmatized_text

'The brown fox are quick and they are jumping over the sleeping lazy dog !'

## 01-11 POS Tagging

* 問：品詞の情報が必要になるのはどういうときか？

In [40]:
tagged_tokens = nltk.pos_tag(tokens)
print(tagged_tokens)

[('The', 'DT'), ('brown', 'JJ'), ('foxes', 'NNS'), ('are', 'VBP'), ('quick', 'JJ'), ('and', 'CC'), ('they', 'PRP'), ('are', 'VBP'), ('jumping', 'VBG'), ('over', 'IN'), ('the', 'DT'), ('sleeping', 'VBG'), ('lazy', 'JJ'), ('dogs', 'NNS'), ('!', '.')]


### NLTKが与えるPOSタグをWordNetのPOSタグに変換

In [41]:
from nltk.corpus import wordnet

def pos_tag_wordnet(tagged_tokens):
    tag_map = {'j': wordnet.ADJ, 'v': wordnet.VERB, 'n': wordnet.NOUN, 'r': wordnet.ADV}
    new_tagged_tokens = [(word, tag_map.get(tag[0].lower(), wordnet.NOUN))
                            for word, tag in tagged_tokens]
    return new_tagged_tokens

In [42]:
wordnet_tokens = pos_tag_wordnet(tagged_tokens)
print(wordnet_tokens)

[('The', 'n'), ('brown', 'a'), ('foxes', 'n'), ('are', 'v'), ('quick', 'a'), ('and', 'n'), ('they', 'n'), ('are', 'v'), ('jumping', 'v'), ('over', 'n'), ('the', 'n'), ('sleeping', 'v'), ('lazy', 'a'), ('dogs', 'n'), ('!', 'n')]


## 01-12 NLTKでlemmatization（完全版）

In [43]:
lemmatized_text = ' '.join(wnl.lemmatize(word, tag) for word, tag in wordnet_tokens)
lemmatized_text

'The brown fox be quick and they be jump over the sleep lazy dog !'

## 演習1-2

* 上の3つのセルでおこなった処理をまとめて一つの関数として定義しよう。
 - 関数 __`wordnet_lemmatize_text()`__ を定義する。
 - 入力は変数 __`text`__ とし、これは文字列とする。
 - この関数のなかで、さきほど定義した関数__`pos_tag_wordnet()`__を使う。
 - そして、lemmatizeされたテキストを文字列型の出力として返すようにする。

In [44]:
# 演習1-2の答案
# def wordnet_lemmatize_text(text):
#   ..........



#s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'
#wordnet_lemmatize_text(s)

## 01-13 spaCyでlemmatization

* 上のように、別途品詞を調べる必要はない。

In [45]:
import spacy

nlp = spacy.load('en', parse=False, tag=False, entity=False)

def spacy_lemmatize_text(text):
    text = nlp(text)
    text = ' '.join([word.lemma_ if word.lemma_ != '-PRON-' else word.text for word in text])
    return text

In [46]:
s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'
s

'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'

In [47]:
spacy_lemmatize_text(s)

'the brown fox be quick and they be jump over the sleep lazy dog !'

## 01-14 ストップワードの除去

* ストップワードとは、言語データを分析するにあたって、非常に頻繁に使われるため内容の分析にあまり役に立たない単語のことを言う。

* これこそが英語のストップワードだ！と言えるような決定的なストップワードのリストがあるわけではない。

 * 主要なNLPライブラリでは、あらかじめ用意されたストップワードのリストを使うことができる。

 * しかし、分析したいテキストデータに合わせて、ストップワードのリストをカスタマイズすることも、よくある。

In [48]:
from spacy.lang.en.stop_words import STOP_WORDS

print(STOP_WORDS)
print(len(STOP_WORDS))

{'either', 'four', 'yours', 'around', 'hereafter', 'along', 'who', 'has', 'least', 'beside', '‘ll', 'go', 'besides', 'whither', 'whereas', '‘m', 'ours', 'seeming', 'which', 'other', 'were', 'to', 'often', 'rather', 'of', 'quite', 'sixty', 'so', 'n‘t', 'show', 'would', 'anything', 'his', 'nothing', 'since', 'whose', 'as', 'and', 'perhaps', 'somehow', 'otherwise', 'everything', 'keep', 'regarding', 'get', 'was', 'yet', 'call', 'next', 'hundred', 'per', 'whenever', 'he', 'only', 'whoever', 'did', 'sometime', 'it', 'less', 'why', 'seem', 'ca', 'most', 'somewhere', '’re', 'without', 'former', 'still', 'hereupon', 'anyway', 'used', 'again', '’ll', 'across', 'done', 'others', 'much', 'ourselves', 'become', "'ll", 'itself', 'that', 'because', 'enough', 'do', 'even', 'more', "'d", '’ve', 'have', 'several', 'nowhere', 'none', 'sometimes', 'had', 'being', 'thereby', 'never', 'just', 'whereupon', 'him', 'two', "'ve", 'each', 'back', 'hers', 'if', 'also', 'part', 'should', 'anyone', 'thence', 'belo

In [49]:
import spacy

nlp = spacy.load('en')

def remove_stopwords(text, stopwords=None):
    if not stopwords:
        stopwords = spacy.lang.en.stop_words.STOP_WORDS
    tokens = [obj.text for obj in nlp(text)]
    filtered_tokens = [token for token in tokens if token not in stopwords]
    filtered_text = ' '.join(filtered_tokens)    
    return filtered_text

In [50]:
s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'
s

'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'

In [51]:
remove_stopwords(s)

'The brown foxes quick jumping sleeping lazy dogs !'

## 01-99 segmentationについて
* 図表は下記のブログ記事より。
 * https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html

![Segmentation.png](https://raw.githubusercontent.com/tomonari-masada/course-nlp2020/master/Segmentation.png)
![inherent_task_complexity.png](https://raw.githubusercontent.com/tomonari-masada/course-nlp2020/master/inherent_task_complexity.png)

# 課題1

* Wikipediaの適当な英語のエントリをダウンロードする。

 * 選ぶのが面倒という方はAIのエントリでもどうぞ。
   * https://en.wikipedia.org/wiki/Artificial_intelligence

* BeautifulSoupで本文のテキストだけを取得する。

 * HTMLのソースを見て、どこが本文かを確認する。
 * あるいは、ネット検索をして、Wikipediaのエントリから本文だけを取得する方法を調べる。

* 以下の前処理をする。

 * 大文字は小文字にする。ただし固有名詞を除く。

 * ストップワードを除去する。

 * lemmatizationする。

* 各単語の出現回数を求め、表示する。

* lemmatizationした後の単語を、元の出現順序どおりに、半角スペースで区切ってつなぎ、長い一つの文字列にする。
 * joinメソッドを使えばよい。つまり、__`' '.join(`__ lemmatizeされた単語のリスト __`)`__ という感じ。