<a href="https://colab.research.google.com/github/tomonari-masada/course2021-nlp/blob/main/02_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **テキストデータの扱い方：基本中の基本編**

* テキストデータは、長い長い文字列。
* 長い長い文字列のままでは、普通は分析できない。
* 今回は、自然言語処理における基本的な前処理について学ぶ。
* 今回は、英語データのみを扱う。
 * 日本語データは、次回。


今回のnotebook作成にあたって、下記のリポジトリを参考にしました。

 * https://github.com/dipanjanS/nlp_essentials

## 1. str型のメソッドによる前処理

* 例えば、大文字と小文字の間の変換などが実行できる。

 * 問：元のテキストにあった大文字と小文字の区別を無くしてしまうことのメリットとデメリットは何か？

In [1]:
text = 'The quick brown fox jumped over The Big Dog'
text

'The quick brown fox jumped over The Big Dog'

In [2]:
text.lower()

'the quick brown fox jumped over the big dog'

In [3]:
text.upper()

'THE QUICK BROWN FOX JUMPED OVER THE BIG DOG'

* 各トークンの一文字目を大文字にする。


In [4]:
text.title()

'The Quick Brown Fox Jumped Over The Big Dog'

## 2. NLTK

* NLTKは、Pythonの有名な自然言語処理ライブラリ。2001年スタートらしい。

* https://www.nltk.org/

In [5]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

### Tokenization

* 文に分ける、単語に分ける、など、長い文字列としての言語データをより小さな単位へと分割することを、一般にtokenizationと言う。

* Pythonの文字列は、複数行にわたっていても、丸括弧でくくれば一つの長い文字列になる。
 * ただし、最後の行を除いて、末尾に空白を入れておくのを忘れないように。

In [6]:
sample_text = ("US unveils world's most powerful supercomputer, beats China. " 
               "The US has unveiled the world's most powerful supercomputer called 'Summit', " 
               "beating the previous record-holder China's Sunway TaihuLight. With a peak performance "
               "of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, "
               "which is capable of 93,000 trillion calculations per second. Summit has 4,608 servers, "
               "which reportedly take up the size of two tennis courts.")
sample_text

"US unveils world's most powerful supercomputer, beats China. The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight. With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second. Summit has 4,608 servers, which reportedly take up the size of two tennis courts."

* 文ごとにtokenize

In [7]:
nltk.sent_tokenize(sample_text)

["US unveils world's most powerful supercomputer, beats China.",
 "The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight.",
 'With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second.',
 'Summit has 4,608 servers, which reportedly take up the size of two tennis courts.']

* 問：下に示すword tokenizationのメリットとデメリットは何か？

* 単語ごとにtokenize

In [8]:
print(nltk.word_tokenize(sample_text))

['US', 'unveils', 'world', "'s", 'most', 'powerful', 'supercomputer', ',', 'beats', 'China', '.', 'The', 'US', 'has', 'unveiled', 'the', 'world', "'s", 'most', 'powerful', 'supercomputer', 'called', "'Summit", "'", ',', 'beating', 'the', 'previous', 'record-holder', 'China', "'s", 'Sunway', 'TaihuLight', '.', 'With', 'a', 'peak', 'performance', 'of', '200,000', 'trillion', 'calculations', 'per', 'second', ',', 'it', 'is', 'over', 'twice', 'as', 'fast', 'as', 'Sunway', 'TaihuLight', ',', 'which', 'is', 'capable', 'of', '93,000', 'trillion', 'calculations', 'per', 'second', '.', 'Summit', 'has', '4,608', 'servers', ',', 'which', 'reportedly', 'take', 'up', 'the', 'size', 'of', 'two', 'tennis', 'courts', '.']


## 3. spaCyを使ってみる

* spaCyも、Pythonの有名な自然言語処理ライブラリ。2015年スタートらしい。

* https://spacy.io/

### Tokenization

In [9]:
import spacy
nlp = spacy.load('en')

In [10]:
text_spacy = nlp(sample_text)

In [11]:
[obj.text for obj in text_spacy.sents]

["US unveils world's most powerful supercomputer, beats China.",
 "The US has unveiled the world's most powerful supercomputer called 'Summit', beating the previous record-holder China's Sunway TaihuLight.",
 'With a peak performance of 200,000 trillion calculations per second, it is over twice as fast as Sunway TaihuLight, which is capable of 93,000 trillion calculations per second.',
 'Summit has 4,608 servers, which reportedly take up the size of two tennis courts.']

* 問： 下のword tokenizationは、先ほどのword tokenizationとどう違うか？

In [12]:
print([obj.text for obj in text_spacy])

['US', 'unveils', 'world', "'s", 'most', 'powerful', 'supercomputer', ',', 'beats', 'China', '.', 'The', 'US', 'has', 'unveiled', 'the', 'world', "'s", 'most', 'powerful', 'supercomputer', 'called', "'", 'Summit', "'", ',', 'beating', 'the', 'previous', 'record', '-', 'holder', 'China', "'s", 'Sunway', 'TaihuLight', '.', 'With', 'a', 'peak', 'performance', 'of', '200,000', 'trillion', 'calculations', 'per', 'second', ',', 'it', 'is', 'over', 'twice', 'as', 'fast', 'as', 'Sunway', 'TaihuLight', ',', 'which', 'is', 'capable', 'of', '93,000', 'trillion', 'calculations', 'per', 'second', '.', 'Summit', 'has', '4,608', 'servers', ',', 'which', 'reportedly', 'take', 'up', 'the', 'size', 'of', 'two', 'tennis', 'courts', '.']


## 4. HTML文書の前処理

* __`<p>`__や__`<a>`__や__`<div>`__など、頻繁に使うHTMLタグは頭に入れておいてください。

* なぜなら、ある程度HTMLタグが読めてはじめて、スクレイピングのコードを書くための、HTMLソースの下調べができるからです。
 * 自前でWeb上から分析対象のテキストデータを取得するときは、ダウンロードしようとするWebページのHTMLの構造を自分の目で確認する。

* 問：誰かによって整備されたデータセットではなく、自前でHTML文書をスクレイピングすることのメリットとデメリットは何か？

### HTML文書のダウンロード
* いくつか方法はあるが、ここではrequestsモジュールを使う。

In [13]:
import requests

data = requests.get('http://www.gutenberg.org/cache/epub/8001/pg8001.html')
content = data.text
print(content[2745:3948])

%;			/* adjust to ape original work */
		margin-top: 1em;	/* space above &amp; below */
		margin-bottom: 1em;
		margin-left: auto;  /* these two ensure a.. */
		margin-right: auto; /* ..centered rule */
		clear: both;		/* don't let sidebars &amp; floats overlap rule */
	}
/* ************************************************************************
 * Images and captions
 * ********************************************************************** */
	img { /* the default inline image has */
		border: 1px solid black; /* a thin black line border.. */
		padding: 6px; /* ..spaced a bit out from the graphic */
		} </style>
<link rel="schema.dc" href="http://purl.org/dc/elements/1.1/">
<link rel="schema.dcterms" href="http://purl.org/dc/terms/">
<meta name="dc.title" content="The Bible, King James version, Book 1: Genesis">
<meta name="dc.language" content="en">
<meta name="dcterms.source" content="https://www.gutenberg.org/files/8001/8001.txt">
<meta name="dcterms.modified" c

### Beautiful Soupの利用

* HTML文書の構造を解析するためによく使われるライブラリ。

* 参考資料：「Beautiful Soup 4によるスクレイピングの基礎」

 * https://www.atmarkit.co.jp/ait/articles/1910/18/news015.html

In [14]:
import re
from bs4 import BeautifulSoup

def strip_html_tags(text):
    soup = BeautifulSoup(text, "html.parser")
    stripped_text = soup.get_text()
    # 下の正規表現の意味を説明してみよう。
    stripped_text = re.sub(r'[\r|\n|\r\n]+', '\n', stripped_text)
    return stripped_text

clean_content = strip_html_tags(content)
print(clean_content[1163:1957])

llowing heads  */
	h2+p, h3+p, h4+p { text-indent: 0; }
	/* tighter spacing for list item paragraphs */
	dd, li {
		margin-top: 0.25em; margin-bottom:0;
		line-height: 1.2em; /* a bit closer than p's */
	}
/* ************************************************************************
 * Head 2 is for chapter heads. 
 * ********************************************************************** */
	h2 {
		/* text-align:center;  left-aligned by default. */
		margin-top:3em;		/* extra space above.. */
		margin-bottom: 2em;	/* ..and below */
		clear: both;		/* don't let sidebars overlap */
	}
/* ************************************************************************
 * Head 3 is for main-topic heads.
 * ********************************************************************** */
	h3 {
			/* text-a


## 演習1
* clean_contentを単語に分割し、各単語の出現頻度を求め、出現頻度の高い順に上位100の単語を、出現頻度とともに表示しよう。
* clean_contentの内容をすべて小文字に変換した後で同じことをしてみよう。

In [15]:
# 演習1-1の答案




## 5. 様々な前処理

### アクセント記号の除去

* unicodedataというライブラリを使う。

 * https://docs.python.org/3/library/unicodedata.html

* 'NFKD'は何を意味するか？ （Wikipedia「Unicode正規化」）

 * https://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96

* PythonにおけるUnicode HOWTO

 * https://docs.python.org/ja/3/howto/unicode.html

* テキストデータの前処理においてアクセント記号を除去することのメリットとデメリットは何か？

In [16]:
import unicodedata

def remove_accented_chars(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    return text

In [17]:
s = ("Le bon sens est la chose du monde la mieux partagée; car chacun pense "
  "en être si bien pourvu, que ceux même qui sont les plus difficiles à "
  "contenter en toute autre chose n'ont point coutume d'en désirer plus "
  "qu'ils en ont.")
s

"Le bon sens est la chose du monde la mieux partagée; car chacun pense en être si bien pourvu, que ceux même qui sont les plus difficiles à contenter en toute autre chose n'ont point coutume d'en désirer plus qu'ils en ont."

In [18]:
remove_accented_chars(s)

"Le bon sens est la chose du monde la mieux partagee; car chacun pense en etre si bien pourvu, que ceux meme qui sont les plus difficiles a contenter en toute autre chose n'ont point coutume d'en desirer plus qu'ils en ont."

### 特殊文字、数字、記号の除去

* reモジュールを使う。reはregular expression(正規表現)のこと。

* 問：テキストデータの前処理において特殊文字、数字、記号などを除去することのメリットとデメリットは何か？

* 問：下のセルで使われている２つの正規表現はそれぞれどういう意味か？

In [19]:
import re

def remove_special_characters(text, remove_digits=False):
    pattern = r'[^a-zA-Z0-9\s]' if not remove_digits else r'[^a-zA-Z\s]'
    text = re.sub(pattern, '', text)
    return text


In [20]:
s = "Well this was fun! See you at 7:30, What do you think!!? #$@@9318@ 🙂🙂🙂"
s

'Well this was fun! See you at 7:30, What do you think!!? #$@@9318@ 🙂🙂🙂'

In [21]:
remove_special_characters(s, remove_digits=True)

'Well this was fun See you at  What do you think  '

In [22]:
remove_special_characters(s)

'Well this was fun See you at 730 What do you think 9318 '

### Contraction

* 英語には様々な省略表現がある。これを元に戻す。

In [23]:
!pip install contractions
!pip install textsearch

Collecting contractions
  Downloading contractions-0.0.52-py2.py3-none-any.whl (7.2 kB)
Collecting textsearch>=0.0.21
  Downloading textsearch-0.0.21-py2.py3-none-any.whl (7.5 kB)
Collecting anyascii
  Downloading anyascii-0.3.0-py3-none-any.whl (284 kB)
[K     |████████████████████████████████| 284 kB 5.4 MB/s 
[?25hCollecting pyahocorasick
  Downloading pyahocorasick-1.4.2.tar.gz (321 kB)
[K     |████████████████████████████████| 321 kB 43.7 MB/s 
[?25hBuilding wheels for collected packages: pyahocorasick
  Building wheel for pyahocorasick (setup.py) ... [?25l[?25hdone
  Created wheel for pyahocorasick: filename=pyahocorasick-1.4.2-cp37-cp37m-linux_x86_64.whl size=85439 sha256=081b1551033d689682372967ef7f92ed424a93735659ab10adc00f77a62b3e61
  Stored in directory: /root/.cache/pip/wheels/25/19/a6/8f363d9939162782bb8439d886469756271abc01f76fbd790f
Successfully built pyahocorasick
Installing collected packages: pyahocorasick, anyascii, textsearch, contractions
Successfully install

In [24]:
s = "Y'all can't expand contractions I'd think! You wouldn't be able to. How'd you do it?"
s

"Y'all can't expand contractions I'd think! You wouldn't be able to. How'd you do it?"

In [25]:
import contractions

contractions_list = list(contractions.contractions_dict.items())
print(len(contractions_list))

329


In [26]:
print(contractions_list)

[("I'm", 'I am'), ("I'm'a", 'I am about to'), ("I'm'o", 'I am going to'), ("I've", 'I have'), ("I'll", 'I will'), ("I'll've", 'I will have'), ("I'd", 'I would'), ("I'd've", 'I would have'), ('Whatcha', 'What are you'), ("amn't", 'am not'), ("ain't", 'are not'), ("aren't", 'are not'), ("'cause", 'because'), ("can't", 'cannot'), ("can't've", 'cannot have'), ("could've", 'could have'), ("couldn't", 'could not'), ("couldn't've", 'could not have'), ("daren't", 'dare not'), ("daresn't", 'dare not'), ("dasn't", 'dare not'), ("didn't", 'did not'), ('didn’t', 'did not'), ("don't", 'do not'), ('don’t', 'do not'), ("doesn't", 'does not'), ("e'er", 'ever'), ("everyone's", 'everyone is'), ('finna', 'fixing to'), ('gimme', 'give me'), ("gon't", 'go not'), ('gonna', 'going to'), ('gotta', 'got to'), ("hadn't", 'had not'), ("hadn't've", 'had not have'), ("hasn't", 'has not'), ("haven't", 'have not'), ("he've", 'he have'), ("he's", 'he is'), ("he'll", 'he will'), ("he'll've", 'he will have'), ("he'd", 

In [27]:
contractions.fix(s)

'you all cannot expand contractions I would think! You would not be able to. how did you do it?'

In [28]:
s = "It's pool-season from this week, isn't it? Oh yes. I've gotta go and buy a swimming suit, then."
contractions.fix(s)

'it is pool-season from this week, is not it? Oh yes. I have got to go and buy a swimming suit, then.'

### NLTKでstemming

* 語尾が変化する単語の、その変化を無くして、語幹を得る。
* 得られる語幹は、英単語として通用しない文字列になることが多い。
* Stemming and Lemmatization in Python
 * https://www.datacamp.com/community/tutorials/stemming-lemmatization-python


* 問：テキストデータの前処理としてstemmingをすることのメリットとデメリットは何か？
* 問：様々な種類のstemmerがあるのはなぜか？

* Porter Stemmerを使ってみる （stemmerと言えばこれ、というぐらい良く知られている。）

In [29]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()

ps.stem('jumping'), ps.stem('jumps'), ps.stem('jumped')

('jump', 'jump', 'jump')

In [30]:
ps.stem('lying')

'lie'

In [31]:
ps.stem('strange')

'strang'

### NLTKでlemmatization（不完全版）

* 語形が変わる単語を原型に戻す。
* 原型は、英語の単語として通用する。

* 問：テキストデータの前処理としてlemmatizationをすることのメリットとデメリットは何か？

* WordNetを辞書として使うlemmatizer

In [32]:
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()

In [33]:
help(wnl.lemmatize)

Help on method lemmatize in module nltk.stem.wordnet:

lemmatize(word, pos='n') method of nltk.stem.wordnet.WordNetLemmatizer instance



* 名詞のlemmatization

In [34]:
print(wnl.lemmatize('cars', 'n'))
print(wnl.lemmatize('boxes', 'n'))

car
box


* 動詞のlemmatization

In [35]:
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))

run
eat


* 形容詞のlemmatization

In [36]:
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

sad
fancy


* 指定した品詞が間違っていると、うまくいかない。
 * 品詞を取得する方法は、すぐ後で解説する。

In [37]:
print(wnl.lemmatize('ate', 'n'))
print(wnl.lemmatize('fancier', 'v'))
print(wnl.lemmatize('fancier'))

ate
fancier
fancier


### NLTKによるtokenizationとlemmatizationの組み合わせ

In [38]:
s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'

tokens = nltk.word_tokenize(s)
print(tokens)

['The', 'brown', 'foxes', 'are', 'quick', 'and', 'they', 'are', 'jumping', 'over', 'the', 'sleeping', 'lazy', 'dogs', '!']


* ここでのlemmatizationは、品詞情報を使っていないので、不完全。下でこれを改良する。

In [39]:
lemmatized_text = ' '.join(wnl.lemmatize(token) for token in tokens)
lemmatized_text

'The brown fox are quick and they are jumping over the sleeping lazy dog !'

### POS Tagging

* 問：品詞の情報が必要になるのはどういうときか？

In [40]:
tagged_tokens = nltk.pos_tag(tokens)
print(tagged_tokens)

[('The', 'DT'), ('brown', 'JJ'), ('foxes', 'NNS'), ('are', 'VBP'), ('quick', 'JJ'), ('and', 'CC'), ('they', 'PRP'), ('are', 'VBP'), ('jumping', 'VBG'), ('over', 'IN'), ('the', 'DT'), ('sleeping', 'VBG'), ('lazy', 'JJ'), ('dogs', 'NNS'), ('!', '.')]


* NLTKが与えるPOSタグをWordNetのPOSタグに変換

In [41]:
from nltk.corpus import wordnet

def pos_tag_wordnet(tagged_tokens):
    tag_map = {'j': wordnet.ADJ, 'v': wordnet.VERB, 'n': wordnet.NOUN, 'r': wordnet.ADV}
    new_tagged_tokens = [(word, tag_map.get(tag[0].lower(), wordnet.NOUN))
                            for word, tag in tagged_tokens]
    return new_tagged_tokens

In [42]:
wordnet_tokens = pos_tag_wordnet(tagged_tokens)
print(wordnet_tokens)

[('The', 'n'), ('brown', 'a'), ('foxes', 'n'), ('are', 'v'), ('quick', 'a'), ('and', 'n'), ('they', 'n'), ('are', 'v'), ('jumping', 'v'), ('over', 'n'), ('the', 'n'), ('sleeping', 'v'), ('lazy', 'a'), ('dogs', 'n'), ('!', 'n')]


### NLTKでlemmatization（完全版）

In [43]:
lemmatized_text = ' '.join(wnl.lemmatize(word, tag) for word, tag in wordnet_tokens)
lemmatized_text

'The brown fox be quick and they be jump over the sleep lazy dog !'

## 演習2

* 上の3つのセルでおこなった処理をまとめて一つの関数として定義しよう。
 - 関数 __`wordnet_lemmatize_text()`__ を定義する。
 - 入力は変数 __`text`__ とし、これは文字列とする。
 - この関数のなかで、さきほど定義した関数__`pos_tag_wordnet()`__を使う。
 - そして、lemmatizeされたテキストを文字列型の出力として返すようにする。

In [44]:
# 演習1-2の答案
# def wordnet_lemmatize_text(text):
#   ..........



#s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'
#wordnet_lemmatize_text(s)

### spaCyでlemmatization

* 上のように、別途品詞を調べる必要はない。

In [45]:
import spacy

nlp = spacy.load('en', parse=False, tag=False, entity=False)

def spacy_lemmatize_text(text):
    text = nlp(text)
    text = ' '.join([word.lemma_ if word.lemma_ != '-PRON-' else word.text for word in text])
    return text

In [46]:
s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'
s

'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'

In [47]:
spacy_lemmatize_text(s)

'the brown fox be quick and they be jump over the sleep lazy dog !'

## 6. ストップワード

* ストップワードとは、言語データを分析するにあたって、非常に頻繁に使われるため内容の分析にあまり役に立たない単語のことを言う。

* これこそが英語のストップワードだ！と言えるような決定的なストップワードのリストがあるわけではない。

 * 主要なNLPライブラリでは、あらかじめ用意されたストップワードのリストを使うことができる。

 * しかし、分析したいテキストデータに合わせて、ストップワードのリストをカスタマイズすることも、よくある。

In [48]:
from spacy.lang.en.stop_words import STOP_WORDS

print(STOP_WORDS)
print(len(STOP_WORDS))

{'own', 'the', '‘s', 'below', 'namely', 'mine', 'something', 'both', 'they', 'might', 'upon', 'through', 'even', 'latter', 'as', 'least', 'of', 'within', 'else', "'m", 'whence', 'whole', 'forty', 'how', 'eight', 'beforehand', 'became', 'two', 'thence', 'sixty', 'n‘t', 'side', 'regarding', 'before', 'onto', 'again', 'anywhere', 'each', 'see', 'what', 'back', 'many', 'can', 'everything', 'be', 'behind', 'somehow', 'nor', 'seemed', 'next', 'really', 'either', 'once', 'at', 'towards', 'ourselves', 'is', 'someone', '’d', 'for', 'latterly', 'along', 'hers', 'so', 'more', 'thereupon', 'have', 'nobody', 'into', 'rather', 'besides', 'she', 'some', 'elsewhere', 'six', 'thereby', '‘ve', 'had', 'itself', 'well', 'whom', 'whereafter', 'often', 'our', 'herself', 'a', 'however', 'further', 'are', 'that', 'an', 'alone', "n't", 'most', 'anyone', 'last', 'fifty', 'various', 'though', 'but', 'themselves', 'via', 'its', 'among', 'off', 'my', 'three', 'you', 'me', 'almost', 'being', 'here', 'between', 'has

In [49]:
import spacy

nlp = spacy.load('en')

def remove_stopwords(text, stopwords=None):
    if not stopwords:
        stopwords = spacy.lang.en.stop_words.STOP_WORDS
    tokens = [obj.text for obj in nlp(text)]
    filtered_tokens = [token for token in tokens if token not in stopwords]
    filtered_text = ' '.join(filtered_tokens)    
    return filtered_text

In [50]:
s = 'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'
s

'The brown foxes are quick and they are jumping over the sleeping lazy dogs!'

In [51]:
remove_stopwords(s)

'The brown foxes quick jumping sleeping lazy dogs !'

## 7. 様々なSegmentation
* 図表は下記のブログ記事より。
 * https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html

![Segmentation.png](https://raw.githubusercontent.com/tomonari-masada/course-nlp2020/master/Segmentation.png)
![inherent_task_complexity.png](https://raw.githubusercontent.com/tomonari-masada/course-nlp2020/master/inherent_task_complexity.png)

# 課題2

* Wikipediaの適当な英語のエントリをダウンロードする。

 * 選ぶのが面倒という方はAIのエントリでもどうぞ。
   * https://en.wikipedia.org/wiki/Artificial_intelligence

* BeautifulSoupで本文のテキストだけを取得する。

 * HTMLのソースを見て、どこが本文かを確認する。
 * あるいは、ネット検索をして、Wikipediaのエントリから本文だけを取得する方法を調べる。

* 以下の前処理をする。

 * 大文字は小文字にする。ただし固有名詞を除く。

 * ストップワードを除去する。

 * lemmatizationする。

* 各単語の出現回数を求め、表示する。

* lemmatizationした後の単語を、元の出現順序どおりに、半角スペースで区切ってつなぎ、長い一つの文字列にする。
 * joinメソッドを使えばよい。つまり、__`' '.join(`__ lemmatizeされた単語のリスト __`)`__ という感じ。