# 課題2

* Wikipediaの適当な英語のエントリをダウンロードする。

 * 選ぶのが面倒という方はAIのエントリでもどうぞ。
   * https://en.wikipedia.org/wiki/Artificial_intelligence

* Beautiful Soupで本文のテキストだけを取得する。

 * HTMLのソースを見て、どこが本文かを確認する。
 * あるいは、ネット検索をして、Wikipediaのエントリから本文だけを取得する方法を調べる。

* 以下の前処理をする。

 * 大文字は小文字にする。

 * ストップワードを除去する。

 * lemmatizeする。

* 各単語の出現回数を求め、表示する。

In [19]:
import re
import requests
import spacy
from bs4 import BeautifulSoup
from spacy.lang.en.stop_words import STOP_WORDS
from collections import Counter

### Wikipediaの適当な英語のエントリをダウンロードする

In [20]:
data = requests.get('https://en.wikipedia.org/wiki/Artificial_intelligence')
content = data.text

### Beautiful Soupで本文のテキストだけを取得する

In [21]:
def strip_html_tags(text):
    # bodyContent部分を取得
    soup = BeautifulSoup(text, "html.parser").find(id="bodyContent")
    stripped_text = soup.get_text()
    # 改行文字
    # 第一引数に正規表現パターン、第二引数に置換先文字列、第三引数に処理対象の文字列を指定する。
    stripped_text = re.sub(r'[\r|\n|\r\n]+', '\n', stripped_text)
    return stripped_text

clean_content = strip_html_tags(content)

In [22]:
print(clean_content[:300])


From Wikipedia, the free encyclopedia
Jump to navigation
Jump to search
Intelligence demonstrated by machines
.mw-parser-output .hatnote{font-style:italic}.mw-parser-output div.hatnote{padding-left:1.6em;margin-bottom:0.5em}.mw-parser-output .hatnote i{font-style:normal}.mw-parser-output .hatnote+l


### 前処理をする

In [23]:
# 大文字は小文字にする
clean_content_lower = clean_content.lower()
print(clean_content_lower[:300])


from wikipedia, the free encyclopedia
jump to navigation
jump to search
intelligence demonstrated by machines
.mw-parser-output .hatnote{font-style:italic}.mw-parser-output div.hatnote{padding-left:1.6em;margin-bottom:0.5em}.mw-parser-output .hatnote i{font-style:normal}.mw-parser-output .hatnote+l


In [24]:
# ストップワードを除去する
nlp = spacy.load("en_core_web_sm")
def remove_stopwords(text, stopwords=None):
  if not stopwords:
    stopwords = spacy.lang.en.stop_words.STOP_WORDS
  # 文字列として単語を取り出す
  tokens = [obj.text for obj in nlp(text)]
  filtered_tokens = [token for token in tokens if token not in stopwords]
  filtered_text = ' '.join(filtered_tokens)    
  return filtered_text

clean_content_stopword = remove_stopwords(clean_content_lower)
print(clean_content_stopword[:300])


 wikipedia , free encyclopedia 
 jump navigation 
 jump search 
 intelligence demonstrated machines 
 .mw - parser - output .hatnote{font - style : italic}.mw - parser - output div.hatnote{padding - left:1.6em;margin - bottom:0.5em}.mw - parser - output .hatnote i{font - style : normal}.mw - parser


In [25]:
# lemmatizeする
def spacy_lemmatize_text(text):
  text = nlp(text)
  #.lemma_は，単語の原形です
  text = ' '.join([word.lemma_ if word.lemma_ != '-PRON-' else word.text for word in text])
  return text

clean_content_lemmatize = spacy_lemmatize_text(clean_content_stopword)
print(clean_content_lemmatize[:300])


  wikipedia , free encyclopedia 
  jump navigation 
  jump search 
  intelligence demonstrate machine 
  .mw - parser - output .hatnote{font - style : italic}.mw - parser - output div.hatnote{padde - left:1.6em;margin - bottom:0.5em}.mw - parser - output .hatnote i{font - style : normal}.mw - parse


### 各単語の出現回数を求め、表示する

In [26]:
text_spacy = nlp(clean_content_lemmatize)
tokens = [obj.text for obj in text_spacy]

In [27]:
Counter(tokens).most_common(100)

[('\n  ', 2421),
 ('.', 1929),
 (',', 1782),
 ('-', 1132),
 ('(', 972),
 (')', 901),
 ('"', 701),
 ('\xa0  ', 474),
 (':', 456),
 (']', 361),
 ('^', 312),
 ('ai', 281),
 ('intelligence', 251),
 ('artificial', 224),
 ('&', 221),
 ('pp', 212),
 (';', 187),
 ('output', 167),
 ('parser', 163),
 ('retrieve', 133),
 ('machine', 117),
 ('russell', 117),
 ('norvig', 110),
 ('original', 99),
 ('archive', 95),
 ('2003', 94),
 ('p.', 85),
 ('human', 83),
 ('/', 82),
 ('2015', 73),
 ('system', 70),
 ('2019', 69),
 ('network', 68),
 ('1998', 68),
 ('computer', 66),
 ('learning', 65),
 ('problem', 65),
 ('2022', 63),
 ('2016', 60),
 ('2004', 60),
 ('science', 59),
 ('2018', 57),
 ('research', 56),
 ('2020', 56),
 ('1', 55),
 ('):', 53),
 ('learn', 51),
 ('knowledge', 51),
 ('isbn', 51),
 ('use', 49),
 ('october', 48),
 ('search', 47),
 ('article', 44),
 ('new', 42),
 ('algorithm', 42),
 ('978', 42),
 ('approach', 41),
 ('neural', 41),
 ('[', 40),
 ('logic', 40),
 ('3', 40),
 ('robot', 40),
 ('theory