In [18]:
# 下記の各問に解答しなさい
# インポート
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn
from IPython.display import display
from sklearn.datasets import load_files
%matplotlib inline

# 映画レビューのテキストファイル集合を読み込む
reviews = load_files("/root/userspace/webeng20170607/data/IMDb/")
review_text, review_label = reviews.data, reviews.target

#----------------------------------------------------------------
# Q1 : 辞書構築し中身を確認する
#----------------------------------------------------------------
#  映画レビューデータセットの文書集合について、少なくとも3つ以上の文書に出現する単語を用いて辞書を構築する。
#  辞書構築の際は、英語のストップワードリストを用いる。

from sklearn.feature_extraction.text import CountVectorizer
# 処理を記入

review_vect = CountVectorizer(min_df=3, stop_words="english").fit(review_text)
review_bow = review_vect.transform(review_text)
print("bag_of_words with df as 3 and stop words: {}".format(repr(review_bow)))
# Q1- Answer : 辞書の中身を確認 
review_features = review_vect.get_feature_names()
print("First 30 features:\n{}\n".format(review_features[:30]))
print("Features 1000 to 1030:\n{}\n".format(review_features[1000:1030]))
print("Features 2000 to 2030:\n{}\n".format(review_features[2000:2030]))


#----------------------------------------------------------------
# Q2 : tfidfベクトルの作成 し -> tf-idf BoW表現を構築 
#----------------------------------------------------------------
#  文書の長さがベクトル表現に影響しないようにするため、tfidfをL2正則化により、それぞれ文書表現の長さが1になるようにする。
#  正則化は、TfidfVectorizerの"norm"パラメータに指定します。L2正則化の場合、パラメータ値は"l2"となります。
#  テキストのBoW表現を構築（SciPyの疎行列として格納） TfidfTransformerでCountVectorizerの疎行列を変換してもよい。

from sklearn.feature_extraction.text import TfidfVectorizer
# 処理を記入
review_vect_tfidf =  TfidfVectorizer(min_df=3, stop_words="english", norm="l2").fit(review_text)
review_bow_tfidf = review_vect_tfidf.transform(review_text)

print("tf-idf bag_of_words with df as 3 and stop words: {}\n".format(repr(review_bow_tfidf)))
# Q2 - Answer: テキストのtf-idf BoW表現を出力


#----------------------------------------------------------------
# Q3 : tfidfベクトルを用いて、tfidfの高い語、tfidfの低い語、idfの低い語 各10件確認する
#----------------------------------------------------------------
# 処理を記入

max_value = review_bow_tfidf .max(axis=0).toarray().ravel()
sorted_by_tfidf = max_value.argsort()

feature_names = np.array(review_vect_tfidf.get_feature_names())
# Q3- Answer1: tfidfの低い語を確認
print("Features with lowest tfidf:")
print("\n{}\n".format(feature_names[sorted_by_tfidf[:10]]))

# Q3- Answer2: tfidfの高い語を確認
print("Features with highest tfidf:")
print("\n{}\n".format(feature_names[sorted_by_tfidf[-10:]]))

# Q3- Answer3: idfの低い（dfの高い）語を確認
print("Features with lowest idf:")
sorted_by_idf = np.argsort(review_vect_tfidf.idf_)
print("\n{}\n".format(feature_names[sorted_by_idf[:10]]))
#----------------------------------------------------------------


# Q4 バイグラム(2-gram)を用いて、上記と同じ条件で各文書のtfidfベクトルを、各10件確認する
# ----------------------------------------------------------------
# ユニグラムではなくバイグラム(2-gram)を用いて、上記と同じ条件で各文書のtfidfベクトルを作成する。

# 処理を記入

#ngram_rangeパラメータでトークン列の長さの最小と最大を指定。この場合はバイグラムになる。
review_vect_tfidf =  TfidfVectorizer(min_df=3, stop_words="english",ngram_range=(2,2), norm="l2").fit(review_text)
review_bow_tfidf = review_vect_tfidf.transform(review_text)

print("tf-idf bag_of_words with df as 3 and stop words: {}\n".format(repr(review_bow_tfidf)))

# tfidfの最大値を見つける
max_value = review_bow_tfidf .max(axis=0).toarray().ravel()
sorted_by_tfidf = max_value.argsort()

feature_names = np.array(review_vect_tfidf.get_feature_names())

# Q4- Answer1: tfidfの低い語を確認
print("2-gram : Features with lowest tfidf:")
print("\n{}\n".format(feature_names[sorted_by_tfidf[:10]]))

# Q4- Answer2: tfidfの高い語を確認
print("2-gram : Features with highest tfidf:")
print("\n{}\n".format(feature_names[sorted_by_tfidf[-10:]]))

# Q4- Answer3: idfの低い（dfの高い）語を確認
print("2-gram : Features with lowest idf:")
sorted_by_idf = np.argsort(review_vect_tfidf.idf_)
print("\n{}\n".format(feature_names[sorted_by_idf[:10]]))



# Q5: cosine類似度に基づいて、5番目のレビューに最も類似した上位5文書の内容と類似度を表示するプログラムを作成
# ----------------------------------------------------------------
# 上記の条件で作成したユニグラムのtfidfベクトルを用いる。
# cosine類似度に基づいて任意の文書に最も類似した上位5文書の内容と類似度を表示するプログラムを作成する。

from sklearn.metrics.pairwise import cosine_similarity

# 処理を記入
vect_tfidf =  TfidfVectorizer(min_df=3, stop_words="english").fit(review_text)
bow_tfidf = vect_tfidf.transform(review_text)

cos_sim = cosine_similarity(bow_tfidf[4:5], bow_tfidf).flatten()

# Q5 - Answer: ５番目のレビュー と 最も類似しているtop5のレビューの 文章と類似度を出力
# for 文で出力
top5_sim_docs = cos_sim.argsort()[:-6:-1]
print("The content of text in nth :")
print("\n{}\n".format(top5_sim_docs))
print("cosine similarities :")
print("\n{}\n".format(cos_sim[top5_sim_docs]))


# Q6: トピックモデルのトピック数を変えて実行し、抽出される違いを確認する。 
# ----------------------------------------------------------------
# トピック数 20個の場合と 10個の場合で比較

from sklearn.decomposition import LatentDirichletAllocation

# 処理を記入
vect = CountVectorizer(min_df=3, stop_words="english").fit(review_text)
bow = vect.transform(review_text)


# Q6 -Answer1 : トピック数を20としたLDAの実行
lda = LatentDirichletAllocation(n_topics=20, learning_method="batch",max_iter=25, random_state=0)
doc_topics = lda.fit_transform(bow)
print("topics, words: {}\n".format(lda.components_.shape))

sorting = np.argsort(lda.components_, axis=1)[:, ::-1]
#辞書語を取得
feature_names = np.array(vect.get_feature_names())
mglearn.tools.print_topics(topics=range(20), feature_names=feature_names,
                           sorting=sorting, topics_per_chunk=5, n_words=10)

# Q6 -Answer2 : トピック数を10としたLDAの実行
lda = LatentDirichletAllocation(n_topics=10, learning_method="batch",max_iter=25, random_state=0)
doc_topics = lda.fit_transform(bow)
print("topics, words: {}\n".format(lda.components_.shape))
sorting = np.argsort(lda.components_, axis=1)[:, ::-1]
#辞書語を取得
feature_names = np.array(vect.get_feature_names())
mglearn.tools.print_topics(topics=range(10), feature_names=feature_names,
                           sorting=sorting, topics_per_chunk=5, n_words=10)


# Q7.  日本語形態素解析を行う
# ----------------------------------------------------------------
# Q7-1 : 入力文データを変えてMecabを実行し、形態素解析の結果を確認する
# Q7-2 : スクレピングで取得したyahoo Newsの記事から、名詞を抽出して出力するプログラムを作成する

import MeCab

#MeCabによる形態素解析
class jp_pos_tagger:

    def __init__(self, dictionary="mecabrc"):
        self.dictionary = dictionary
        self.tagger = MeCab.Tagger(self.dictionary)
    
    def mecab_tagger_noun(self, text):
        if not text:
            return []
        words = []
        node = self.tagger.parseToNode(text)
        while node:
            features = node.feature.split(',')
            #名詞のみ抽出
            if features[0] in ["名詞"]:
                if features[6] == "*":
                    words.append(node.surface)
                else:                    
                    words.append(features[6])
            node = node.next
        return words
    
# Q7- Answer1 :入力文データを変えてMecabを実行し、形態素解析の結果を確認する
# 処理を記入

jp_text_data = [
    '人工知能とは、コンピュータを使って、学習・推論・判断など人間の知能のはたらきを人工的に実現したもの',
    'ウェブとは、インターネット上で提供されるハイパーテキストシステム',
    '機械学習とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のこと'
]
pos = jp_pos_tagger()
pos_vect = CountVectorizer(analyzer=pos.mecab_tagger)
pos_vect.fit(jp_text_data)
print("Vocabulary size: {}".format(len(pos_vect.vocabulary_)))
print("Vocabulary content:\n {}\n".format(pos_vect.vocabulary_)) 
    
# Q7- Answer2 : スクレピングで取得したyahoo Newsの記事から、名詞を抽出して出力するプログラムを作成する
from bs4 import BeautifulSoup
import urllib.request as req
import re

url = "https://news.yahoo.co.jp/list"
# 処理を記入
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")
topics = soup.find_all(href=re.compile("^https://news.yahoo.co.jp/pickup"))
for topic in topics[:5]:
    res = req.urlopen(topic.attrs['href'])
    soup = BeautifulSoup(res, "html.parser")
    news = soup.select_one("p.hbody")
    print(news)
    print("\n")


print("article :")
print()
print("extracted nouns :")
print()

bag_of_words with df as 3 and stop words: <2000x8988 sparse matrix of type '<class 'numpy.int64'>'
	with 160439 stored elements in Compressed Sparse Row format>
First 30 features:
['00', '000', '00pm', '01', '06', '08', '10', '100', '10th', '11', '12', '13', '13th', '14', '15', '150', '16', '17', '18', '180', '19', '1920', '1920s', '1928', '1930', '1930s', '1931', '1933', '1936', '1937']

Features 1000 to 1030:
['br', 'brad', 'braga', 'brain', 'brainer', 'brainless', 'brains', 'brand', 'bravado', 'brave', 'bravery', 'bravo', 'brazil', 'bread', 'break', 'breakdance', 'breakdancing', 'breakdown', 'breakers', 'breakfast', 'breakin', 'breaking', 'breaks', 'breakup', 'breasts', 'breath', 'breathe', 'breathing', 'breathtaking', 'breezy']

Features 2000 to 2030:
['currie', 'curse', 'curtain', 'curtis', 'cusack', 'custer', 'customers', 'customs', 'cut', 'cute', 'cuteness', 'cuter', 'cutouts', 'cuts', 'cutting', 'cybill', 'cycle', 'cynical', 'cynicism', 'da', 'dad', 'daddy', 'dagger', 'daily', 

In [23]:
# Q7.  日本語形態素解析を行う
# ----------------------------------------------------------------
# Q7-1 : 入力文データを変えてMecabを実行し、形態素解析の結果を確認する
# Q7-2 : スクレピングで取得したyahoo Newsの記事から、名詞を抽出して出力するプログラムを作成する

import MeCab

#MeCabによる形態素解析
class jp_pos_tagger:

    def __init__(self, dictionary="mecabrc"):
        self.dictionary = dictionary
        self.tagger = MeCab.Tagger(self.dictionary)
    
    def mecab_tagger_noun(self, text):
        if not text:
            return []
        words = []
        node = self.tagger.parseToNode(text)
        while node:
            features = node.feature.split(',')
            #名詞のみ抽出
            if features[0] in ["名詞"]:
                if features[6] == "*":
                    words.append(node.surface)
                else:                    
                    words.append(features[6])
            node = node.next
        return words
    
# Q7- Answer1 :入力文データを変えてMecabを実行し、形態素解析の結果を確認する
# 処理を記入

jp_text_data = [
    '人工知能とは、コンピュータを使って、学習・推論・判断など人間の知能のはたらきを人工的に実現したもの',
    'ウェブとは、インターネット上で提供されるハイパーテキストシステム',
    '機械学習とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のこと'
]
pos = jp_pos_tagger()
pos_vect = CountVectorizer(analyzer=pos.mecab_tagger_noun)
pos_vect.fit(jp_text_data)
print("Vocabulary size: {}".format(len(pos_vect.vocabulary_)))
print("Vocabulary content:\n {}\n".format(pos_vect.vocabulary_)) 
    
# Q7- Answer2 : スクレピングで取得したyahoo Newsの記事から、名詞を抽出して出力するプログラムを作成する
from bs4 import BeautifulSoup
import urllib.request as req
import re

url = "https://news.yahoo.co.jp/list"
# 処理を記入
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")
topics = soup.find_all(href=re.compile("^https://news.yahoo.co.jp/pickup"))
texts = []
for topic in topics[:5]:
    res = req.urlopen(topic.attrs['href'])
    soup = BeautifulSoup(res, "html.parser")
    news = soup.select_one("p.hbody")
    texts.append(news.string)
    print(news)
    print("\n")

pos = jp_pos_tagger()
pos_vect = CountVectorizer(analyzer=pos.mecab_tagger_noun)
pos_vect.fit(texts)
print("article :")
print("\n{}\n".format(texts))
print("extracted nouns :")
print("\n{}\n".format(pos_vect.vocabulary_))

Vocabulary size: 24
Vocabulary content:
 {'学習': 12, '提供': 17, '判断': 10, 'インターネット': 3, 'ハイパーテキストシステム': 6, '能力': 22, '推論': 16, '人間': 9, 'コンピュータ': 5, 'ウェブ': 4, '機械': 18, 'はたらき': 1, '実現': 13, '上': 7, '知能': 21, '技術': 15, '機能': 19, '手法': 14, '的': 20, '人工': 8, '同様': 11, 'こと': 0, '自然': 23, 'もの': 2}

<p class="hbody">　サッカー・ロシアＷ杯アジア最終予選Ｂ組（１３日、イラク１－１日本、テヘラン）Ｂ組首位の日本は５位のイラクと対戦。ＦＷ大迫勇也（２７）＝ケルン＝のゴールで先制も、後半に同点とされドロー。けが人が続出する厳しい戦いとなったが敵地で貴重な勝ち点「１」を獲得。同組首位をキープし、Ｗ杯出場に王手をかけた。(サンケイスポーツ)</p>


<p class="hbody"></p>


<p class="hbody">　【北京時事】中国が2018年に打ち上げを予定している月面無人探査機「嫦娥4号」で、蚕やジャガイモなどの生育実験を計画している。(時事通信)</p>


<p class="hbody">　環境省は１３日、特定外来生物で強い毒を持つ南米原産の「ヒアリ」が、中国から神戸港に入港し尼崎市内に運ばれたコンテナの中で発見された、と発表した。国内での確認は初めて。(神戸新聞NEXT)</p>


<p class="hbody">　「検査」と称して女性の身体を触ったとして、強制わいせつ容疑などで埼玉県警に再逮捕された男が、成人向け漫画同人誌を読んで手口を真似したという趣旨の供述をしていることが13日、捜査関係者への取材で分かった。県警は被害の再発防止に向けて、漫画の作者に模倣した犯罪が起こらないよう配慮してほしいと要請した。県警によると、犯罪に模倣されたとして著作物の作者に申し入れをするのは異例。(埼玉新聞)</p>


article :

['\u3000サッカー・ロシアＷ杯アジア最終予選Ｂ組（１３日、イラク１－１日本、テヘラン）Ｂ組首位の日本は５位のイラク