In [1]:
import requests
from bs4 import BeautifulSoup
import re
import itertools
import pandas as pd, numpy as np
import janome
import jaconv
import string
import MeCab
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
import unicodedata
from gensim import corpora
from gensim import models
from pprint import pprint
import math

In [2]:
# MeCabの辞書にNEologdを指定。
# mecabは携帯素解析用、wakatiは分かち書き用
mecab = MeCab.Tagger('-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/')
wakati = MeCab.Tagger("-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/")

In [3]:
# 形態素解析を行う関数を定義
# ファイルを入力するとファイルを出力し、文字列を渡すと文字列を返します。引数fileで変更します。  
# 単に分かち書きしたいだけの場合は引数にmecab=wakatiとすると実現できます。
def MecabMorphologicalAnalysis(path='./text.txt', output_file='wakati.txt', mecab=mecab, file=False):
    mecab_text = ''
    if file:
        with open(path) as f:
            for line in f:
                mecab_text += mecab.parse(line)
        with open(output_file, 'w') as f:
            print(mecab_text, file=f)
    else:
        for path in path.split('\n'):
            mecab_text += mecab.parse(path)
        return mecab_text

    
# 記号文字は分析をするにあたって邪魔になるため、記号を取り除く関数を定義します。
# 下のYahooNews関数で使用します。
def symbol_removal(soup):
    soup = unicodedata.normalize("NFKC", soup)
    exclusion = "「」『』【】《》≪≫、。・◇◆" + "\n" + "\r" + "\u3000"
    soup = soup.translate(str.maketrans("", "", string.punctuation  + exclusion))
    return soup


# Yahooニュースをスクレイピングする関数です。
# 引数で指定した数の記事をとってきてデータフレームを返します。
def YahooNews(n=30):
    url = "https://news.yahoo.co.jp/topics/top-picks"
    URL = "https://news.yahoo.co.jp/"
    res = requests.get(url)
    soup = BeautifulSoup(res.text, "html.parser")
    all_page_links = []
    all_page_links.append(url)
    all_links = []
    while True:
        try:
            next = soup.find("li", class_="pagination_item-next").find("a")["href"]
            next_link = URL + next
            all_page_links.append(next_link)
            next_res = requests.get(next_link)
            soup = BeautifulSoup(next_res.text, "html.parser")
        except:
            break
            
    title_list = []
    category_list = []
    text_list = []
    for url in all_page_links: # all_page_links: 全てのニュースのリスト
            res = requests.get(url) # url: 25個分のニュースのリスト
            soup = BeautifulSoup(res.text, "html.parser")
            page_soup = soup.find_all("a", class_="newsFeed_item_link")
            for href in page_soup:
                link = href["href"] # link: 一つのニュースのリンク(本文は一部のみ)
                all_links.append(link)
    
    if len(all_links) <= n:
        n = len(all_links)
    
    i = 0
    for link in all_links:
        link_res = requests.get(link)
        href_soup = BeautifulSoup(link_res.text, "html.parser")
        try:
            title = href_soup.find("h1", class_=re.compile("^sc")).string
        except:
            continue
        title_link = href_soup.find("a", class_="sc-eAyhxF")["href"] # title_link: 本文
        res = requests.get(title_link)
        soup = BeautifulSoup(res.text, "html.parser")

        category = soup.find_all("li", class_="current")
        try:
            category = category[1].string
        except:
            continue
        else:
            for tag in soup.find_all(["a"]):
                tag.decompose()
            try:
                soup = soup.find("div", class_="article_body").get_text()
                soup = symbol_removal(soup)
                
                text_list.append(soup)
                title_list.append(title)
                category_list.append(category)
                i += 1 # 本文が正常に保存できたことをトリガーにしてカウントを一つ増やすことにします。
                pro_bar = ('=' * math.ceil(i / (n / 20))) + (' ' * int((n / (n / 20)) - math.ceil(i / (n / 20))))
                print('\r[{0}] {1}記事'.format(pro_bar, i), end='')
                if i >= n:
                    df = pd.DataFrame({'title': title_list, 'category': category_list, 'text': text_list})
                    return df
            except:
                continue
    df = pd.DataFrame({'title': title_list, 'category': category_list, 'text': text_list})
    return df

In [4]:
def sortedTFIDF(sentences):
    
    # 単語にIDを添付します。
    dictionary = corpora.Dictionary(sentences)
    
    # 作品ごとの単語の出現回数をカウント
    corpus = list(map(dictionary.doc2bow, sentences))
    
    # 単語ごとにTF-IDFを算出
    test_model = models.TfidfModel(corpus)
    corpus_tfidf = test_model[corpus]
    
    # ID:TF-IDF → TF-IDF:単語 に変換。TF-IDFを左に持ってくることで、sortedを用いてTF-IDFを基準にソートすることができます。
    texts_tfidf = []
    for doc in corpus_tfidf:
        text_tfidf = []
        for word in doc:
            text_tfidf.append([word[1], dictionary[word[0]]])
        texts_tfidf.append(text_tfidf)
    
    # TF-IDFを基準にソートを行います。
    sorted_texts_tfidf = []
    for text in texts_tfidf:
        sorted_text = sorted(text, reverse=True)
        sorted_texts_tfidf.append(sorted_text)

    return sorted_texts_tfidf

In [5]:
def YahooNews(n=30):
    url = "https://news.yahoo.co.jp/topics/top-picks"
    URL = "https://news.yahoo.co.jp/"
    res = requests.get(url)
    soup = BeautifulSoup(res.text, "html.parser")
    all_page_links = []
    all_page_links.append(url)
    all_links = []
    while True:
        try:
            next = soup.find("li", class_="pagination_item-next").find("a")["href"]
            next_link = URL + next
            all_page_links.append(next_link)
            next_res = requests.get(next_link)
            soup = BeautifulSoup(next_res.text, "html.parser")
        except:
            break
            
    title_list = []
    category_list = []
    text_list = []
    for url in all_page_links: # all_page_links: 全てのニュースのリスト
            res = requests.get(url) # url: 25個分のニュースのリスト
            soup = BeautifulSoup(res.text, "html.parser")
            page_soup = soup.find_all("a", class_="newsFeed_item_link")
            for href in page_soup:
                link = href["href"] # link: 一つのニュースのリンク(本文は一部のみ)
                all_links.append(link)
    
    if len(all_links) <= n:
        n = len(all_links)
    
    i = 0
    for link in all_links:
        link_res = requests.get(link)
        href_soup = BeautifulSoup(link_res.text, "html.parser")
        try:
            title = href_soup.find("h1", class_=re.compile("^sc")).string
        except:
            continue
        title_link = href_soup.find("a", class_="sc-eAyhxF")["href"] # title_link: 本文
        res = requests.get(title_link)
        soup = BeautifulSoup(res.text, "html.parser")

        category = soup.find_all("li", class_="current")
        try:
            category = category[1].string
        except:
            continue
        else:
            for tag in soup.find_all(["a"]):
                tag.decompose()
            try:
                soup = soup.find("div", class_="article_body").get_text()
                soup = symbol_removal(soup)
                
                text_list.append(soup)
                title_list.append(title)
                category_list.append(category)
                i += 1 # 本文が正常に保存できたことをトリガーにしてカウントを一つ増やすことにします。
                pro_bar = ('=' * math.ceil(i / (n / 20))) + (' ' * int((n / (n / 20)) - math.ceil(i / (n / 20))))
                print('\r[{0}] {1}記事'.format(pro_bar, i), end='')
                if i >= n:
                    df = pd.DataFrame({'title': title_list, 'category': category_list, 'text': text_list})
                    return df
            except:
                continue
    df = pd.DataFrame({'title': title_list, 'category': category_list, 'text': text_list})
    return df

In [7]:
df = YahooNews(1000)



In [8]:
df.shape

(470, 3)

In [9]:
df.head()

Unnamed: 0,title,category,text
0,第3波か 愛知県知事が危機感,地域,中京テレビNEWS 愛知県で新型コロナウイルスの感染者が再び急増していることを受け2日大村秀...
1,紀平梨花 トヨタ自動車に入社,スポーツ,フィギュアスケート女子の紀平梨花が11月1日付けでトヨタ自動車に入社したことが2日分かった...
2,否決で今後の大阪は 市民の声,地域,関西テレビ大阪市を廃止し4つの特別区に再編するいわゆる大阪都構想の住民投票は反対多数で否決さ...
3,ウィリアム王子4月に陽性判定,国際,イギリス王室のケンブリッジ公爵ウィリアム王子38が今年4月に新型コロナウイルスに感染していた...
4,鬼滅の刃 歴代興収が10位に,エンタメ,10月16日に公開されたアニメ映画劇場版鬼滅の刃無限列車編の最新の興行収入が2日発表された...


In [10]:
texts = []
for i in range(len(df)):
    texts.append(MecabMorphologicalAnalysis(df['text'][i], mecab=wakati))

In [11]:
# 分かち書きができたか確認します。5作品を表示。
for i, text in enumerate(texts):
    if i < 5:
        display(text[:100])

'中京テレビ NEWS 愛知県 で 新型コロナウイルス の 感染者 が 再び 急増 し て いる こと を 受け 2日 大村秀章 知事 は 明らか に ステージ は 変わっ た の で は と 受け止め'

'フィギュアスケート 女子 の 紀平梨花 が 11月1日 付け で トヨタ自動車 に 入社 し た こと が 2日 分かっ た 同社 が 発表 し た 紀平 は 今シーズン から トヨタ自動車 に お世'

'関西テレビ 大阪市 を 廃止 し 4つ の 特別区 に 再編 する いわゆる 大阪都構想 の 住民投票 は 反対 多数 で 否決 さ れ まし た 一夜 明け 市民 から は 今後 の 大阪 について'

'イギリス王室 の ケンブリッジ公爵 ウィリアム王子 38 が 今年4月 に 新型コロナウイルス に 感染 し て い た こと が 明らか に なっ た 王室 筋 が BBC に 語っ た 英 王室 '

'10月16日 に 公開 さ れ た アニメ映画 劇場版 鬼滅の刃 無限 列車 編 の 最新 の 興行収入 が 2日 発表 さ れ た 初日 から 17日間 1日 まで の 興行収入 が 興行収入 15'

In [12]:
# リストに変換
sentences = []
for text in texts:
    text_list = text.split(' ')
    sentences.append(text_list)

In [13]:
# まずdocumentsを作り、モデルに渡す。
documents1 = [TaggedDocument(doc, [i]) for i, doc in enumerate(sentences)]
model1 = Doc2Vec(documents1, vector_size=100, window=7, min_count=1)

In [14]:
# モデルに渡したdocumentsの中身は番号と本文が対応したリストです。ここでは参考のため、作者も表示しています。
for i, doc in enumerate(documents1):
    print(doc[1], df['title'][i], df['category'][i], doc[0][:8])

[0] 第3波か 愛知県知事が危機感 地域 ['中京テレビ', 'NEWS', '愛知県', 'で', '新型コロナウイルス', 'の', '感染者', 'が']
[1] 紀平梨花 トヨタ自動車に入社 スポーツ ['フィギュアスケート', '女子', 'の', '紀平梨花', 'が', '11月1日', '付け', 'で']
[2] 否決で今後の大阪は 市民の声 地域 ['関西テレビ', '大阪市', 'を', '廃止', 'し', '4つ', 'の', '特別区']
[3] ウィリアム王子4月に陽性判定 国際 ['イギリス王室', 'の', 'ケンブリッジ公爵', 'ウィリアム王子', '38', 'が', '今年4月', 'に']
[4] 鬼滅の刃 歴代興収が10位に エンタメ ['10月16日', 'に', '公開', 'さ', 'れ', 'た', 'アニメ映画', '劇場版']
[5] ニッチェ近藤が結婚を報告 エンタメ ['お笑いコンビ', 'ニッチェ', 'の', '近藤くみこ', '37', 'が', '2日', '所属事務所']
[6] 首相 学術会議は既得権益化 国内 ['衆院', '予算委員会', 'は', '2日', '午前', '菅義偉', '首相', 'と']
[7] 紅白司会 紅組は二階堂ふみ エンタメ ['NHK', 'は', '2日', '今年', 'の', '大晦日', 'に', '放送']
[8] 松井秀喜氏が愛した店閉店 スポーツ ['お世話', 'に', 'なっ', 'て', 'ばかり', 'で', '寂しい', 'です']
[9] ハンド宮崎大輔容疑者を逮捕 国内 ['FNN', 'プライムオンラインハンドボール', '元日本代表', 'の', '宮崎大輔', '選手', 'が', '2日']
[10] 困った 線路に小さな落とし物 国内 ['ワイヤレス', 'イヤホン', 'が', '線路', 'に', '落ち', 'た', 'ケース']
[11] 尚弥の超速パンチ 実は新兵器 スポーツ ['試合前', 'スパー', 'で', '見せ', 'た', '進化', '衝撃', 'の']
[12] やっぱり青学が本命?箱根駅伝 スポーツ ['前回大会', 'の', 'トップ3', 'で', 'ある', '東海大', '青学大',

In [15]:
# 6は太宰治の「人間失格」です。
# 自分の人生に迷いながら苦悩するみたいな話だったはず。
# 最後は精神病院送りにされて、、重苦しいまま終わる感じだった。
ranking1 = model1.docvecs.most_similar(15, topn=50)

In [16]:
ranking1[:5] # コサイン類似度が大きい作品トップ5

[(291, 0.999182939529419),
 (50, 0.9991813898086548),
 (351, 0.9991661310195923),
 (440, 0.9991401433944702),
 (307, 0.9991275668144226)]

In [17]:
# sentencesの中身を確認
for i, sentence in enumerate(sentences):
    if i < 5:
        print(sentence[:10])

['中京テレビ', 'NEWS', '愛知県', 'で', '新型コロナウイルス', 'の', '感染者', 'が', '再び', '急増']
['フィギュアスケート', '女子', 'の', '紀平梨花', 'が', '11月1日', '付け', 'で', 'トヨタ自動車', 'に']
['関西テレビ', '大阪市', 'を', '廃止', 'し', '4つ', 'の', '特別区', 'に', '再編']
['イギリス王室', 'の', 'ケンブリッジ公爵', 'ウィリアム王子', '38', 'が', '今年4月', 'に', '新型コロナウイルス', 'に']
['10月16日', 'に', '公開', 'さ', 'れ', 'た', 'アニメ映画', '劇場版', '鬼滅の刃', '無限']


In [18]:
sorted_texts_tfidf = sortedTFIDF(sentences)

In [19]:
# 作品ごとにTF-IDFの高い単語を確認
for i, tfidf in enumerate(sorted_texts_tfidf):
    if i < 5:
        print('%s.' % i, '〜%s〜' % df['title'][i]) # 一応タイトルも表示
        pprint(tfidf[:10])
        print('')

0. 〜第3波か 愛知県知事が危機感〜
[[0.29528257273473774, '大村'],
 [0.29528257273473774, '中京テレビ'],
 [0.29528257273473774, 'NEWS'],
 [0.270303808686991, '知事'],
 [0.24255786013424685, '愛知県'],
 [0.18020253912466067, '受け止め'],
 [0.15656755760560231, '感染者'],
 [0.14764128636736887, '豊橋市'],
 [0.14764128636736887, '犬山市'],
 [0.14764128636736887, '大村秀章']]

1. 〜紀平梨花 トヨタ自動車に入社〜
[[0.29338687025985244, 'トヨタ自動車'],
 [0.2860640414876848, 'トヨタ'],
 [0.25383698179639624, 'フィギュアスケート'],
 [0.22160992210510766, 'いただける'],
 [0.16336418714861306, 'とても'],
 [0.1467810067922927, '所属'],
 [0.1430320207438424, '長野五輪'],
 [0.1430320207438424, '紀平梨花'],
 [0.1430320207438424, '紀平'],
 [0.1430320207438424, '精一杯']]

2. 〜否決で今後の大阪は 市民の声〜
[[0.29922280946736857, '大阪市民'],
 [0.25458232022231747, '大阪市役所'],
 [0.23345245298685652, '職員'],
 [0.19628266409041234, '大阪'],
 [0.18993894499709374, '否決'],
 [0.16972154681487833, '一夜'],
 [0.15711689667261067, '明け'],
 [0.14817375507313707, '半分'],
 [0.14817375507313707, '任期'],
 [0.14123691552868867, '政治家']]

3. 〜ウ

In [20]:
all_title = []
for tfidf in sorted_texts_tfidf:
    title = []
    for word in tfidf[:100]: # 100語に絞る
        title.append(word[1])
    all_title.append(title)

In [21]:
# all_titleリストの中身を確認
for i, text in enumerate(all_title):
    if i < 5:
        print(i, text[:10])

0 ['大村', '中京テレビ', 'NEWS', '知事', '愛知県', '受け止め', '感染者', '豊橋市', '犬山市', '大村秀章']
1 ['トヨタ自動車', 'トヨタ', 'フィギュアスケート', 'いただける', 'とても', '所属', '長野五輪', '紀平梨花', '紀平', '精一杯']
2 ['大阪市民', '大阪市役所', '職員', '大阪', '否決', '一夜', '明け', '半分', '任期', '政治家']
3 ['王子', '王室', 'ウィリアム王子', '感染', 'BBC', '判定', '陽性', 'チャールズ皇太子', 'ケンブリッジ公爵', '新型']
4 ['興行収入', '億', '円', '公開', '鬼', '動員', '無限', '列車', '炭', '鬼滅の刃']
