In [1]:
import csv
from janome.tokenizer import Tokenizer
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from bs4 import BeautifulSoup
from collections import Counter, defaultdict
import pandas as pd
import codecs

In [2]:
YH_df = pd.read_csv("tweet/2018-05-01/yawatahama_2018-05-01.csv", sep = '\t', encoding='utf-16')
YH_df = YH_df[YH_df['text'].notnull()]

In [3]:
# janome 形態素分解
def janome_analysis(sentences):
    t = Tokenizer()
    words_count = defaultdict(int)
    words = []
    for sentence in sentences:
        tokens = t.tokenize(sentence)
        for token in tokens:
            # 品詞を取り出し
            partOfSpeech1 = token.part_of_speech.split(',')[0]
            partOfSpeech2 = token.part_of_speech.split(',')[1]

            if partOfSpeech2 == '固有名詞' or partOfSpeech1 == '形容詞':
#                 if (token.base_form != ':' and 
#                     token.base_form != '@' and 
#                     token.base_form != '#' and 
#                     token.base_form != '-' and
#                     token.base_form != '/' and
#                     token.base_form != '(' and
#                     token.base_form != ')' and
#                     token.base_form != '.'):
                words_count[token.base_form] += 1
                words.append(token.base_form)
    return words_count, words

In [4]:
YH_df = YH_df[YH_df['RT']==False]
ana_df = YH_df['text'].str.replace('http\S+', '', case=False)

In [5]:
words_count, words = janome_analysis(ana_df)

In [6]:
Counter(words).most_common()

[('八幡浜', 846),
 ('愛媛', 318),
 ('日土', 97),
 ('巨人', 73),
 ('宇和島', 51),
 ('in', 49),
 ('松村', 41),
 ('正恒', 37),
 ('m', 37),
 ('松山', 34),
 ('大分', 33),
 ('I', 33),
 ('at', 33),
 ('日本', 29),
 ('伊予', 28),
 ('ない', 28),
 ('四国', 26),
 ('s', 26),
 ('Z', 24),
 ('澤', 24),
 ('貴洋', 24),
 ('アレフ', 24),
 ('創価学会', 24),
 ('ONLINE', 23),
 ('mm', 21),
 ('佐伯', 20),
 ('いい', 18),
 ('黒い', 17),
 ('コダテル', 17),
 ('津島', 17),
 ('日吉', 17),
 ('三重', 17),
 ('内子', 16),
 ('別府', 16),
 ('TABI', 16),
 ('LABO', 16),
 ('長崎', 15),
 ('臼杵', 14),
 ('テレビ東京', 14),
 ('白い', 14),
 ('news', 14),
 ('吉田', 13),
 ('良い', 13),
 ('笑', 13),
 ('楽しい', 13),
 ('うまい', 13),
 ('Orions', 12),
 ('韓国', 12),
 ('ひかり', 12),
 ('中国', 12),
 ('マフィア', 12),
 ('朝鮮', 12),
 ('保内', 12),
 ('美しい', 12),
 ('今治', 11),
 ('旨い', 11),
 ('新居浜', 10),
 ('コス', 10),
 ('パ', 10),
 ('新しい', 9),
 ('多い', 9),
 ('予讃線', 9),
 ('TABILABO', 9),
 ('平成', 8),
 ('長浜', 8),
 ('すごい', 8),
 ('優しい', 8),
 ('東京', 8),
 ('高知', 8),
 ('岡山', 8),
 ('The', 8),
 ('大阪', 7),
 ('卯之町', 7),
 ('九州', 7),
 ('二宮', 7),
 ('

In [7]:
class CorpusElement:
    def __init__(self, text='', tokens=[], pn_scores=[]):
        self.text = text # テキスト本文
        self.tokens = tokens # 構文木解析されたトークンのリスト
        self.pn_scores = pn_scores # 感情極性値(後述)


# CorpusElementのリスト
naive_corpus = []

naive_tokenizer = Tokenizer()

for text in ana_df:
    tokens = naive_tokenizer.tokenize(text)
    element = CorpusElement(text, tokens)
    naive_corpus.append(element)

# 最初の1文章の形態素解析結果を表示
for token in naive_corpus[0].tokens:
    print(token)

よ	その他,間投,*,*,*,*,よ,ヨ,ヨ
ほ	動詞,自立,*,*,五段・ラ行,体言接続特殊２,ほる,ホ,ホ
ぉ	名詞,一般,*,*,*,*,ぉ,*,*
ー	名詞,一般,*,*,*,*,ー,*,*
い	動詞,自立,*,*,一段,連用形,いる,イ,イ
！	記号,一般,*,*,*,*,！,！,！
貴様	名詞,一般,*,*,*,*,貴様,キサマ,キサマ
ら	名詞,接尾,一般,*,*,*,ら,ラ,ラ
ー	名詞,一般,*,*,*,*,ー,*,*
！	記号,一般,*,*,*,*,！,！,！
マガレ	名詞,一般,*,*,*,*,マガレ,*,*
兄さん	名詞,一般,*,*,*,*,兄さん,ニイサン,ニーサン
だ	助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
ぞ	助詞,終助詞,*,*,*,*,ぞ,ゾ,ゾ
ぉ	名詞,一般,*,*,*,*,ぉ,*,*
！	記号,一般,*,*,*,*,！,！,！
大阪	名詞,固有名詞,地域,一般,*,*,大阪,オオサカ,オーサカ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
尻込み	名詞,サ変接続,*,*,*,*,尻込み,シリゴミ,シリゴミ
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
しまっ	動詞,非自立,*,*,五段・ワ行促音便,連用タ接続,しまう,シマッ,シマッ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
、	記号,読点,*,*,*,*,、,、,、
故郷	名詞,一般,*,*,*,*,故郷,コキョウ,コキョー
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
帰っ	動詞,自立,*,*,五段・ラ行,連用タ接続,帰る,カエッ,カエッ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
の	名詞,非自立,一般,*,*,*,の,ノ,ノ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
一昨日	名詞,副詞可能,*,*,*,*,一昨日,オトトイ,オトトイ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
ん	名詞,非自立,一般,*,*,*,ん,ン,ン
だ	助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
。	記号,句点,*,*,*,*,。,。,。
帰宅	名詞,サ変接続,*,*,*,*,帰宅,キタク,キタク
早々	名詞,一般,*,*,*,*,早々,ソウソウ,ソーソー
、	記号,読点,*,*,*

In [8]:
# pn_ja.dicファイルから、単語をキー、極性値を値とする辞書を得る
def load_pn_dict():
    dic = {}
    
    with codecs.open('./pn_ja.dic', 'r', 'shift_jis') as f:
        lines = f.readlines()
        
        for line in lines:
            # 各行は"良い:よい:形容詞:0.999995"
            columns = line.split(':')
            dic[columns[0]] = float(columns[3])
            
    return dic

In [9]:
# トークンリストから極性値リストを得る
def get_pn_scores(tokens, pn_dic):
    scores = []
    
    for surface in [t.surface for t in tokens if t.part_of_speech.split(',')[0] in ['動詞','名詞', '形容詞', '副詞']]:
        if surface in pn_dic:
            scores.append(pn_dic[surface])
    
    if len(scores) == 0:
        scores.append(0)
    
    return scores

In [10]:
# 感情極性対応表のロード
pn_dic = load_pn_dict()
print(pn_dic['良い'])
# 0.999995

# 各文章の極性値リストを得る
for element in naive_corpus:
    element.pn_scores = get_pn_scores(element.tokens, pn_dic)

# 1件目の文章の極性値を表示する
print(naive_corpus[0].pn_scores)

0.999995
[0.202582, -0.508876, -0.609677, -0.198398, -0.55442, -0.102606, -0.840845, -0.961267, -0.988589, -0.15474, -0.415604, -0.840845, -0.840845]


In [11]:
import io


# 平均値が最も高い5件を表示
for element in sorted(naive_corpus, key=lambda e: sum(e.pn_scores)/len(e.pn_scores), reverse=True)[:10]:
    print('Average: {:.3f}'.format(sum(element.pn_scores)/len(element.pn_scores)))
    print('Title: {}'.format(io.StringIO(element.text).readline()))

# 平均値が最も低い5件を表示
for element in sorted(naive_corpus, key=lambda e: sum(e.pn_scores)/len(e.pn_scores))[:10]:
    print('Average: {:.3f}'.format(sum(element.pn_scores)/len(element.pn_scores)))
    print('Title: {}'.format(io.StringIO(element.text).readline()))

    for surface in [t.surface for t in element.tokens if t.part_of_speech.split(',')[0] in ['動詞','名詞', '形容詞', '副詞']]:
        if surface in pn_dic:
            print(surface)
    
    print(element.pn_scores)
    print('')

Average: 0.988
Title: アメブロを更新しました。 『八幡浜に来ています！ by ザラおやじ』 

Average: 0.494
Title: 「美の巨人たち」は八幡浜の日土小学校。
Average: 0.378
Title: 八幡浜市立小学校本当に明るい #美の巨人たち
Average: 0.343
Title: 美の巨人たちなう。八幡浜市立日土小学校って、長ーい廊下があるところ？

Average: 0.245
Title: 八幡浜ちゃんぽん(食べかけ)あっさりんまんまーŧ‹"ŧ‹"(　˙༥˙　) ŧ‹"ŧ‹" 
Average: 0.234
Title: 美巨人「八幡浜市立日土小学校」
Average: 0.234
Title: 美の巨人たち 松村正恒『八幡浜市立日土小学校』
Average: 0.221
Title: 美の巨人たちでやってる、愛媛県八幡浜市の小学校、いいなぁ！ときめく造形だー！
Average: 0.217
Title: 日本で一番美しい小学校、愛媛県にある八幡浜市立日土小学校、校舎が素敵すぎる。。。 #美の巨人たち
Average: 0.168
Title: 次回の「美の巨人たち」は日本で一番美しい木造小学校、八幡浜市立日土小学校 

Average: -0.979
Title: 八幡浜にあるコダテルってやつ気になる
気
[-0.978644]

Average: -0.976
Title: お願いします。八幡浜は晴れて。あそこ雨降るとヤバそう。
雨
降る
[-0.958257, -0.993756]

Average: -0.961
Title: 八幡浜行くぜー！ 
行く
[-0.961267]

Average: -0.961
Title: 八幡浜まで行く 
行く
[-0.961267]

Average: -0.958
Title: 八幡浜を火の海にする
海
[-0.958041]

Average: -0.936
Title: 新居浜と八幡浜、宇多津と多度津の分かりにくさ、早く四国は潰れろ
さ
[-0.93584]

Average: -0.880
Title: 臼杵から八幡浜に向かうフェリーの中です。月が上ってきました。 
向かう
中
月
[-0.74591, -0.979874, -0.91303]

A