# 時期ごとの極性・共起変遷を追う

In [6]:
ID = "UT-sei"

POPULATION_ID = "population"

PERIOD_ID = "year"

#分析対象の単語ファイル
keywords_file = "Keywords/Timelapse/%s-from-%s.txt"%(ID, POPULATION_ID)

#ストップワード抜きの形態素解析・極性分析完了したデータ
without_stopwords_text_file = "Progresses/NonStopword/%s-from-%s.txt"%(ID, POPULATION_ID)

##TFIDFモデル
tfidf_model_file = "Models/Tfidf/%s-from-%s.model"%(ID, POPULATION_ID)

#保存するファイル
sentiment_timelapse_file = "Sentiment/Timelapse/%s-from-%s-by-%s.txt"%(ID, POPULATION_ID, PERIOD_ID)

#内部的に品詞を区別する区切り文字
TOKEN_DIVIDER = "<334>"

In [19]:
#共起キーワードのストップワード（ここだけ）
local_stopwords = ["東大生", "br", "東大", "無い"]

## 

## 与えられた時期にインデックスを割り振る
分けたい時期にあわせて書き換える

In [8]:
from datetime import datetime

In [9]:
#これを書き換える
#万が一 -1 が出てしまうとエラーが出てしまうので注意（上限はない）
def get_time_index(time: datetime):
    #2000年から一年ごとに割り振る
    if time == None:
        return None

    years_passed = time.year - 2000
    
    if years_passed >= 0:
        return years_passed
    else:
        return 0

#保持しているデータの形式からdatetime型に変換
def convert_time(text: str):
    if (text == None) | (text == "None"):
        return None
    else:
        return datetime.strptime(text, "%Y/%m/%d|%H/%M/%S")

#最大インデックスを算出
MAX_TIME_INDEX = get_time_index(datetime.now())

## データ読み込み

In [10]:
import pandas as pd
import numpy as np

### 処理済みデータ

In [11]:
df_main = pd.read_table(without_stopwords_text_file)

df_main.head(2)

Unnamed: 0,date,link_index,number,content,disassembled_all,disassembled_target,Sentiment
0,2017/10/30|23/00/00,18471,19,東京大学　新卒就職先トップ１０ ＜２０１１年＞ ＜２０１２年＞ ...,*<334>トウキョウ<334>大学<334>　<334>新卒<334>就職<334>先<3...,トウキョウ<334>大学<334>新卒<334>就職<334>先<334>トップ-top<3...,pos
1,2009/01/07|23/05/00,4800,211,■東大生の選んだ法科大学院ランキング■ http://changi.2ch.net/te...,*<334>■<334>東大<334>生<334>の<334>選ぶ<334>た<334>法科...,東大<334>法科<334>大学<334>ランキング-ranking<334>http<33...,neu


### 本ノート用キーワード

In [12]:
with open(keywords_file, "r", encoding="utf-8") as f:
    keywords = f.read().split()

keywords

['馬鹿', 'コンプ', '逮捕', '社会', '就職']

### 母集団からのTFIDFモデルをサルベージ

In [13]:
import pickle
from copy import deepcopy

def tokenize(text):
    return text.split(TOKEN_DIVIDER)

with open(tfidf_model_file, "rb") as f:
    tfidf_model = pickle.load(f)

#対象（名詞・形容詞）を見せる用
tfidf_model_showing = deepcopy(tfidf_model)
tfidf_model_showing.ngram = (1,1)
tfidf_model_showing.tokenizer = tokenize

## 分析

### 各テキストに時期インデックスを割り振る

In [14]:
indices = []

for _, row in df_main.iterrows():
    indices.append(get_time_index(convert_time(row["date"])))

df_main["time_index"] = indices

df_main.head(3)

Unnamed: 0,date,link_index,number,content,disassembled_all,disassembled_target,Sentiment,time_index
0,2017/10/30|23/00/00,18471,19,東京大学　新卒就職先トップ１０ ＜２０１１年＞ ＜２０１２年＞ ...,*<334>トウキョウ<334>大学<334>　<334>新卒<334>就職<334>先<3...,トウキョウ<334>大学<334>新卒<334>就職<334>先<334>トップ-top<3...,pos,17.0
1,2009/01/07|23/05/00,4800,211,■東大生の選んだ法科大学院ランキング■ http://changi.2ch.net/te...,*<334>■<334>東大<334>生<334>の<334>選ぶ<334>た<334>法科...,東大<334>法科<334>大学<334>ランキング-ranking<334>http<33...,neu,9.0
2,2001/01/21|02/07/00,48612,186,>184 東大生？,*<334>＞<334>184<334>東大<334>生<334>？<334>*,184<334>東大,neu,1.0


### キーワードごとに分析

In [20]:
from IPython.display import display

#キーワードごとに
for keyword in keywords:
    scores = []
    coocs = []
    counts = []

    #時期インデックスごとに
    for time_index in range(MAX_TIME_INDEX):
        #極性スコア計算
        score = 0
        cnt = 0
        texts = []
        for _, row in df_main[df_main["time_index"] == time_index].iterrows():
            if keyword in row["disassembled_all"].split(TOKEN_DIVIDER):
                cnt += 1
                if row["Sentiment"] == "pos":
                    score += 1
                elif row["Sentiment"] == "neg":
                    score -= 1
                texts.append(row["disassembled_target"])
        if cnt != 0:
            score /= cnt
        else:
            score = 0
        
        ##共起
        #TFIDF計算
        if cnt != 0:
            tfidf_spycy = tfidf_model_showing.transform(texts)
            tfidf_df = pd.DataFrame(tfidf_spycy.toarray(), columns=tfidf_model_showing.get_feature_names_out())
            tfidf_mean = tfidf_df.mean(axis=0)

            #単語名と結び付け
            tfidf_mean = tfidf_mean.sort_values(ascending=False)

            #ストップワードの削除
            for word in local_stopwords:
                try:
                    tfidf_mean = tfidf_mean.drop(word)
                except:
                    pass

            if len(tfidf_mean) > 1:
                cooc = ", ".join(tfidf_mean[1:min(6, len(tfidf_mean))].index)
            else:
                cooc = ""
        else:
            cooc = ""
        
        scores.append(score)
        coocs.append(cooc)
        counts.append(cnt)

    df_keyword = pd.DataFrame(list(zip(counts, scores, coocs)), columns=["Count", "Score", "CoOccure"])

    print("\n"+keyword)
    display(df_keyword.style.bar(subset=["Score"], align='zero', color=['#d65f5f', '#5fba7d'], vmax=1, vmin=-1))


馬鹿


Unnamed: 0,Count,Score,CoOccure
0,22,-0.818182,"馬鹿 東大, 多い, 大学, 凄い, 奴"
1,236,-0.728814,"馬鹿 東大, 事, 藁, 奴, 大学"
2,149,-0.825503,"馬鹿 東大, 良い, 事, 頭, 頭 良い"
3,166,-0.807229,"事, オカ, ｗ, 学歴, 03"
4,107,-0.691589,"大学, 事, 慶応, 自分, 良い"
5,84,-0.75,"事, ｗ, 馬鹿 東大, 大学, 奴"
6,102,-0.784314,"事, 早慶, 馬鹿 東大, ｗ, 大学"
7,69,-0.550725,"駅弁, 大学, 事, 東大 医, ワセダ"
8,65,-0.815385,"大学, 事, ｗ, 奴, 多い"
9,49,-0.714286,"ｗ, 大学, 事, 早慶, 受験"



コンプ


Unnamed: 0,Count,Score,CoOccure
0,0,0.0,
1,40,-0.725,"教養, ﾜﾗ, 部, ヒトツバシ, 経済"
2,40,-0.7,"教養, ヒトツバシ, セキ 爺, 経, セキ"
3,29,-0.827586,"医学 部, 東大 コンプ, 医学, 部, 慶応"
4,25,-0.84,"東大 コンプ, 医学 部, 部, 医学, ｗ"
5,27,-0.62963,"ｗ, 東大 コンプ, 部, 医学 部, 医学"
6,38,-0.473684,"学歴, 東大 コンプ, 部, 医学 部, 医学"
7,36,-0.75,"東大 コンプ, 慶応, 京大, 学歴 コンプ, 大学"
8,27,-0.62963,"京大, 東大 コンプ, id, 2008, 6"
9,11,-0.909091,"京大, 丸出し, 日本 一, 単位, 就活"



逮捕


Unnamed: 0,Count,Score,CoOccure
0,0,0.0,
1,3,-0.666667,"natto, tsol, key, bbs, joke"
2,6,-0.833333,"レイプ-rape, ニュース-news, 画像, 大学, 流出"
3,39,-0.615385,"容疑, 事件, 暴行, 月, スーパー-super フリー-free"
4,5,-0.6,"女子, 現行, 時, top, セックス-sex"
5,2,-1.0,"処分, カイセイ, 退学, 拒否, 妨害"
6,11,0.272727,"学生, 事件, 女子, 部, 灯台"
7,2,-1.0,"事件, 月, 逮捕, 府, 10 月"
8,6,-0.833333,"逮捕, 無職, yahoo, 博士, 脅迫"
9,0,0.0,



社会


Unnamed: 0,Count,Score,CoOccure
0,9,-0.888889,"学歴, エリート-elite, 学歴 社会, 作戦, 国家"
1,85,-0.741176,"良い, 事, 大学, 部, 無い 東大"
2,52,-0.730769,"事, 学歴, 人間, 大学, 奴"
3,76,-0.565789,"事, 大学, 勉強, ワセダ, 慶応"
4,84,-0.642857,"事, 多い, 人, 大学, 人間"
5,36,-0.805556,"学歴, 日本, 受験, 756, 学生"
6,27,-0.592593,"医学, 医学 部, 事, 学歴, 部"
7,57,-0.54386,"国語, 事, 天才, 大学, 記憶"
8,31,-0.741935,"早慶, 大学, 博士, 389, 事"
9,25,-0.88,"就職, 入学, ワセダ, 慶応, 一"



就職


Unnamed: 0,Count,Score,CoOccure
0,8,-1.0,"事, 論文, 合格, １８, 東大 合格"
1,94,-0.744681,"大学, 部, 事, ヒトツバシ, 教養"
2,109,-0.779817,"教養, ヒトツバシ, 文, 事, 東大 教養"
3,63,-0.269841,"ワセダ, 大学, 企業, 事, 部"
4,69,-0.492754,"企業, 大学, 慶応, ８, 法"
5,34,-0.382353,"企業, ロンダ, 大学, 事, 理系"
6,61,-0.721311,"大学, 経済, 部, 寄付 講座, 大学 商学 部"
7,48,-0.541667,"ｗ, ワセダ, 大学, 数, 研究"
8,65,-0.723077,"企業, 大学, 民間, 企業 就職, 事"
9,38,-0.684211,"企業, 一, 大学, 日本 一, ワセダ"
