In [1]:
import sys
sys.path.append("../")

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from janome.tokenizer import Tokenizer

In [3]:
from auto_polar.lib.predict_polarity import PolarEstimator, Dict1, Dict2
from auto_polar.lib import load_dictionary

In [4]:
dict1_df = pd.read_csv("../data/dictionary1.txt", sep="\t", header=None)
dict1_df.columns = ["word", "score", "description"]
dict1_df

Unnamed: 0,word,score,description
0,２，３日,e,〜である・になる（状態）客観
1,10%,e,〜である・になる（状態）客観
2,100%,e,〜である・になる（状態）客観
3,25%,e,〜である・になる（状態）客観
4,80%,e,〜である・になる（状態）客観
...,...,...,...
13309,魏,e,〜に行く（場所）
13310,魑魅魍魎,n,〜である・になる（状態）客観
13311,鮑,e,〜である・になる（状態）客観
13312,鹹味,e,〜である・になる（評価・感情）主観


In [5]:
dict1_df["score"].value_counts()

score
n       4958
e       4954
p       3352
?p?n      35
?e         4
a          4
o          3
?p         2
?p?e       1
　          1
Name: count, dtype: int64

In [6]:
with open("../data/data.txt", "r", encoding="UTF-8") as f:
    inputs = f.readlines()

In [7]:
for token in Tokenizer().tokenize(inputs[1]):
    print(token)
    print(token.surface)
    print(token.base_form)

友達	名詞,一般,*,*,*,*,友達,トモダチ,トモダチ
友達
友達
と	助詞,並立助詞,*,*,*,*,と,ト,ト
と
と
映画	名詞,一般,*,*,*,*,映画,エイガ,エイガ
映画
映画
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
を
を
見	動詞,自立,*,*,一段,連用形,見る,ミ,ミ
見
見る
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
に
に
行っ	動詞,自立,*,*,五段・カ行促音便,連用タ接続,行く,イッ,イッ
行っ
行く
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
た
た
けど	助詞,接続助詞,*,*,*,*,けど,ケド,ケド
けど
けど
、	記号,読点,*,*,*,*,、,、,、
、
、
感動	名詞,サ変接続,*,*,*,*,感動,カンドウ,カンドー
感動
感動
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
し
する
て	助詞,接続助詞,*,*,*,*,て,テ,テ
て
て
泣い	動詞,自立,*,*,五段・カ行イ音便,連用タ接続,泣く,ナイ,ナイ
泣い
泣く
ちゃっ	動詞,非自立,*,*,五段・ワ行促音便,連用タ接続,ちゃう,チャッ,チャッ
ちゃっ
ちゃう
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
た
た
。	記号,句点,*,*,*,*,。,。,。
。
。


In [8]:
dict1 = load_dictionary.load_dict1("../data/dictionary1.txt")
dict2 = load_dictionary.load_dict2("../data/dictionary2.txt")

In [9]:
polar_estimator = PolarEstimator(Dict1(dict1), Dict2(dict2))

In [10]:
polar_estimator.estimate_v1(inputs[0], verbose=True)

text: 雨が降ってるから気分が落ち込む。早く晴れてほしいな。

[dict1]  雨 0
[dict1]  気分 0


0

In [11]:
polar_estimator.estimate_v2(inputs[0], verbose=True)

text: 雨が降ってるから気分が落ち込む。早く晴れてほしいな。

[dict1]  雨 0
[dict1]  気分 0
[dict2]  ['落ち込む'] -1
[dict2]  ['晴れる'] 1


(0,
 "text: 新しい仕事が始まって緊張するけど、頑張りたい。\n\n[dict1] 仕事 0\n[dict1] 緊張 -1\n新しい\t形容詞,自立,*,*,形容詞・イ段,基本形,新しい,アタラシイ,アタラシイ\n仕事\t名詞,サ変接続,*,*,*,*,仕事,シゴト,シゴト\nが\t助詞,格助詞,一般,*,*,*,が,ガ,ガ\n始まっ\t動詞,自立,*,*,五段・ラ行,連用タ接続,始まる,ハジマッ,ハジマッ\nて\t助詞,接続助詞,*,*,*,*,て,テ,テ\n緊張\t名詞,サ変接続,*,*,*,*,緊張,キンチョウ,キンチョー\nする\t動詞,自立,*,*,サ変・スル,基本形,する,スル,スル\nけど\t助詞,接続助詞,*,*,*,*,けど,ケド,ケド\n、\t記号,読点,*,*,*,*,、,、,、\n頑張り\t動詞,自立,*,*,五段・ラ行,連用形,頑張る,ガンバリ,ガンバリ\n[dict2]found (['頑張る'], 1, '経験')\n[dict2] ['頑張る']1\nたい\t助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ\n。\t記号,句点,*,*,*,*,。,。,。\n")

In [12]:
for text in inputs:
    print(polar_estimator.estimate_v1(text, verbose=True))
    print()

(0, 'text: 雨が降ってるから気分が落ち込む。早く晴れてほしいな。\n\n[dict1] 雨 0\n[dict1] 気分 0\n')

(2, 'text: 友達と映画を見に行ったけど、感動して泣いちゃった。\n\n[dict1] 友達 1\n[dict1] 感動 1\n')

(-1, 'text: 新しい仕事が始まって緊張するけど、頑張りたい。\n\n[dict1] 仕事 0\n[dict1] 緊張 -1\n')

(2, 'text: 美味しいケーキを食べて、幸せな気持ちになった。\n\n[dict1] 幸せ 1\n[dict1] 気持ち 1\n')

(-1, 'text: ペットが病気になって心配でたまらない。早く元気になって。\n\n[dict1] ペット 0\n[dict1] 病気 -1\n[dict1] 心配 -1\n[dict1] 元気 1\n')

(1, 'text: 家族と一緒に過ごす時間がとても楽しかった。\n\n[dict1] 一緒 1\n[dict1] 時間 0\n')

(-1, 'text: 仕事でミスをして上司に叱られてしまった。反省しないと。\n\n[dict1] 仕事 0\n[dict1] ミス -1\n[dict1] 反省 0\n')

(2, 'text: 旅行の計画を立てているときが一番ワクワクする。\n\n[dict1] 旅行 1\n[dict1] 一番 1\n')

(2, 'text: 久しぶりに会った友達と話して、元気が出た。\n\n[dict1] 久しぶり 0\n[dict1] 友達 1\n[dict1] 元気 1\n')

(0, 'text: 電車が遅れてイライラするけど、仕方がない。\n\n')

(0, 'text: 新しい趣味を見つけて、毎日が楽しい。\n\n[dict1] 趣味 0\n')

(3, 'text: 彼氏とのデートで素敵なレストランに行って幸せ。\n\n[dict1] デート 1\n[dict1] 素敵 1\n[dict1] 幸せ 1\n')

(0, 'text: 今日も一日がんばった。自分を褒めたい気分。\n\n[dict1] 自分 0\n[dict1] 気分 0\n')

(0, 'text: 雨の日はどうしても気分が沈んでしまう。\n\n[dict1] 雨 0\n[di

In [13]:
for text in inputs:
    print(polar_estimator.estimate_v2(text, verbose=True))
    print()

(1, "text: 雨が降ってるから気分が落ち込む。早く晴れてほしいな。\n\n[dict1] 雨 0\n[dict1] 気分 0\n雨\t名詞,一般,*,*,*,*,雨,アメ,アメ\nが\t助詞,格助詞,一般,*,*,*,が,ガ,ガ\n降っ\t動詞,自立,*,*,五段・ラ行,連用タ接続,降る,フッ,フッ\nてる\t動詞,非自立,*,*,一段,基本形,てる,テル,テル\nから\t助詞,接続助詞,*,*,*,*,から,カラ,カラ\n気分\t名詞,一般,*,*,*,*,気分,キブン,キブン\n[dict2]found (['気分', 'が', '悪い'], -1, '評価')\n[dict2]found (['気分', 'が', 'いい'], 1, '評価')\nが\t助詞,格助詞,一般,*,*,*,が,ガ,ガ\n[dict2]found (['気分', 'が', '悪い'], -1, '評価')\n[dict2]found (['気分', 'が', 'いい'], 1, '評価')\n落ち込む\t動詞,自立,*,*,五段・マ行,基本形,落ち込む,オチコム,オチコム\n[dict2]found (['気分', 'が', '悪い'], -1, '評価')\n[dict2]found (['気分', 'が', 'いい'], 1, '評価')\n。\t記号,句点,*,*,*,*,。,。,。\n早く\t形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,早い,ハヤク,ハヤク\n晴れ\t動詞,自立,*,*,一段,連用形,晴れる,ハレ,ハレ\n[dict2]found (['晴れる'], 1, '経験')\n[dict2] ['晴れる']1\nて\t助詞,接続助詞,*,*,*,*,て,テ,テ\nほしい\t形容詞,非自立,*,*,形容詞・イ段,基本形,ほしい,ホシイ,ホシイ\nな\t助詞,終助詞,*,*,*,*,な,ナ,ナ\n。\t記号,句点,*,*,*,*,。,。,。\n")

[dict1]  雨 0
[dict1]  気分 0
[dict2]  ['落ち込む'] -1
[dict2]  ['晴れる'] 1
0

(0, "text: 新しい仕事が始まって緊張するけど、頑張りたい。\n\n[dict1] 仕事 0\n[dict1] 緊張 -1\n新しい\t形容詞,自立,*,*,形

In [14]:
polar_estimator.estimate_v2("電車が遅れてイライラするけど、仕方がない。", verbose=True)

text: 電車が遅れてイライラするけど、仕方がない。
[dict2]  ['遅れる'] -1
[dict2]  ['仕方', 'が', 'ない'] -1


-2

In [None]:
with open("../data/data_ans.txt", "r", encoding="UTF-8") as f:
    data_text_with_ans = f.readlines()
l_pol_and_text=[]
for l in data_text_with_ans:
    pol_and_text=l.split(" ")
    pol_and_text[1]=pol_and_text[1].replace("\n","")
    
    l_pol_and_text.append(pol_and_text)
def pol_to_sign(pol:str)->int:
    if(pol=="e"):
        return 0
    if(pol=="n"):
        return -1
    if(pol=="p"):
        return 1
    return None

In [15]:
count_diff = 0
for t in l_pol_and_text:
    score, text = polar_estimator.estimate_v2(t[1], verbose=True)
    pol_sign = pol_to_sign(t[0])
    success = True
    if(pol_sign==0):
        if(score!=0):
            success=False
    elif(int(pol_sign)*int(score)<=0):
        success=False
    if not success:
        count_diff+=1
        print("↓")
        print(t)
        print("======")
        print("evaluated score:",score,", ans:",pol_sign)
        print(text)
        print("↑")
print("sum of number  of diffs:",count_diff)

↓
['n', '雨が降ってるから気分が落ち込む。早く晴れてほしいな。']
evaluated score: 1 , ans: -1
text: 雨が降ってるから気分が落ち込む。早く晴れてほしいな。
[dict1] 雨 0
[dict1] 気分 0
雨	名詞,一般,*,*,*,*,雨,アメ,アメ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
降っ	動詞,自立,*,*,五段・ラ行,連用タ接続,降る,フッ,フッ
てる	動詞,非自立,*,*,一段,基本形,てる,テル,テル
から	助詞,接続助詞,*,*,*,*,から,カラ,カラ
気分	名詞,一般,*,*,*,*,気分,キブン,キブン
[dict2]found (['気分', 'が', '悪い'], -1, '評価')
[dict2]found (['気分', 'が', 'いい'], 1, '評価')
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
[dict2]found (['気分', 'が', '悪い'], -1, '評価')
[dict2]found (['気分', 'が', 'いい'], 1, '評価')
落ち込む	動詞,自立,*,*,五段・マ行,基本形,落ち込む,オチコム,オチコム
[dict2]found (['気分', 'が', '悪い'], -1, '評価')
[dict2]found (['気分', 'が', 'いい'], 1, '評価')
。	記号,句点,*,*,*,*,。,。,。
早く	形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,早い,ハヤク,ハヤク
晴れ	動詞,自立,*,*,一段,連用形,晴れる,ハレ,ハレ
[dict2]found (['晴れる'], 1, '経験')
[dict2] ['晴れる']1
て	助詞,接続助詞,*,*,*,*,て,テ,テ
ほしい	形容詞,非自立,*,*,形容詞・イ段,基本形,ほしい,ホシイ,ホシイ
な	助詞,終助詞,*,*,*,*,な,ナ,ナ
。	記号,句点,*,*,*,*,。,。,。

↑
↓
['p', '新しい仕事が始まって緊張するけど、頑張りたい。']
evaluated score: 0 , ans: 1
text: 新しい仕事が始まって緊張するけど、頑張りたい。
[dict1] 仕事 0
[dict1] 緊張 -1
新しい	形容詞,自立,*,*,形