In [122]:
import sys
sys.path.append('../Data')

import pandas as pd
import numpy as np
import time
from CommentDataset import CommentDataset

import warnings
warnings.filterwarnings(action='ignore', category=UserWarning)
import gensim
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [123]:
#データの読み込み
df = pd.read_csv("../Data/yahoo/2023_04_04/20230404_1.csv", encoding="cp932", header=None)
comment_list = df[0][1:].to_numpy().tolist()

In [124]:
# データの前処理
comment_dataset = CommentDataset(comment_list)
comment_dataset.delete_comment_specified_string(15)
comment_dataset.formatted_word_segmentation(stop_tagging_list=['格助詞', '副詞可能', '非自立'], appear_tagging_list=['名詞', '固有名詞', '一般'])
comment_dataset.comment_list = [comment.split() for comment in comment_dataset.comment_list]
print(comment_dataset.comment_list[0:3])

[['問題', '当該', '生徒', 'コーンロウ', '髪形', '学校', '側', '何', '相談', '卒業式', '髪形', 'コーンロウ', '多事', '民族的', 'アイデンティティ', '主張', '普通', '髪型'], ['在学中', '普通', '髪型', '卒業式', 'コーンロウ', '生徒', 'そりゃ', '教師', 'ダメ', '差別', '事前', 'ちゃんと', '親子', '担任', '教師', '相談', '問題', 'ニュース', '記事', '教師', '生徒', '差別', '勝手', 'しょうが', '…', '十手', 'これ', '感情', 'コメント', '炎上', 'SNS', 'コメント', 'ちゃんと', '確認', 'コメント', '…'], ['匿名', '攻撃', '攻撃', 'なのか', '？', '千原せいじ', '認識', '問い', '掛け', 'どこ', '誰か', '分からん', '返し', '論点', '生徒', '側', '話', '鵜呑み', '学校', '側', '言い分', 'アホ', '教師', '差別', '攻撃', 'それ', '？', '差別', '学校', '側', '対応', '何', '差別']]


In [126]:
# bag-of-words形式に変換
dictionary = gensim.corpora.Dictionary(comment_dataset.comment_list)

# dictionary.filter_extremes(no_below=1, no_above=0.1)

bow = [dictionary.doc2bow(line) for line in comment_dataset.comment_list]

In [103]:
# lda = gensim.models.ldamodel.LdaModel(corpus=bow, num_topics=2, id2word=dictionary)

In [127]:
def test_eta(eta, dictionary, ntopics, print_topics=True, print_dist=True):
    np.random.seed(42) # set the random seed for repeatability
    bow = [dictionary.doc2bow(line) for line in comment_dataset.comment_list] # get the bow-format lines with the set dictionary
    with (np.errstate(divide='ignore')):  # ignore divide-by-zero warnings
        model = gensim.models.ldamodel.LdaModel(
            corpus=bow, id2word=dictionary, num_topics=ntopics,
            random_state=42, chunksize=100, eta=eta,
            eval_every=-1, update_every=1,
            passes=150, alpha='auto', per_word_topics=True)
    # visuzlize the model term topics
    print('Perplexity: {:.2f}'.format(model.log_perplexity(bow)))
    if print_topics:
        # display the top terms for each topic
        for topic in range(ntopics):
            print('Topic {}: {}'.format(topic, [dictionary[w] for w,p in model.get_topic_terms(topic, topn=10)]))
    if print_dist:
        # display the topic probabilities for each document
        for line,bag in zip(comment_list,bow):
            doc_topics = ['({}, {:.1%})'.format(topic, prob) for topic,prob in model.get_document_topics(bag)]
            print('{} {}'.format(line, doc_topics))
            print('\n')
    return model

In [105]:
# test_eta('auto',dictionary,ntopics=2)

In [128]:
def create_eta(priors, etadict, ntopics):
    eta = np.full(shape=(ntopics, len(etadict)), fill_value=1) # create a (ntopics, nterms) matrix and fill with 1
    for word, topic in priors.items(): # for each word in the list of priors
        keyindex = [index for index,term in etadict.items() if term==word] # look up the word in the dictionary
        if (len(keyindex)>0): # if it's in the dictionary
            eta[topic,keyindex[0]] = 1e7  # put a large number in there
    eta = np.divide(eta, eta.sum(axis=0)) # normalize so that the probabilities sum to 1 over all topics
    return eta

In [129]:
apriori_original = {
    '学校':0, '教師':0, '卒業式':0, '生徒':0,
    'せいじ':1, '千原せいじ':1, '千原':1,
    'コーンロウ':2, '髪型':2,
    '匿名':3, '攻撃':3, 'SNS':3, '誹謗中傷':3, '論点':3,
    'お笑いタレント':4, '千原せいじ':4, 'さん':4, '2023年':4, '4月1日':4, 'Instagram':4, '更新':4, 'コメント欄':4, '批判':4, '声':4, '怒り':4, '反論':4
}
eta = create_eta(apriori_original, dictionary, 4)
test_eta(eta, dictionary, 4)

Perplexity: -1.06
Topic 0: ['匿名', '？', '意見', '教師', '人', '名前', '自分', '*', '攻撃', 'SNS']
Topic 1: ['？', '卒業式', 'コーンロウ', 'ダメ', '*', '髪型', '！', '人', '校則', '言葉']
Topic 2: ['！', 'さん', '芸能人', '自分', 'それ', '千原せいじ', 'コメント', '*', '事', '…']
Topic 3: ['髪型', '差別', '学校', '問題', '？', 'コーンロウ', 'それ', '的', '教師', '校則']
この問題は当該生徒が以前から
コーンロウの髪形にしていた訳でなく
学校側に何の相談も無く、
卒業式当日に髪形を突然コーンロウにして来た事にある。
民族的アイデンティティを主張するのであれば、何故　今までは普通の髪型だったのか。 ['(1, 98.7%)']


在学中は普通の髪型だったのに卒業式でコーンロウで生徒が現れたらそりゃあ教師も驚くでしょうし、ダメだと言うのも差別とは全く思いませんけどね。
事前にちゃんとこの親子が担任教師に相談していればこんな問題にもならかったと思います。

せいじはニュース記事だけ見て、教師が生徒を差別していると勝手に思っているのでしょうが…せいじってこれまでも感情だけでコメントして炎上する事が度々ありますが、こういったSNSでコメントするならちゃんと確認してからコメントを書くべきだと思いますけど… ['(0, 21.0%)', '(1, 15.3%)', '(3, 63.6%)']


匿名で攻撃ってそもそも攻撃なのか？

千原せいじの認識はおかしいのではと言う問い掛けに対して、どこの誰か分からんと言う返しは論点逸らしとしか思えない。

生徒側だけの話を鵜呑みにして、学校側の言い分を聞かずにアホ教師だの差別だのと口汚く攻撃するから、それは違うんじゃないのか？と言っているだけだと思うが。

そもそも差別だと言うのであれば、今回の学校側の対応の何が差別に当たるのかはっきり言ってもらいたい。 ['(0, 99.5%)']


事前の確認がないままやればこうなる可能性があることくらい当人もわかっていたのでは？
わかってなかったら、重要な場面で確認を怠るとこう

<gensim.models.ldamodel.LdaModel at 0x2068b2c5d90>