# 댓글 데이터 감성분석
- Aurora3 기반 https://github.com/gyubok-lee/Aurora3
- Google colaboratory 이용시 drive mount & cd 설정 필요


In [None]:
"""
cd /content/drive/MyDrive/경로설정
"""

In [None]:
# konply 설치
!pip install konlpy

In [None]:
# module & package 가져오기

import pandas as pd
import re
import konlpy
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
import numpy as np
from tqdm import tqdm
import urllib.request
import glob

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(-2, 2))

-  작업순서


- input data 파일 형식 바꿔주기
- test, train data 불러오기
- 데이터 전처리 작업
- 단어별로 감성점수 측정, 추정
- 댓글 문장 별 감성분석
- score 측점 결과 저장

# 데이터 전처리 및 파일 생성

In [None]:
# 본인이 설정한 디렉토리에 있는 파일 리스트화 시키기

file_list = glob.glob('.././*')
file_list

In [None]:
# 개수 확인

len(file_list) # len() = 96

In [None]:
# 파일명만 떼어서 리스트화

f_names = []
for i in range(96):
  f_name = re.sub("../data_xlsx/","",file_list[i])
  f_names.append(f_name)
f_names

In [None]:
# 변환될 파일명 리스트화

f_names_new = []
for i in range(96):
  f_name = re.sub("../data_xlsx/","",file_list[i])
  f_name = re.sub(".xlsx",".txt",f_name)
  f_names_new.append(f_name)
f_names_new

In [None]:
# 리스트화 잘 되었는지 확인

print(f_names[0])
type(f_names[0])

In [None]:
# 원하는 디렉토리에 파일 한 개씩 저장

for i in range(96):
  df = pd.read_excel(f'data_xlsx/{f_names[i]}')
  print(f_names[i])
  df.to_csv(f'data_txt/{f_names_new[i]}',index=True, sep='\t')

In [None]:
# dataframe화 잘 되는지 체크

df = pd.read_table(f'data_txt/{f_names_new[0]}')
df = df.iloc[:,:] 
# 기존 row name을 data에 맞게 변경
df = df[['videoId','comment']]
df = df.rename(columns={"videoId": "id", "comment": "sentence"})
df

# class, functions 정의 및 score 도출 작업

In [None]:
# 데이터 전처리 및 토큰화 작업

okt = konlpy.tag.Okt()

def text_preprocess(x):
    text=[]
    """
    <br>, <a href~ > 등의 태그 제거 작업 추가 필요
    """
    x = re.sub("<.+?>","",x)
    a = re.sub('[^가-힣0-9a-zA-Z\\s]', '',x)
    for j in a.split():
        text.append(j)
    return ' '.join(text)

def tokenize(x):
    text = []
    tokens = okt.pos(x)
    for token in tokens :
        if token[1] == 'Adjective' or token[1]=='Adverb' or token[1] == 'Determiner' or token[1] == 'Noun' or token[1] == 'Verb' or 'Unknown':
            text.append(token[0])
    return text

In [None]:
# rule-based 감성분석 점수 사전 업데이트

sent_dic = pd.read_csv('SentiWord_Dict.txt',sep = '\t',header=None)
sent_dic.iloc[14850,0]='갈등'

pos_dic = sent_dic[sent_dic[1]>0]
neg_dic = sent_dic[sent_dic[1]<0]
neu_dic = sent_dic[sent_dic[1]==0]

In [None]:
# class 선언으로 한번에 작업 처리

class Aurora3:
    
    def __init__(self, df,sent_dic):
        self.df = df
        self.okt = konlpy.tag.Okt()
        self.sent_dic = sent_dic
        
    def get_df(self):# 최종 결과 반환
        #print("문장 토큰화 중입니다...")
        #self.tokenizer_run()
        
        print("감성사전 업데이트 중입니다...")
        self.expand_sent_dic()
        
        print("문장 감성분석 중입니다....")
        self.sent_analyze()
        return self.df
    """    
    def tokenizer_run(self): # 텍스트 전처리 & 토큰화
        tqdm.pandas()
        
        def text_preprocess(x): 
            text=[]
            
            x1 = re.sub("<.+?>","",x)
            a = re.sub('[^가-힣0-9a-zA-Z\\s]', '',x1)
            for j in a.split():
                text.append(j)
            return ' '.join(text)

        def tokenize(x):
            text = []
            tokens = self.okt.pos(x)
            for token in tokens :
                if token[1] == 'Adjective' or token[1]=='Adverb' or token[1] == 'Determiner' or token[1] == 'Noun' or token[1] == 'Verb' or 'Unknown':
                    text.append(token[0])
            return text

        self.df['comment_cut'] = self.df['sentence'].apply(lambda x : text_preprocess(x))
        self.df['comment_cut'] = self.df['comment_cut'].progress_apply(lambda x: tokenize(x))
    """
    def expand_sent_dic(self):
        sent_dic = self.sent_dic
        
        def make_sent_dict(x) :
            pos=[]
            neg=[]
            tmp={}

            for sentence in tqdm(x):
                for word in sentence :
                    target = sent_dic[sent_dic[0]==word]
                    if len(target)==1: # 기존에 있는 단어라면 그대로 사용
                        score = float(target[1])
                        if score > 0:
                            pos.append(word)
                        elif score < 0:
                            neg.append(word)                
                    tmp[word] = {'W':0,'WP':0,'WN':0} # 감성사전 구성
            pos = list(set(pos))
            neg = list(set(neg))

            for sentence in tqdm(x):
                for word in sentence :
                    tmp[word]['W'] += 1 # 빈도 수
                    for po in pos :
                        if po in sentence:
                            tmp[word]['WP'] += 1 # 긍정단어과 같은 문장 내 단어일 때
                            break
                    for ne in neg:
                        if ne in sentence:
                            tmp[word]['WN'] += 1 # 부정단어와 같은 문장내 단어일 때
                            break
            return pos, neg, pd.DataFrame(tmp)
        
        def make_score_dict(d,p,n):
            N=sum(d.iloc[0,::])
            pos_cnt=sum(d.loc[::,p].iloc[0,::])
            neg_cnt=sum(d.loc[::,n].iloc[0,::])

            trans =d.T
            trans['neg_cnt']=neg_cnt
            trans['pos_cnt']=pos_cnt
            trans['N']=N

            trans['MI_P']=np.log2(trans['WP']*trans['N']/trans['W']*trans['pos_cnt'])
            trans['MI_N']=np.log2(trans['WN']*trans['N']/trans['W']*trans['neg_cnt'])
            trans['SO_MI']=trans['MI_P'] - trans['MI_N']

            trans = trans.replace([np.inf, -np.inf], np.nan).dropna(axis=0)
            trans = trans.sort_values(by=['SO_MI'],ascending=False)
            return trans
        
        def update_dict(d):
            add_Dic = {0:[],1:[]}
            for i in d.T.items():
                if i[0] not in list(sent_dic[0]):
                    if len(i[0]) > 1:
                        add_Dic[0].append(i[0])
                        add_Dic[1].append(i[1]['SO_MI'])

            add_Dic=pd.DataFrame(add_Dic)
            Sentiment=pd.merge(sent_dic,add_Dic,'outer')
            return Sentiment
        
        self.pos, self.neg, self.new_dict = make_sent_dict(self.df['comment_cut'].values)
        
        self.t_dict = make_score_dict(self.new_dict,self.pos,self.neg)
        self.t_dict['SO_MI'] = scaler.fit_transform(self.t_dict['SO_MI'].values.reshape(-1,1))
       
        self.add_dict =update_dict(self.t_dict)
    
    def sent_analyze(self): # 데이터 감성분석
        tqdm.pandas()
        
        def get_cnt(x):
            cnt = 0
            for word in list(set(x)):
                target = self.add_dict[self.add_dict[0]==word]
                if len(target)==1:
                    cnt += float(target[1])
            return cnt

        def get_ratio(x): # log로 score 정규화
            score = x['score']
            length = np.log10(len(x['comment_cut']))+1
            try:
                ratio= round(score/length,2)
            except:
                ratio = 0
            return ratio
        
        tqdm.pandas()
        self.df['score']= self.df['comment_cut'].progress_apply(lambda x : get_cnt(x))
        self.df['ratio'] = self.df.apply(lambda x: get_ratio(x), axis = 1)

# 점수 도출 및 파일 저장

In [None]:
for i in range(96):
  # 반복 횟수 설정은 원하는 길이대로
  df = pd.read_table(f'data_txt/{f_names_new[i]}')
  #영화별로 총 댓글 수 다름 -> 자동화
  df = df.iloc[:,:] 
  # 기존 row name을 data에 맞게 변경
  df = df[['videoId','comment']]
  df = df.rename(columns={"videoId": "id", "comment": "sentence"})
  df

  # 잘 되었는지 확인
  tqdm.pandas()
  df['comment_cut'] = df['sentence'].apply(lambda x : text_preprocess(str(x))) # srt(x) 안해주면 오류 나는 경우 있음.... 왜?
  #df['comment_cut'] = df['sentence'].apply(lambda x : text_preprocess(x))
  df['comment_cut'] = df['comment_cut'].progress_apply(lambda x: tokenize(x))
  df

  # 점수 내기
  test = Aurora3(df,sent_dic)
  res = test.get_df()

  # score 결과 원하는 디렉토리에 파일로 저장
  score_res = pd.DataFrame(res)
  score_res.to_csv(f"../data_score/score_{f_names_new[i]}.csv", header=True, index=True)