# 이론적 배경
 ## 감정 분석
 - 감성 분석? 감정분석? 그냥 섞어 쓰는게 통념이다.
 - Sentimental Analysis or Emotional Analysis or Opinion Mining
 - 사전기반, ML, DL 세 가지 방법이 있다.
 - 어려운 게 아니고, 분류 문제이다.
 - 사전기반은 '감정 사전'이 필요하고, ML-DL은 'label'이 필요하다.
 - '감정 사전'이 '모델'의 역할을 한다.
 
 ## 사전기반 감정 분석
 - 잘 만들어 놓으면 안정적으로 사용가능
 - 범용성이 높음(80% 이상)
 - 도메인이 달라지더라도 안정성을 어느 정도 보장한다. 사전만 잘 만들어 두면.
 - 여전히 **현업**에서는 사전기반 감정 분석을 사용하고 있음.
 - 자연어처리 회사는 저마다 각자의 '감정 사전'을 보유한다.
 - **감정의 개념, 형태소의 개념을 명확히 알아야 '감정 사전'을 만들 수 있다.**
 
 ## ML, DL 감정 분석
 - 문장의 맥락을 본다.
 - 도메인이 달라지면 성능이 훅 떨어진다.
 
 ## Opinion Mining
 - 감정 6대 분석(긍정, (중립), 부정, 기쁨, 슬픔, 놀람, 분노)는 사실상 분리하기 어려워.
 - 그래서 6대 분석이 아니라 긍정, 중립, 부정 3단계(긍부정 분석)로 나누는 걸 opinion mining이라 한다.
 - <u>**우리는 여기서 긍부정 레벨을 사용한다.**</u>
 
 ## 감정이란?
 - 감정을 객관적으로 알 수 있는 건, 안면인식과 혈류 분석임.
 - Ekman: 감정과 표정을 매핑하는 연구를 함. authority가 있음.
 - 9가지 감정체계가 나중에는 54개 분류까지 확장됨. 너무함. 이건 사람들이 잘 안 받아들임.
 - 보통 3~5개(중립 빼고) 레벨로 분석한다.
 - 빈도분석, 전통적인 사전 이용 방법, 머신러닝, 딥러닝을 이용한 방법이 사용됨.
 
 ## 분석 감정의 종류
- 2분류:긍정–부정
- 3분류:긍정–중립–부정(가장 많이 사용. 뭐 쉬우니까.)
- 4분류: neutral, happy, sad, ANGER(disgust+anger)
- 5분류: neutral, happy, SURPRISE(surprise+fear), sad, ANGER(disgust+anger)
- 6분류: neutral, happy, surprise, fear, sad, ANGER(disgust+anger) 
- 7분류: neutral, happy, surprise, fear, sad, disgust, anger

## 감정어의 종류
- 감정어: 말하는 이의 감정을 주관적으로 표현하는 것으로 극성이 잘 안 바뀜.
    - 화나다. 즐겁다. 괴롭다. 슬프다.
- 평가어: 대상에 대한 감정을 사실적으로 평가하는 것으로서 맥락에 따라 극성이 바뀜.
    - 깨끗하다: 냉장고가 깨끗하다. 
    - 더럽다: 더럽게 깨끗하다.
    - 강화하다: 자금 경직성을 강화하다. 
    - 약화하다: 고통을 약화하다
- 감정어를 기본으로 하면서, 도메인 별로 평가어를 예외 처리하며 구축해야 함.

 
 # 응용분야
  ## 심리학
  - 1930~50년대, 심리학에서 text를 통해 내담자의 심리상태를 파악하고자 함.
  - 전남대 국문학과 김은영 박사의 심리 감정 동사 판별. 그러나 그 개수가 550개로 너무 적어 현업에서 활요하기는 곤란함.
  - 중국의 어떤 대학. 권위가 있어서 번역해서 사용함.
  - 서울대, 연세대 그렇게 질이 좋지 않음.
  - 
  

# 감성 분석 코드

## 데이터 로드

In [1]:
# 데이터 읽기와 쓰기를 위한 사용자 함수

def read_data(filename, encoding='cp949', start=1):
    with open(filename, 'r', encoding=encoding) as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        data = data[start:]
    return data

def write_data(data, filename, encoding='cp949'):
    with open(filename, 'w', encoding=encoding) as f:
        f.write(data)

path = '/Users/jsha/gjai/nlp/pytest/'
file = 'ratings.txt'

data = read_data(path+file)
len(data)

200000

## 형태소 분석

In [2]:
from tqdm import tqdm # 이거 엄청 느리네. 쓰지말자.
import rhinoMorph

rn = rhinoMorph.startRhino()

morphed_data = ''
# for data_each in tqdm(data):
for data_each in data:
    morphed_data_each = rhinoMorph.onlyMorph_list(rn, data_each[1],
                    pos= ['NNG', 'NNP', 'VV', 'VA', 'XR', 'IC', 
                          'MM', 'MAG', 'MAJ'])
    joined_data_each = ' '.join(morphed_data_each)
    if joined_data_each:
        morphed_data += data_each[0] + '\t' + \
        joined_data_each + '\t' + data_each[2] + '\n'
write_data(morphed_data, path+'ratings_morphed.txt')

filepath:  /Users/jsha/opt/anaconda3/envs/nlp3710/lib/python3.7/site-packages
classpath:  /Users/jsha/opt/anaconda3/envs/nlp3710/lib/python3.7/site-packages/rhinoMorph/lib/rhino.jar
RHINO started!


In [3]:
data = read_data(path+'ratings_morphed.txt')
len(data)

197559

In [9]:
data_id = [line[0] for line in data]
data_text = [line[1] for line in data]
data_senti = [line[2] for line in data]

positive = read_data(path+'positive.txt') # 긍정 감정 사전 읽기
negative = read_data(path+'negative.txt') # 부정 감정 사전 읽기


## 감정단어 파악

In [5]:
def cntWorldInLine(data, senti):
    senti_found = []
    for onedata in data:
        oneline_word = onedata.split(' ')     # 한줄의 데이터를 공백 단위로 분리하여 리스트로 저장
        senti_temp = 0                        # 그 줄에서 발견된 감정단어의 수를 담는 변수
        for sentiword in senti:               # 감정 사전의 어휘
            if sentiword[0] in oneline_word:  #sentiword[0] 하여 리스트 원소를 추출(문자열)
                senti_temp += 1               # 현재의 감정단어와 일치하면 숫자를 하나 올려 줌.(중복허용 X)
        senti_found.append(senti_temp)        # 현재의 줄에서 찾은 감성단어의 숫자를 해당 위치에 저장
    return senti_found

data_senti_poscnt = cntWorldInLine(data_text, positive)
data_senti_negcnt = cntWorldInLine(data_text, negative)

In [6]:
print(data_senti_poscnt[:20])
print(data_senti_negcnt[:20])

[5, 1, 0, 0, 2, 1, 0, 0, 0, 1, 1, 1, 0, 1, 2, 0, 1, 0, 1, 0]
[1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1]


## 감정점수 계산

In [18]:
import pandas as pd
newdata = pd.DataFrame({'id':data_id, 'text':data_text, 'original':data_senti,
                        'pos':data_senti_poscnt, 'neg':data_senti_negcnt})
newdata['senti_score'] = newdata['pos'] - newdata['neg']

newdata.loc[newdata.senti_score > 0, 'new'] = 1
newdata.loc[newdata.senti_score <= 0, 'new'] = 0

newdata.loc[pd.to_numeric(newdata.original) == newdata.new, 'matched']= 'True'
newdata.loc[pd.to_numeric(newdata.original) != newdata.new, 'matched'] = 'False'

newdata.head()
score = newdata.matched.str.count('True').sum() / \
(newdata.matched.str.count('True').sum() + newdata.matched.str.count('False').sum()) * 100
print(score)

In [25]:
newdata.to_csv('newfile.csv', encoding='cp949', index=False)
newdata.to_csv('newfile.txt', sep='\t', encoding='cp949', index=False)