# 감성 분석 : Sentiment Analysis(SA)


### 1. 정의

    sentiment ?
    - attitudes, emotions, opinions (사실 x, 주관 o) 
    
- 사용자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트 마이닝(text mining) 기술의 한 영역으로, 

    문서를 작성한 사람이 어떠한 감성을 가지고 있는가를 판단하여 객관적이고 체계적으로 수치화하는 기술을 말한다


### 2. 감성분석 사례
- 제품 리뷰 긍정/부정?
- 주식시장의 변동 예측
- 선거 이후 대통령에 대한 태도 변화?(12년 미국 대선)
- ...

### 3. 감성분석의 3가지 과제
- 주관-객관 극성 판단
- 긍정-부정 극성 판단
- 긍정-부정 강도 판단

    ; 이 작업을 위해 감정어 사전사용   
    ( 감정어 사전 : sentiwordnet(영어), KOSAC(한글), Liwc ...)

### 3. 감성분석의 3단계 : 데이터 수집 - 주관성 탐지 - 극성 탐지

1) 데이터 수집(Data Collection)

2) 주관성 탐지 (Subjectivity Detection)
     - 주관성이 없는 부분 제외 / 개인정보(이름, 성별) 제외

3) 극성 탐지(분석) (Polarity Detection) 
    - 데이터가 긍정 or 부정 or 중립인지 판단 후, 통계적 기법 적용
    - 각 단어의 '빈도' or 긍,부정 같은 '속성'에 따라 가중치 부여한 뒤, 전체 텍스트의 극성을 분석
    - '문서' 단위의 분석 / '속성' 단위의 분석 : 단순히 긍정(부정) 단어의 갯수를 세는 것은 텍스트 전체의 의미를 잘못 해석할 가능성O
        ->문서 단위 분석은 오류 확률큼/ 속성 단위 분석 사용 한줄한줄씩 읽어나가기
    - '담화'분석 : 여러 문장 사이의 연관성·문맥 고려해 분석

### 4. SA에 사용되는 언어 모형 및 알고리즘

#### 1. 언어 모형

- 유니그램(Unigram) 
    - 컴퓨터가 사용하는 대표적 언어 모형
    - '좋다','나쁘다'같이 하나의 단어를 다름
    - 장점 : 통계적으로 정확한 모델을 제공 / 직관적인 해석 가능 / 비정형 데이터를 가장 간단하게 수치화
    - 단점 : 단어의 순서와 같은 문법사항 고려하지 않음 
    ( 좋지 않다 : 의미가 반대가 됨 // 매우 좋다 : 감성의 강도 셈 -> 해석 ㄴ)
    
    
- 바이그램 (Bigram)
    - 부정어나 강조 부사와 같이 두 단어 인식


- N-gram : n개의 연속적 단어의 순서와 상관관계 파악가능

#### 2. 알고리즘

- 나이브 베이즈 
    - 기본적 분류 알고리즘
    - 텍스트가 긍/부정에 포함될 확률을 구하는 방법
    - 텍스트를 순서가 없는 단순한 단어 집합으로 가정( BoW : bag of words )
    - 단순 문서 카테고리 분류에서 80~90% 정확
    
    
- 서포트 벡터 머신
    - 단어의 문법적인 연관성 정확 판별
    

### 5. 한계점
- 영어와 비교, 한국어 감성 분석기술의 어려움이 큼
( 어순의 자유로움, 주어·명사의 생략으로 모호)

------------------------------------------------------------------------

# EX01. 나이브베이즈 이용

In [1]:
# nltk : natural language toolkit 
# 컴퓨터가 자연어 처리를하는데 사용하는 패키지
# nltk 다운 : https://pypi.python.org/pypi/nltk#downloads
import nltk
from nltk.classify import NaiveBayesClassifier

In [2]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [4]:
#nltk.download('sentiwordnet')

[nltk_data] Downloading package sentiwordnet to
[nltk_data]     C:\Users\Chankoo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\sentiwordnet.zip.


True

In [5]:
#nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Chankoo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [2]:
# 3개의 클래스 정의

positive_vocab = [ 'awesome', 'outstanding', 'fantastic', 'terrific', 'good', 'nice', 'great', ':)' ]
negative_vocab = ['bad', 'terrible','useless', 'hate', ':(' ]
neutral_vocab = [ 'home','movie','the','sound','was','is','actors','did','know','words','not']

In [3]:
# BoW 정의

def word_feats(words):
    return dict([(word, True) for word in words])

positive_features = [(word_feats(pos), 'pos') for pos in positive_vocab]
negative_features = [(word_feats(neg), 'neg') for neg in negative_vocab]
neutral_features = [(word_feats(neu), 'neu') for neu in neutral_vocab]

In [4]:
positive_features

[({'a': True, 'e': True, 'm': True, 'o': True, 's': True, 'w': True}, 'pos'),
 ({'a': True,
   'd': True,
   'g': True,
   'i': True,
   'n': True,
   'o': True,
   's': True,
   't': True,
   'u': True},
  'pos'),
 ({'a': True,
   'c': True,
   'f': True,
   'i': True,
   'n': True,
   's': True,
   't': True},
  'pos'),
 ({'c': True, 'e': True, 'f': True, 'i': True, 'r': True, 't': True}, 'pos'),
 ({'d': True, 'g': True, 'o': True}, 'pos'),
 ({'c': True, 'e': True, 'i': True, 'n': True}, 'pos'),
 ({'a': True, 'e': True, 'g': True, 'r': True, 't': True}, 'pos'),
 ({')': True, ':': True}, 'pos')]

In [5]:
# 나이브베이즈 분류기로 training

train_set = negative_features + positive_features + neutral_features
classifier = NaiveBayesClassifier.train(train_set)

In [6]:
# Predict

neg = 0
pos = 0
neu = 0
sentence = "Awesome movie, I liked it"
sentence = sentence.lower()
words = sentence.split(' ')

for word in words:
    classResult = classifier.classify(word_feats(word))
    if classResult == 'neg':
        neg = neg + 1
    if classResult == 'pos':
        pos = pos + 1
    if classResult == 'neu':
        neu = neu + 1

print('Positive: ' + str(float(pos)/len(words)))
print('Negative: ' + str(float(neg)/len(words)))
print('Neutral: ' + str(float(neu)/len(words)))


Positive: 0.4
Negative: 0.2
Neutral: 0.4


In [7]:
classResult

'pos'

-----------------------------------

# EX02. Sentiwordnet이용

In [8]:
#sentiwordnet 불러오기

from nltk.corpus import sentiwordnet as swn

In [9]:
list(swn.senti_synsets('hate'))

[SentiSynset('hate.n.01'), SentiSynset('hate.v.01')]

In [10]:
# 'hate'의 긍정 스코어
list(swn.senti_synsets('hate','v'))[0].pos_score()

0.0

In [11]:
# 'hate'의 부정 스코어
list(swn.senti_synsets('hate','v'))[0].neg_score()

0.75

---------------------------------------------------------------------

#### 단어마다 여러 유의어가 존재하는 경우 : 특정 단어의 모든 유의어의 긍/부정 스코어를 평균해서 정의

In [12]:
list(swn.senti_synsets('tire'))

[SentiSynset('tire.n.01'),
 SentiSynset('tire.v.01'),
 SentiSynset('tire.v.02'),
 SentiSynset('run_down.v.06'),
 SentiSynset('bore.v.01')]

In [13]:
# 'tire'의 동사 유의어 점수 평균 (방법1)

def word_sentiment_calculator(word,tag):
    pos_score=0
    neg_score=0
    
    if 'NN' in tag and len(list(swn.senti_synsets(word,'n')))>0:
        syn_set = list(swn.senti_synsets(word,'n'))
    elif 'VB' in tag and len(list(swn.senti_synsets(word,'v')))>0:
        syn_set = list(swn.senti_synsets(word,'v'))
    elif 'JJ' in tag and len(list(swn.senti_synsets(word,'a')))>0:
        syn_set = list(swn.senti_synsets(word,'a'))
    elif 'RB' in tag and len(list(swn.senti_synsets(word,'r')))>0:
        syn_set = list(swn.senti_synsets(word,'r'))
    else:
        return (0,0)
    
    for syn in syn_set:
        pos_score += syn.pos_score()
        neg_score += syn.neg_score()
        
    return (pos_score/len(syn_set),neg_score/len(syn_set))

In [14]:
word_sentiment_calculator('tire','VB')

(0.09375, 0.0)

In [15]:
# 'tire'의 동사 유의어 점수 평균 (방법2)
list(swn.senti_synsets('tire','v'))

[SentiSynset('tire.v.01'),
 SentiSynset('tire.v.02'),
 SentiSynset('run_down.v.06'),
 SentiSynset('bore.v.01')]

In [16]:
list(swn.senti_synsets('tire','v'))[0].pos_score()

0.0

In [17]:
list(swn.senti_synsets('tire','v'))[1].pos_score()

0.25

In [18]:
list(swn.senti_synsets('tire','v'))[2].pos_score()

0.0

In [19]:
list(swn.senti_synsets('tire','v'))[3].pos_score()

0.125

-------------------------

# EX03-1. 영화 리뷰(Sentiwordnet)

In [None]:
# http://ai.stanford.edu/~amaas/data/sentiment/ 
# 샘플 데이터 다운 : 영화사이트 리뷰 5만개를 수집해 긍/부정 분류로 나눈 dataset

In [20]:
import os
import nltk

# os 패키지: operating system
# 운영체제에서 쓰는 여러 기능들을 python에서 쓸수 있게 해줌

In [21]:
#nltk.download('punkt')
# nltk.download('popular')

In [102]:
# 긍정/부정 리뷰 10개씩 불러오기

pos_files = os.listdir('aclImdb_v1.tar(sample)/test/pos')[:10]
neg_files = os.listdir('aclImdb_v1.tar(sample)/test/neg')[:10]

In [66]:
# 긍정, 부정 분류의 accuracy 살펴보자

actual = [1]*10 + [0]*10 # 긍정(1), 부정(0)을 순서대로 불러왔기 때문에
predicted = []

In [24]:
# 문장의 긍/부정 지수

def sentence_sentiment_calculator(pos_tags): 
    pos_score=0
    neg_score=0
    s_tk=nltk.word_tokenize(pos_tags) # word_tokenize() :어절별로 나누기
    pos_tags=nltk.pos_tag(s_tk) # pos_tag() : 형태소 출력
    
    for word,tag in pos_tags:
        pos_score += word_sentiment_calculator(word,tag)[0] # pos 평균값
        neg_score += word_sentiment_calculator(word,tag)[1] # neg 평균값
        
    return(pos_score,neg_score)

In [25]:
# 확인

sentence_sentiment_calculator("i am very tired, i want to go home")

(0.5232905982905983, 0.7358974358974358)

-----------------------

#### actual vs predicted

In [67]:
# 긍정 스코어를 대/소 비교(pos_files)
# 긍정 doc 10개
for file in pos_files:
    print(file)
    with open('aclImdb_v1.tar(sample)/test/pos/{}'.format(file),'r',encoding='utf-8') as f:
        scores = sentence_sentiment_calculator(f.read())
        
        if scores[0] >= scores[1]:
            predicted.append(1)   # 긍정 수치가 높으면 1반환
        else:
            predicted.append(0)  # 부정 수치가 높은면 0 반환
        f.close()

0_10.txt
100_10.txt
101_9.txt
102_8.txt
103_10.txt
104_10.txt
105_8.txt
106_9.txt
107_10.txt
108_10.txt


In [68]:
# 부정 스코어를 대/소 비교(neg_files)
# 부정 doc 10개
for file in neg_files:
    with open('aclImdb_v1.tar(sample)/test/neg/{}'.format(file),'r',encoding='utf-8') as f:
        scores = sentence_sentiment_calculator(f.read())
        
        if scores[0] >= scores[1]:
            predicted.append(1) # 긍정 수치가 높으면 1반환
        else:
            predicted.append(0)  # 부정 수치가 높은면 0 반환
        f.close()

In [69]:
# correct/incorrect 갯수

correct = 0
incorrect = 0

for i in range(20):
    if actual[i] == predicted[i]:
        correct +=1
    else:
        incorrect +=1

In [70]:
print(actual) 
print(predicted)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0]


In [71]:
print('Number of correct instance: ',correct)
print('Number of incorrect instance: ',incorrect)

# 13/20(65%)의 확률의 성능

Number of correct instance:  13
Number of incorrect instance:  7


-----------------------------

# EX03-2. 영화리뷰(Naive Bayes Classifier)

In [72]:
from nltk.corpus import stopwords
stopWords=set(stopwords.words('english'))

# stopword(불용어) : 인터넷 검색 시 검색 용어로 사용하지 않는 단어, 관사, 조사 등등 의미 없는 단어
# nltk의 불용어 특징: 각 글자가 소문자

In [73]:
print(stopWords)

{'m', 'isn', 'having', 'other', 'just', 'can', 'didn', 'hadn', "haven't", 'most', 'until', 'such', 'again', "hadn't", 'further', 'off', 'you', 'o', 'at', "shan't", "mightn't", 'have', 's', 'from', 're', 'few', "you've", 'because', 'been', 'but', "should've", 'aren', 'with', 'mustn', "wouldn't", 'and', 'don', 'which', 'an', 'the', 'a', 'here', 'then', "she's", 'its', 'how', 'same', 'i', 'they', "it's", 'more', 'll', 'will', 'through', 'where', 'had', 'hers', 'is', 'some', 'needn', 'too', 'them', 'during', 'did', 'was', 'were', 'any', "won't", "doesn't", 'he', 'ourselves', 'or', 'itself', 'himself', 'doesn', 'me', 'd', 'as', 'than', 'y', 'be', "didn't", 'shan', 'she', 'that', "mustn't", 'what', 'out', 'whom', 'under', 'only', 'yourselves', 'do', 'haven', 'it', 'why', 'both', 'of', 'for', 'ain', 'hasn', "couldn't", 'before', 'his', 'after', 't', 'theirs', 'ma', 'to', 'her', 'your', "don't", 'my', 'yourself', 'shouldn', 'myself', 'very', 'are', 'we', 'over', 'in', "wasn't", 'being', "you'r

In [74]:
words = [] 

# 긍정 학습 리뷰를 word 리스트로

files=os.listdir('aclImdb_v1.tar(sample)/test/pos')

for file in files:
    with open('aclImdb_v1.tar(sample)/test/pos/{}'.format(file),'r',encoding = 'utf-8') as f:
        review = nltk.word_tokenize(f.read()) # 어절별로 나누기
        
        for token in review:
            if token not in stopWords:
                words.append(token)  # 불용어 제거
                
print(len(words))

47288


In [75]:
# 같은 방식으로 부정 학습 데이터를 word 리스트로

files=os.listdir('aclImdb_v1.tar(sample)/test/neg')

for file in files:
    with open('aclImdb_v1.tar(sample)/test/neg/{}'.format(file),'r',encoding = 'utf-8') as f:
        review = nltk.word_tokenize(f.read())
        for token in review:
            if token not in stopWords:
                words.append(token)
                
print(len(words))

91333


In [76]:
# words의 상위 3000개만 사용

words=nltk.FreqDist(words) # FreqDist() : 빈도수 분석
word_features=list(words.keys())[:3000] #상위 3000개 추출

In [77]:
print(word_features[:100])

['\ufeffI', 'went', 'saw', 'movie', 'last', 'night', 'coaxed', 'friends', 'mine', '.', 'I', "'ll", 'admit', 'reluctant', 'see', 'knew', 'Ashton', 'Kutcher', 'able', 'comedy', 'wrong', 'played', 'character', 'Jake', 'Fischer', 'well', ',', 'Kevin', 'Costner', 'Ben', 'Randall', 'professionalism', 'The', 'sign', 'good', 'toy', 'emotions', 'This', 'one', 'exactly', 'entire', 'theater', '(', 'sold', ')', 'overcome', 'laughter', 'first', 'half', 'moved', 'tears', 'second', 'While', 'exiting', 'many', 'women', 'full', 'grown', 'men', 'trying', 'desperately', 'let', 'anyone', 'crying', 'great', 'suggest', 'go', 'judge', 'finest', 'short', "'ve", 'ever', 'seen', 'Some', 'commentators', 'might', 'lengthened', 'due', 'density', 'insight', 'offers', 'There', "'s", 'irony', 'comment', 'little', 'merit', 'acting', 'Noonan', 'carries', 'thankless', 'perfectly', 'preferred', 'narrator', 'less', '``', 'recognizable', "''", 'gravitas', 'lent']


In [78]:
# features를 보여주는 함수 생성

def find_features(doc):
    words = set(doc)
    features = {}
    
    for w in word_features:
        features[w] = (w in words)
        
    return features

In [95]:
# 1번째 리뷰데이터 feature 생성 : 
#Once again Mr. Costner has dragged out a movie for far longer than necessary~~

with open('aclImdb_v1.tar(sample)/test/neg/{}'.format(files[0]),'r',encoding='utf-8') as f:
    review = nltk.word_tokenize(f.read())

In [96]:
find_features(review)['saw'] #saw 는 doc에 불포함

False

In [97]:
find_features(review)['movie'] # movie는 포함

True

------------------------

긍/부정 예측

In [80]:
# 250개의 리뷰 데이터에 대한 feature set 생성
feature_sets =[]


# training(pos)
files = os.listdir('aclImdb_v1.tar(sample)/train/pos')[:250]
for file in files:
    with open('aclImdb_v1.tar(sample)/train/pos/{}'.format(file),'r',encoding='utf-8') as f:
            review = nltk.word_tokenize(f.read())
            feature_sets.append((find_features(review),'pos'))

# training(neg)         
files = os.listdir('aclImdb_v1.tar(sample)/train/neg')[:250]
for file in files:
    with open('aclImdb_v1.tar(sample)/train/neg/{}'.format(file),'r',encoding='utf-8') as f:
            review = nltk.word_tokenize(f.read())
            feature_sets.append((find_features(review),'neg'))
            
          

        #########################################

        
# test(pos)
files = os.listdir('aclImdb_v1.tar(sample)/test/pos')[:250]
for file in files:
    with open('aclImdb_v1.tar(sample)/test/pos/{}'.format(file),'r',encoding='utf-8') as f:
            review = nltk.word_tokenize(f.read())
            feature_sets.append((find_features(review),'pos'))
            
            
# test(neg)
files = os.listdir('aclImdb_v1.tar(sample)/test/neg')[:250]
for file in files:
    with open('aclImdb_v1.tar(sample)/test/neg/{}'.format(file),'r',encoding='utf-8') as f:
            review = nltk.word_tokenize(f.read())
            feature_sets.append((find_features(review),'neg'))

In [81]:
training_set = feature_sets[:500]
test_set = feature_sets[500:]

In [82]:
clf = nltk.NaiveBayesClassifier.train(training_set)

In [83]:
result = nltk.classify.accuracy(clf, test_set)*100

In [84]:
print('Accuracy of the Naive Bayes classification model: ', result)

Accuracy of the Naive Bayes classification model:  78.60000000000001


In [99]:
clf.most_informative_features()[:20] #most_informative한 단어

[('worst', True),
 ('Unfortunately', True),
 ('single', True),
 ('loved', True),
 ('brilliant', True),
 ('elements', True),
 ('amount', True),
 ('result', True),
 ('Instead', True),
 ('beauty', True),
 ('emotions', True),
 ('masterpiece', True),
 ('fantastic', True),
 ('George', True),
 ('William', True),
 ('terrible', True),
 ('sees', True),
 ('superb', True),
 ('Miss', True),
 ('begin', True)]

In [89]:
clf.show_most_informative_features()

Most Informative Features
                   worst = True              neg : pos    =     29.0 : 1.0
           Unfortunately = True              neg : pos    =      9.7 : 1.0
                  single = True              neg : pos    =      7.7 : 1.0
                   loved = True              pos : neg    =      7.3 : 1.0
               brilliant = True              pos : neg    =      7.0 : 1.0
                elements = True              pos : neg    =      6.6 : 1.0
                  amount = True              neg : pos    =      6.3 : 1.0
                  result = True              neg : pos    =      6.3 : 1.0
                 Instead = True              neg : pos    =      6.3 : 1.0
                  beauty = True              pos : neg    =      6.3 : 1.0
