# 감성 분석 (by using Lexicon)

+ Lexicon: 감성만을 분석하기 위해 지원하는 감성 어휘 사전  

비지도 감성 분석은 Lexicon을 기반으로 하는 것이다. supervised와 달리 결정된 lable 값이 존재하지 않는다. 이러한 경우에 Lexicon은 유용하게 사용될 수 있다. 이것은 긍정 감성 or 부정 감성의 정도를 의미하는 수치를 갖고 있으며 이를 감성 지수(Polarity score)라고 한다.  
이 감성 지수는 단어의 위치, 주변 단어, 문맥, POS(part of Speech)를 참고해 결정한다.  
  
  + SentiWordNet: 각각의 품사로 구성된 개별의 단어를 Synset(Sets of cognitive synonyms)라는 개념을 이용해 표현한다. Synset은 단순한 하나의 단어가 아니라 그 단어가 가지는 문맥,시멘틱 정보를 제공하는 WordNet의 핵심 개념
  + VADER: 주로 소셜 미디어의 텍스트에 대한 감성 분석을 제공하기 위한 패키지. 뛰어난 결과, 빠른 수행 시간, 대용량 텍스트에 잘 사용.
  + Pattern: 예측 성능에서 주목, 하지만 파이썬 3 버전에서 호환 x



## SentiWordNet을 이용한 감성 분석

SentiWordNet은 WordNet 기반의 synset을 이용하므로 먼저 synset에 대한 개념을 이해한 후에 SentiWordNet을 살펴보겠다. 먼저 WordNet을 이용하기 위해서는 NLTK를 셋업한 후에 WordNet 서브패키지와 데이터 세트를 내려받아야 한다. 

In [2]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\biocreative_ppi.zip.
[nltk_data]    | Downloading package brown to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\brown.zip.
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\brown_tei.zip.
[nltk_data]    | Downloading package cess_cat to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_

[nltk_data]    |   Unzipping corpora\pros_cons.zip.
[nltk_data]    | Downloading package qc to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\qc.zip.
[nltk_data]    | Downloading package reuters to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package rte to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\rte.zip.
[nltk_data]    | Downloading package semcor to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package senseval to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\senseval.zip.
[nltk_data]    | Downloading package sentiwordnet to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\sentiwordnet.zip.
[nltk_data]    | Downloading package sentence_polarity to
[nltk_data]    |   

[nltk_data]    |   Unzipping corpora\nonbreaking_prefixes.zip.
[nltk_data]    | Downloading package vader_lexicon to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package porter_test to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping stemmers\porter_test.zip.
[nltk_data]    | Downloading package wmt15_eval to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping models\wmt15_eval.zip.
[nltk_data]    | Downloading package mwa_ppdb to
[nltk_data]    |     C:\Users\kiwon\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping misc\mwa_ppdb.zip.
[nltk_data]    | 
[nltk_data]  Done downloading collection all


True

NLTK의 모든 데이터 세트 내려받은 뒤에 present 단어에 대한 synsets을 추출. WordNet의 sysnsets()는 파라미터로 지정된 단어에 대해 WorldNet에 등재된 모든 Synset 객체를 반환한다.

In [3]:
from nltk.corpus import wordnet as wn

term='present'

# present 라는 단어로 wordnet의 synsets 생성.
synsets= wn.synsets(term)
print('synsets() 반환 type:', type(synsets))
print('synsets() 반환 값 개수:', len(synsets))
print('synsets() 반환 값:', synsets)

synsets() 반환 type: <class 'list'>
synsets() 반환 값 개수: 18
synsets() 반환 값: [Synset('present.n.01'), Synset('present.n.02'), Synset('present.n.03'), Synset('show.v.01'), Synset('present.v.02'), Synset('stage.v.01'), Synset('present.v.04'), Synset('present.v.05'), Synset('award.v.01'), Synset('give.v.08'), Synset('deliver.v.01'), Synset('introduce.v.01'), Synset('portray.v.04'), Synset('confront.v.03'), Synset('present.v.12'), Synset('salute.v.06'), Synset('present.a.01'), Synset('present.a.02')]


Synset('present.n.01')와 같이 Synset 객체의 파라미터 'present.n.01'은 POS 태그를 나타낸다. present는 의미,n은 명사 품사, 01은 present가 명사로서 가지는 의미가 여러 가지 있어서 이를 구분하는 인덱스이다.

### SentiWordNet과 WordNet의 비교 - WordNet
WordNet은 어떤 어휘와 다른 어휘 간의 관계를 유사도로 나타낼 수 있다. synset 객체는 단어 간의 유사도를 나타내기 위해서 path_similarity() 메서드를 제공한다. path_similarity()를 이용해 tree,lion,tiger,cat,dog라는 단의의 유사도를 살펴보자.

In [18]:
# synset 객체를 단어별로 생성한다.
tree=wn.synset('tree.n.01')
lion=wn.synset('lion.n.01')
tiger=wn.synset('tiger.n.02')
cat=wn.synset('cat.n.01')
dog=wn.synset('dog.n.01')

entities=[tree,lion,tiger,cat,dog]
similarities=[]
entitiy_names=[entitiy.name().split('.')[0] for entitiy in entities]

# 단어별 synset을 반복하면서 다른 단어의 sysnset과 유사도를 측정한다.
for entitiy in entities:
    similarity=[round(entitiy.path_similarity(compared_entitiy),2)
               for compared_entitiy in entities]
    
    similarities.append(similarity)


# 개별 단어별 synset과 다른 언어의 synset과의 유사도를 DataFrame 형태로 저장한다.
import pandas as pd
similarity_df=pd.DataFrame(similarities,columns=entitiy_names,index=entitiy_names)
similarity_df


Unnamed: 0,tree,lion,tiger,cat,dog
tree,1.0,0.07,0.07,0.08,0.12
lion,0.07,1.0,0.33,0.25,0.17
tiger,0.07,0.33,1.0,0.25,0.17
cat,0.08,0.25,0.25,1.0,0.2
dog,0.12,0.17,0.17,0.2,1.0


### SentiWordNet과 WordNet의 비교 - SentiWordNet

In [55]:
import nltk
from nltk.corpus import sentiwordnet as swn

senti_synsets= list(swn.senti_synsets('slow'))
print('senti_synsets() 반환 type:', type(senti_synsets))
print('senti_synsets() 반환 값 개수:', len(senti_synsets))
print('senti_synsets() 반환 값:', senti_synsets)

senti_synsets() 반환 type: <class 'list'>
senti_synsets() 반환 값 개수: 11
senti_synsets() 반환 값: [SentiSynset('decelerate.v.01'), SentiSynset('slow.v.02'), SentiSynset('slow.v.03'), SentiSynset('slow.a.01'), SentiSynset('slow.a.02'), SentiSynset('dense.s.04'), SentiSynset('slow.a.04'), SentiSynset('boring.s.01'), SentiSynset('dull.s.08'), SentiSynset('slowly.r.01'), SentiSynset('behind.r.03')]


SentiSynset 객체는 단어의 감성을 나타내는 감성 지수와 객관성을 나타내는 객관성 지수를 가지고 있다. 어떤 단어가 전혀 감성적이지 않으면 객관성 지수는 1이 되고, 감성 지수는 모두 0이 된다. 다음은 father와 fabulous라는 두 개 단어의 감성 지수와 객관성 지수이다.

In [79]:
import nltk
from nltk.corpus import sentiwordnet as swn
senti_synsets= list(swn.senti_synsets('slow'))
father= swn.senti_synset('father.n.01')
print('father 긍정감성 지수:', father.pos_score())
print('father 부정감성 지수:', father.neg_score())
print('father 객관성 지수:', father.obj_score())
print('\n\n')
fabulous=swn.senti_synset('fabulous.a.01')
print('fabulous 긍정감성 지수:', fabulous.pos_score())
print('fabulous 부정감성 지수:', fabulous.neg_score())

father 긍정감성 지수: 0.0
father 부정감성 지수: 0.0
father 객관성 지수: 1.0



fabulous 긍정감성 지수: 0.875
fabulous 부정감성 지수: 0.125


## SentiWorldNet을 이용한 영화 감상평 감성 분석

IMDB 영화 감상평 데이터를 SentiWordNet Lexicon 기반인 비지도학습으로 감성 분석을 수행할 것이다.  
  
  
######### IMDB 감상평 감성 분석 수행과정 ###############

1) 문서(Document) --> 문장(Sentence) 단위로 분해  

2) 문장(Sentence) --> 단어(Word) 단위로 토큰화하고 품사 태깅  

3) 품사 태깅된 단어 기반으로 synset 객체와 senti_synset 객체를 생성  

4) Senti_synset에서 긍정 감성/부정 감성 지수를 구하고 이를 모두 합산해 특정 임계치 값 이상일 때 긍정 감성으로, 그렇지 않을 떄는 부정 감성으로 결정.

In [1]:
from nltk.corpus import wordnet as wn

# 간단한 NTLK PennTreebank Tag를 기반으로 WordNet 기반의 품사 Tag로 반환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB

품사 태깅 수행하는 함수 생성

In [None]:
from nltk.stem import WorldNetLemmatizer
from nltk.corpus import sentiwordnet as wn
from nltk import sent_tokenize, work_tokenize, pos_tag

def swn_polarity(text):
    # 감성 지수 초기화
    sentiment=0.0
    tokens_count=0
    
    lemmatizer=WorldNetLemmatizer()
    raw_sentences=sent_tokenzie(text)  # sent_tokenize --> 문장 단위로 tokenization
    
    # 분해된 문장별로 단어 토큰 -> 품사 태깅 후에 SentiSynset 생성 -> 감성 지수 합산
    for raw_sentence in raw_sentences:
        # NTLK 기반의 품사 태깅 문장 추출
        tagged_sentence= pos_tag(word_tokenize(raw_sentence))
        for word, tag in tagged_sentence:
            # WordNet 기반 품사 태깅과 어근 추출
            wn_tag= penn_to_wn