# 0. Intro

자연어의 담긴 어조가 긍정, 부정, 중립인지 확인하는 작업

감성을 판단하는 기준을 만드는 방법에 따라 두 가지 접근법이 존재함

## (1) 규칙 기반 감성 분석

`-` **감성 어휘 사전**을 기준으로 특정 단어가 어떠한 감정인지 분류하는 장법

* 직관적으로 이해하기 쉽고, 연산 속도가 빠름

* 그러나 감성 어휘 사전에 없는 단어들로 이루어진 코퍼스는 분석이 제한된다는 단점이 있다..

## (2) 머신러닝 기반 감성 분석

`-` 다수의 코퍼스들을 통해 긍정 단어와 부정 단어를 구분하는 모델을 학습시켜 학습한 모델을 기반으로 감성 지수를 확인하는 방법

* 이점 : 감성 어휘 사전에 없는 단어들로 이루어졌거나 오타가 많은 코퍼스를 분석할 때 효과적이다.

* 단점 : 학습을 위한 대량의 훈련 데이터가 필요함, 분석 결과가 규칙 기반 감성 분석보다 안정적이지 않다는 단점도 있다.

***

# 1. WordNet

NLTK에서 제공하는 대규모 영어 어휘 사전

* 단어와 함께 해당 단어의 문맥상 의미가 저장되어 있음

> ex
> * She had the lead in a new film.
> * She found lead.

* 위 두 문장의 `lead`는 `이끌다`, `납`이라는 두 가지 의미를 가진다.

* WordNet은 이러한 문맥상 의미를 나타내기 위해 `Synset(Sets of Cognitive Synonyms)`을 제공함.
    * `Synset` : 특정 단어의 품사와 유의어 목록을 통해 단어의 문맥상 의미를 나타냄

## 실습

`1` 함수 로드

In [1]:
from nltk.corpus import wordnet as wn

`2` Synset 적용 

In [2]:
synsets = wn.synsets('lead')
print(synsets)

[Synset('lead.n.01'), Synset('lead.n.02'), Synset('lead.n.03'), Synset('lead.n.04'), Synset('lead.n.05'), Synset('lead.n.06'), Synset('lead.n.07'), Synset('star.n.04'), Synset('lead.n.09'), Synset('tip.n.03'), Synset('lead.n.11'), Synset('spark_advance.n.01'), Synset('leash.n.01'), Synset('lead.n.14'), Synset('lead.n.15'), Synset('jumper_cable.n.01'), Synset('lead.n.17'), Synset('lead.v.01'), Synset('leave.v.07'), Synset('lead.v.03'), Synset('lead.v.04'), Synset('lead.v.05'), Synset('run.v.03'), Synset('head.v.02'), Synset('lead.v.08'), Synset('contribute.v.03'), Synset('conduct.v.02'), Synset('go.v.25'), Synset('precede.v.04'), Synset('run.v.23'), Synset('moderate.v.01')]


`3` 결과 해석

* Synset은 `Synset('단어, 품사, 순번')`의 형태를 가진다.

* Wordnet 품사 복기

|품사 태그|품사|
|:---|:---|
|`n` (wn.NOUN)|명사|
|`a` (wn.ADJ)|형용사|
|`r` (wn.ADV)|부사|
|`r` (wn.VERB)|동사|


* `Synset('lead.n.01')`과 `Synset('lead.n.02')`처럼 단어의 형태와 품사가 같더라도 의미가 다른 경우를 순번으로 구분

* 각 순번에 해당하는 정확한 단어의 의미는 `definition()` 함수로 확인

In [3]:
print(wn.synset('lead.n.01').definition())
print(wn.synset('lead.n.02').definition())

an advantage held by a competitor in a race
a soft heavy toxic malleable metallic element; bluish white when freshly cut but tarnishes readily to dull grey


* 또한, `lead`와 비슷한 의미의 단어들도 `Synset` 목록에 포함된다.
    * `Synset('star.n.04')`, `Synset('tip.n.03)`

 * 마지막으로, 같은 단어가 품사에 따라 의미가 다를 수 있음
    *  `Synset('lead.n.01')`, `Synset('lead.v.01')`
    *  이럴 경우에는 특별히 원하는 품사의 `Synset`만 따로 추출하여 사용할 수 있다.

In [4]:
synsets = wn.synsets('lead', 'n')

print(synsets)

[Synset('lead.n.01'), Synset('lead.n.02'), Synset('lead.n.03'), Synset('lead.n.04'), Synset('lead.n.05'), Synset('lead.n.06'), Synset('lead.n.07'), Synset('star.n.04'), Synset('lead.n.09'), Synset('tip.n.03'), Synset('lead.n.11'), Synset('spark_advance.n.01'), Synset('leash.n.01'), Synset('lead.n.14'), Synset('lead.n.15'), Synset('jumper_cable.n.01'), Synset('lead.n.17')]


In [5]:
print(wn.synsets('lead', wn.NOUN))

[Synset('lead.n.01'), Synset('lead.n.02'), Synset('lead.n.03'), Synset('lead.n.04'), Synset('lead.n.05'), Synset('lead.n.06'), Synset('lead.n.07'), Synset('star.n.04'), Synset('lead.n.09'), Synset('tip.n.03'), Synset('lead.n.11'), Synset('spark_advance.n.01'), Synset('leash.n.01'), Synset('lead.n.14'), Synset('lead.n.15'), Synset('jumper_cable.n.01'), Synset('lead.n.17')]


`-` 단어의 품사에 따라 감성 지수가 달라진다.

* 즉, 감성 지수를 정확하게 계산하려면 원하는 품사의 `Synset`을 정확하게 지정하여 사용해야 한다.

***

# 2. SentiWordNet

Wordnet과 유사하지만,  하지만 Synset별로 긍정 지수, 부정 지수, 객관성 지수를 할당해 준다는 차이가 있다.

`-` 객관성 지수 : 감성 지수와 반대되는 개념

* 해당 단어가 감성적 어조와 얼마나 관계가 없는지를 보여 주는 수치

## 실습 1

`1` 패키지, 함수 로드

In [6]:
from nltk.corpus import sentiwordnet as swn
import nltk
nltk.download('sentiwordnet')

[nltk_data] Downloading package sentiwordnet to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package sentiwordnet is already up-to-date!


True

`2` wordnet과 결과 비교

In [7]:
print("wordnet-happy: ", wn.synsets('happy'))
print("\nsentiwordnet-happy: ", list(swn.senti_synsets('happy')))

wordnet-happy:  [Synset('happy.a.01'), Synset('felicitous.s.02'), Synset('glad.s.02'), Synset('happy.s.04')]

sentiwordnet-happy:  [SentiSynset('happy.a.01'), SentiSynset('felicitous.s.02'), SentiSynset('glad.s.02'), SentiSynset('happy.s.04')]


* 비슷하다. 그래서 감성 지수는?

In [8]:
happy_sentisynsets = list(swn.senti_synsets('happy'))

pos_score = happy_sentisynsets[0].pos_score()
neg_score = happy_sentisynsets[0].neg_score()
obj_score = happy_sentisynsets[0].obj_score()

print(pos_score, neg_score, obj_score)

0.875 0.0 0.125


* 최종 감성 지수는 긍정 시수에서 부정 지수를 뺀 값이 사용된다.

In [9]:
print(pos_score - neg_score)

0.875


1. 긍정 지수, 부정 지수, 객관성 지수는 `0과 1 사이`의 값을 갖는다.

2. 긍정 지수에서 부정 지수를 뺀 감정 지수는 `-1과 1 사이`의 값을 갖는다. 

3. `-1에 가까우면` 부정적인 의미를, `0에 가까우면` 중립적인 의미를, `1에 가까우면` 긍정적인 의미를 가진 단어로 해석할 수 있다.

`3` 특정 품사의 `SentiSynset` 찾기

* 단어는 품사에 따라 문맥상 의미가 달라진다.

* 따라서 단어가 어떤 품사로 사용됐는지에 따라 감성 지수의 결과도 달라진다.

* 이렇기 때문에 분석에 사용할 품사인 단어의 `SentiSynset`을 특정해서 찾는게 필요하다.

> ex1. `hard`라는 단어의 형용사, 부사를 기준으로 감성 지수 구하기
> * 구한 `synset`의 가장 보편적인 의미로 사용되는 첫번째 `synset`을 가져와서 활용

In [10]:
adj_synset = wn.synsets('hard', wn.ADJ)[0]
adv_synset = wn.synsets('hard', wn.ADV)[0]

* 해당 synset의 `단어, 품사, 순번`정보를 `swn.senti_synset()`파라미터로 넣어 주자.( `name()` 함수 활용)

In [11]:
adj_senti_synset = swn.senti_synset(adj_synset.name())
adv_senti_synset = swn.senti_synset(adv_synset.name())

print(adj_senti_synset)
print(adv_senti_synset)

<difficult.a.01: PosScore=0.0 NegScore=0.75>
<hard.r.01: PosScore=0.125 NegScore=0.125>


* 형용사 hard : 부정적인 의미로 확인

* 부사 hard : 중립적인 의미로 확인된다.

In [12]:
def get_sentiment_score(word, pos):
    # 단어와 품사 태그를 기반으로 Synsets 구하기
    synsets = wn.synsets(word, pos)
        
    # SentiSynset의 긍정 지수, 부정 지수 구하기
    pos_score = swn.senti_synset(synsets[0].name()).pos_score()
    neg_score = swn.senti_synset(synsets[0].name()).neg_score()

    # 긍정 지수 - 부정 지수로 감성 지수 값 계산해 반환하기
    sentiment_score = pos_score - neg_score

    return sentiment_score

get_sentiment_score('love', wn.VERB)

0.5

## 실습 2

In [13]:
import warnings
warnings.filterwarnings(action = "ignore")

In [14]:
# | code-fold : true
import pandas as pd
from nltk.corpus import stopwords
from preprocess import *

df = pd.read_csv('imdb.tsv', delimiter = "\\t")

df['review'] = df['review'].str.lower()
df['sent_tokens'] = df['review'].apply(sent_tokenize)
df['pos_tagged_tokens'] = df['sent_tokens'].apply(pos_tagger)
df['lemmatized_tokens'] = df['pos_tagged_tokens'].apply(words_lemmatizer)
stopwords_set = set(stopwords.words('english'))

df['cleaned_tokens'] = df['lemmatized_tokens'].apply(lambda x: clean_by_freq(x, 1))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_len(x, 2))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_stopwords(x, stopwords_set))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


`1` 첫 번째 로우에 있는 코퍼스를 받아온 다음 감성 전수 초기값을 0으로  설정

In [15]:
pos_tagged_words = df['pos_tagged_tokens'][0]
senti_score = 0

`2` PennTreebank Tag로 태깅된 품사를 WordNet Tag 기준으로 변경

* PennTreebank Tag에는 있지만 WordNet Tag에는 없는 품사가 있기 때문에 이 경우는 분석에서 제외

In [16]:
for word, tag in pos_tagged_words:
    wn_tag = penn_to_wn(tag)
    
    # WordNet Tag에 포함되지 않는 경우는 제외
    if wn_tag not in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
        continue

`3` Synset, SentiSynset 구하기

In [17]:
for word, tag in pos_tagged_words:
    # ...
    
    # Synset 확인, 어휘 사전에 없을 경우에는 제외
    if not wn.synsets(word, wn_tag):
        continue
    else:
        synsets = wn.synsets(word, wn_tag)
    
    # SentiSynset 확인
    synset = synsets[0]
    swn_synset = swn.senti_synset(synset.name())

`4` 감성지수 계산

In [18]:
for word, tag in pos_tagged_words:
    # ...
    
    # 감성 지수 계산
    word_senti_score = (swn_synset.pos_score() - swn_synset.neg_score())
    senti_score += word_senti_score

In [19]:
print(senti_score)

14.375


`5` 함수로 작성

In [20]:
def swn_polarity(pos_tagged_words):
    senti_score = 0

    for word, tag in pos_tagged_words:
        # PennTreeBank 기준 품사를 WordNet 기준 품사로 변경
        wn_tag = penn_to_wn(tag)
        if wn_tag not in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
            continue
    
        # Synset 확인, 어휘 사전에 없을 경우에는 스킵
        if not wn.synsets(word, wn_tag):
            continue
        else:
            synsets = wn.synsets(word, wn_tag)
    
        # SentiSynset 확인
        synset = synsets[0]
        swn_synset = swn.senti_synset(synset.name())

        # 감성 지수 계산
        word_senti_score = (swn_synset.pos_score() - swn_synset.neg_score())
        senti_score += word_senti_score

    return senti_score

`7` 감성분석 결과 확인

In [21]:
from preprocess import swn_polarity

# dataframe에 swn_polarity() 함수 적용
df['swn_sentiment'] = df['pos_tagged_tokens'].apply(swn_polarity)

df[['review', 'swn_sentiment']]

Unnamed: 0,review,swn_sentiment
0,"""watching time chasers, it obvious that it was...",-0.375
1,i saw this film about 20 years ago and remembe...,-1.5
2,"minor spoilers in new york, joan barnard (elvi...",-2.25
3,i went to see this film with a great deal of e...,-0.5
4,"""yes, i agree with everyone on this site this ...",3.0
5,"""jennifer ehle was sparkling in \""""pride and p...",6.75
6,amy poehler is a terrific comedian on saturday...,0.75
7,"""a plane carrying employees of a large biotech...",8.75
8,"a well made, gritty science fiction movie, it ...",4.5
9,"""incredibly dumb and utterly predictable story...",-1.125


***

# 3. VADER

Valence Aware Dictionary and sEntiment Reasoner

감성 분석을 위한 어휘 사전이자 알고리즘

살펴본 `SentiWordNet`과의 큰 차이점은 일반적인 감성 어휘 사전의 규칙 외에도 `축약형`과 `기호` 등을 고려해 감성 지수를 추출할 수 있다는 점이 차이점이다.

이러한 특징을 가지고 있어, 축약형 표혀닝나 특수 문자가 맣이 사용된 소셜 미디어 텍스트를 분석할 때 자주 사용된다.

`1` 패키지 설치

```python
pip install vaderSentiment
```

`2` 사용법

* `SentimentIntensityAnalyzer`를 생성 후 `polarity_scores()`를 호출

In [23]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer
nltk.download('vader_lexicon')

senti_analyzer = SentimentIntensityAnalyzer()

text1 = "This is a great movie!"
text2 = "This is a terrible movie!"
text3 = "This movie was just okay."

# VADER 감성 분석
senti_scores_text1 = senti_analyzer.polarity_scores(text1)
senti_scores_text2 = senti_analyzer.polarity_scores(text2)
senti_scores_text3 = senti_analyzer.polarity_scores(text3)

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...


* SentiWordNet은 단어의 감성 지수만 확인가능했다.
    * 그래서 코퍼스의 감성 지수도 각 단어의 감성 지수 합으로 계산하였음

* but, `VADER`는 단어, 문장, 여러 문장으로 이루어진 코퍼스 등으로 바로 감성 지수를 계산이 가능!
    * 심지어 코퍼스를 단어 단위로 토큰화해 파라미터로 전달할 필요 없음.
    * 내부 동작에서 필요한 토큰화와 감성 지수 추출 작업을 알아서 해준다.

In [24]:
print(senti_scores_text1)
print(senti_scores_text2)
print(senti_scores_text3)

{'neg': 0.0, 'neu': 0.406, 'pos': 0.594, 'compound': 0.6588}
{'neg': 0.531, 'neu': 0.469, 'pos': 0.0, 'compound': -0.5255}
{'neg': 0.0, 'neu': 0.678, 'pos': 0.322, 'compound': 0.2263}


## 실습

`1` 함수 생성

In [25]:
def vader_sentiment(text):
    analyzer = SentimentIntensityAnalyzer()
    
    # VADER 감성 분석
    senti_score = analyzer.polarity_scores(text)['compound']
    
    return senti_score

`2` 데이터에 적용

In [27]:
df['vader_sentiment'] = df['review'].apply(vader_sentiment)

df[['review', 'swn_sentiment', 'vader_sentiment']]

Unnamed: 0,review,swn_sentiment,vader_sentiment
0,"""watching time chasers, it obvious that it was...",-0.375,-0.9095
1,i saw this film about 20 years ago and remembe...,-1.5,-0.9694
2,"minor spoilers in new york, joan barnard (elvi...",-2.25,-0.2794
3,i went to see this film with a great deal of e...,-0.5,-0.9707
4,"""yes, i agree with everyone on this site this ...",3.0,0.8049
5,"""jennifer ehle was sparkling in \""""pride and p...",6.75,0.9494
6,amy poehler is a terrific comedian on saturday...,0.75,0.8473
7,"""a plane carrying employees of a large biotech...",8.75,0.9885
8,"a well made, gritty science fiction movie, it ...",4.5,0.9887
9,"""incredibly dumb and utterly predictable story...",-1.125,-0.7375


`3` [VADER 공식문서](https://vadersentiment.readthedocs.io/en/latest/index.html)