# 8. 텍스트 분석

## 8.2 텍스트 사전 준비 작업 (텍스트 전처리) - 텍스트 정규화

### 1. 토큰화 (tokenization)

In [None]:
# 문장 토큰화
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') # nltk 업데이트로 tab 추가됨


text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to church or pay your taxes.'

# 문장 토큰화
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [None]:
# 단어 토큰화
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [None]:
# 문장 토큰화와 단어 토큰화를 조합해 문서에 대해 모든 단어를 토큰화하기
# text_sample 문장별로 단어 토큰화 적용: 문서를 문장으로 나누고, 개별 문장을 단어로 토큰화

from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하는 함수
def tokenize_text(text):

    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)

    # 문장별로 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample) # 위에서 정의한 3개 문장에 대해 토큰화 진행
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### 2. 스톱 워드 제거

In [None]:
import nltk
nltk.download('stopwords')

# 영어 스톱워드 20개 출력
print('영어 스톱워드 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 스톱워드 개수: 198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
# 이전 예제에서 생성한 word_tokens 리스트에 대해 stopwords 제거

import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_tokens = []

    # 개별 문장별로 토큰화된 문장 리스트에 대해 스톱워드 제거하는 반복문
    for word in sentence:
        if word not in stopwords:
            filtered_tokens.append(word)

    # 스톱워드 제거된 토큰 리스트를 문장별로 추가
    all_tokens.append(filtered_tokens)

print(all_tokens)

[['The', 'Matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['You', 'see', 'window', 'television', '.'], ['You', 'feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### 3. Stemming & Lemmatization

- Stemming: `LancasterStemmer` 사용
    - 진행형 / 3인칭 단수 / 과거형 동사 / 비교, 최상에 따른 형용사 변화
- NLTK: `LancasterStemmer()`과 같이 필요한 Stemmer 객체 생성 -> 이 객체의 stem(단어) 매서드를 호출하는 단어의 스테밍 가능

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))
print(stemmer.stem('bad'), stemmer.stem('worse'), stemmer.stem('worst')) # extra
print(stemmer.stem('better'), stemmer.stem('good'), stemmer.stem('best'))

work work work
amus amus amus
happy happiest
fant fanciest
bad wors worst
bet good best


- work: 규칙 변화(단순)이라 원형 인식
- amuse: amus를 인식
- 형용사의 경우 정확한 원형 찾지 못하고 철자 다른 어근 단어로 인식함

### 보완 - 품사 입력
Lemmatization: WordNetLemmatizer 이용
-> 정확한 원형 추출 위해서 품사 입력
- lemmatize의 파라미터로 동사 (v), 형용사(a)

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))
print(lemma.lemmatize('better', 'a'), lemma.lemmatize('good', 'a'), lemma.lemmatize('best', 'a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy
good good best


Stemmer보다 정확하게 어근 단어를 추출함

## 8.3 BOW (Bag of Words)

### BOW 기반 피처 벡터화

#### BOW 벡터화를 위한 희소 행렬: COO, CSR 형식
CountVectorizer & TfidfVectorizer 이용 -> 텍스트를 피처 단위로 벡터화해 변환

In [None]:
# COO 형식의 희소 행렬 - Scipy의 sparse 패키지 사용
# 1) 행렬을 ndarray 객체로 만들고
# 2) COO 형식의 희소 행렬로 변환

import numpy as np

dense = np.array([[3,0,1], [0,2,0]])

from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3, 1, 2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

In [None]:
# CSR 형식 (Compressed Sparse Row)
# 1) scipy의 csr_matrix 클래스 이용
# 2) 0 아닌 데이터 배열, 열 위치 배열, 행 위치 배열의 고유값의 시작 위치 배열을 생성 파라미터로 입력

from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])

# 0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 배열(array)로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 10, 12, 13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('\nCSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]

CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [2 6 0 3 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [None]:
# 실제 사용 시, 밀집 행렬을 생성 파라미터로 입력하면 COO/CSR 희소 행렬로 생성함

dense3 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

## 8.5 감성 분석 (Sentiment Analysis)

Bag of Words Meets Bags of Popcorn (Kaggle)
- 영화 사이트의 영화평을 이용해 감성 분석을 수행 -> 감상평이  긍정인지 부정인지 예측하는 모델

In [None]:
import pandas as pd

review_df = pd.read_csv('./labeledTrainData.tsv', header=0, sep="\t", quoting=3)
review_df.head(3)

Unnamed: 0,id,sentiment,review
0,"""5814_8""",1,"""With all this stuff going down at the moment ..."
1,"""2381_9""",1,"""\""The Classic War of the Worlds\"" by Timothy ..."
2,"""7759_3""",0,"""The film starts with a manager (Nicholas Bell..."


**피처**
- id
- sentiment: 영화평의 감성 결과 값(target label) 1은 긍정적 평가, 0은 부정적 평가 <br>
- review: 영화평의 텍스트

In [None]:
# 텍스트 구성 확인
print(review_df['review'][0])

"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyway then you are going to hate this and find it boring. Some may call MJ an egotist for consenting to the making of this movie BUT MJ and most of his fans would say that he made it for the fans which if true is really nice of him.<br /><br />The actual feature film bit when it finally sta

In [None]:
# 전처리
# html 형식에서 추출해 태그 존재 -> 삭제 필요
# 그 외 특수문자/숫자도 공란으로 변경 -> 정규 표현식 활용하기

import re

# html <br> 태그는 replace 함수로 공백으로 변환
review_df['review'] = review_df['review'].str.replace('<br />', ' ')

# 파이썬의 정규 표현식 모듈인 re를 이용해 영어 문자열이 아닌 문자는 공백으로 변환
review_df['review'] = review_df['review'].apply(lambda x: re.sub(r'[^a-zA-Z]', " ", x))

In [None]:
# 결정값 클래스인 sentiment 칼럼을 별도로 추출해 결정값 데이터 세트 생성
# 원본 데이터 세트에서 id, sentiment 칼럼 삭제해 피처 데이터 세트 생성

from sklearn.model_selection import train_test_split

class_df = review_df['sentiment']
feature_df = review_df.drop(['id', 'sentiment'], axis=1, inplace=False)

# 학습 데이터/검증 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(feature_df, class_df, test_size=0.3, random_state=156)

X_train.shape, X_test.shape

((17500, 1), (7500, 1))

### 예측 성능 측정
Review 텍스트 피처 벡터화한 후 ML 분류 알고리즘 적용 <br>
1. Count 벡터화 적용
2. TF-IDF 벡터화 적용
3. Classifier: LogisticRegression
4. 평가: ROC-AUC

#### Count 벡터화

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, accuracy_score

# Eng stop word, ngram (1,2) - CountVectorizer 수행
# LogisticRegression의 C는 10으로 설정
pipeline = Pipeline([
    ('cnt_vect', CountVectorizer(stop_words='english', ngram_range=(1,2))),
    ('lr_clf', LogisticRegression(solver='liblinear', C=10))
])

# Pipeline 객체 이용해 fit(), predict()로 학습, 예측 수행
# predict_proba()는 roc_auc 때문에 수행
pipeline.fit(X_train['review'], y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:, 1] # roc_auc 때문에 수행

print('LogisticRegression 예측 정확도: {0:.4f}, ROC-AUC는 {1: .4f}'.format(accuracy_score(y_test, pred),
                                                    roc_auc_score(y_test, pred_probs)))

LogisticRegression 예측 정확도: 0.8861, ROC-AUC는  0.9503


#### TF-IDF 벡터화

In [None]:
# stop word=ENG, ngram=(1,2) - TfidfVectorizer 수행
# LogisticRegression의 C는 10으로 설정

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2))),
    ('lr_clf', LogisticRegression(solver='liblinear', C=10))
])

# Pipeline 객체 이용해 학습, 예측 수행.
pipeline.fit(X_train['review'], y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:, 1] # roc_auc 때문에 수행

print('LogisticRegression 예측 정확도: {0:.4f}, ROC-AUC: {1: .4f}'.format(accuracy_score(y_test, pred),
                                                                      roc_auc_score(y_test, pred_probs)))

LogisticRegression 예측 정확도: 0.8936, ROC-AUC:  0.9598


#### SentiWordNet을 이용한 감성 분석

In [None]:
import nltk
nltk.download('all')

In [None]:
from nltk.corpus import wordnet as wn
term = 'present'

# 'present' 단어로 wordnet의 Synsets 생성
synsets = wn.synsets(term)
print('synsets() 반환 타입: ', type(synsets))
print('synsets() 반환 값 개수: ', len(synsets))
print('synsets() 반환 값: ', synsets)

synsets() 반환 타입:  <class 'list'>
synsets() 반환 값 개수:  18
synsets() 반환 값:  [Synset('present.n.01'), Synset('present.n.02'), Synset('present.n.03'), Synset('show.v.01'), Synset('present.v.02'), Synset('stage.v.01'), Synset('present.v.04'), Synset('present.v.05'), Synset('award.v.01'), Synset('give.v.08'), Synset('deliver.v.01'), Synset('introduce.v.01'), Synset('portray.v.04'), Synset('confront.v.03'), Synset('present.v.12'), Synset('salute.v.06'), Synset('present.a.01'), Synset('present.a.02')]


In [None]:
for synset in synsets:
    print('##### Synset name: ', synset.name(), '#####')
    print('POS: ', synset.lexname())
    print('Definition: ', synset.definition())
    print('Lemmas: ', synset.lemma_names())
    print()

##### Synset name:  present.n.01 #####
POS:  noun.time
Definition:  the period of time that is happening now; any continuous stretch of time including the moment of speech
Lemmas:  ['present', 'nowadays']

##### Synset name:  present.n.02 #####
POS:  noun.possession
Definition:  something presented as a gift
Lemmas:  ['present']

##### Synset name:  present.n.03 #####
POS:  noun.communication
Definition:  a verb tense that expresses actions or states at the time of speaking
Lemmas:  ['present', 'present_tense']

##### Synset name:  show.v.01 #####
POS:  verb.perception
Definition:  give an exhibition of to an interested audience
Lemmas:  ['show', 'demo', 'exhibit', 'present', 'demonstrate']

##### Synset name:  present.v.02 #####
POS:  verb.communication
Definition:  bring forward and present to the mind
Lemmas:  ['present', 'represent', 'lay_out']

##### Synset name:  stage.v.01 #####
POS:  verb.creation
Definition:  perform (a play), especially on a stage
Lemmas:  ['stage', 'present'

- synset은 하나의 단어가 가질 수 있는 여러 가지 **시맨틱 정보**를 개별 클래스로 나타낸 것.
- Wordnet: 어떤 어휘와 다른 어휘 간 관계를 **유사도**로 나타낼 수 있음 <- `path_similarity()`

In [None]:
# synset 객체를 단어별로 생성

tree = wn.synset('tree.n.01')
lion = wn.synset('lion.n.01')
tiger = wn.synset('tiger.n.02')
cat = wn.synset('cat.n.01')
dog = wn.synset('dog.n.01')

entities = [tree, lion, tiger, cat, dog]
similarities = []
entity_names = [entity.name().split('.')[0] for entity in entities]

# 단어별 synset을 반복하며 다른 단어의 synset과 유사도 측정
for entity in entities:
    similarity = [round(entity.path_similarity(compared_entity), 2) for compared_entity in entities]
    similarities.append(similarity)

# 개별 단어별 synset과 다른 단어의 synset과의 유사도를 DataFrame 형태로 저장
similiarity_df = pd.DataFrame(similarities, index=entity_names, columns=entity_names)
similiarity_df

Unnamed: 0,tree,lion,tiger,cat,dog
tree,1.0,0.07,0.07,0.08,0.12
lion,0.07,1.0,0.33,0.25,0.17
tiger,0.07,0.33,1.0,0.25,0.17
cat,0.08,0.25,0.25,1.0,0.2
dog,0.12,0.17,0.17,0.2,1.0


**SentiWordNet: `Senti_Synset` 클래스**
 리스트 형태로 반환

In [None]:
import nltk
from nltk.corpus import sentiwordnet as swn

senti_synsets = list(swn.senti_synsets('slow'))
print('senti_synset 타입: ', type(senti_synsets))
print('senti_synset 길이: ', len(senti_synsets))
print('senti_synset 반환 값: ', senti_synsets   )

senti_synset 타입:  <class 'list'>
senti_synset 길이:  11
senti_synset 반환 값:  [SentiSynset('decelerate.v.01'), SentiSynset('slow.v.02'), SentiSynset('slow.v.03'), SentiSynset('slow.a.01'), SentiSynset('slow.a.02'), SentiSynset('dense.s.04'), SentiSynset('slow.a.04'), SentiSynset('boring.s.01'), SentiSynset('dull.s.08'), SentiSynset('slowly.r.01'), SentiSynset('behind.r.03')]


- SentiSynset 객체: 감성 지수와 객관성 지수(감성과 서로 반대)를 가짐
- 감성 지수는 또 다시 긍정 감성, 부정 감성으로 나뉨


In [None]:
# father와 fabulous 단어 <- 감성 지수 & 객관성 지수

import nltk
from nltk.corpus import sentiwordnet as swn

father = swn.senti_synset('father.n.01')
fabulous = swn.senti_synset('fabulous.a.01')

print('father 긍정 감성 지수: ', father.pos_score())
print('father 부정 감성 지수: ', father.neg_score())
print('father 객관성 지수: ', father.obj_score())
print('\n')
print('fabulous 긍정 감성 지수: ', fabulous.pos_score())
print('fabulous 부정 감성 지수: ', fabulous.neg_score())

father 긍정 감성 지수:  0.0
father 부정 감성 지수:  0.0
father 객관성 지수:  1.0


fabulous 긍정 감성 지수:  0.875
fabulous 부정 감성 지수:  0.125


#### SentiWordNet 이용한 감상평 감상 분석 수행
1. 문서를 문장 단위로 분해
2. 문장을 단어 단위로 토큰화 하고 Pos tagging
3. 품사 태깅된 단어 기반으로 synset 객체와 senti_synset 객체 생성
4. sent0_synset 객체에서 긍정 감성/부정 감성 지수를 구하고 이를 모두 합산해 특정 임계치 값 이상일 때 긍정 감성으로, 그렇지 않을 떄는 부정 감성으로 결정

In [None]:
from nltk.corpus import wordnet as wn

# 간단한 NTLK PennTreebank Tag를 기반으로 WordNet기반의 품사 Tag로 변환
def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB
    return

In [None]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import sentiwordnet as swn
from nltk import sent_tokenize, word_tokenize, pos_tag

def swn_polarity(text):
    # 감성 지수 초기화
    sentiment = 0.0
    tokens_count = 0

    lemmatizer = WordNetLemmatizer()
    raw_sentences = sent_tokenize(text)
    # 분해된 문장별로 단어 토큰 -> 품사 태깅 후에 SentiSynset 생성 -> 감성 지수 합산
    for raw_sentence in raw_sentences:
        # NTLK 기반의 품사 태깅 문장 추출
        tagged_sentence = pos_tag(word_tokenize(raw_sentence))
        for word , tag in tagged_sentence:

            # WordNet 기반 품사 태깅과 어근 추출
            wn_tag = penn_to_wn(tag)
            if wn_tag not in (wn.NOUN , wn.ADJ, wn.ADV):
                continue
            lemma = lemmatizer.lemmatize(word, pos=wn_tag)
            if not lemma:
                continue
            # 어근을 추출한 단어와 WordNet 기반 품사 태깅을 입력해 Synset 객체를 생성.
            synsets = wn.synsets(lemma , pos=wn_tag)
            if not synsets:
                continue
            # sentiwordnet의 감성 단어 분석으로 감성 synset 추출
            # 모든 단어에 대해 긍정 감성 지수는 +로 부정 감성 지수는 -로 합산해 감성 지수 계산.
            synset = synsets[0]
            swn_synset = swn.senti_synset(synset.name())
            sentiment += (swn_synset.pos_score() - swn_synset.neg_score())
            tokens_count += 1

    if not tokens_count:
        return 0

    # 총 score가 0 이상일 경우 긍정(Positive) 1, 그렇지 않을 경우 부정(Negative) 0 반환
    if sentiment >= 0 :
        return 1

    return 0

In [None]:
review_df['preds'] = review_df['review'].apply( lambda x : swn_polarity(x) )
y_target = review_df['sentiment'].values
preds = review_df['preds'].values

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score
from sklearn.metrics import recall_score, f1_score, roc_auc_score
import numpy as np

print(confusion_matrix( y_target, preds))
print("정확도:", np.round(accuracy_score(y_target , preds), 4))
print("정밀도:", np.round(precision_score(y_target , preds),4))
print("재현율:", np.round(recall_score(y_target, preds), 4))

[[7669 4831]
 [3635 8865]]
정확도: 0.6614
정밀도: 0.6473
재현율: 0.7092


In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

senti_analyzer = SentimentIntensityAnalyzer()
senti_scores = senti_analyzer.polarity_scores(review_df['review'][0])
print(senti_scores)

{'neg': 0.13, 'neu': 0.743, 'pos': 0.127, 'compound': -0.7943}


In [None]:
def vader_polarity(review,threshold=0.1):
    analyzer = SentimentIntensityAnalyzer()
    scores = analyzer.polarity_scores(review)

    # compound 값에 기반하여 threshold 입력값보다 크면 1, 그렇지 않으면 0을 반환
    agg_score = scores['compound']
    final_sentiment = 1 if agg_score >= threshold else 0
    return final_sentiment

# apply lambda 식을 이용하여 레코드별로 vader_polarity( )를 수행하고 결과를 'vader_preds'에 저장
review_df['vader_preds'] = review_df['review'].apply( lambda x : vader_polarity(x, 0.1) )
y_target = review_df['sentiment'].values
vader_preds = review_df['vader_preds'].values

print(confusion_matrix( y_target, vader_preds))
print("정확도:", np.round(accuracy_score(y_target , vader_preds),4))
print("정밀도:", np.round(precision_score(y_target , vader_preds),4))
print("재현율:", np.round(recall_score(y_target, vader_preds),4))

[[ 6747  5753]
 [ 1858 10642]]
정확도: 0.6956
정밀도: 0.6491
재현율: 0.8514
