Ch08. 텍스트 분석

# 8.2. 텍스트 전처리

## 텍스트 토큰화

### 문장 토큰화
- NLTK의 경우 단어 사전과 같이 참조가 필요한 데이터 세트의 경우 인터넷으로 다운로드

In [None]:
from nltk import sent_tokenize
import nltk

nltk.download('punkt')  # 마침표, 개행 문자 등의 데이터 세트를 다운로드
nltk.download('punkt_tab')

text_sample = 'The matrix is everywhere its all around us, here even in the room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes'
sentences = sent_tokenize(text = text_sample)

print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...


<class 'list'> 3
['The matrix is everywhere its all around us, here even in the room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes']


[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


- sent_tokenize( )는 각각의 문장으로 구성된 list 객체를 반환

### 단어 토큰화

In [None]:
from nltk import word_tokenize

sentence = 'The matrix is everywhere its all around us, here even in the room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'the', 'room', '.']


### 문장 토큰화 & 단어 토큰화
- sent_tokenize, work_tokenize 조합
- 문서에 대해서 모든 단어를 토큰화
- text_sample을 문장별로 단어 토큰화 적용
- 이를 위해 문서를 먼저 문장으로 나누고, 개별 문장을 다시 단어로 토큰화하는 tokenize_text 함수 생성

In [None]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'the', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes']]


## 스톱 워드 제거

### 스톱 워드 목록 확인

In [None]:
# stopwords 목록 다운로드
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# 영어의 스톱워드 목록 개수, 20개 확인
print('영어 stop words 갯수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


### 스톱워드 필터링 예제
- 위 예제에서 3개의 문장별로 단어를 토큰화해 생성된 word_tokens 리스트에 대해 stopwords를 필터링으로 제거 -> 분석을 위한 의미 있는 단어만 추출

In [None]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
  filtered_words = []

  # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    # 소문자로 모두 변환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes']]


## Stemming, Lemmatization

### LancasterStemmer를 이용한 Stemming 예제

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


### WorkNetLemmatizer를 이용한 Lemmatization 예제

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy


# 8.3. Bag of Words - BOW

## BOW 벡터화를 위한 희소 행렬

### COO 형식

- [ [3, 0, 1], [0, 2, 0] ]을 넘파이의 ndarray 객체로 만들고 COO 형식의 희소 행렬로 변환

In [None]:
import numpy as np

dense = np.array([[3, 0, 1], [0, 2, 0]])

- 위 밀집 행렬을 사이파이의 coo_matrix 클래스를 이용해 COO 형식의 희소 행렬로 변환

In [None]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3, 1, 2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지와 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

- sparse_coo를 밀집 형태의 행렬로 출력

In [None]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

### CSR 형식


In [None]:
from scipy import sparse

dense2 = np.array([ [0, 0, 1, 0, 0, 5],
                    [1, 4, 0, 3, 2, 5],
                    [0, 6, 0, 3, 0, 0],
                    [2, 0, 0, 0, 0, 0],
                    [0, 0, 0, 7, 0, 8],
                    [1, 0, 0, 0, 0, 0] ])

# 0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


# 8.5. 감성 분석

## 지도학습 기반 감성 분석 실습 - IMDB 영화평
- 유명한 IMDB의 영화 사이트의 영화평을 이용
- 영화평의 텍스트를 분석해 감성 분석 결과가 긍정 또는 부정인지를 예측하는 모델 생성

### 데이터 로드
- labeledTrainData.tsv: 탭(\t)문자로 분리된 파일
- 판다스의 read_csv( )를 이용하면 탭으로 칼럼이 분리된 파일도 DF로 쉽게 로딩할 수 있음
- read_csv( )의 인자로 sep="\t" 명시

In [8]:
import pandas as pd

review_df = pd.read_csv('/content/labeledTrainData.tsv', header = 0, sep = "\t", quoting = 3)
review_df.head(3)

Unnamed: 0,id,sentiment,review
0,"""5814_8""",1,"""With all this stuff going down at the moment ..."
1,"""2381_9""",1,"""\""The Classic War of the Worlds\"" by Timothy ..."
2,"""7759_3""",0,"""The film starts with a manager (Nicholas Bell..."


- id: 각 데이터의 id
- sentiment: 영화평의 sentiment 결과값. 1은 긍정적 평가, 0은 부정적 평가
- review: 영화평의 텍스트

### review 칼럼의 텍스트 값 살펴보기

In [9]:
print(review_df['review'][0])

"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyway then you are going to hate this and find it boring. Some may call MJ an egotist for consenting to the making of this movie BUT MJ and most of his fans would say that he made it for the fans which if true is really nice of him.<br /><br />The actual feature film bit when it finally sta

### 텍스트 전처리

- HTML 형식에서 추출해 \<br /> 태그가 존재 => 삭제해야 함
- DataFrame/Series 객체의 str을 적용하여 다양한 문자열 연산을 수행할 수 있음
- replace( )를 str에 적용해 \<br /> 태그를 공백으로 변환

<br />

- 영어가 아닌 숫자/특수문자를 공란으로 변경
- 정규 표현식을 이용
- 파이썬의 re 모듈은 편리하게 정규 표현식을 지원
- 정규표현식[^a-zA-Z]: 영어 대/소문자가 아닌 모든 문자를 찾는 것
- re.sub("[^a-zA-Z]", "", x): 영어 대/소문자가 아닌 모든 문자를 찾아서 공란으로 변경

  => lambda식을 이용해 적용

In [10]:
import re

# <br> html 태그는 replace 함수로 공백으로 변환
review_df['review'] = review_df['review'].str.replace('<br />', ' ')

# 파이썬의 정규 표현식 모듈인 re를 이용해 영어 문자열이 아닌 문자는 모두 공백으로 변환
review_df['review'] = review_df['review'].apply(lambda x: re.sub("[^a-zA-Z]", " ", x))

### 피처/타깃 데이터 세트 생성, 학습용/테스트용 데이터 세트 분리
- 결정 값 클래스인 sentiment 칼럼 별도 추출 => 결정 값 데이터 세트
- 원본 데이터 세트에서 id와 sentiment 칼럼 삭제 => 피처 데이터 세트 생성
- train_test_split( ) 이용

In [11]:
from sklearn.model_selection import train_test_split

class_df = review_df['sentiment']
feature_df = review_df.drop(['id', 'sentiment'], axis = 1, inplace = False)

X_train, X_test, y_train, y_test = train_test_split(feature_df, class_df, test_size = 0.3, random_state = 156)

X_train.shape, X_test.shape

((17500, 1), (7500, 1))

### 피처 벡터화, 예측 성능 측정
- 감상평 텍스트를 피처 벡터화, ML 분류 알고리즘을 적용해 예측 성능을 측정
- pipeline 객체를 이용해 피처 벡터화와 예측 성능 측정을 동시에 수행
- Count 벡터화를 적용해 예측 성능을 측정하고 다음으로 TF-IDF 벡터화 적용
- Classifier는 LogisticRegression 이용
- 예측 성능 평가는 이진 분류임을 고려해 테스트 데이터 세트의 정확도와 ROC-AUC를 모두 측정

#### CountVectorizer

In [12]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

# 스톱 워드는 English, filtering, ngram_range는 (1, 2)로 설정해 CountVectorization 수행
# LogisticRegression의 C는 10으로 설정
pipeline = Pipeline([
    ('cnt_vect', CountVectorizer(stop_words = 'english', ngram_range = (1, 2))),
    ('lr_clf', LogisticRegression(C = 10))
])

# Pipeline 객체를 이용해 fit()과 predict()로 학습/예측 수행. predict_proba( )는 roc_auc 때문에 수행
pipeline.fit(X_train['review'], y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:, 1]

print('예측 정확도는 {0:.4f}, ROC-AUC는 {1:.4f}'.format(accuracy_score(y_test, pred), roc_auc_score(y_test, pred_probs)))

예측 정확도는 0.8848, ROC-AUC는 0.9509


#### TfidfVectorizer
- TF-IDF 벡터화를 적용해 다시 예측 성능 측정

In [13]:
# 스톱 워드는 English, filtering, ngram_range는 (1, 2)로 설정해 TF-IDF 수행
# LogisticRegression의 C는 10으로 설정
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words = 'english', ngram_range = (1, 2))),
    ('lr_clf', LogisticRegression(C = 10))
])

# Pipeline 객체를 이용해 fit()과 predict()로 학습/예측 수행. predict_proba( )는 roc_auc 때문에 수행
pipeline.fit(X_train['review'], y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:, 1]

print('예측 정확도는 {0:.4f}, ROC-AUC는 {1:.4f}'.format(accuracy_score(y_test, pred), roc_auc_score(y_test, pred_probs)))

예측 정확도는 0.8939, ROC-AUC는 0.9596


- TF-IDF 기반의 피처 벡터화의 예측 성능이 조금 더 나아짐

## SentiWordNet을 이용한 감성 분석

### WorNetSynset과 SentiWordNet SentiSynset 클래스의 이해

#### NLTK 셋업, WordNet 서브패키지와 데이터세트 다운로드

In [14]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_rus to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |  

True

- WordNet 모듈 임포트
- 'present' 단어에 대한 Synset 추출
- WordNet의 Synset( )는 파라미터로 지정된 단어에 대해 등제된 모든 Synset 객체를 반환

In [15]:
from nltk.corpus import wordnet as wn

term = 'present'

# 'present'라는 단어로 wordnet의 synsets 생성
synsets = wn.synsets(term)

print('synsets() 반환 type: ', type(synsets))
print('synsets() 반환 값 개수: ', len(synsets))
print('synsets() 반환 값: ', synsets)

synsets() 반환 type:  <class 'list'>
synsets() 반환 값 개수:  18
synsets() 반환 값:  [Synset('present.n.01'), Synset('present.n.02'), Synset('present.n.03'), Synset('show.v.01'), Synset('present.v.02'), Synset('stage.v.01'), Synset('present.v.04'), Synset('present.v.05'), Synset('award.v.01'), Synset('give.v.08'), Synset('deliver.v.01'), Synset('introduce.v.01'), Synset('portray.v.04'), Synset('confront.v.03'), Synset('present.v.12'), Synset('salute.v.06'), Synset('present.a.01'), Synset('present.a.02')]


- synset( ) 호출 시 여러 개의 Synset 객체를 가지는 리스트를 반환
- Synset('present.n.01')
  - POS 태그
  - present: 의미
  - n: 명사 품사
  - \01. present가 명사로서 가지는 의미가 여러 가지 있어서 이를 구분하는 인덱스

#### synset 객체의 속성 확인
- Synset은 POS(품사), 정의, 부명제 등으로 시맨틱적인 요소를 표현할 수 있음

In [16]:
for synset in synsets:
  print('##### Synset name: ', synset.name(), '#####')
  print('POS: ', synset.lexname())
  print('Definition: ', synset.definition())

##### Synset name:  present.n.01 #####
POS:  noun.time
Definition:  the period of time that is happening now; any continuous stretch of time including the moment of speech
##### Synset name:  present.n.02 #####
POS:  noun.possession
Definition:  something presented as a gift
##### Synset name:  present.n.03 #####
POS:  noun.communication
Definition:  a verb tense that expresses actions or states at the time of speaking
##### Synset name:  show.v.01 #####
POS:  verb.perception
Definition:  give an exhibition of to an interested audience
##### Synset name:  present.v.02 #####
POS:  verb.communication
Definition:  bring forward and present to the mind
##### Synset name:  stage.v.01 #####
POS:  verb.creation
Definition:  perform (a play), especially on a stage
##### Synset name:  present.v.04 #####
POS:  verb.possession
Definition:  hand over formally
##### Synset name:  present.v.05 #####
POS:  verb.stative
Definition:  introduce
##### Synset name:  award.v.01 #####
POS:  verb.possession


- 하나의 단어가 가질 수 있는 여러 가지 시맨틱 정보를 개별 클래스로 나타냄

#### path_similarity( ): 단어 간 유사도

In [17]:
# synset 객체를 단어별로 생성
tree = wn.synset('tree.n.01')
lion = wn.synset('lion.n.01')
tiger = wn.synset('tiger.n.02')
cat = wn.synset('cat.n.01')
dog = wn.synset('dog.n.01')

entities = [tree, lion, tiger, cat, dog]

similarities = []
entity_names = [entity.name().split('.')[0] for entity in entities]

# 단어별 synset 들을 iteration 하면서 다른 단어들의 synset과 유사도를 측정
for entity in entities:
  similarity = [round(entity.path_similarity(compared_entity), 2)
                for compared_entity in entities]
  similarities.append(similarity)

# 개별 단어별 유사도를 DataFrame 형태로 저장
similarity_df = pd.DataFrame(similarities, columns = entity_names, index = entity_names)

similarity_df

Unnamed: 0,tree,lion,tiger,cat,dog
tree,1.0,0.07,0.07,0.08,0.12
lion,0.07,1.0,0.33,0.25,0.17
tiger,0.07,0.33,1.0,0.25,0.17
cat,0.08,0.25,0.25,1.0,0.2
dog,0.12,0.17,0.17,0.2,1.0


#### Senti_synset 클래스
- WordNet의 Synset과 유사
- SentiWordNet 모듈의 senti_synsets( )는 WordNet 모듈 => synsets( )와 비슷하게 Senti_Synset 클래스를 리스트 형태로 반환


In [18]:
import nltk
from nltk.corpus import sentiwordnet as swn

senti_synsets = list(swn.senti_synsets('slow'))
print('senti_synsets() 반환 type: ', type(senti_synsets))
print('senti_synsets() 반환 값 개수: ', len(senti_synsets))
print('senti_synsets() 반환 값: ', senti_synsets)

senti_synsets() 반환 type:  <class 'list'>
senti_synsets() 반환 값 개수:  11
senti_synsets() 반환 값:  [SentiSynset('decelerate.v.01'), SentiSynset('slow.v.02'), SentiSynset('slow.v.03'), SentiSynset('slow.a.01'), SentiSynset('slow.a.02'), SentiSynset('dense.s.04'), SentiSynset('slow.a.04'), SentiSynset('boring.s.01'), SentiSynset('dull.s.08'), SentiSynset('slowly.r.01'), SentiSynset('behind.r.03')]


#### 감성 지수와 객관성 지수
- 어떤 단어가 전혀 감성적이지 않으면 객관성 지수는 1, 감성 지수는 모두 0

In [20]:
import nltk
from nltk.corpus import sentiwordnet as swn

father = swn.senti_synset('father.n.01')
print('father 긍정감성 지수: ', father.pos_score())
print('father 부정감성 지수: ', father.neg_score())
print('father 객관성 지수: ', father.obj_score())
print('\n')

fabulous = swn.senti_synset('fabulous.a.01')
print('fabulous 긍정감성 지수: ', fabulous.pos_score())
print('fabulous 부정감성 지수: ', fabulous.neg_score())

father 긍정감성 지수:  0.0
father 부정감성 지수:  0.0
father 객관성 지수:  1.0


fabulous 긍정감성 지수:  0.875
fabulous 부정감성 지수:  0.125


### SentiWordNet을 이용한 영화 감상평 감성 분석

1. 문서를 문장 단위로 분해
2. 다시 문장을 단어 단위로 토큰화하고 품사 태깅
3. 품사 태깅된 단어 기반으로 synset 객체와 senti_synset 객체 생성
4. Senti_synset에서 긍정 감성/부정 감성 지수를 구하고 이를 모두 합산
5. 특정 임계치 값 이상일 때 긍정 감성으로, 그렇지 않을 때는 부정 감성으로 결정

#### 품사 태깅하는 함수 생성

In [21]:
from nltk.corpus import wordnet as wn

# 간단한 NLTK PennTreebank Tag를 기반으로 WordNet 기반의 품사 Tag로 변환
def penn_to_wn(tag):
  if tag.startswith('J'):
    return wn.ADJ
  elif tag.startswith('N'):
    return wn.NOUN
  elif tag.startswith('R'):
    return wn.ADV
  elif tag.startswith('V'):
    return wn.VERB

#### 문서를 문장->단어토큰->품사태깅, SentiSenset 클래스 생성, Polarity Score 합산하는 함수 생성
- 각 단어의 긍정 감성 지수와 부정 감성 지수를 모두 합한 총 감성 지수가 0 이상일 경우 긍정 감성, 그렇지 않을 경우 부정 감성으로 예측

In [22]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import sentiwordnet as swn
from nltk import sent_tokenize, word_tokenize, pos_tag

def swn_polarity(text):
  # 감성 지수 초기화
  sentiment = 0.0
  tokens_count = 0

  lemmatizer = WordNetLemmatizer()
  raw_sentences = sent_tokenize(text)

  # 분해된 문장별로 단어 토큰 -> 품사 태깅 후에 SentiSynset 생성 -> 감성 지수 확인
  for raw_sentence in raw_sentences:
    # NTLK 기반의 품사 태깅 문장 추출
    tagged_sentence = pos_tag(word_tokenize(raw_sentence))
    for word, tag in tagged_sentence:
      # WordNet 기반 품사 태깅과 어근 추출
      wn_tag = penn_to_wn(tag)
      if wn_tag not in (wn.NOUN, wn.ADJ, wn.ADV):
        continue
      lemma = lemmatizer.lemmatize(word, pos = wn_tag)
      if not lemma:
        continue
        # 어근을 추출한 단어와 WordNet 기반 품사 태깅을 입력해 Synset 객체를 생성
        synsets = wn.synsets(lemma, pos = wn_tag)
      if not synsets:
         continue
        # sentiwordnet의 감성 단어 분석으로 감성 synset 추출
        # 모든 단어에 대해 긍정 감성 지수는 +로, 부정 감성 지수는 -로 합산해 감성 지수 계산
      synset = synsets[0]
      swn_synset = swn.senti_synset(synset.name())
      sentiment += (swn_synset.pos_score() - swn_synset.neg_score())
      tokens_count += 1

    if not tokens_count:
      return 0

    # 총 score가 0 이상일 경우 긍정(Positive) / 그렇지 않을 경우 부정(Negative)로 예측
    if sentiment >= 0:
      return 1

    return 0


#### 생성한 함수를 감상평의 개별 문서에 적용, 감성 예측
- 판다스의 apply lambda 구문을 이용해 swn_polarity(text)를 개별 감상평 텍스트에 적용
- review_df의 새로운 칼럼으로 'preds'를 추가해 이 칼럼에 swn_polariy(text)로 반환된 감성 평가를 담음
- 실제 감성 평가인 'semtiment' 칼럼과 swn_polarity(text)로 반환된 결과의 정확도, 정밀도, 재현율값을 모두 측정

In [23]:
train_df['preds'] = train_df['review'].apply(lambda x: swn_polarity(x))
y_target = train_df['sentiment'].values
preds = train_df['preds'].values

NameError: name 'train_df' is not defined

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score
from sklearn.metrics import recall_score,f1_score, roc_auc_score
import numpy as np

print(confusion_matrix(y_target, preds))
print('정확도: ', accuracy_score(y_target, preds))
print('정밀도: ', precision_score(y_target, preds))
print('재현율: ', recall_score(y_target, preds))

## VADER를 이용한 감성 분석

### 사용법
- NLTK의 서브 모듈로 SentimentIntensity Analyzer를 임포트
- IMDB의 감상평 한개만 감성 분석 수행

In [25]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

senti_analyzer = SentimentIntensityAnalyzer()
senti_scores = senti_analyzer.polarity_scores(review_df['review'][0])
print(senti_scores)

{'neg': 0.13, 'neu': 0.743, 'pos': 0.127, 'compound': -0.7943}


### IMDB 감성 분석
- vader_polarity( )함수 생성
  - 입력 파라미터로 감상평 텍스트와 임곗값을 가짐
  - SentimenintensityAnalyzer 객체의 polarity_scores( ) 메서드를 호출해 감성 결과를 반환
- review_df DataFrame의 apply lambda 식을 통해 vader_polarity()함수를 호출해 각 문서 별로 감성 결과를 vader_preds라는 review_df 의 새로운 칼럼으로 저장한 뒤, 저장된 감성 분석 결과를 기반으로 VADER의 예측 성능을 추측

In [27]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score
from sklearn.metrics import recall_score,f1_score, roc_auc_score
import numpy as np

def vader_polarity(review, threshold = 0.1):
  analyzer = SentimentIntensityAnalyzer()
  scores = analyzer.polarity_scores(review)

  # compound 값에 기반해 threshold 입력값보다 크면 1, 그렇지 않으면 0을 반환
  agg_score = scores['compound']
  final_sentiment = 1 if agg_score >= threshold else 0
  return final_sentiment

# apply lambda 식을 이용해 레코드별로 vader_polarity( )를 수행하고 결과를 'vader_preds'에 저장
review_df['vader_preds'] = review_df['review'].apply(lambda x: vader_polarity(x, 0.1))

y_target = review_df['sentiment'].values
vader_preds = review_df['vader_preds'].values

print(confusion_matrix(y_target, vader_preds))
print('정확도: ', np.round(accuracy_score(y_target, vader_preds), 4))
print('정밀도: ', np.round(precision_score(y_target, vader_preds), 4))
print('재현율: ', np.round(recall_score(y_target, vader_preds), 4))

[[ 6747  5753]
 [ 1858 10642]]
정확도:  0.6956
정밀도:  0.6491
재현율:  0.8514


- 정확도가 SentiWordNet보다 향상, 특히 재현율은 약 85.14%로 크게 향상