# 텍스트분석

## 클렌징

## 텍스트 토큰화

### 문장 토큰화
- 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것

In [4]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.7-py3-none-any.whl (1.5 MB)
Collecting regex>=2021.8.3
  Downloading regex-2022.9.13-cp38-cp38-win_amd64.whl (267 kB)
Collecting tqdm
  Downloading tqdm-4.64.1-py2.py3-none-any.whl (78 kB)
Installing collected packages: tqdm, regex, nltk
Successfully installed nltk-3.7 regex-2022.9.13 tqdm-4.64.1


In [5]:
from nltk import sent_tokenize
import nltk

# 마침표, 개행문자 등 데이터 세트 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [9]:
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text = text_sample)

print(f' sent_tokenize 객체 타입: \n{type(sentences)},\n\n 문장 개수:{len(sentences)}\n')
print(f' 출력: \n{sentences}')

 sent_tokenize 객체 타입: 
<class 'list'>,

 문장 개수:3

 출력: 
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


### 단어 토큰화
- 문장을 단어로 토큰화
- 공백, 쉼포, 마침표, 개행문자 등으로 단어를 분리 혹은 정규표현식을 이용해 분리

In [11]:
from nltk import word_tokenize

sentence = sentences[0]

words = word_tokenize(sentence)

print(f' word_tokenize 객체 타입: \n{type(words)},\n\n 단어 개수:{len(words)}\n')
print(f' 출력: \n{words}')

 word_tokenize 객체 타입: 
<class 'list'>,

 단어 개수:15

 출력: 
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


### 문장 및 단어 토큰화

In [29]:
from nltk import sent_tokenize, word_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하도록 만드는 사용자 함수 생성
def tokenize_text(text):
    ## 문장 토큰화
    sentences = sent_tokenize(text)
    
    ## 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

# 수행
word_tokens = tokenize_text(text_sample)
print(f' word_tokenize 객체 타입: \n{type(word_tokens)},\n\n 단어 개수:{len(word_tokens)}\n')
print(f' 출력:')
word_tokens

 word_tokenize 객체 타입: 
<class 'list'>,

 단어 개수:3

 출력:


[['The',
  'Matrix',
  'is',
  'everywhere',
  'its',
  'all',
  'around',
  'us',
  ',',
  'here',
  'even',
  'in',
  'this',
  'room',
  '.'],
 ['You',
  'can',
  'see',
  'it',
  'out',
  'your',
  'window',
  'or',
  'on',
  'your',
  'television',
  '.'],
 ['You',
  'feel',
  'it',
  'when',
  'you',
  'go',
  'to',
  'work',
  ',',
  'or',
  'go',
  'to',
  'church',
  'or',
  'pay',
  'your',
  'taxes',
  '.']]

### n_gram
- 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것

## 스톱워드 제거
- 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어를 사전에 제거
- 빈번하게 텍스트에 나타나면 중요 단어로 인지될 수 있기 때문에 중요한 작업임

In [6]:
import nltk

# 스톱워드 목록 다운로드
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [44]:
print('스톱워드 리스트 내 단어 개수:')
len(nltk.corpus.stopwords.words('english'))

스톱워드 리스트 내 단어 개수:


179

In [46]:
print('스톱워드 리스트:')
nltk.corpus.stopwords.words('english')[:20]

스톱워드 리스트:


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [42]:
import nltk

# 스톱워드 리스트 생성
stopwords = nltk.corpus.stopwords.words('english')


all_tokens = []
for sentence in word_tokens:
    
    filtered_words = []
    for word in sentence:
        # 소문자로 변환
        word = word.lower()
        # 토큰화된 개별 단어가 스톱워드 리스트에 포함되지 않으면 리스트에 담기
        if word not in stopwords:
            filtered_words.append(word)
        # 문장별 걸러진 단어를 최종 리스트에 담기    
    all_tokens.append(filtered_words)
        
all_tokens

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'],
 ['see', 'window', 'television', '.'],
 ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]

## Stemming과 Lemmatization

### Stemming
- 원형 단어로 변환 시, 일반적인 방법을 적용하거나 더 단순화된 방법을 적용
- 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음

In [7]:
from nltk.stem import LancasterStemmer

# Stemmer 객체 생성
stemmer = LancasterStemmer()


# stem('단어') 메서드를 활용해 원하는 단어의 stemming 수행
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('faciest'))

work work work
amus amus amus
happy happiest
fant faciest


- work의 경우 working, works, worked 등 기본 단어에 ing, s, ed가 붙는 단순 형태라서 제대로 인식함
- 하지만, 다른 단의 경우 비교형, 최상급형에서 원형을 정확히 찾지 못함

### Lemmatization
- 품사와 같은 문법적 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줌
- 따라서 수행시간이 Stemming보다 더 느림

In [8]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...


True

In [11]:
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...


True

In [12]:
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

amuse amuse amuse
happy happy
fancy fancy


## 피처 벡터화

### BOW벡터화

### 희소행렬 - COO 형식

#### 희소행렬 형태의 BOW벡터화한 데이터프레임의 예시를 배열로 만들어서 COO방식으로 저장되는 것 확인하기

In [14]:
import numpy as np

# 예시 배열 만들기
dense = np.array([[3,0,1], [0,2,0]])

In [15]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# data의 행의 위치와 열의 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용해 COO형식 희소행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [16]:
# 확인
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

### 희소행렬 - CSR 형식

In [18]:
dense2 =  np.array([[0,0,1,0,0,5], [1,4,0,3,2,5], [0,6,0,3,0,0],[2,0,0,0,0,0], [0,0,0,7,0,8], [1,0,0,0,0,0]])

In [20]:
# 0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray(), '\n')

print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]] 

CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


#### 과제1: 10행 10열의 희소행렬 (0의 비중 70% 이상)을 생성한 후 COO, CSR 방식으로 변환 후 다시 희소 행렬 출력

In [34]:
dense.reshape(1,-1)

array([[3, 0, 1, 0, 2, 0]])

In [33]:
x = dense.reshape(1,-1)
print(x)
for d in x:
    print(d)
    if d != 0:
        print(x.index(d))

[[3 0 1 0 2 0]]
[3 0 1 0 2 0]


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [None]:
def x(dense):
    one_dense = dense.reshape(1,-1)
    data = 

# 실습: 텍스트 분류- 20 뉴스 그룹 분류

In [47]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset = 'all', random_state = 156)
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [97]:
import pandas as pd

print('target 클래스의 값과 분포도\n', pd.Series(news_data.target).value_counts().sort_index())
print('\n')
print('target 클래스의 이름들 \n', news_data.target_names)

target 클래스의 값과 분포도
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64


target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [98]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [99]:
from sklearn.datasets import fetch_20newsgroups

# subset = 'train'으로 학습용 데이터만 추출, remove = ('headers', 'footers', 'quotes')로 내용만 추출
train_news = fetch_20newsgroups(subset = 'train',
                                remove = ('headers', 'footers', 'quotes'),
                                random_state = 156)

X_train = train_news.data
y_train = train_news.target


# subset = 'train'으로 학습용 데이터만 추출, remove = ('headers', 'footers', 'quotes')로 내용만 추출
test_news = fetch_20newsgroups(subset = 'test',
                               remove = ('headers', 'footers', 'quotes'),
                               random_state = 156)
X_test = test_news.data
y_test = test_news.target


print(f'학습 데이터 크기: {len(train_news.data)}, 테스트 데이터 크기: {len(test_news.data)}')

학습 데이터 크기: 11314, 테스트 데이터 크기: 7532


## 로지스틱 회귀모델 적용

### CountVectorizer 기반

In [100]:
from sklearn.feature_extraction.text import CountVectorizer

# CountVectorization으로 피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)


# 학습 데이터로 fit() 된 CountVectorizer를 이용해 테스트 데이터를 피처 벡처화 변환 수행
X_test_cnt_vect = cnt_vect.transform(X_test)


print('학습 데이터 텍스트의 CountVectorizer Shape:', X_train_cnt_vect.shape)

학습 데이터 텍스트의 CountVectorizer Shape: (11314, 101631)


In [101]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# LogisticRegression을 이용하여 학습/예측/평가 수행
lr_clf = LogisticRegression(solver = 'liblinear')

## 학습
### 주의: 벡터화 한 x_train 데이터 세트 이용해야 함
lr_clf.fit(X_train_cnt_vect, y_train)

## 예측
pred = lr_clf.predict(X_test_cnt_vect)

## 평가
accuracy = accuracy_score(y_test, pred)

print(f'CountVectorized Logistic Regression의 예측 정확도는 {np.round(accuracy,3)}')

CountVectorized Logistic Regression의 예측 정확도는 0.617


### TF-IDF 기반

#### 기본 파라미터 적용

In [102]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF 벡터화를 적용해 학습데이터 테스트 데이터세트 변환
tfidf_vect = TfidfVectorizer()

# TF-IDF 벡터화를 적용#### 파라미터 수정 후 TF-IDF기반 로지스틱 회귀 모델 적용
tfidf_vect.fit(X_train)

#X_train, X_test 데이터를 TF-IDF 벡터로 변형시키기
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)


# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression(solver = 'liblinear')

## 학습
### 주의: 벡터화한 x_train 데이터 세트 이용
lr_clf.fit(X_train_tfidf_vect, y_train)

## 예측
lr_clf.predict(X_test_tfidf_vect)

## 평가
accuracy = accuracy_score(y_test, pred)

print(f'TF-IDF Logistic Regression의 예측 정확도는 {np.round(accuracy,3)}')

TF-IDF Logistic Regression의 예측 정확도는 0.617


#### 파라미터 수정 후 적용

In [103]:
# 파라미터 수정한 TF-IDF 객체 생성
tfidf_vect = TfidfVectorizer(stop_words = 'english', 
                             ngram_range = (1,2),
                             max_df = 300)

# TF-IDF 벡터화 학습
tfidf_vect.fit(X_train)

# TF-IDF 벡터로 변환
X_train_tfidf_vect2 = tfidf_vect.transform(X_train)
X_test_tfidf_vect2 = tfidf_vect.transform(X_test)


# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression(solver = 'liblinear')

## 학습
lr_clf.fit(X_train_tfidf_vect2, y_train)

## 예측
pred2 = lr_clf.predict(X_test_tfidf_vect2)

## 평가
accuracy2 = accuracy_score(y_test, pred2)

print(f'파라미터를 다르게 한 TF-IDF Logisitc Regression의 예측 정확도는 {np.round(accuracy2,3)}')

파라미터를 다르게 한 TF-IDF Logisitc Regression의 예측 정확도는 0.69


#### GridSearchCV를 이용한 하이퍼파라미터 최적화 수행 후 적용

In [104]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# GridSearchCV로 학습/평가/예측: 최적 C,값 도출 튜닝 수행 CV = 3인 폴드 세트로 설정
params = {'C': [0.01, 0.1, 1, 5, 10]}
lr_clf = LogisticRegression()

grid_cv_lr = GridSearchCV(lr_clf, param_grid = params, cv = 3, scoring = 'accuracy', verbose = 1)


## 학습
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print(f'Logistic Regression best C parameter: {grid_cv_lr.best_params_}')

## 예측
preds = grid_cv_lr.predict(X_test_tfidf_vect)

## 평가
accuracy = accuracy_score(y_test, preds)
print(f'TF-IDF Vectorized Logistic Regression의 예측 정확도: {np.round(accuracy, 3)}')



Fitting 3 folds for each of 5 candidates, totalling 15 fits
Logistic Regression best C parameter: {'C': 10}
TF-IDF Vectorized Logistic Regression의 예측 정확도: 0.685


# 감성 분석
- 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법
- 소셜미디어, 여론조사, 온라인리뷰, 피드백 등 다양한 분야에서 활용되고 있음
- 문서 내 텍스트가 나타내는 여러가지 주관적인 단어와 문맥을 기반으로 감성(Sentiment) 수치를 계산하는 방법 이용
- 지도학습/비지도학습 방식으로 나뉨
    - 지도학습: 학습 데이터와 타깃 레이블 값을 기반으로 감성 분석 학습 수행 후 다른 데이터의 감성 분석 예측
    - 비지도학습: 'Lexicon'이라는 일종의 감성 어휘 사전 이용, 용어와 문맥에 대한 다양한 정보르 ㄹ가지고 있으며, 이를 이용해 문서의 긍정/부정 여부 판단

## 실습: IMDB 영화평

## 지도학습 기반 감성분석

In [109]:
import pandas as pd

review_df = pd.read_csv('./labeledTrainData.tsv', header = 0, sep = '\t', quoting = 3)
review_df.head(3)

Unnamed: 0,id,sentiment,review
0,"""5814_8""",1,"""With all this stuff going down at the moment ..."
1,"""2381_9""",1,"""\""The Classic War of the Worlds\"" by Timothy ..."
2,"""7759_3""",0,"""The film starts with a manager (Nicholas Bell..."


- id: 각 데이터의 id
- sentiment: 영화평 label값
- review: 영화평 텍스트

In [110]:
print(review_df['review'][0])

"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyway then you are going to hate this and find it boring. Some may call MJ an egotist for consenting to the making of this movie BUT MJ and most of his fans would say that he made it for the fans which if true is really nice of him.<br /><br />The actual feature film bit when it finally sta

### 정규표현식으로 데이터 전처리

In [111]:
import re

#<br /> 태그 공백으로 변환
review_df['review'] = review_df['review'].str.replace('<br />',' ')

# 영어 문자열이 아닌 것은 모두 공백으로 변환
review_df['review'] = review_df['review'].apply(lambda x: re.sub('[^a-zA-Z]',' ',x))

In [112]:
# 확인
review_df['review'][0]

' With all this stuff going down at the moment with MJ i ve started listening to his music  watching the odd documentary here and there  watched The Wiz and watched Moonwalker again  Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent  Moonwalker is part biography  part feature film which i remember going to see at the cinema when it was originally released  Some of it has subtle messages about MJ s feeling towards the press and also the obvious message of drugs are bad m kay   Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyway then you are going to hate this and find it boring  Some may call MJ an egotist for consenting to the making of this movie BUT MJ and most of his fans would say that he made it for the fans which if true is really nice of him   The actual feature film bit when it finally starts is only on for 

### 학습용/테트스용 데이터 분리

#### 안됨

In [81]:
from sklearn.model_selection import train_test_split

class_df = review_df['sentiment']
feature_df = review_df['review']

X_train, X_test, y_train, y_test = train_test_split(feature_df, class_df, test_size = 0.3, random_state = 156)

X_train.shape, X_test.shape

((17500,), (7500,))

In [82]:
X_train

3724     ThisversionmovedalittleslowformytasteandIsuppo...
23599    IreallyenjoyedthisfilmbecauseIhaveatremendousi...
11331    Sawthisinthetheaterinandfelloutofmychairlaughi...
15745    RecentlyIwaslookingforthenewlyissuedWideScreen...
845      Escapingthelifeofbeingpimpedbyherfatherandthes...
                               ...                        
6955     Thisisagenerallynicefilmwithgoodstorygreatacto...
7653     TherealshameofTheGatheringisnotinthebadactingn...
9634     Inwhatcouldhavebeenanotherwiserunofthemillmedi...
6860     ExcellentPOWadventureadaptedbyEricWilliamsfrom...
24108    ThisonefeaturesallthebadeffectofPriorscheapomo...
Name: review, Length: 17500, dtype: object

In [83]:
X_test

1692     MygirlfriendandIwerestunnedbyhowbadthisfilmwas...
13392    Whatdoyouexpectwhenthereisnoscripttobeginwitha...
21063    ThisisaGermanfilmfromthatissomethingtodowithso...
10335    RichardTylerisalittleboywhoisscaredofeverythin...
16847    IrunagrouptostopcomedianexploitationandIjustsp...
                               ...                        
14848    Ifyouliketocommentonfilmswherethescriptarriveh...
8450     FirstletmesaythatNotoriousisanabsolutelycharmi...
8221     Realisticmoviesureexceptforthefactthatthechara...
10638    IwillspendafewdaysdedicatedtoRonHowardbeforeIs...
20673    JerryspiesTomlisteningtoacreepystoryontheradio...
Name: review, Length: 7500, dtype: object

#### 됨

In [113]:
from sklearn.model_selection import train_test_split

class_df = review_df['sentiment']
feature_df = review_df.drop(['id','sentiment'], axis = 1, inplace = False)

X_train, X_test, y_train, y_test = train_test_split(feature_df, class_df, test_size = 0.3, random_state = 156)

X_train.shape, X_test.shape

((17500, 1), (7500, 1))

In [114]:
X_train

Unnamed: 0,review
3724,This version moved a little slow for my taste...
23599,I really enjoyed this film because I have a t...
11331,Saw this in the theater in and fell out o...
15745,Recently I was looking for the newly issued W...
845,Escaping the life of being pimped by her fath...
...,...
6955,This is a generally nice film with good stor...
7653,The real shame of The Gathering is not in...
9634,In what could have been an otherwise run of t...
6860,Excellent P O W adventure adapted by Eric W...


In [115]:
X_test

Unnamed: 0,review
1692,My girlfriend and I were stunned by how bad t...
13392,What do you expect when there is no script to...
21063,This is a German film from that is somet...
10335,Richard Tyler is a little boy who is scared o...
16847,I run a group to stop comedian exploitation a...
...,...
14848,If you like to comment on films where the scr...
8450,First let me say that Notorious is an absolu...
8221,Realistic movie sure except for the fact that...
10638,I will spend a few days dedicated to Ron Howa...


### 피처 벡터화

#### CounterVectorizer 기반

In [116]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score


# CounterVectorizer 파라미터 지정: 스톱워드는 english, ngram_range는 (1,2) 
# LogiticRegression의 C는 10으로 설정
pipeline = Pipeline([
    ('cnt_vect', CountVectorizer(stop_words = 'english', ngram_range = (1,2))),
    ('lr_clf', LogisticRegression(solver = 'liblinear', C = 10))
])

# pipeline 객체를 이용해 학습/예측/평가 수행
## 학습
pipeline.fit(X_train['review'], y_train)

## 예측
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[: ,1]

## 평가
accuracy = accuracy_score(y_test, pred)
roc_auc_score = roc_auc_score(y_test, pred_probs)

print(f'예측 정확도는 {np.round(accuracy,3)}, ROC-AUC는 {np.round(roc_auc_score,3)}')

예측 정확도는 0.886, ROC-AUC는 0.95


#### TF-IDF 기반

In [119]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

# TfidfVectorizer 파라미터 지정: 스톱워드는 english, ngram_range는 (1,2) 
# LogiticRegression의 C는 10으로 설정
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words = 'english', ngram_range = (1,2))),
    ('lr_clf', LogisticRegression(solver = 'liblinear', C = 10))
])


# pipeline 객체를 이용해 학습/예측/평가 수행
## 학습
pipeline.fit(X_train['review'], y_train)

## 예측
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:,1]

## 평가
accuracy = accuracy_score(y_test, pred)
roc_auc = roc_auc_score(y_test, pred_probs)

print(f'예측 정확도는 {accuracy}, ROC-AUC는 {roc_auc}')

예측 정확도는 0.8936, ROC-AUC는 0.959800534941953


## 비지도학습 기반 감성분석

- 비지도 감성분석은 Lexicon을 기반으로 함
- 많은 감성 분석용 데이터는 결정된 레이블 값을 가지고 있지 않아서 Lexicon이 유용하게 사용됨
- 다만, 한글 지원이 되지 않음
- Lexicon은 일반적으로 어휘집을 의미하지만, 주로 감성만을 분석하기 위해 지원하는 감성 어휘사전
    - 감성 어휘사전은 긍정감성/부정감성의 정도를 의미하는 감성 지수를 가짐
    - 감성 지수는 단어의 위치나 주변 단어, 문맥, POS(품사) 등을 참고해 결정됨
    - NLTK 패키지에서 포함된 모듈임


- NLP 패키지
    - WordNet: 단순한 어휘사전이 아닌 시맨틱 분석을 제공하는 어휘사전임
        - 시맨틱(Semantic): 문맥상의 의미
        - 다양한 상황에서 같은 어휘라도 다르게 사용되는 어휘의 시맨틱 정보를 제공하며, 이를 위해 각각의 품사로 구성된 개별 단어를 Synset이라는 개념을 이용해 표현함
        - synset은 단순한 하나의 단어가 아니라 그 단어가 가지는 문맥, 시맨틱 정보를 제공함
    - SentiWordNet: NLTK패키지의 WordNet과 유사하게 감성 단어 전용의 WordNet을 구현한 것
        - WordNet의 synset 개념을 감성 분석에 적용한 것
        - WordNet의 synset 별로 긍정/부정/객관성 3가지 감성 점수를 할당함
    - VADER: 주로 소셜 미디어의 텍스트에 대한 감성 분석을 제공하기 위한 패키지
        - 뛰어난 감성 분석 결과를 제공하며, 비교적 빠른 수행시간을 보장해 대용량 텍스트 데이터에 잘 사용되는 패키지

In [95]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers\averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping grammars\basque_grammars.zip.
[nltk_data]   

[nltk_data]    | Downloading package nonbreaking_prefixes to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\nonbreaking_prefixes.zip.
[nltk_data]    | Downloading package nps_chat to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\nps_chat.zip.
[nltk_data]    | Downloading package omw to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package omw-1.4 to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package opinion_lexicon to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\opinion_lexicon.zip.
[nltk_data]    | Downloading package panlex_swadesh to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package paradigms to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data

[nltk_data]    |   Unzipping corpora\verbnet3.zip.
[nltk_data]    | Downloading package webtext to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\webtext.zip.
[nltk_data]    | Downloading package wmt15_eval to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping models\wmt15_eval.zip.
[nltk_data]    | Downloading package word2vec_sample to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping models\word2vec_sample.zip.
[nltk_data]    | Downloading package wordnet to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package wordnet2021 to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package wordnet31 to
[nltk_data]    |     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]    | Downloading package wordnet_ic to
[nltk_data]    |     C:\Users\admin\AppData\

True

### WordNet

In [122]:
from nltk.corpus import wordnet as wn

# 단어 지정
term = 'present'

# present라는 단어로 wordnet의 synsets 생성
synsets = wn.synsets(term)


print(f'synsets 반환 type: {type(synsets)}')
print(f'synsets 반환 값 개수: {len(synsets)}')
print(f'synsets 반환 값: \n{synsets}')

synsets 반환 type: <class 'list'>
synsets 반환 값 개수: 18
synsets 반환 값: 
[Synset('present.n.01'), Synset('present.n.02'), Synset('present.n.03'), Synset('show.v.01'), Synset('present.v.02'), Synset('stage.v.01'), Synset('present.v.04'), Synset('present.v.05'), Synset('award.v.01'), Synset('give.v.08'), Synset('deliver.v.01'), Synset('introduce.v.01'), Synset('portray.v.04'), Synset('confront.v.03'), Synset('present.v.12'), Synset('salute.v.06'), Synset('present.a.01'), Synset('present.a.02')]


- synset 객체의 파라미터: 'present.n.01' -> POS태그를 나타냄
    - present: 의미
    - n: 품사
    - 01: 품사로서 가지는 의미가 여러가지가 있어서 이를 구분하는 인덱스

- synset객체의 속성:
    - synset.lexname() -> POS: 품사 
    - synset.definition() -> Definition: 정의
    - synset.lemma_names() -> Lemma: 부명제

In [125]:
for synset in synsets:
    print(f'***synset: {synset.name()} ****')
    print(f'POS: {synset.lexname()}')
    print(f'Definition: {synset.definition()}')
    print(f'Lemmas: {synset.lemma_names()}')
    print('\n')

***synset: present.n.01 ****
POS: noun.time
Definition: the period of time that is happening now; any continuous stretch of time including the moment of speech
Lemmas: ['present', 'nowadays']


***synset: present.n.02 ****
POS: noun.possession
Definition: something presented as a gift
Lemmas: ['present']


***synset: present.n.03 ****
POS: noun.communication
Definition: a verb tense that expresses actions or states at the time of speaking
Lemmas: ['present', 'present_tense']


***synset: show.v.01 ****
POS: verb.perception
Definition: give an exhibition of to an interested audience
Lemmas: ['show', 'demo', 'exhibit', 'present', 'demonstrate']


***synset: present.v.02 ****
POS: verb.communication
Definition: bring forward and present to the mind
Lemmas: ['present', 'represent', 'lay_out']


***synset: stage.v.01 ****
POS: verb.creation
Definition: perform (a play), especially on a stage
Lemmas: ['stage', 'present', 'represent']


***synset: present.v.04 ****
POS: verb.possession
Defini

#### path_similarity 메서드: 어휘 간 유사도 측정

In [132]:
from nltk.corpus import wordnet as wn

# synset 객체를 단어별로 생성

tree = wn.synset('tree.n.01')
lion = wn.synset('lion.n.01')
tiger = wn.synset('tiger.n.01')
cat = wn.synset('cat.n.01')
dog = wn.synset('dog.n.01')


# 단어 객체 리스트
entities = [tree, lion, tiger, cat, dog]

# 유사도 측정값 담을 빈 리스트
similarities = []

# 단어 객체 이름
entity_names = [entity.name().split('.')[0] for entity in entities]

# 단어별 synset을 반복하면서 다른 단어와의 synset유사도 측정
for entity in entities:
    similarity = [round(entity.path_similarity(compared_entity),2)
                     for compared_entity in entities ]
    similarities.append(similarity)
    
# 개별 단어별 synset과 다른 단어의 synset과의 유사도를 데이터프레임형태로 생성
similarity_df = pd.DataFrame(similarities, columns = entity_names, index = entity_names)
similarity_df

Unnamed: 0,tree,lion,tiger,cat,dog
tree,1.0,0.07,0.14,0.08,0.12
lion,0.07,1.0,0.08,0.25,0.17
tiger,0.14,0.08,1.0,0.09,0.17
cat,0.08,0.25,0.09,1.0,0.2
dog,0.12,0.17,0.17,0.2,1.0


### SentiWordNet

In [None]:
import nltk
from nltk.corpus import sentiwordnet as swn

senti_synsets = list(swn.senti_synsets('slow'))
print('senti_synsets()')