<a href="https://colab.research.google.com/github/jh941213/jh941213/blob/main/n_gram.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# n-gram 텍스트 전처리
- 2개 이상의 토큰을 하나의 토큰으로 묶어서 토큰 확장

## konlpy 설치

In [None]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.5 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[K     |████████████████████████████████| 465 kB 11.8 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
# 이미 앞서 다뤄본 적이 있는 기본적인 라이브러리
import numpy as np
import pandas as pd

import json
import re

from tqdm.notebook import tqdm

In [None]:
from konlpy.tag import Okt # komoran, hannanum, kkma, mecab

In [None]:
import os
from datetime import datetime

## Download Dataset(github에서 NSMC 데이터셋 다운로드)

In [None]:
train = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', header=0, delimiter='\t' ,quoting=3)
test = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt', header=0, delimiter='\t' ,quoting=3)

In [None]:
train.shape, test.shape

((150000, 3), (50000, 3))

In [None]:
display(train.head())
display(test.head())

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [None]:
train.isnull().sum()

id          0
document    5
label       0
dtype: int64

In [None]:
test.isnull().sum()

id          0
document    3
label       0
dtype: int64

In [None]:
train.dropna(inplace=True)
test.dropna(inplace=True)

In [None]:
X_train = train.document   
y_train = train.label 

X_test = test.document  
y_test = test.label 
X_train[0], y_train[0]

('아 더빙.. 진짜 짜증나네요 목소리', 0)

In [None]:
print('#Train set size:', len(X_train))
print('#Test set size:', len(X_test))

#Train set size: 149995
#Test set size: 49997


### N-gram (bi-gram)

In [None]:
review = X_train[0]
review

'아 더빙.. 진짜 짜증나네요 목소리'

In [None]:
okt = Okt()

f = open('nsmc_stopwords.txt')
stop_words = f.read().split()

# 1. 한글 및 공백을 제외한 문자 모두 제거.
review_text = re.sub("[^가-힣\\s]", "", review)

# 2. okt 객체를 활용해서 형태소 토큰화 + 품사 태깅
word_review = okt.pos(review_text, stem=True)

# 노이즈 & 불용어 제거
word_review = [(token, pos) for token, pos in word_review if not token in stop_words and len(token) > 1]

# 명사, 동사, 형용사 추출
word_review = [token for token, pos in word_review if pos in ['Noun', 'Verb', 'Adjective']]
print(word_review)

['더빙', '진짜', '짜증나다', '목소리']


In [None]:
#

def bigram(word_review):
    return [' '.join(word_review[i:i+2]) for i in range(len(word_review)-1)]

In [None]:
bigram(word_review)

['더빙 진짜', '진짜 짜증나다', '짜증나다 목소리']

In [None]:
word_review += bigram(word_review)
word_review

['더빙', '진짜', '짜증나다', '목소리', '더빙 진짜', '진짜 짜증나다', '짜증나다 목소리']

### 종합적인 구현

In [None]:
def preprocessing(review): 
    okt = Okt()
    
    f = open('nsmc_stopwords.txt')
    stop_words = f.read().split()
    
    # 1. 한글 및 공백을 제외한 문자 모두 제거.
    review_text = re.sub("[^가-힣\\s]", "", review)
    
    # 2. okt 객체를 활용해서 형태소 토큰화 + 품사 태깅
    word_review = okt.pos(review_text, stem=True)
    
    # 노이즈 & 불용어 제거
    word_review = [(token, pos) for token, pos in word_review if not token in stop_words and len(token) > 1]
    
    # 명사, 동사, 형용사 추출
    word_review = [token for token, pos in word_review if pos in ['Noun', 'Verb', 'Adjective']]
    # print(word_review)

    # n-gram : bi-gram
    n_gram = [' '.join(word_review[i:i+2]) for i in range(len(word_review)-1)]
    # print('n-gram')
    # print(n_gram)

    # 기존 토큰 뭉치 + n-gram
    word_review += n_gram
    # print('n-gram 토큰 추가된 뭉치')
    # print(word_review)

    return word_review

In [None]:
reviews = []

for review in tqdm(X_train[:1000]):
    reviews.append(preprocessing(review))

  0%|          | 0/1000 [00:00<?, ?it/s]

['더빙', '진짜', '짜증나다', '목소리']
n-gram
['더빙 진짜', '진짜 짜증나다', '짜증나다 목소리']
n-gram 토큰 추가된 뭉치
['더빙', '진짜', '짜증나다', '목소리', '더빙 진짜', '진짜 짜증나다', '짜증나다 목소리']
['포스터', '보고', '초딩', '오버', '연기', '가볍다', '않다']
n-gram
['포스터 보고', '보고 초딩', '초딩 오버', '오버 연기', '연기 가볍다', '가볍다 않다']
n-gram 토큰 추가된 뭉치
['포스터', '보고', '초딩', '오버', '연기', '가볍다', '않다', '포스터 보고', '보고 초딩', '초딩 오버', '오버 연기', '연기 가볍다', '가볍다 않다']
['무재', '밓었', '다그', '래서', '보다', '추천']
n-gram
['무재 밓었', '밓었 다그', '다그 래서', '래서 보다', '보다 추천']
n-gram 토큰 추가된 뭉치
['무재', '밓었', '다그', '래서', '보다', '추천', '무재 밓었', '밓었 다그', '다그 래서', '래서 보다', '보다 추천']
['이야기', '구먼', '솔직하다', '재미', '없다', '조정']
n-gram
['이야기 구먼', '구먼 솔직하다', '솔직하다 재미', '재미 없다', '없다 조정']
n-gram 토큰 추가된 뭉치
['이야기', '구먼', '솔직하다', '재미', '없다', '조정', '이야기 구먼', '구먼 솔직하다', '솔직하다 재미', '재미 없다', '없다 조정']
['몬페', '익살스럽다', '연기', '돋보이다', '늙다', '보이다', '커스틴', '던스트', '이쁘다', '보이다']
n-gram
['몬페 익살스럽다', '익살스럽다 연기', '연기 돋보이다', '돋보이다 늙다', '늙다 보이다', '보이다 커스틴', '커스틴 던스트', '던스트 이쁘다', '이쁘다 보이다']
n-gram 토큰 추가된 뭉치
['몬페', '익살스럽다', '연기', '돋보이다', '늙다', 

### 벡터화 
1. BoW : CountVectorizer
2. TF-IDF : TfidfVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression

bow = CountVectorizer(tokenizer=preprocessing, min_df=5, max_df=0.5) 

# X_train_bow = bow.fit(X_train)
# X_train_bow = bow.fit_transform(X_train)
# X_test_bow = bow.transform(X_test)

In [None]:
tfidf = TfidfVectorizer(tokenizer=preprocessing, max_features=2000, min_df=5, max_df=0.5) 

X_train_tfidf = tfidf.fit_transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

X_train_tfidf.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

#### n-gram 파라미터 활용하기

ngram_rangetuple (min_n, max_n), default=(1, 1)  
(1, 1) means only unigrams,  
(1, 2) means unigrams and bigrams,  
(2, 2) means only bigrams. 

In [None]:
tfidf = TfidfVectorizer(tokenizer=preprocessing, ngram_range=(1,2), max_features=2000, min_df=5, max_df=0.5) 

X_train_tfidf = tfidf.fit_transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

X_train_tfidf.toarray()

## 모델 학습 및 검증

In [None]:
# 모델 1 : Logistic Regression 모형
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression()
log_clf.fit(X_train_tfidf, y_train)
print('Train set score: {:.3f}'.format(log_clf.score(X_train_tfidf, y_train)))
print('Test set score: {:.3f}'.format(log_clf.score(X_test_tfidf, y_test)))

Train set score: 0.816
Test set score: 0.809


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [None]:
log_clf = LogisticRegression()
log_clf.fit(X_train_tfidf, y_train)
print('Train set score: {:.3f}'.format(log_clf.score(X_train_tfidf, y_train)))
print('Test set score: {:.3f}'.format(log_clf.score(X_test_tfidf, y_test)))

Train set score: 0.818
Test set score: 0.810
