# 영문 형태소 분석기
## 설치 - NLTK
- PPT 참조

In [36]:
# !pip install nltk

In [39]:
# nltk.download()

In [6]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize 
from nltk.corpus import stopwords

## 토큰화

In [9]:
tokens=word_tokenize("Hello World, This is a dog.")
tokens               

['Hello', 'World', ',', 'This', 'is', 'a', 'dog', '.']

## 정제
- 특수문자 제거 >> , . !!!

In [7]:
words=[]
for word in tokens:
    if word.isalpha():   # 숫자, 구두점, 특수문자 모두 제거
        words.append(word)
words

['Hello', 'World', 'This', 'is', 'a', 'dog']

## 불용어 
- stopword 문장에 많이 등장하지만 큰 의미가 없는 단어들
- '이', '그', '저', '것', '수', '등', '들', '및', '에서', '의', '에게', '하지만', '그리고', '또한'
- 'a', 'am', 'this'

In [10]:
# nltk.download('punkt')
# nltk.download('stopwords')

In [13]:
stop_words_list=stopwords.words('english')
print("불용어 개수:", len(stop_words_list))
print("불용어 10개 출력:", stop_words_list[:10])

불용어 개수: 198
불용어 10개 출력: ['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']


In [20]:
stop_words=set(stopwords.words('english'))   # set 저장 / 속도, 중복값

example="Family is not an important thing. It's everything."
tokens=word_tokenize(example)
# tokens

reslut=[]
for word in tokens:
    if word not in stop_words:    # 불용어가 아니면 출력
        reslut.append(word)

print("원래 문장:", tokens)
print("불용어 제거 후:", reslut)

원래 문장: ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후: ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 문장 토큰화
- 단어 토큰화, 문장 토큰화

In [61]:
text="This is a dog. This is a dog"
print(word_tokenize(text))
print(sent_tokenize(text))

['This', 'is', 'a', 'dog', '.', 'This', 'is', 'a', 'dog']
['This is a dog.', 'This is a dog']


# 한글 형태소 분석기
- KoNLpy(코엔엘파이)
- Kiwi 형태소 분석기
- Bareun 바른 형태소 분석기

## 설치 - Kiwi

In [91]:
# !pip install kiwipiepy



In [32]:
from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords

### 토큰화, 정제, 불용어

In [52]:
# 토큰화
kiwi=Kiwi()
kor_tokens=kiwi.tokenize("안녕하세요!!! 형태소 분석기 키위입니다.")
kor_tokens

[Token(form='안녕', tag='NNG', start=0, len=2),
 Token(form='하', tag='XSA', start=2, len=1),
 Token(form='세요', tag='EF', start=3, len=2),
 Token(form='!!!', tag='SF', start=5, len=3),
 Token(form='형태소', tag='NNG', start=9, len=3),
 Token(form='분석기', tag='NNG', start=13, len=3),
 Token(form='키위', tag='NNG', start=17, len=2),
 Token(form='이', tag='VCP', start=19, len=1),
 Token(form='ᆸ니다', tag='EF', start=19, len=3),
 Token(form='.', tag='SF', start=22, len=1)]

- tag="품사", start="글자위치", len="길이"
- 세종 품사 태그(SKKU POS Tags)**는 다음과 같이 총 60개
    - np:명사, vv:동사, jx:조사, mag:부사, va:형용사
    - https://konlpy.org/ko/latest/api/konlpy.tag/

In [60]:
# 정제 >> 구두점 제거
kor_words=[]  
for word in kor_tokens:
    if word.form.isalpha(): 
        kor_words.append(word.form)
print("구두점 제거된 토큰:", kor_words)

구두점 제거된 토큰: ['안녕', '하', '세요', '형태소', '분석기', '키위', '이', 'ᆸ니다']


In [65]:
# 불용어 관리를 위한 Stopwords 클래스도 제공합니다.
stopword=Stopwords()
kiwi.tokenize("분석 결과에서 불용어만 제외하고 출력할 수도 있다.", stopwords=stopword)

[Token(form='분석', tag='NNG', start=0, len=2),
 Token(form='결과', tag='NNG', start=3, len=2),
 Token(form='불', tag='NNG', start=8, len=1),
 Token(form='용어', tag='NNG', start=9, len=2),
 Token(form='제외', tag='NNG', start=13, len=2),
 Token(form='출력', tag='NNG', start=18, len=2),
 Token(form='있', tag='VA', start=25, len=1)]

In [163]:
# normalize_coda 옵션을 사용하면 덧붙은 받침 때문에 분석이 깨지는 경우를 방지할 수 있습니다.
kiwi.tokenize("ㅋㅋㅋ 이런 것도 분석이 될까욬ㅋㅋ?", normalize_coda=True)

[Token(form='ㅋㅋㅋ', tag='SW', start=0, len=3),
 Token(form='이런', tag='MM', start=4, len=2),
 Token(form='것', tag='NNB', start=7, len=1),
 Token(form='도', tag='JX', start=8, len=1),
 Token(form='분석', tag='NNG', start=10, len=2),
 Token(form='이', tag='JKC', start=12, len=1),
 Token(form='되', tag='VV', start=14, len=1),
 Token(form='ᆯ까요', tag='EF', start=14, len=3),
 Token(form='ㅋㅋㅋ', tag='SW', start=16, len=3),
 Token(form='?', tag='SF', start=19, len=1)]

# Kears를 이용한 전처리

In [107]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing import sequence
from keras.utils import to_categorical

## 토큰화 
- 공백단어 분리, 구두점을 필터링, 텍스트를 소문자로 변환

In [110]:
text_to_word_sequence("This!!! is a dog.....", lower=False)

['This', 'is', 'a', 'dog']

In [112]:
text_to_word_sequence("한글입니다!!!!! 안녕~~~ 크핫핫핫.")

['한글입니다', '안녕', '크핫핫핫']

# 네이버 쇼핑 리뷰 
- https://github.com/keiraydev/chatbot
- https://wikidocs.net/94600

In [91]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import urllib.request

import tensorflow as tf
from tensorflow import keras  
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

import re
from collections import Counter
from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords
from tqdm import tqdm

## 데이터 로드
- 네이버 쇼핑 리뷰 데이터 https://github.com/bab2min/corpus/tree/master/sentiment
- 20만개 데이터

In [8]:
data=pd.read_table('./../Data/NaverMovie/naver_shopping.txt', names=['평점', '리뷰'])
data.shape

(200000, 2)

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   평점      200000 non-null  int64 
 1   리뷰      200000 non-null  object
dtypes: int64(1), object(1)
memory usage: 3.1+ MB


In [12]:
data.head()

Unnamed: 0,평점,리뷰
0,5,배공빠르고 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ


In [14]:
# 평점이 3보다 크면 1, 그렇지 않으면 0
data['긍부정']=np.where(data['평점'] > 3, 1, 0)   
data.head()

Unnamed: 0,평점,리뷰,긍부정
0,5,배공빠르고 굿,1
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고,0
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...,1
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...,0
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ,1


In [18]:
# 중복 체크
data['평점'].nunique(), data['리뷰'].nunique(), data['긍부정'].nunique()

(4, 199908, 2)

In [20]:
data['평점'].value_counts()

평점
5    81177
2    63989
1    36048
4    18786
Name: count, dtype: int64

In [24]:
data['긍부정'].value_counts()

긍부정
0    100037
1     99963
Name: count, dtype: int64

- drop_duplicates(): 중복된 행을 제거하는 함수
- subset=['reviews']: 'reviews' 열을 기준으로 중복 여부 판단
- inplace=True: 원본 data를 직접 수정 (새 객체를 반환하지 않음)

In [26]:
# reviews 열에서 중복인 내용이 있다면 중복 제거
# 중복되는 내용 삭제 >> 완전히 동일한 리뷰가 여러 번 존재하는 경우, 학습이 편향
data.drop_duplicates(subset=['리뷰'], inplace=True)
data.shape

(199908, 3)

## 데이터 정제
- 한글과 공백을 제외하고 모두 제거

### 정규화
- re.sub(pattern, replacement, string):
    - 정규 표현식 pattern에 해당하는 부분을 replacement로 바꿔주는 함수
- r'[^a-zA-Z ]':
    - 정규 표현식 패턴
        - [^...]: 괄호 안의 문자들을 제외한 모든 문자
        - a-zA-Z: 영문자 (소문자 + 대문자)
        - 공백 ' ' 포함
        - 결론] 영문자와 공백을 제외한 모든 문자
    - '': 빈 문자열로 대체
    - eng_text: 처리할 문자열 (영어 문장이 담긴 변수)

In [64]:
eng_text='do!!! you expect... people~ to~ read~ the FAQ, etc. and actually accept hard~! atheism?@@'
print(re.sub(r'[^a-zA-Z ]', '', eng_text))

do you expect people to read the FAQ etc and actually accept hard atheism


- https://www.unicode.org/charts/PDF/U3130.pdf
- https://www.unicode.org/charts/PDF/UAC00.pdf
- "[^ㄱ-ㅎㅏ-ㅣ가-힣 ]": 한글과 공백을 제외한 모든 문자
- "": 즉, 빈 문자열로 대체 → 추후 제거한다는 뜻
- regex=True: 정규표현식으로 인식하라는 옵션

In [30]:
data['리뷰']=data['리뷰'].str.replace(r'[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', regex=True)

In [31]:
data['리뷰']=data['리뷰'].replace('', np.nan)  
print(data.isnull().sum())

평점     0
리뷰     0
긍부정    0
dtype: int64


### 토근화
- 불용어 제거

In [34]:
stopwords=['도', '는', '다', '의', '가', '이', '은', '한', '에', '하', '고', '을', 
           '를', '인', '듯', '과', '와', '네', '들', '듯', '지', '임', '게']

In [36]:
kiwi=Kiwi()

train=[]
for sentence in tqdm(data['리뷰']):
    tokens=kiwi.tokenize(sentence)   # 토큰화 
    filtered_tokens=[token.form for token in tokens if token.form not in stopwords]  # 불용어 제거 
    train.append(filtered_tokens)

100%|█████████████████████████████████████████████████████████████████████████| 199908/199908 [06:43<00:00, 495.64it/s]


In [41]:
train[0]

['배', '공', '빠르', '굿']

In [43]:
data['토근화리뷰']=[' '.join(tokens) for tokens in train]

In [44]:
data.head()

Unnamed: 0,평점,리뷰,긍부정,토근화리뷰
0,5,배공빠르고 굿,1,배 공 빠르 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고,0,택배 엉망 네요 ᆼ 저희 집 밑 층 말 없이 놔두
2,5,아주좋아요 바지 정말 좋아서개 더 구매했어요 이가격에 대박입니다 바느질이 조금 엉성...,1,아주 좋 어요 바지 정말 좋 어서 개 더 구매 었 어요 가격 대 박 ᆸ니다 바느질 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다 전화...,0,선물 용 으로 빨리 받 어서 전달 었 어야 상품 었 는데 머 그 컵 만 오 어서 당...
4,5,민트색상 예뻐요 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ,1,민트 색상 예쁘 어요 옆 손잡이 거 용도 로 사용 되 네요 ㅎㅎ


### 긍부정 단어 빈도수

In [51]:
# 긍부정 단어 빈도수 
negative_words=np.hstack(data[data['긍부정']==0]['토근화리뷰'].values)
positive_words=np.hstack(data[data['긍부정']==1]['토근화리뷰'].values)

negative_word_count=Counter(negative_words)
positive_word_count=Counter(positive_words)

In [53]:
negative_word_count.most_common(20)   # 빈도수 

[('재 구매', 26),
 ('배송 너무 느리 어요', 17),
 ('그냥 그렇 어요', 9),
 ('좋 어요', 9),
 ('배송 빠르 좋 어요', 9),
 ('배송 빠르 어요', 8),
 ('생각 보다 별로 네요', 7),
 ('잘 받 었 습니다', 7),
 ('그저 그렇 어요', 7),
 ('그저 그렇 네요', 7),
 ('배송 겁나 느리 ᆷ', 7),
 ('별로 에요', 7),
 ('배송 너무 느리 ᆸ니다', 7),
 ('별로', 6),
 ('사이즈 작 어요', 6),
 ('딱 가격 만큼 ᆸ니다', 6),
 ('별루 ᆸ니다', 6),
 ('배송 느리 ᆷ', 5),
 ('냄새 심하 어요', 5),
 ('배송 너무 늦 네요', 5)]

In [55]:
positive_word_count.most_common(20)

[('재 구매', 29),
 ('좋 어요', 16),
 ('좋 습니다', 9),
 ('만족 ᆸ니다', 8),
 ('감사 ᆸ니다', 8),
 ('배송 빠르 어요', 7),
 ('굿', 6),
 ('조아요', 6),
 ('잘 받 었 습니다', 6),
 ('좋 네요', 5),
 ('빠르 ᆫ 배송 감사 ᆸ니다', 5),
 ('배송 빠르 네요', 5),
 ('재 구매 배송 빠르 좋 어요', 5),
 ('배송 빠르 좋 네요', 5),
 ('맘 어요', 4),
 ('괜찮 어요', 4),
 ('재 구매 빠르 ᆫ 배송 감사 ᆸ니다', 4),
 ('맛있 어요', 4),
 ('배송 빠르 좋 어요', 4),
 ('착용감 좋 어요', 4)]

## 학습 & 테스트 데이터셋 분리

In [58]:
train_data, test_data = train_test_split(data, test_size=0.25, random_state=42)
print('훈련용 리뷰의 개수 :', len(train_data))
print('테스트용 리뷰의 개수 :', len(test_data))

훈련용 리뷰의 개수 : 149931
테스트용 리뷰의 개수 : 49977


In [60]:
X_train=train_data['토근화리뷰'].values
Y_train=train_data['긍부정'].values

X_test=test_data['토근화리뷰'].values
Y_test=test_data['긍부정'].values

X_train.shape, Y_test.shape, X_test.shape, Y_test.shape

((149931,), (49977,), (49977,), (49977,))

## 정수 인코딩 

In [63]:
tokenizer=Tokenizer()
tokenizer.fit_on_texts(X_test)
len(tokenizer.word_index)

20809

In [65]:
# 등장 횟수가 1회인 단어들은 자연어 처리에서 배재
threshold=2       
total_cnt=len(tokenizer.word_index)   # 단어의 수
rare_cnt=0                            # 등장빈도수가 threshold보다 작은 단어의 수

total_freq=0                          # 훈련데이터의 전체 단어 빈도수 총합
rare_freq=0                           # 등장빈도수가  threshold보다 작은 단어의 등장 빈도수의 총합


for key, value in tokenizer.word_counts.items():  # 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
    total_freq += value             # 빈도수 총합

    if(value < threshold):          # 등장빈도수가 threshold보다 작은 단어의 수
        rare_cnt += 1
        rare_freq += value

In [66]:
print("단어집합(vocabulary)의 크기:", total_cnt)
print('등장 빈도가 %s번 이하인 희귀 단어의 수: %s'%(threshold-1, rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

단어집합(vocabulary)의 크기: 20809
등장 빈도가 1번 이하인 희귀 단어의 수: 10719
단어 집합에서 희귀 단어의 비율: 51.51136527464079
전체 등장 빈도에서 희귀 단어 등장 빈도 비율: 1.2827493606597202


In [72]:
vocab_size=total_cnt - rare_cnt + 2 
vocab_size     # 빈도순위

10092

- OOV : 훈련에 없는 단어 포함시 토큰으로 대체

In [75]:
tokenizer=Tokenizer(vocab_size, oov_token='OOV') 
tokenizer.fit_on_texts(X_train)
X_train=tokenizer.texts_to_sequences(X_train)
X_test=tokenizer.texts_to_sequences(X_test)

In [76]:
print(X_train[:3])

[[67, 1729, 298, 1946, 5, 13, 50, 70, 2, 234, 171, 144, 159, 2, 2562, 5, 692, 7, 71, 61, 132, 44, 969, 343, 162, 8, 2], [2095, 300, 52, 1947, 3905, 2563, 317, 1947, 313, 78, 4, 32, 444, 7], [46, 17, 1043, 113, 42, 1981, 160, 11, 16, 1409, 3, 2, 1203, 6, 128, 260, 4, 23, 58, 160, 128, 11, 1409, 7, 116, 13, 15, 489, 323, 124, 143]]


In [79]:
print('리뷰의 최대 길이 :', max(len(review) for review in X_train))
print('리뷰의 평균 길이 :', sum(map(len, X_train))/len(X_train))

리뷰의 최대 길이 : 77
리뷰의 평균 길이 : 16.669608019689058


In [81]:
max_len=80
X_train=pad_sequences(X_train, maxlen=max_len)
X_test=pad_sequences(X_test, maxlen=max_len)

In [93]:
model=Sequential()
model.add(keras.layers.Input(shape=(max_len, )))
model.add(keras.layers.Embedding(input_dim=vocab_size, output_dim=100))
model.add(keras.layers.LSTM(128, activation='tanh'))
model.add(keras.layers.Dense(1, activation='sigmoid'))

In [95]:
es=EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=4)

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])

history=model.fit(X_train, Y_train, epochs=3, callbacks=[es], batch_size=64, validation_split=0.2)   # epochs=15

Epoch 1/3
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m261s[0m 138ms/step - acc: 0.8403 - loss: 0.3656 - val_acc: 0.9094 - val_loss: 0.2440
Epoch 2/3
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m278s[0m 148ms/step - acc: 0.9160 - loss: 0.2329 - val_acc: 0.9177 - val_loss: 0.2262
Epoch 3/3
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m252s[0m 134ms/step - acc: 0.9245 - loss: 0.2100 - val_acc: 0.9222 - val_loss: 0.2193


## 테스트 

In [114]:
def sentiment_predict(new_sentence):
  new_sentence=re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣 ]','', new_sentence)           # 정규 표현
  new_sentence=[token.form for token in kiwi.tokenize(new_sentence)]     # 토근화
  new_sentence=[word for word in new_sentence if word not in stopwords]  # 불용어 제거
  encoded=tokenizer.texts_to_sequences([new_sentence])                   # 정수 인코딩
  pad_new=pad_sequences(encoded, maxlen=max_len)                         # 패딩

  score=float(model.predict(pad_new)[0][0])
  if(score > 0.5):
    print("{:.2f}% 확률로 긍정 리뷰입니다.".format(score * 100))
  else:
    print("{:.2f}% 확률로 부정 리뷰입니다.".format((1 - score) * 100))

In [116]:
sentiment_predict('이 상품 진짜 좋아요... 저는 강추합니다. 대박')

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 293ms/step
96.79% 확률로 긍정 리뷰입니다.


In [118]:
sentiment_predict('진짜 배송도 늦고 개짜증나네요. 뭐 이런 걸 상품이라고 만듬?')

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 71ms/step
99.03% 확률로 부정 리뷰입니다.


In [120]:
sentiment_predict('판매자님... 너무 짱이에요.. 대박나삼')

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 82ms/step
97.51% 확률로 긍정 리뷰입니다.


In [122]:
sentiment_predict('ㅁㄴㅇㄻㄴㅇㄻㄴㅇ리뷰쓰기도 귀찮아')

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 73ms/step
79.37% 확률로 부정 리뷰입니다.
