<a href="https://colab.research.google.com/github/tjdrms0930/bit/blob/main/20221031.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras import models, layers
from tensorflow.keras.utils import to_categorical
import numpy as np

In [None]:
text = '해보지 않으면 해낼 수 없다.'
result = text_to_word_sequence(text)
print(result)

In [None]:
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
       '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
       '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.',
       ]

In [None]:
token = Tokenizer()
token.fit_on_texts(docs)

In [None]:
print(token.word_counts)

In [None]:
print(token.document_count) # 문장이 몇개인지 확인

In [None]:
print(token.word_docs)

In [None]:
print(token.word_index)

In [None]:
text='오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

In [None]:
x = token.texts_to_sequences([text])
print(x)

In [None]:
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)
print(x)

In [None]:
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요",
        "추천하고 싶은 영화입니다","한번 더 보고싶네요",
        "글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]
classes = np.array([1,1,1,1,1,0,0,0,0,0])
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

In [None]:
x = token.texts_to_sequences(docs)
print(x)

In [None]:
padded_x = pad_sequences(x, 4)
print(padded_x)

In [None]:
model = models.Sequential()
model.add(layers.Embedding(len(token.word_index) + 1, 8, input_length=4))
model.add(layers.Flatten())
model.add(layers.Dense(1, activation='sigmoid'))
model.summary()

In [None]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)

# Tokenizing

## 영어 토크나이징
- NLTK(Natural Language Toolkit) 과 Spacy 가 대표적 임  
## 1. NLTK  
- 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리  
- 50여개가 넘는 말뭉치(corpus) 리소스를 활용해 영어 텍스트를 분석할 수 있게 해줌  
- 직관적인 함수 사용법으로 빠르게 텍스트 전처리를 할 수 있음

In [None]:
import nltk

In [None]:
nltk.download('all-corpora')

In [None]:
nltk.download('punkt')

In [None]:
from nltk.tokenize import word_tokenize

In [None]:
sentence = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data."

In [None]:
print(word_tokenize(sentence))

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
paragraph = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data. Challenges in natural \
language processing frequently involve speech recognition, natural language \
understanding, and natural language generation."

In [None]:
print(sent_tokenize(paragraph))

In [None]:
from nltk.corpus import stopwords
stopwords.words('english')[:20]

In [None]:
print(len(stopwords.words('english')))

In [None]:
stop_words = set(stopwords.words('english'))
word_tokens=word_tokenize(sentence)

result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
print(result)

## 2. Spacy
- 상업용 목적으로 만들어진 오픈소스 라이브러리  
- 영어를 포함한 8개 국어에 대한 자연어 전처리 모듈을 제공  
- 쉬운 설치 및 빠른 전처리
- 버전오류로 통과

## 한글 토크나이징
- 한글은 언어의 특성상 NLTK나 Spacy는 사용하기에 적합하지 않음  
- 영어에 존재하지 않는 형태소 분석이나 음소 분리와 같은 내용은 다루기 어려움  
- 한글 자연어 처리에 많이 사용되는 KoNLPy 에 대해 알아봄

## KoLNPy
- 한글 자연어 처리를 위해 만들어진 오픈소스 라이브러리  
- 국내에 이미 만들어져 사용되고 있는 여러 형태소 분석기를 사용할 수 있음  
- 자바로 작성된 형태소 분석기를 사용하기 때문에 윈도우에서 KoNLPy를 설치하기 위해서는 Java(1.7 이상)가 필요  

In [None]:
import konlpy

### 형태소 단위 토크나이징
- KoNLPy에서는 여러 형태소 분석기를 제공  
- 각 형태소 분석기는 클래스 형태로 되어 있고, 이를 객체로 생성한 후 메서드를 호출해서 토크나이징 함

### 형태소 분석 및 품사 태깅
- 형태소란 의미를 가지는 가장 작은 단위  
- KoNLPy에 객체 형태로 포함되어 있는 형태소 분석기 목록  
a. Hannanum  
b. Kkma  
c. Komoran  
d. Mecab  
e. Okt(Twitter)  
- 위 객체들은 모두 동일하게 형태소 분석 기능을 제공  
- 각기 성능이 조금씩 다름  
- Mecab은 윈도우에서 실행 불가능

In [None]:
from konlpy.tag import Hannanum
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Okt

In [None]:
okt = Okt()
text = "한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ"
print(okt.morphs(text))

In [None]:
print(okt.morphs(text, stem=True))

In [None]:
print(okt.nouns(text))

In [None]:
print(okt.phrases(text))

In [None]:
print(okt.pos(text))
print(okt.pos(text, join=True))

In [None]:
kkma = Kkma()
print(kkma.morphs(text))
print(kkma.nouns(text))
print(kkma.pos(text))

In [None]:
komoram = Komoran()
print(komoram.morphs(text))
print(komoram.nouns(text))
print(komoram.pos(text))

In [None]:
hannanum = Hannanum()
print(hannanum.morphs(text))
print(hannanum.nouns(text))
print(hannanum.pos(text))

# kor_전처리

In [None]:
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

### 데이터 다운로드  
1. 다운로드 주소  
- https://github.com/e9t/nsmc  
2. 파일 구성  
- ratings.txt : 전체 리뷰를 모아둔 데이터, 전체 20만 개의 데이터로 구성됨  
- ratings_train.txt : 학습 데이터, 총 15만 개의 데이터로 구성  
- ratings_test.txt : 평가 데이터, 총 5만 개의 데이터로 구성

In [None]:
DATA_IN_PATH = './data-in/'
train_data = pd.read_csv(DATA_IN_PATH + 'ratings_train.txt', delimiter='\t',
                        quoting=3) # quoting 문자데이터
train_data.head()

In [None]:
print('전체 학습데이터의 개수: {}'.format(len(train_data)))

In [None]:
train_length = train_data['document'].astype(str).apply(len)
train_length.head()

In [None]:
# 그래프에 대한 이미지 사이즈 선언
# figsize: (가로, 세로) 형태의 튜플로 입력
plt.figure(figsize=(12, 5))
# 히스토그램 선언
# bins: 히스토그램 값들에 대한 버켓 범위
# range: x축 값의 범위
# alpha: 그래프 색상 투명도
# color: 그래프 색상
# label: 그래프에 대한 라벨
plt.hist(train_length, bins=200, alpha=0.5, color= 'r')
plt.yscale('log', nonpositive='clip')
#non-positive values in y can be clipped to a very small positive number
# 그래프 제목
plt.title('Log-Histogram of length of review')
# 그래프 x 축 라벨
plt.xlabel('Length of review')
# 그래프 y 축 라벨
plt.ylabel('Number of review')
plt.show()

In [None]:
plt.figure(figsize=(12, 5))
# 박스플롯 생성
# 첫번째 파라메터: 여러 분포에 대한 데이터 리스트를 입력
# labels: 입력한 데이터에 대한 라벨
# showmeans: 평균값을 마크함

plt.boxplot(train_length, labels=['counts'], showmeans=True)
plt.show()

- 길이가 긴 데이터가 꽤 존재함  
- 중간값과 평균값은 아래쪽에 위치  
- 워드클라우드를 이용해 자주 사용된 어휘 알아보기 

In [None]:
train_review = [review for review in train_data['document'] if type(review) is str]

- 워드 클라우드는 기본적으로 영어 텍스트를 지원함  
- 한글을 사용하기 위해 한글 폰트를 설정해야 함  
- 무료 한글폰트를 data-in 에 다운로드(나눔폰트)

In [None]:
wordclud = WordCloud(font_path = DATA_IN_PATH + 'NanumGothic.otf').generate(' '.join(train_review))
plt.figure(figsize=(15, 10))
plt.imshow(wordclud, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
fig, axe = plt.subplots(ncols=1)
fig.set_size_inches(6, 3)
sns.countplot(x=train_data['label'])
plt.show()

In [None]:
print("긍정 리뷰 개수: {}".format(train_data['label'].value_counts()[1]))
print("부정 리뷰 개수: {}".format(train_data['label'].value_counts()[0]))

In [None]:
train_word_counts = train_data['document'].astype(str).apply(lambda x:len(x.split(' ')))

In [None]:
plt.figure(figsize=(15, 10))
plt.hist(train_word_counts, bins=50, facecolor='r',label='train')
plt.title('Log-Histogram of word count in review', fontsize=15)
plt.yscale('log', nonpositive='clip')
plt.legend()
plt.xlabel('Number of words', fontsize=15)
plt.ylabel('Number of reviews', fontsize=15)
plt.show()

- 길이의 경우 대부분 5개 정도에 분포되어 있음  
- 30개 이상의 데이터부터는 수가 급격히 줄어듬  

In [None]:
print('리뷰 단어 개수 최대 값: {}'.format(np.max(train_word_counts)))
print('리뷰 단어 개수 최소 값: {}'.format(np.min(train_word_counts)))
print('리뷰 단어 개수 평균 값: {:.2f}'.format(np.mean(train_word_counts)))
print('리뷰 단어 개수 표준편차: {:.2f}'.format(np.std(train_word_counts)))
print('리뷰 단어 개수 중간 값: {}'.format(np.median(train_word_counts)))
# 사분위의 대한 경우는 0~100 스케일로 되어있음
print('리뷰 단어 개수 제 1 사분위: {}'.format(np.percentile(train_word_counts, 25)))
print('리뷰 단어 개수 제 3 사분위: {}'.format(np.percentile(train_word_counts, 75)))

평균 7 ~ 8 개 정도의 단어 수를 가지고 있고, 중간값의 경우 6개 정도의 단어를 가지고 있음  
- 글자 수 제한때문에 영어 데이터에 비해 길이가 짧음  
- 이 경우 모델에 적용할 최대 단어수를 6개가 아닌 7개로 설정해도 큰 무리가 없음  
- 각 데이터에 대해 특수문자 유무를 확인  ㅠ
- 리뷰에 자주 사용되는 특별한 특수문자는 없으므로 일반적인 마침표와 물음표만 확인

In [None]:
qmarks = np.mean(train_data['document'].astype(str).apply(lambda x: '?' in x)) # 물음표가 구두점으로 쓰임
fullstop = np.mean(train_data['document'].astype(str).apply(lambda x: '.' in x)) # 마침표
                  
print('물음표가있는 질문: {:.2f}%'.format(qmarks * 100))
print('마침표가 있는 질문: {:.2f}%'.format(fullstop * 100))

In [None]:
review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", train_data['document'][0])
# 모든 한글, 자음, 모음, 공백을 제외한 모든 것을 삭제
print(review_text)

In [None]:
from konlpy.tag import Okt
okt = Okt()
review_text = okt.morphs(review_text, stem=True)
print(review_text)

In [None]:
stop_words = set(['은', '는', '이', '가', '하', '아', '것', '들','의', '있', '되', '수', '보', '주', '등', '한'])
clean_review = [token for token in review_text if not token in stop_words]
print(clean_review)

In [None]:
def preprocessing(review, okt, remove_stopwords=False, stop_words=[]):
    # 함수의 인자는 다음과 같다.
    # review : 전처리할 텍스트
    # okt : okt 객체를 반복적으로 생성하지 않고 미리 생성후 인자로 받는다.
    # remove_stopword : 불용어를 제거할지 선택 기본값은 False
    # stop_word : 불용어 사전은 사용자가 직접 입력해야함 기본값은 비어있는 리스트
    
    # 1. 한글 및 공백을 제외한 문자 모두 제거.
    review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", review)
    
    # 2. okt 객체를 활용해서 형태소 단위로 나눈다.
    word_review = okt.morphs(review_text, stem=True)
    
    if remove_stopwords:
        
        # 불용어 제거(선택적)
        word_review = [token for token in word_review if not token in stop_words]
        
   
    return word_review

In [None]:
clean_train_review = []

for review in train_data['document']:
    # 비어있는 데이터에서 멈추지 않도록 string인 경우만 진행
    if type(review) == str:
        clean_train_review.append(preprocessing(review, okt, remove_stopwords=True, stop_words=stop_words))
    else:
        clean_train_review.append([])  #string이 아니면 비어있는 값 추가
        
print(clean_train_review[:4])

In [None]:
test_data = pd.read_csv(DATA_IN_PATH + 'ratings_test.txt', delimiter='\t', quoting=3 )

clean_test_review = []

for review in test_data['document']:
    # 비어있는 데이터에서 멈추지 않도록 string인 경우만 진행
    if type(review) == str:
        clean_test_review.append(preprocessing(review, okt, remove_stopwords=True, stop_words=stop_words))
    else:
        clean_test_review.append([])  #string이 아니면 비어있는 값 추가
        
print(clean_test_review[:4])

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(clean_train_review)
train_sequences = tokenizer.texts_to_sequences(clean_train_review)
test_sequences = tokenizer.texts_to_sequences(clean_test_review)

word_vocab = tokenizer.word_index 

In [None]:
print(word_vocab['더빙'])

In [None]:
MAX_SEQUENCE_LENGTH = 8 # 문장 최대 길이, 단어의 평균 개수가 8개 정도였기 때문

train_inputs = pad_sequences(train_sequences, maxlen=MAX_SEQUENCE_LENGTH, padding='post') # 학습 데이터를 벡터화
train_labels = np.array(train_data['label']) # 학습 데이터의 라벨

test_inputs = pad_sequences(test_sequences, maxlen=MAX_SEQUENCE_LENGTH, padding='post') # 테스트 데이터를 벡터화
test_labels = np.array(test_data['label']) # 테스트 데이터의 라벨

In [None]:
TRAIN_INPUT_DATA = 'nsmc_train_input.npy'
TRAIN_LABEL_DATA = 'nsmc_train_label.npy'
TEST_INPUT_DATA = 'nsmc_test_input.npy'
TEST_LABEL_DATA = 'nsmc_test_label.npy'
DATA_CONFIGS = 'nsmc_data_configs.json'

In [None]:
data_configs = {}

data_configs['vocab'] = word_vocab
data_configs['vocab_size'] = len(word_vocab) 

In [None]:
import os
if not os.path.exists(DATA_IN_PATH):
    os.makedirs(DATA_IN_PATH)
    
# 전처리 된 학습 데이터를 넘파이 형태로 저장
np.save(open(DATA_IN_PATH + TRAIN_INPUT_DATA, 'wb'), train_inputs)
np.save(open(DATA_IN_PATH + TRAIN_LABEL_DATA, 'wb'), train_labels)
# 전처리 된 테스트 데이터를 넘파이 형태로 저장
np.save(open(DATA_IN_PATH + TEST_INPUT_DATA, 'wb'), test_inputs)
np.save(open(DATA_IN_PATH + TEST_LABEL_DATA, 'wb'), test_labels)

# 데이터 사전을 json 형태로 저장
json.dump(data_configs, open(DATA_IN_PATH + DATA_CONFIGS, 'w'), ensure_ascii=False)