# 딥러닝에서 데이터 전처리 어떻게하는지 보고나서 RNN 연습

In [None]:
#import 모음
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import koreanize_matplotlib
import tensorflow


In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical


# 텐서플로에서 텍스트 전처리
1. 토큰화: 문장을 단어/형태소로 쪼개
2. 원핫인코딩 : 문자를 벡터화해주는거
3. 임베딩(embedding): 벡터화인데 원핫인코딩을 더 축소하는 형태

In [None]:
# 단어빈도수 세기
docs = ['텍스트의 각 단어를 나눠 토큰화합니다',
        '텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다',
        '토큰화 한 결과는 딥러닝에서 사용할 수 있습니다',
        '텍스트 전처리에는 벡터화 원핫인코딩 패딩으로 길이 맞추기 등이 필요합니다',
        '딥러닝 쉽지 않네요']
# 공백기준 토큰화 비추.
# 가장 긴 텍스트 길이에 짧은 str들의 길이(열)를 맞추는 작업.

In [None]:
token=Tokenizer()
token.fit_on_texts(docs)
print("단어 카운트:", token.word_counts, end="\n\n")
print("문장 카운트:", token.document_count, end="\n\n")
print("각 단어가 포함된 문장의 수:", token.word_docs)
print("각 단어에 매겨진 인ㄷ게스값:", token.word_index, end="\n\n")


'딥러닝 쉽지 않네요' [26, 27, 28]

### 문장 카운트

In [None]:
### 문장 카운트
x=token.texts_to_sequences(docs)
print(x)

## 가장 긴 벡터의 길이 추출
위 리스트는 리스트들을 담은리스트인점->반복문쓰면 좋음

In [None]:
#리스트 표현식으로 max값 추출하기 `
[len(i) for i in x]



In [None]:
#리스트 표현식으로 max값 추출하기 ``
max([len(i) for i in x])

# 가장긴건 9개 토큰으로 구성된 문장인점

## 가장 긴 길이의 문장에 맞춰 패딩
- 문장의 시작에는 반드시 0이 있어야함
- 가장 긴 문장길이 +1의 길이로 패딩
- RNN은 입력을 모두 똑같은 길이로 받아야 하기 때문에,
길이가 짧은 문장에는 숫자 0을 앞에 붙여서 길이를 맞춰주는 작업이 필요해요.
그래서 pad_sequences()를 사용해서 모든 문장을 가장 긴 문장 길이에 맞춰주는 것입니다.

In [None]:
padded_x = pad_sequences(x,max([len(i) for i in x])+1)
padded_x

In [None]:
padded_x.shape # 몇행몇열

## 텍스트읽고 긍부정 예측하기

In [None]:
docs2 = ['너무 재미있네요', '최고예요','참 신기한 딥러닝이에요','인공지능 칭찬합니다', '더 ㅏ세히 배우고 싶어요','변화가 너무 빨라요','GPT 성능이 생각보다 별로네요','제미나이보다는 낫죠','유료결재싫어요','나는 차라리 라마를 쓴다']

In [None]:
classes=np.array([1,1,1,1,1,0,0,1,0,0])

In [None]:
# 각단어에 인덱스 만들고
token=Tokenizer()
token.fit_on_texts(docs2)
# print("단어 카운트:", token.word_counts, end="\n\n")
# print("문장 카운트:", token.document_count, end="\n\n")
# print("각 단어가 포함된 문장의 수:", token.word_docs)
# print("각 단어에 매겨진 인ㄷ게스값:", token.word_index, end="\n\n")


In [None]:
# 벡터화하기
x=token.texts_to_sequences(docs2)
x

In [None]:
max([len(i) for i in x])

In [None]:
padding_x=pad_sequences(x,max([len(i) for i in x])+1)
padding_x

In [None]:
# 임베딩
# 내용물의 쉼표를 제거해주는 작업
word_size=len(token.word_index)+1
word_size

In [None]:
# 임베딩 과정
for i in iter(Embedding(word_size,8)):
    print(i)

In [None]:
model.Sequential()
model.add(Embedding(input_dim=word_size, output_dim=8, input_length=max([len(i) for i in padding_x]))
model.add(flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

In [None]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(padding_x, classes, epochs=20)
print(model.evaluate(padding_x, classes))