# RNN_텍스트분석

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical
import pandas as pd
import numpy as np

# Tensorflow에서 텍스트 전처리
- 토큰화 : 문장을 단어 혹은 형태소로 쪼개는 것
- 원핫인코딩 : 문자를 벡터화
- 임베딩(Embedding) : 벡터화 -> 원핫인코딩을 더 축소


In [3]:
text = "해보지 않으면 해낼 수 없다"

In [4]:
result = text_to_word_sequence(text)
result

['해보지', '않으면', '해낼', '수', '없다']

### 단어 빈도수 세기

In [5]:
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
       '텍스트의 단어로 트큰화해야 딥러닝에서 인식됩니다.',
       '토근화한 결과는 딥러닝에서 사용할 수 있습니다.',
       '텍스트 전처리에는 벡터화 원핫인코딩 패딩으로 길이 맞추기 등이 필요합니다.',
       '딥러닝 쉽지 않네요.']

In [7]:
token = Tokenizer()
token.fit_on_texts(docs)

print('단어 count: ', token.word_counts, end='\n\n')
print('문장 count: ', token.document_count, end='\n\n')
print('각 단어가 몇 개의 문장에 포함되어 있는지 계산: ', token.word_docs, end='\n\n')
print('각 단어에 매겨진 인덱스값: ', token.word_index, end='\n\n')

단어 count:  OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 1), ('합니다', 1), ('단어로', 1), ('트큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토근화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1), ('텍스트', 1), ('전처리에는', 1), ('벡터화', 1), ('원핫인코딩', 1), ('패딩으로', 1), ('길이', 1), ('맞추기', 1), ('등이', 1), ('필요합니다', 1), ('딥러닝', 1), ('쉽지', 1), ('않네요', 1)])

문장 count:  5

각 단어가 몇 개의 문장에 포함되어 있는지 계산:  defaultdict(<class 'int'>, {'합니다': 1, '텍스트의': 2, '먼저': 1, '각': 1, '나누어': 1, '토큰화': 1, '단어를': 1, '딥러닝에서': 2, '인식됩니다': 1, '트큰화해야': 1, '단어로': 1, '토근화한': 1, '있습니다': 1, '결과는': 1, '수': 1, '사용할': 1, '등이': 1, '필요합니다': 1, '맞추기': 1, '벡터화': 1, '패딩으로': 1, '길이': 1, '텍스트': 1, '원핫인코딩': 1, '전처리에는': 1, '않네요': 1, '딥러닝': 1, '쉽지': 1})

각 단어에 매겨진 인덱스값:  {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화': 7, '합니다': 8, '단어로': 9, '트큰화해야': 10, '인식됩니다': 11, '토근화한': 12, '결과는': 13, '사용할': 14, '수': 15, '있습니다': 16, '텍스트': 17, '전처리에는': 18, '벡터화': 19, '원핫인코딩': 20, '패딩으로': 21, '길이': 22, '맞추기': 23,

In [8]:
x = token.texts_to_sequences(docs)
print(x)

[[3, 1, 4, 5, 6, 7, 8], [1, 9, 10, 2, 11], [12, 13, 2, 14, 15, 16], [17, 18, 19, 20, 21, 22, 23, 24, 25], [26, 27, 28]]


### 가장 긴 벡터의 길이 추출

In [10]:
# doc에서 가장 긴 길이를 가진 문장
max([len(i) for i in x])

9

## 가장 긴 길이의 문장에 맞추어 패딩 수행
- 가장 긴 문장 길이 + 1 의 길이로 패딩 진행
- 문장의 시작에는 반드시 0이 있어야 함
    

In [12]:
padded_x = pad_sequences(x, max([len(i) for i in x])+1)
padded_x

array([[ 0,  0,  0,  3,  1,  4,  5,  6,  7,  8],
       [ 0,  0,  0,  0,  0,  1,  9, 10,  2, 11],
       [ 0,  0,  0,  0, 12, 13,  2, 14, 15, 16],
       [ 0, 17, 18, 19, 20, 21, 22, 23, 24, 25],
       [ 0,  0,  0,  0,  0,  0,  0, 26, 27, 28]])

In [13]:
padded_x.shape

(5, 10)

# 텍스트를 읽고 긍정, 부정 예측


In [None]:
docs2 = ['너무 재밌있네요','최고에요.', '참 신기한 디러닝이네요.', 
         '인공지능 칭찬합니다', '변화가 너무 빨라요', 'GPT 성능이 생각보다 별로네요.',
        '제미나이보다는 낫죠', '나는 차라리 라마를 쓴다.', '유료 결제는 싫어요.']