# 5교시 3.자연어 처리

## 1. 텍스트의 토큰화

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding
import numpy as np

# 전처리할 텍스트를 정합니다.
text = '커피 한잔 어때'

# Tokenizer 객체 생성 및 fit_on_texts로 단어 인덱스 학습
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])

# texts_to_sequences로 텍스트를 시퀀스로 변환
sequences = tokenizer.texts_to_sequences([text])

# 단어 인덱스 확인
word_index = tokenizer.word_index
print("\n단어 인덱스:\n", word_index)



단어 인덱스:
 {'커피': 1, '한잔': 2, '어때': 3}


In [3]:
# 단어 빈도수 세기

# 전처리하려는 세 개의 문장을 정합니다.
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
       '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
       '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.',
       ]

# 토큰화 함수를 이용해 전처리 하는 과정입니다.
tokenizer = Tokenizer()            # 토큰화 함수 지정
tokenizer.fit_on_texts(docs)       # 토큰화 함수에 문장 적용

# 단어의 빈도수를 계산한 결과를 각 옵션에 맞추어 출력합니다.
print("\n단어 카운트:\n", tokenizer.word_counts)

# 출력되는 순서는 랜덤입니다.
print("\n문장 카운트: ", tokenizer.document_count)
print("\n각 단어가 몇 개의 문장에 포함되어 있는가:\n", tokenizer.word_docs)
print("\n각 단어에 매겨진 인덱스 값:\n",  tokenizer.word_index)


단어 카운트:
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

문장 카운트:  3

각 단어가 몇 개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'단어를': 1, '먼저': 1, '토큰화합니다': 1, '텍스트의': 2, '나누어': 1, '각': 1, '단어로': 1, '토큰화해야': 1, '딥러닝에서': 2, '인식됩니다': 1, '토큰화한': 1, '수': 1, '있습니다': 1, '사용할': 1, '결과는': 1})

각 단어에 매겨진 인덱스 값:
 {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


In [5]:
# 전처리할 텍스트를 정합니다.
texts = ['커피 한잔 어때', '오늘 날씨 참 좋네', '옷이 어울려요']

# Tokenizer 객체 생성 및 fit_on_texts로 단어 인덱스 학습
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

# texts_to_sequences로 텍스트를 시퀀스로 변환
sequences = tokenizer.texts_to_sequences(texts)

# 단어 인덱스 확인
word_index = tokenizer.word_index
print("\n단어 인덱스:\n", word_index)

# 패딩을 통해 시퀀스 길이를 맞춥니다.
print("\n시퀀스:\n", sequences)
padded_sequences = pad_sequences(sequences, 4)
print("\n패딩된 시퀀스:\n", padded_sequences)

model = Sequential()
model.add(Embedding(input_dim=len(word_index) + 1, output_dim=5, input_length=4))
#input_dim에 1을 더하는 것은 인덱스 0을 패딩 값으로 사용하기 위함.
#Keras의 Tokenizer는 단어 인덱스를 1부터 시작하기 때문에, 인덱스 0은 패딩 값으로 예약
#output_dim은 단어가 임베딩될 벡터의 길이

# 임베딩 결과 확인
embedding_output = model.predict(padded_sequences)
print("\n임베딩 결과:\n", embedding_output)



단어 인덱스:
 {'커피': 1, '한잔': 2, '어때': 3, '오늘': 4, '날씨': 5, '참': 6, '좋네': 7, '옷이': 8, '어울려요': 9}

시퀀스:
 [[1, 2, 3], [4, 5, 6, 7], [8, 9]]

패딩된 시퀀스:
 [[0 1 2 3]
 [4 5 6 7]
 [0 0 8 9]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step

임베딩 결과:
 [[[ 1.6098980e-02  1.1575662e-02 -3.7366189e-02  3.4891069e-05
    2.0950962e-02]
  [ 3.2916777e-03 -4.8966706e-02 -5.6972988e-03  4.3367371e-03
    4.7800291e-02]
  [ 1.8995788e-02 -3.7305973e-02 -8.4048510e-04  1.3212610e-02
   -2.7593112e-02]
  [-1.6415857e-02 -4.8932027e-02 -1.0437034e-02 -3.0794609e-02
   -1.1392869e-02]]

 [[-2.3961747e-02  4.1984547e-02 -1.7944574e-03 -6.9146641e-03
   -7.5519085e-04]
  [ 4.8937786e-02 -3.5023727e-02  4.1594747e-02  4.5498136e-02
   -8.3802566e-03]
  [ 1.1336159e-02  4.5345400e-02 -2.1676516e-02 -1.6975045e-02
   -2.6233245e-02]
  [-3.4260772e-02  4.2987075e-02  1.9957606e-02  5.4235570e-03
   -1.4367841e-02]]

 [[ 1.6098980e-02  1.1575662e-02 -3.7366189e-02  3.4891069e-05
    2.0950962e-0

