# 자연어 처리

# 텍스트 토큰화

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding
import numpy as np

# 전처리할 텍스트
text = "커피 한잔 어때"

# Tokenizer 객체 생성 및 fit_on_texts로 단어 인덱스 학습
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])

# texts_to_sequences로 텍스트를 시퀀스로 변환
sequences = tokenizer.texts_to_sequences([text])

# 단어 인덱스 확인
word_index = tokenizer.word_index
print("\n단어 인덱스:\n", word_index)

2025-04-27 19:21:43.746423: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-04-27 19:21:43.755435: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1745749303.765091  163023 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1745749303.768107  163023 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1745749303.776000  163023 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking 


단어 인덱스:
 {'커피': 1, '한잔': 2, '어때': 3}


In [4]:
# 단어 빈도수 세기

# 전처리하려는 세 개의 문장
docs = [
    "먼저 텍스트의 각 단어를 나누어 토큰화합니다.",
    "텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.",
    "토큰화한 결과는 딥러닝에서 사용할 수 있습니다.",
]

# 토큰화 함수를 이용해 전처리 하는 과정
tokenizer = Tokenizer()  # 토큰화 함수 지정
tokenizer.fit_on_texts(docs)  # 토큰화 함수에 문장 적용

# 단어의 빈도수를 계산한 결과를 각 옵션에 맞추어 출력
print("\n단어 카운트:\n", tokenizer.word_counts)

# 출력되는 순서는 랜덤
print("\n문장 카운트: ", tokenizer.document_count)
print("\n각 단어가 몇 개의 문장에 포함되어 있는가:\n", tokenizer.word_docs)
print("\n각 단어에 매겨진 인덱스 값:\n", tokenizer.word_index)


단어 카운트:
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

문장 카운트:  3

각 단어가 몇 개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'토큰화합니다': 1, '각': 1, '먼저': 1, '텍스트의': 2, '나누어': 1, '단어를': 1, '딥러닝에서': 2, '단어로': 1, '인식됩니다': 1, '토큰화해야': 1, '사용할': 1, '있습니다': 1, '수': 1, '토큰화한': 1, '결과는': 1})

각 단어에 매겨진 인덱스 값:
 {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


In [7]:
# 전처리할 텍스트
texts = ["커피 한잔 어때", "오늘 날씨 참 좋네", "옷이 어울려요"]

# Tokenizer 객체 생성 및 fit_on_texts로 단어 인덱스 학습
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

# texts_to_sequences로 텍스트를 시퀀스로 변환
sequences = tokenizer.texts_to_sequences(texts)

# 단어 인덱스 확인
word_index = tokenizer.word_index
print("\n단어 인덱스:\n", word_index)

# 패딩을 통해 시퀀스 길이를 맞춤
print("\n시퀀스:\n", sequences)
padded_sequences = pad_sequences(sequences, 4)
print("\n패딩된 시퀀스:\n", padded_sequences)

model = Sequential()
model.add(Embedding(input_dim=len(word_index) + 1, output_dim=5, input_length=4))
# input_dim에 1을 더하는 것은 인덱스 0을 패딩 값으로 사용하기 위함.
# Keras의 Tokenizer는 단어 인덱스를 1부터 시작하기 때문에, 인덱스 0은 패딩 값으로 예약
# output_dim은 단어가 임베딩될 벡터의 길이

# 임베딩 결과 확인
embedding_output = model.predict(padded_sequences)
print("\n임베딩 결과:\n", embedding_output)


단어 인덱스:
 {'커피': 1, '한잔': 2, '어때': 3, '오늘': 4, '날씨': 5, '참': 6, '좋네': 7, '옷이': 8, '어울려요': 9}

시퀀스:
 [[1, 2, 3], [4, 5, 6, 7], [8, 9]]

패딩된 시퀀스:
 [[0 1 2 3]
 [4 5 6 7]
 [0 0 8 9]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 51ms/step

임베딩 결과:
 [[[-0.00516986 -0.0460203  -0.02838464 -0.0175368  -0.01648979]
  [ 0.02151359  0.03824228 -0.04767111 -0.04552304  0.00142624]
  [ 0.01315511 -0.04433054 -0.00670988 -0.00583363  0.04794557]
  [ 0.02239678  0.04616595  0.04050764  0.0230614   0.0278798 ]]

 [[-0.0196972   0.0141312   0.02223784  0.0423472  -0.04783505]
  [ 0.02769143 -0.02929622  0.03053793  0.0310886   0.01711081]
  [ 0.00831041 -0.00232695 -0.01993775  0.02003374 -0.04243187]
  [-0.02441391  0.04234351 -0.03647687 -0.0179122  -0.04893551]]

 [[-0.00516986 -0.0460203  -0.02838464 -0.0175368  -0.01648979]
  [-0.00516986 -0.0460203  -0.02838464 -0.0175368  -0.01648979]
  [-0.03595823  0.03590194 -0.01707522  0.02883646 -0.01041295]
  [ 0.02031517  0.03555783  0.0