In [1]:
# 사전 설치 : pip install konlpy
from konlpy.tag import Okt # 토크나이징
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer # 인코딩
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding # 임베딩
from tensorflow.keras.models import Sequential

In [2]:
# 1. 텍스트 데이터 (입력 문장)
sentences = [
    "자연어 처리는 재미있는 분야입니다.",
    "딥러닝은 많은 데이터를 필요로 합니다.",
    "한국어 NLP는 정말 재미있어요!"
]

In [3]:
# 2. 토크나이징 (Tokenizing)
okt = Okt()
tokenized_sentences = [okt.morphs(sentence) for sentence in sentences]
print("토크나이징 결과:", tokenized_sentences)

토크나이징 결과: [['자연어', '처리', '는', '재미있는', '분야', '입니다', '.'], ['딥', '러닝', '은', '많은', '데이터', '를', '필요', '로', '합니다', '.'], ['한국어', 'NLP', '는', '정말', '재미있어요', '!']]


In [4]:
# 3. 인코딩 (Encoding): 단어를 숫자로 변환
tokenizer = Tokenizer()
tokenizer.fit_on_texts(tokenized_sentences)
encoded_sentences = tokenizer.texts_to_sequences(tokenized_sentences)
print("인코딩 결과:", encoded_sentences)

인코딩 결과: [[3, 4, 1, 5, 6, 7, 2], [8, 9, 10, 11, 12, 13, 14, 15, 16, 2], [17, 18, 1, 19, 20, 21]]


In [5]:
# 4. 패딩 (Padding): 길이를 맞추기 위해 0으로 채우기
max_len = 10  # 최대 길이 설정
padded_sentences = pad_sequences(encoded_sentences, maxlen=max_len, padding='post')
print("패딩 결과:", padded_sentences)

패딩 결과: [[ 3  4  1  5  6  7  2  0  0  0]
 [ 8  9 10 11 12 13 14 15 16  2]
 [17 18  1 19 20 21  0  0  0  0]]


In [6]:
# 5. 임베딩 (Embedding)
vocab_size = len(tokenizer.word_index) + 1 # 단어 사전 크기
embedding_dim = 8

In [7]:
# 간단한 임베딩 모델 생성
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.compile('rmsprop', 'mse')



In [8]:
# 패딩된 문장을 임베딩 층에 통과
embeddings = model.predict(padded_sentences)
print("임베딩 결과 (첫번째 문장) :\n", embeddings[0])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 106ms/step
임베딩 결과 (첫번째 문장) :
 [[-0.04657022 -0.00470446 -0.027534   -0.0324476   0.00279471 -0.03550979
  -0.01383502 -0.01590027]
 [ 0.00854915  0.003811   -0.01193186  0.00643337 -0.00663286 -0.01185126
  -0.02511786  0.03809104]
 [ 0.04841013  0.02782908  0.03915615 -0.00219508 -0.02255455  0.00300518
  -0.009718    0.02359561]
 [ 0.01629914 -0.04006492  0.02153833 -0.00278095 -0.02744147 -0.02630468
  -0.02063364 -0.04050698]
 [-0.04756308 -0.0406273  -0.01435605 -0.04722878 -0.00356973 -0.04770284
  -0.00090505 -0.01471011]
 [ 0.04236615 -0.01357054 -0.00191178  0.03510107  0.0468187   0.04746902
   0.03452532  0.01020692]
 [-0.01717721  0.04814411  0.03692695 -0.01098335 -0.00513018 -0.04054489
  -0.01790508 -0.02122538]
 [ 0.00793121 -0.02610731 -0.00844646 -0.02409626 -0.03796908 -0.00073588
  -0.01892446 -0.04486957]
 [ 0.00793121 -0.02610731 -0.00844646 -0.02409626 -0.03796908 -0.00073588
  -0.01892446 -0.04486957]