In [None]:
!python -m pip install nltk

In [None]:
!python -m pip install tensorflow-datasets

In [None]:
# 딥러닝을 이용한 자연어 처리
# (Token, Word Embedding)

In [None]:
# 1. Token

# token
'''
텍스트를 잘개 쪼갠 단위(토막)
단어, 형태소, 글자, 서브워드 등 원하는 기준에 따라 달라짐
모델이 처리할 최소 의미 단위
'''

# Tokenization
'''
원본 문장을 토큰들의 리스트로 변환하는 과정(알고리즘)
전처리의 핵심 단계로 토큰화 전략에 따라 성능에 차이가 크게 발생
공백 기준, 형태소 분석, BPE, SentencePiece 등

split(), nltk.word_tokenize(), Tokenizer.texts_to_sequences()
'''

# Subword Tokenization
'''
단어를 부분 단위(subword)로 분할
"unhappiness" → ["un", "happi", "ness"]

tfds.deprecated.text.SubwordTextEncoder
'''

# Word Tokenization
'''
단어 기준으로 분할
"나는 밥을 먹었다" → ["나는", "밥을", "먹었다"]

nltk.word_tokenize(), split()
'''

# Character Tokenization
'''
문자 단위 분리
"NLP" → ["N", "L", "P"]

split()
'''

# Sentence Tokenization
'''
문장 기준 분할
"안녕. 나는 AI 야." ["안녕.", "나는 AI야."]

nltk.sent_tokenize()
'''

In [None]:
# 모델 입력용 패딩 예시 (keras)
# 여러 문장을 한 번에 시퀀스로 변환 & 패딩

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import pad_sequences

sentences = ["I love NLP", "NLP is fun"]
tok = Tokenizer()
tok.fit_on_texts(sentences)
seqs = tok.texts_to_sequences(sentences)
padded = pad_sequences(seqs, maxlen=5)
print(f"Padded:\n{padded}")

In [None]:
# Token
# 공백 기준 split후 str, index 표현현

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer

sentence = "I love natural language processing"

tok = Tokenizer()
tok.fit_on_texts([sentence])

tokens_str = sentence.split()
tokens_seq = tok.texts_to_sequences([sentence])[0]

print(f"Token (str 기준): {tokens_str}")
print(f"Token (index 기준): {tokens_seq}")

In [None]:
# 1-1 기본 python split

text = "I love NLP"
tokens = text.split()
print(tokens)

In [None]:
# nltk 라이브러리 사용을 위해 외부 리소스 다운로드

# nltk 는 오픈소스지만
# 내부 모델이나 리소스는 용량도 크고,
# 다국어 모델도 많고,
# 일부는 라이센스 문제도 있을 수 있기 때문에
# 설치 시 본체(pip install) 와 리소스 파일(nltk.download) 을 따로 분리해서 관리하는 구조

import nltk
nltk.download('punkt', download_dir='C:/nltk_data')

In [None]:
# 에러 발생 - python 3.12(최신버전) 호환성 문제 유력

# # 1-2 nltk 라이브러리 사용

# # nltk 라이브러리를 사용하기 위해 다운받은 외부 리소스 파일 경로 설정
# import nltk
# nltk.data.path.append('C:/nltk_data')

# from nltk.tokenize import word_tokenize, sent_tokenize

# text = "Hello world. I love NLP"
# print(f"단어 기준 분할:\n{word_tokenize(text)}")
# print(f"문장 기준 분할:\n{sent_tokenize(text)}")

In [None]:
# 1-2 nltk 라이브러리 사용

import pickle
from nltk.tokenize import TreebankWordTokenizer

# punkt 로드
with open("C:/nltk_data/tokenizers/punkt/english.pickle", "rb") as f:
  sentence_tokenizer = pickle.load(f)

text = "Hello world. I love NLP"
  
# 문장 토큰화
sentences = sentence_tokenizer.tokenize(text)
print(f"문장 기준 분할:\n{sentences}")

# 단어 토큰화
word_tokenizer = TreebankWordTokenizer()
print("\n단어 기준 분할:")
for sent in sentences:
  print(f"{word_tokenizer.tokenize(sent)}")


In [None]:
# 1-3 tensorflow/keras Tokenizer (빈도 기반)
# 빈도가 같다면 먼저 등장한 순으로 인덱스 부여

from tensorflow.keras.preprocessing.text import Tokenizer

texts = ["I love NLP", "NLP is fun"]
tok = Tokenizer()
tok.fit_on_texts(texts)

print(tok.word_index)
print(tok.texts_to_sequences([texts[0]]))

In [None]:
# 1-4 tensorflow datasets SubwordTextEncoder

import tensorflow_datasets as tfds

# *corpus = 말뭉치
corpus = ["TenserFlow is great", "Tokenization is important"]
encoder = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(corpus, target_vocab_size=258)

encoded = encoder.encode(corpus[1])
decoded = encoder.decode(encoded)

print(f"텍스트 원본: {corpus[1]}")
print(f"SubwordTextEncoder: {encoded}")
print(f"decode: {decoded}")


In [None]:
# 통합 실행 예제

from tensorflow.keras.preprocessing.text import Tokenizer
from nltk.tokenize import TreebankWordTokenizer
import tensorflow_datasets as tfds
from konlpy.tag import Okt

# 1. 샘플 텍스트
kor_text = "나는 밥을 먹었다"
eng_text = "I love natural language processing"

# 2. Whitespace (공백 기준 분할)
print("Whitespace / split()")
print("공백 기준 분할:")
print(kor_text.split())
print(f"{eng_text.split()}")

# 3. nltk
word_tok = TreebankWordTokenizer()

print("\nnltk / TreebankWordTokenizer()")
print("단어 기준 분할:")
print(word_tok.tokenize(kor_text))
print(f"{word_tok.tokenize(eng_text)}")

# 4. keras Tokenizer
tok_kor = Tokenizer()
tok_kor.fit_on_texts([kor_text])

tok_eng = Tokenizer()
tok_eng.fit_on_texts([eng_text])

print("\ntensorflow.keras / Tokenizer()")
print("빈도 기반 인덱스 부여:")
print(tok_kor.word_index)
print(tok_kor.texts_to_sequences([kor_text]))

print(tok_eng.word_index)
print(tok_eng.texts_to_sequences([eng_text]))

# 5. SubwordTextEncdoer
encoder_kor = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus([kor_text], target_vocab_size=258)
encoded_kor = encoder_kor.encode(kor_text)

encoder_eng = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus([eng_text], target_vocab_size=258)
encoded_eng = encoder_eng.encode(eng_text)

print("\ntensorflow_datasets / SubwordTextEncoder()")
print("단어 조각 단위 분할:")
print(encoded_kor)
print(encoded_eng)

# 6. konlpy Okt
okt = Okt()

print("\nkonlpy.tag / Okt()")
print("형태소 분석(한글 전용):")
print(okt.morphs(kor_text))

In [None]:
# 토큰화 전체 파이프 라인
# keras Tokenize 를 이용해 문장 → 정수 시퀀스로 바꾸는 전 과정
# 토큰화 → 패딩 → 임베딩 레이어 → 임베딩 가중치 조회

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Embedding, Flatten, Dense

# 1. 샘플 문장
texts = [
  "TensorFlow is great and powerful",
  "Tokenization converts words to numbers",
  "TensorFlow makes tokenization easy"
]

# 2. Tokenizer 설정 & 학습
tok = Tokenizer(num_words=1000, oov_token="<OOV>")
tok.fit_on_texts(texts)
word_index = tok.word_index
print(f"단어 인덱스 매핑:\n{word_index}")

# 3. 문장 → 정수 시퀀스
sequences = tok.texts_to_sequences(texts)
print(f"\n정수 시퀀스:\n{sequences}")

# 4. 패딩 (길이 8로 통일)
padded = pad_sequences(
  sequences,
  maxlen=8, # 원하는 고정 길이
  padding='pre', # 'pre': 앞쪽을 0으로 채움
  truncating='pre' # 길면 앞쪽부터 자르기
)
print(f"\n패딩 후 시퀀스(shape={padded.shape}):\n{padded}")

# 5. Embedding 모델 정의
vocab_size = len(tok.word_index) + 1
# Tokenizer는 단어 인덱스를 1부터 매기지만, Embedding은 0번 인덱스까지 처리해야 하므로 반드시 +1 을 해서 input_dim 을 설정해줘야 함
embedding_dim = 4
model = Sequential([
  Input(shape=(padded.shape[1],)),
  Embedding(
		 # 패딩 maxlen 값
		# padded.shape[0] = batch_size 값
		# padded.shape[1] = sequence length 값
		input_dim=vocab_size,
		output_dim=embedding_dim
	),
  Flatten(),
  Dense(1, activation='sigmoid')
])
model.compile(
  optimizer='adam',
  loss='binary_crossentropy'
)

model.summary()

# 6. 더미 예측
_ = model.predict(padded)

# 7. 임베딩 가중치 확인
embedding_layer = model.layers[0]
embedding_weights = embedding_layer.get_weights()[0]

print(embedding_weights)

In [None]:
# 2. Word Embedding

In [None]:
# 2-1 Word Embedding 과 One-Hot Encoding 비교

# Word Embedding 과 One-Hot Encoding 은 자연어 처리에서 단어를 숫자 벡터로 표현하는 방법

In [None]:
# 2-1

# 1) One-Hot Encoding 예제

from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical

words = ['apple', 'banana', 'cherry', 'apple']

# 정수 인코딩
le = LabelEncoder()
int_encoded = le.fit_transform(words)

# 원-핫 인코딩
one_hot = to_categorical(int_encoded)

print(f"정수 인코딩:\n{int_encoded}\n")
print(f"원-핫 인코딩:\n{one_hot}")

In [None]:
# 2-1

# 2) Word Embedding (Keras Embedding Layer) 예제

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Embedding, Flatten, Dense

# 1. 정수로 인코딩된 문장 데이터
# 각 숫자는 단어를 의미, ex) 1=apple, 2=banana, ...
X = np.array([
  [1, 2, 3],
  [4, 5, 6]
])

# 2. 모델 구성
# Sequential 모델을 사용하여 임베딩 → 평탄화 → 출력
model = Sequential()
model.add(Input(shape=(X.shape[1],)))
model.add(Embedding(
  input_dim=10, # 단어 집합 크기 (0~9까지 10개 단어로 가정)
  output_dim=4, # 임베딩 차원 수 (단어 하나당 4차원 벡터로 표현)
))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

# 3. 모델 컴파일 및 요약
model.compile(
  optimizer='adam',
  loss='binary_crossentropy'
)
model.summary()

# 4. 예측 수행 (훈련 없이 바로 predict)
# (사실상 의미 없는) 초기 가중치로 출력값 계산
output = model.predict(X)
print(f"임베딩된 벡터 → 최종 출력 결과:\n{output}")

In [None]:
# 3. Embedding 실습
# 3-1

from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence

# 전처리할 텍스트
text = "해보지 않으면 해낼 수 없다"

# 해당 텍스트를 토큰화
result = text_to_word_sequence(text)
print(f"원문: {text}")
print(f"토큰화: {result}\n")

# 단어 빈도수 세기
tok = Tokenizer()
tok.fit_on_texts([text])
print(f"text 단어 빈도수:\n{tok.word_counts}\n")

In [None]:
# 3. Embedding 실습
# 3-2

from tensorflow.keras.preprocessing.text import Tokenizer

# 전처리하려는 세 개의 문장
docs = [
  "먼저 텍스트의 각 단어를 나누어 토큰화 합니다.",
  "텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.",
  "토큰화한 결과는 딥러닝에서 사용할 수 있습니다."
]

# 토큰화 함수를 이용해 전처리
tok = Tokenizer()
tok.fit_on_texts(docs)

# 단어의 빈도수 세기
print(f"docs 단어 빈도수:\n{tok.word_counts}\n")

# 출력되는 순서는 랜덤
print(f"문장 카운트: {tok.document_count}\n")
print(f"각 단어가 몇 개의 문장에 포함되어 있는가:\n{tok.word_docs}\n")
print(f"각 단어에 매겨진 인덱스 값:\n{tok.word_index}\n")

In [None]:
# 3. Embedding 실습
# 3-3

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

# 전처리할 텍스트
text = "오랫동안 꿈꾸는 이는 그 꿈을 닮아간다"

tok = Tokenizer()
tok.fit_on_texts([text])
x = tok.texts_to_sequences([text])
print(f"단어 → 정수 매핑: {tok.word_index}\n")
print(f"문장을 실제로 인덱스 시퀀스로 변환:\n{x}\n")

# 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 생성
word_size = len(tok.word_index) + 1
x = to_categorical(x, num_classes=word_size)
print(f"One-Hot Encoding 결과:\n{x}")

In [None]:
# 3. Embedding 실습
# 3-4

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
import numpy as np

# 텍스트 리뷰 자료를 지정
docs = [
  "너무 재밌네요", "최고예요", "참 잘 만든 영화예요", "추천하고 싶은 영화입니다", "한번 더보고싶네요", "글쎄요", "별로예요", "생각보다 지루하네요", "연기가 어색해요", "재미없어요"
]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# 토큰화
tok = Tokenizer()
tok.fit_on_texts(docs)
print(f"단어 → 정수 매핑:\n{tok.word_index}\n")

# 문장을 실제로 인덱스 시퀀스로 변환
x = tok.texts_to_sequences(docs)
print(f"문장 → 인덱스 시퀀스로 변환: \n{x}\n")

# 패딩, 서로 다른 길이의 데이터를 4로 맞춤
padded_x = pad_sequences(x, 4)
print(f"패딩 결과:\n{padded_x}")

# 임베딩에 입력될 단어의 수를 지정 (input_dim)
word_size = len(tok.word_index) + 1

# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력
model = Sequential()
model.add(Input(shape=(padded_x.shape[1],)))
model.add(Embedding(word_size, 8))
# Embedding(input_dim, output_dim)
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.summary()

model.compile(
  optimizer='adam',
  loss='binary_crossentropy',
  metrics=['accuracy']
)

model.fit(
  padded_x, classes,
  epochs=20,
  verbose=1
)

loss, acc = model.evaluate(padded_x, classes)
print(f"\nLoss: {loss:.4f}")
print(f"Accuracy: {acc:.4f}")