### 원핫인코딩 (One hot encoding)
- 범주형 데이터를 숫자로 표현하는 방법 중 하나로, 각 범주를 이진 벡터(0과 1로만 구성된 벡터)로 변환하는 기법.

**주요 특징:**
- 벡터의 길이: 전체 범주(또는 단어 집합)의 크기만큼의 길이를 가짐
- 표현 방식: 해당 범주의 인덱스 위치만 1이고, 나머지는 모두 0
- 상호 배타적: 각 벡터에서 정확히 하나의 요소만 1

```python
# 단어 집합: ['<OOV>', 'prince', 'little', 'pilot', 'rose']
# 인덱스:        0         1          2          3         4

# 정수 인코딩된 단어들:
# 'little' = 2
# 'prince' = 1
# 'rose' = 4

# 원핫 인코딩 결과:
'little' (2) → [0, 0, 1, 0, 0]
'prince' (1) → [0, 1, 0, 0, 0]
'rose'   (4) → [0, 0, 0, 0, 1]
```

In [24]:
# 어린왕자 데이터 샘플 텍스트
raw_text = """The Little Prince, written by Antoine de Saint-Exupéry, is a poetic tale about a young prince who travels from his home planet to Earth. The story begins with a pilot stranded in the Sahara Desert after his plane crashes. While trying to fix his plane, he meets a mysterious young boy, the Little Prince.

The Little Prince comes from a small asteroid called B-612, where he lives alone with a rose that he loves deeply. He recounts his journey to the pilot, describing his visits to several other planets. Each planet is inhabited by a different character, such as a king, a vain man, a drunkard, a businessman, a geographer, and a fox. Through these encounters, the Prince learns valuable lessons about love, responsibility, and the nature of adult behavior.

On Earth, the Little Prince meets various creatures, including a fox, who teaches him about relationships and the importance of taming, which means building ties with others. The fox's famous line, "You become responsible, forever, for what you have tamed," resonates with the Prince's feelings for his rose.

Ultimately, the Little Prince realizes that the essence of life is often invisible and can only be seen with the heart. After sharing his wisdom with the pilot, he prepares to return to his asteroid and his beloved rose. The story concludes with the pilot reflecting on the lessons learned from the Little Prince and the enduring impact of their friendship.

The narrative is a beautifully simple yet profound exploration of love, loss, and the importance of seeing beyond the surface of things."""

In [25]:
import sys
import os
sys.path.append(os.path.join(os.path.dirname(os.getcwd()), 'utils'))

# 데이터 전처리 함수 임포트
from text_preprocessing import (
    preprocess_text_for_encoding, 
)

# 1. 텍스트 전처리 (토큰화/불용어처리/정제/정규화)
vocab, preprocessed_sentences = preprocess_text_for_encoding(raw_text)

print(preprocessed_sentences)  # 전처리된 문장들 출력

[['little', 'prince', 'written', 'antoine', 'poetic', 'tale', 'young', 'prince', 'travels', 'home', 'planet', 'earth'], ['story', 'begins', 'pilot', 'stranded', 'sahara', 'desert', 'plane', 'crashes'], ['trying', 'fix', 'plane', 'meets', 'mysterious', 'young', 'boy', 'little', 'prince'], ['little', 'prince', 'comes', 'small', 'asteroid', 'called', 'lives', 'alone', 'rose', 'loves', 'deeply'], ['recounts', 'journey', 'pilot', 'describing', 'visits', 'several', 'planets'], ['planet', 'inhabited', 'different', 'character', 'king', 'vain', 'man', 'drunkard', 'businessman', 'geographer', 'fox'], ['encounters', 'prince', 'learns', 'valuable', 'lessons', 'love', 'responsibility', 'nature', 'adult', 'behavior'], ['earth', 'little', 'prince', 'meets', 'various', 'creatures', 'including', 'fox', 'teaches', 'relationships', 'importance', 'taming', 'means', 'building', 'ties', 'others'], ['fox', 'famous', 'line', 'become', 'responsible', 'forever', 'tamed', 'resonates', 'prince', 'feelings', 'rose

In [26]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer(num_words=15,  # 단어 집합의 최대 크기 (None이면 모든 단어 사용)
                      oov_token='<OOV>')  # OOV(Out-Of-Vocabulary) 토큰 설정
tokenizer.fit_on_texts(preprocessed_sentences)  # 전처리된 문장으로 단어 집합 구축
sequences = tokenizer.texts_to_sequences(preprocessed_sentences)  # 문장들을 정수 시퀀스로 변환

padded_sequences = pad_sequences(sequences , maxlen=10 ) 
print(padded_sequences)  # 패딩된 시퀀스 출력


[[ 1  1  1  1  7  2  1  1  8  9]
 [ 0  0 10  1  4  1  1  1 11  1]
 [ 0  1  1 11 12  1  7  1  3  2]
 [ 2  1  1 13  1  1  1  5  1  1]
 [ 0  0  0  1  1  4  1  1  1  1]
 [ 1  1  1  1  1  1  1  1  1  6]
 [ 1  2  1  1 14  1  1  1  1  1]
 [ 1  6  1  1  1  1  1  1  1  1]
 [ 1  1  1  1  1  1  1  2  1  5]
 [ 1  3  2  1  1  1  1  1  1  1]
 [ 0  0  1  1  4  1  1 13  1  5]
 [ 1  4  1 14  1  3  2  1  1  1]
 [ 1  1  1  1  1  1  1  1  1  1]]


In [27]:
from tensorflow.keras.utils import to_categorical

one_hot_encoded = to_categorical(padded_sequences)  # 원-핫 인코딩 적용
print(one_hot_encoded.shape)  # 원-핫 인코딩된 결과 출력

(13, 10, 15)


### 한국어 전처리
1. 토큰화(형태소 분석)
2. 시퀀스 처리 Tokenizer
3. 패딩처리 pad_sequences
4. one-hot encoding

In [28]:
texts = [
    "나는 오늘 학원에 간다.",
    "친구들이랑 맛있는 밥 먹을 생각에 신난다.",
    "오늘 구내식당에는 뭐가 나올까?"
]

In [None]:
from konlpy.tag import Okt # Okt 형태소 분석기 임포트
import re # 정규표현식 임포트

okt = Okt()

# 한국어 불용어 리스트
ko_stopwords = ['은', '는', '이', '가', '하', '고', '의', '에', '들', '을', '를', '나', '내', '우리', '도', '으로', '자', '에서', '하다']

preprocess_texts = []
for text in texts:
    # 1. 정제 (특수문자 제거)
    text = re.sub(r'[^가-힣\s]', '', text)
    
    # 2. 토큰화 및 불용어 처리
    # morphs: 형태소 단위로 토큰화
    # stem=True 옵션은 어간 추출을 의미
    tokens = okt.morphs(text, stem=True)  # 토큰화 및 어간 추출
    
    # 불용어 제거
    tokens = [word for word in tokens if word not in ko_stopwords] 
    tokens = [word for word in tokens if not re.search(r'[\s.,;:?]', word)]  # 공백 제거
    
    preprocess_texts.append(tokens)
    
print(preprocess_texts)  # 전처리된 한국어 문장들 출력

[['오늘', '학원', '간다'], ['친구', '이랑', '맛있다', '밥', '먹다', '생각', '신나다'], ['오늘', '구내식당', '에는', '뭐', '나오다']]


In [33]:
# 시퀀스 처리
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(oov_token='<OOV>')
tokenizer.fit_on_texts(preprocess_texts)
sequences = tokenizer.texts_to_sequences(preprocess_texts) # 한국어 문장들을 정수 시퀀스로 변환
print(sequences) 
print(tokenizer.word_index)  # 단어 집합 출력

[[2, 3, 4], [5, 6, 7, 8, 9, 10, 11], [2, 12, 13, 14, 15]]
{'<OOV>': 1, '오늘': 2, '학원': 3, '간다': 4, '친구': 5, '이랑': 6, '맛있다': 7, '밥': 8, '먹다': 9, '생각': 10, '신나다': 11, '구내식당': 12, '에는': 13, '뭐': 14, '나오다': 15}


In [None]:
# 패딩처리
from tensorflow.keras.preprocessing.sequence import pad_sequences

# maxlen은 문장의 길이가 유지될 정도의 값으로 설정
padded_sequences = pad_sequences(sequences, maxlen=3)
print(padded_sequences)  # 패딩된 시퀀스 출력

[[ 2  3  4]
 [ 9 10 11]
 [13 14 15]]


In [None]:
# 원핫 인코딩
from tensorflow.keras.utils import to_categorical

one_hot_encoded = to_categorical(padded_sequences)  # 원-핫 인코딩 적용
print(one_hot_encoded.shape)  # (3, 3, 16) : 3개의 문장, 최대 길이 3, 단어 집합 크기 16
print(one_hot_encoded)  # 원-핫 인코딩된 결과 출력

(3, 3, 16)
[[[0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]]


---
## tensorflow.keras 사용하기

In [None]:
# models : 모델 관련 클래스 및 함수 임포트
# layers : 다양한 신경망 층 클래스 임포트
from tensorflow.keras import models, layers 

# layers.Input : 입력층 정의
#    - shape 매개변수 : 입력 데이터의 형태를 지정 (시퀀스 길이, 단어 집합 크기)
input = layers.Input(shape=(3,16))  # 입력 시퀀스의 길이는 3 , 단어 집합 크기는 16

# layers.SimpleRNN : RNN 층 정의 => 시계열 데이터 처리에 특화된 신경망 층
#    - 8 : RNN 유닛의 크기
#    - (input) : 이전 층의 출력이 입력으로 들어감
x = layers.SimpleRNN(8)(input)

# layers.Dense : 완전 연결층(밀집층) 정의
#    - 1 : 출력 뉴런의 수 (이진 분류를 위해 1개)
#    - activation='sigmoid' : 시그모이드 활성화 함수 사용 => 출력값을 0과 1 사이로 변환
#    - (x) : 이전 층의 출력이 입력으로 들어감
output = layers.Dense(1, activation='sigmoid')(x) 

# 모델 생성
# models.Model : 모델 클래스 정의(입력층과 출력층 연결)
# - inputs : (3, 16) 
# - outputs : (1,)
model = models.Model(inputs=input, outputs=output)
model.summary() # 모델 요약 출력
# 각각의 레이어가 어떻게 연결되어 있는지, 각 층의 출력 형태와 파라미터 수를 보여줌

In [None]:
import numpy as np

# model.compile : 모델 컴파일 => 학습 준비 단계
#    - optimizer='adam' : Adam 옵티마이저 사용 (가중치 업데이트 방법)
#    - loss='binary_crossentropy' : 이진 분류를 위한 손실 함수 사용
#    - metrics=['accuracy'] : 모델 평가에 사용할 지표로 정확도 사용
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

labels = np.array([0, 1, 0])  # 예시 레이블

# model.fit : 모델 학습
#    - one_hot_encoded : 입력 데이터 (원-핫 인코딩된 시퀀스)
#    - labels : 정답 레이블
#    - epochs=3 : 전체 데이터셋을 3번 반복하여 학습
model.fit(one_hot_encoded, labels, epochs=3)

Epoch 1/3
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1s/step - accuracy: 0.6667 - loss: 0.6593
Epoch 2/3
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 45ms/step - accuracy: 0.6667 - loss: 0.6518
Epoch 3/3
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step - accuracy: 0.6667 - loss: 0.6445


<keras.src.callbacks.history.History at 0x1a337770440>