In [None]:
# 자연어 처리 (NLP): 컴퓨터가 사람의 언어를 이해하고 처리하도록 만드는 기술 영역.
# Token, Vector, Embedding: NLP에서 단어를 컴퓨터가 처리할 수 있는 숫자의 형태로 변환하는 과정.

# Token (토큰): 문장을 의미 있는 최소 단위(단어, 형태소, 문자)로 나눈 조각. 예: '나는 학생이다' -> '나', '는', '학생', '이다'
# Vector (벡터): 토큰을 숫자의 배열로 표현한 것.
# Embedding (임베딩): 단어를 밀집된(Dense) 벡터 공간에 표현하여, 단어 간의 의미적 유사성을 반영하는 벡터 표현 방식. (one-hot encoding은 희소(Sparse) 벡터.)

# onehot encoding (원-핫 인코딩):  단어 집합의 크기만큼의 차원을 가진 벡터로 표현하며, 해당 단어의 위치에만 1을, 나머지에는 0을 부여하는 방식.

print('레이블 인코딩(수동)')
datas = ['python', 'lan', 'program', 'computer', 'say'] # 처리할 원본 단어 리스트
sorted_datas = sorted(set(datas)) # 중복을 제거하고(set) 알파벳 순으로 정렬. (이는 고유한 단어 집합, 즉 Vocabulary.)
print('정렬된 데이터 :', sorted_datas)    # 결과: ['computer', 'lan', 'program', 'python', 'say']
manual_labels = list(range(len(sorted_datas)))  # 각 단어에 0부터 시작하는 고유 정수 인덱스(레이블)를 부여.
print('인덱스 라벨 : ', manual_labels )   # 결과: [0, 1, 2, 3, 4] (즉, 'computer'는 0, 'lan'은 1이 됨)

print('레이블 인코딩(수동)')
import numpy as np
# 수동으로 레이블 인코딩된 정수를 One-Hot 벡터로 변환하는 가장 간단한 방법: np.eye() (단위 행렬) 사용
# np.eye(N)은 N x N 크기의 단위 행렬을 생성. 각 행이 하나의 원-핫 벡터

onehot_manual = np.eye(len(manual_labels))
print(onehot_manual)  # 결과: 5x5 행렬. 예를 들어, 첫 번째 행 [1. 0. 0. 0. 0.]은 'computer'(레이블 0)를 나타냄
print()


# scikit-learn의 LabelEncoder를 사용한 레이블 인코딩

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
encoder_labels = encoder.fit_transform(datas) # fit_transform(): 데이터를 학습(fit)하고 변환(transform)을 동시에 수행
print(encoder.classes_) # 결과: ['computer' 'lan' 'program' 'python' 'say'] (내부적으로 알파벳순으로 정렬됨)
# encoder_labels: 원본 datas 리스트의 각 단어를 정수 인덱스로 변환한 결과
print(encoder_labels)   # 결과: [3 1 2 0 4] (예: 'python'->3, 'lan'->1)

print('onehotencoder 사용')
# LabelEncoder로 변환된 정수 레이블을 One-Hot 인코딩하기 위해 Scikit-learn의 OneHotEncoder를 사용
from sklearn.preprocessing import OneHotEncoder
sorted_datas_2d = np.array(sorted_datas).reshape(-1,1)  # OneHotEncoder는 2차원 배열(행렬)을 입력으로 받기 때문에 reshape (# (5,) 크기의 1차원 배열을 (5, 1) 크기의 2차원 배열로 변환)
onehot_encoder = OneHotEncoder(sparse_output=False)     # sparse_output=False: 희소 행렬(Sparse Matrix) 대신 일반 numpy 배열로 결과를 출력
onehot_encoded = onehot_encoder.fit_transform(sorted_datas_2d)    # fit_transform(): 2차원 정수 레이블 배열을 학습하고 원-핫 벡터로 변환
print(onehot_encoded)     # 결과: 위에서 수동으로 만든 np.eye() 결과와 동일한 5x5 행렬


print('pandas 사용')
import pandas as pd
df = pd.DataFrame({'datas':sorted_datas})
onehot_df = pd.get_dummies(df, dtype=int) # Pandas의 get_dummies()는 범주형 데이터를 One-Hot 인코딩하는 데 가장 쉽고 효율적인 방법 중 하나, DataFrame 생성
# pd.get_dummies()를 사용하여 'datas' 컬럼을 원-핫 인코딩
# dtype=int: 결과값 (0 또는 1)을 정수형으로 지정. (기본값은 bool 또는 float)
print(onehot_df)  # 결과: 'datas_' + 단어 이름 형태의 컬럼명과 함께 원-핫 인코딩된 DataFrame이 출력
print(onehot_df.values) # .values: DataFrame을 numpy 배열 형태로 변환하여 출력



레이블 인코딩(수동)
정렬된 데이터 : ['computer', 'lan', 'program', 'python', 'say']
인덱스 라벨 :  [0, 1, 2, 3, 4]
레이블 인코딩(수동)
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]

['computer' 'lan' 'program' 'python' 'say']
[3 1 2 0 4]
onehotencoder 사용
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]
pandas 사용
   datas_computer  datas_lan  datas_program  datas_python  datas_say
0               1          0              0             0          0
1               0          1              0             0          0
2               0          0              1             0          0
3               0          0              0             1          0
4               0          0              0             0          1
[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]
