# 데이터 인코딩

## 레이블 인코딩(Label Encoding)



In [None]:
from sklearn.preprocessing import LabelEncoder

# 문자(가전제품 이름) 리스트
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder 객체 생성 (문자를 숫자로 바꾸는 도구)
encoder=LabelEncoder()
# 어떤 문자들이 있는지 미리 학습 (가나다순으로 정렬해서 번호 매김)
encoder.fit(items)

# 문자들을 숫자로 변환
labels=encoder.transform(items)

# 변환된 숫자 출력
print("인코딩 변환값:",labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [None]:
# LabelEncoder가 기억하고 있는
# "숫자 ↔ 원래 문자" 목록을 출력
print("인코딩 클래스:",encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [None]:
# 숫자 데이터를 다시 원래 문자 데이터로 되돌림
print("디코딩 원본 값:",encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


## 원핫 인코딩(One-Hot encoding)


In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 가전제품 이름(문자 데이터)
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 1️⃣ LabelEncoder 생성 (문자 → 숫자 담당)
encoder=LabelEncoder()

# 2️⃣ 문자 데이터를 학습해서
#    각 문자에 숫자를 붙일 준비
encoder.fit(items)

# 3️⃣ 문자를 실제 숫자로 변환
labels=encoder.transform(items)
# 4️⃣ OneHotEncoder는 2차원 데이터만 받기 때문에
#    (8,) → (8, 1) 형태로 바꿔줌
labels=labels.reshape(-1,1)

# 5️⃣ OneHotEncoder 생성 (숫자 → 원-핫 담당)

oh_encoder=OneHotEncoder()
# 6️⃣ 숫자 데이터에 대해
#    "몇 가지 종류의 숫자가 있는지" 학습
oh_encoder.fit(labels)
# 7️⃣ 숫자를 원-핫 인코딩으로 변환
oh_labels=oh_encoder.transform(labels)

# 8️⃣ 원-핫 인코딩 결과 출력
#    (희소행렬 → 일반 배열)
print("원-핫 인코딩 데이터")
print(oh_labels.toarray())
# 9️⃣ 데이터의 모양(행, 열) 출력
print("원-핫 인코딩 데이터 차원")
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [None]:
import pandas as pd

# 1️⃣ 가전제품 이름이 들어 있는 데이터 만들기
df=pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
# 2️⃣ 문자 데이터(item)를 자동으로 원-핫 인코딩
pd.get_dummies(df)

# 0.1로 보고싶다면
# pd.get_dummies(df, dtype=int)


Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,True,False,False,False,False,False
1,False,True,False,False,False,False
2,False,False,False,False,True,False
3,False,False,False,False,False,True
4,False,False,False,True,False,False
5,False,False,False,True,False,False
6,False,False,True,False,False,False
7,False,False,True,False,False,False


## 피처스케일링과 정규화

- StandardScaler

In [None]:
import pandas as pd
from sklearn.datasets import load_iris

# 1️⃣ 아이리스(붓꽃) 데이터 불러오기
iris=load_iris()

# 2️⃣ 꽃의 실제 측정값(숫자 데이터)만 가져오기
#    (꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)
iris_data=iris.data

# 3️⃣ 넘파이 배열을 판다스 DataFrame(표)로 변환
#    열 이름은 iris.feature_names 사용
iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)

# 4️⃣ 각 feature(열)의 평균 계산
print("feature 들의 평균값")
print(iris_df.mean())
# 5️⃣ 각 feature(열)의 분산 계산
print("\nfeature 들의분산값")
print(iris_df.var())


feature 들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [None]:
from sklearn.preprocessing import StandardScaler
# 1️⃣ 표준화 도구(StandardScaler) 만들기
scaler=StandardScaler()

# 2️⃣ iris_df의 평균과 표준편차를 계산해서 기억함
scaler.fit(iris_df)
# 3️⃣ 계산한 평균과 표준편차로 실제 표준화 수행
iris_scaled=scaler.transform(iris_df)

# 4️⃣ 표준화된 결과를 다시 DataFrame(표)로 변환
iris_df_scaled=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
# 5️⃣ 표준화 후 feature들의 평균 확인
print("feature들의 평균값")
print(iris_df_scaled.mean())
# 6️⃣ 표준화 후 feature들의 분산 확인
print("\nfeature들의 분산값")
print(iris_df_scaled.var())

feature들의 평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [None]:
from sklearn.preprocessing import MinMaxScaler

# 1️⃣ 최소–최대 정규화를 해주는 도구 생성
scaler=MinMaxScaler()

# 2️⃣ iris_df에서 각 feature의 최소값과 최대값을 계산해서 기억
scaler.fit(iris_df)

# 3️⃣ 기억한 최소·최대값을 이용해 데이터를 0~1 사이로 변환
iris_scaled=scaler.transform(iris_df)

# 3️⃣ 기억한 최소·최대값을 이용해 데이터를 0~1 사이로 변환
iris_df_scaled=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)
# 5️⃣ 정규화된 데이터의 최소값 확인
print("feature들의 최소값")
print(iris_df_scaled.min())
# 6️⃣ 정규화된 데이터의 최대값 확인
print('\nfeature들의 최대값')
print(iris_df_scaled.max())

feature들의 최소값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


In [None]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np
# 1️⃣ 학습용 데이터(train)
# 0부터 10까지 숫자를 만들고, 2차원 형태로 변환
train_array=np.arange(0,11).reshape(-1,1)
# 2️⃣ 테스트용 데이터(test)
# 0부터 5까지 숫자를 만들고, 2차원 형태로 변환
test_array=np.arange(0,6).reshape(-1,1)




In [None]:
# 3️⃣ MinMaxScaler 생성 (0~1 사이로 바꿔주는 도구)
scaler=MinMaxScaler()

# =========================
# ✅ TRAIN 데이터 기준
# =========================
# 4️⃣ train 데이터의 최소값과 최대값을 계산해서 기억
scaler.fit(train_array)

# 5️⃣ 기억한 기준으로 train 데이터를 0~1 사이로 변환
train_scaled=scaler.transform(train_array)

# 6️⃣ 결과 출력
print("원 본 train_array데이터:",np.round(train_array.reshape(-1),2))
print("Scale된 train_array데이터:",np.round(train_scaled.reshape(-1),2))

원 본 train_array데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [None]:
# =========================
# ❌ TEST 데이터에 다시 fit (문제 발생)
# =========================

# 7️⃣ test 데이터로 다시 최소·최대값을 계산 ❌
scaler.fit(test_array)

# 8️⃣ test 데이터를 0~1 사이로 변환
test_scaled=scaler.transform(test_array)

# 9️⃣ 결과 출력
print("원본 test_array데이터:",np.round(test_array.reshape(-1),2))
print("Scale된 test_array데이터:",np.round(test_scaled.reshape(-1),2))

원본 test_array데이터: [0 1 2 3 4 5]
Scale된 test_array데이터: [0.  0.2 0.4 0.6 0.8 1. ]
