### 데이터 인코딩

- 레이블 인코딩(Label encoding)

In [3]:
# 인코딩 : 문자나 기호들을 컴퓨터에서 사용하는 숫자 코드로 변환하는 과정
# 디코딩 : 다시 문자와 기호로 변환
from sklearn. preprocessing import LabelEncoder

items = ['TV','냉장고','전자렌지','컴퓨터','선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit() 과 transform()으로 label 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값: ', labels)

인코딩 변환값:  [0 1 4 5 3 3 2 2]


In [4]:
print('인코딩 클래스:' ,encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [5]:
print('디코딩 원본 값:', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


- 원-핫 인코딩(One-Hot encoding) <br>
원-핫 인코딩은 범주형 데이터를 처리할 때 많이 사용하는 기법으로, 각 범주를 벡터의 요소로 변환하여 해당 범주에 해당하면 1, 그렇지 않으면 0을 출력하는 방식. <br>
label 종류만큼 열이 생겨서 0,1 값이 출력

#### 레이블과 원-핫 인코딩의 차이

- 레이블 인코딩은 값 간 상대적인 크기를 부여하기 때문에 몇몇 모델에서는 문제가 발생할 수 있습니다. <br>
예를 들어, "red"는 "green"보다 작은 값인 0으로 인코딩되지만, 색상 값 간에 크기 비교가 의미가 없으므로 이러한 인코딩이 부적합할 수 있습니다.

- 원핫 인코딩은 각 범주형 변수의 값을 이진 벡터로 변환합니다. 각 범주 값은 벡터 내에서 1의 위치에 해당되며, 나머지 위치는 0으로 설정됩니다.  <br>
예를 들어, "red", "green", "blue" 값을 갖는 색상 변수는 [1, 0, 0], [0, 1, 0], [0, 0, 1]과 같이 3차원 벡터로 인코딩됩니다. 이러한 인코딩은 변수 간 상대적인 크기를 나타내지 않지만, 범주 간의 분류 작업에서 유용합니다.

In [6]:
from sklearn. preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자렌지','컴퓨터','선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit() 과 transform()으로 label 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print(labels, '\n')

# 2차원 데이터로 변환. 변환된 labels는 1차원 배열이지만, 원-핫인코딩은 2차원 데이터를 입력 받으므로 reshape(-1,1)을 사용해
# labels를 2차원으로 변환. (-1은 나머지 차원을 자동으로 계산하라는 의미)
labels = labels.reshape(-1,1)
print(labels, '\n')

# 원-핫 인코딩을 적용
o_e = OneHotEncoder()
o_labels = o_e.fit_transform(labels)
# toarrray() 함수는 sparsematrix를 dense format(일반적인 2차원 배열 형태)으로 변환하는데 사용
print('원-핫 인코딩 데이터')
print(o_labels.toarray(), '\n')
print('원-핫 인코딩 데이터 차원')
print(o_labels.shape)

[0 1 4 5 3 3 2 2] 

[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]] 

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]] 

원-핫 인코딩 데이터 차원
(8, 6)


In [8]:
# Q.pandas를 이용해서 간편하게 원=핫 인코딩을 수행하세요.
import pandas as pd

df = pd.DataFrame(items)
df = pd.get_dummies(df)
df

Unnamed: 0,0_TV,0_냉장고,0_믹서,0_선풍기,0_전자렌지,0_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


과제2_0516. 아래 animals 데이터에 대하여 one-hot encoding을 수행한 후 데이터 프레임으로 출력하세요.

In [21]:
from sklearn. preprocessing import OneHotEncoder, LabelEncoder
import numpy as np

items = ['고양이','개','새','개','새', '새', '고양이', '고양이']


# LabelEncoder를 객체로 생성한 후, fit() 과 transform()으로 label 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

labels = labels.reshape(-1,1)

o_e = OneHotEncoder()
o_labels = o_e.fit_transform(labels)


import pandas as pd

df = pd.DataFrame(items)
df = pd.get_dummies(df)
df

Unnamed: 0,0_개,0_고양이,0_새
0,0,1,0
1,1,0,0
2,0,0,1
3,1,0,0
4,0,0,1
5,0,0,1
6,0,1,0
7,0,1,0


### 피처 스케일링과 정규화

StandardScaler와 MinMaxScaler는 모두 scikit-learn 라이브러리의 데이터 전처리 도구입니다. 이들은 특성 스케일링(feature scaling)을 수행하는 데 사용되며, 이는 모든 특성이 동일한 스케일을 갖도록 변환하는 과정입니다. 특성의 스케일이 다르면 머신러닝 알고리즘의 성능에 부정적인 영향을 미칠 수 있습니다.

- StandardScaler: 이 스케일러는 특성을 표준화합니다. 특성의 평균을 0, 표준 편차를 1로 변경하여 정규 분포를 따르도록 만듭니다. 이는 각 특성의 값에서 특성의 평균을 빼고 표준 편차로 나눔으로써 수행됩니다. 표준화는 특성의 분포가 정규 분포가 아닐 때, 또는 특성 간의 스케일 차이를 제거하려 할 때 유용합니다.

- MinMaxScaler: 이 스케일러는 특성을 정규화합니다. 특성의 최소값을 0, 최대값을 1로 변경하여 모든 특성이 0과 1 사이의 값으로 변환되도록 합니다. 이는 각 특성의 값에서 특성의 최소값을 빼고, 그 결과를 특성의 범위(최대값 - 최소값)로 나눔으로써 수행됩니다. 정규화는 특성의 분포가 균등하게 퍼져 있을 때, 또는 특성의 최소값과 최대값이 명확히 정해져 있을 때 유용합니다.

이 두 가지 스케일러는 모두 데이터의 분포나 값의 범위를 변경하지만, 어떤 스케일러를 사용할지는 문제의 요구 사항과 데이터의 특성에 따라 달라집니다. 또한, 이들 스케일러를 사용할 때는 항상 훈련 데이터를 기반으로 스케일러를 학습시킨 후, 이를 훈련 데이터와 테스트 데이터에 모두 적용해야 합니다. 이렇게 해야 테스트 데이터가 훈련 데이터와 동일한 방식으로 변환되므로, 모델이 일관된 입력을 받을 수 있습니다.

- StandardScaler

In [11]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터셋을 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)

print('feature 들의 평균값')
print(iris_df.mean())
print('\nfeature 들의 분산값')
print(iris_df.var())

feature 들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [12]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터셋 변환. fit() 과 transform() 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 scale 변환된 데이터셋이 numpy ndarray로 반환되어 이를 DateFrame으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print('feature 들의 평균값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산값')
print(iris_df_scaled.var())

feature 들의 평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


- MinMaxScaler

스케일러를 사용할 때는 항상 훈련 데이터를 기반으로 스케일러를 학습시킨 후, 이를 훈련 데이터와 테스트 데이터에 모두 적용
- fit 메서드는 훈련 데이터에 대한 스케일링 파라미터(평균과 표준편차)를 계산하고, transform 메서드는 이 파라미터를 사용해 데이터를 실제로 변환합니다. fit 메서드는 훈련 데이터에만 적용되어야 하며, 이렇게 학습된 스케일러는 훈련 데이터와 테스트 데이터에 모두 적용

#### Scaler를 이용하여 학습/테스트 데이터에 fit(), transform(), fit_transform() 적용 시 유의사항
- <fit 메서드>는 훈련 데이터에 대한 스케일링 파라미터(평균, 표준편차)를 계산하고 
- <transform 메서드>는 이 파라미터를 사용해 데이터를 실제로 변환

- 유의사항
    1) fit 메서드는 훈련(학습) 데이터에만 적용되어야 하며, 테스트 데이터에 적용해서는 안됨.
    - 학습 데이터로 이미 fit()이 적용된 Scaler 객체를 이용해 transform()로 데이터를 변환해야 함
    2) fit_transform()는 fit(), transform()을 순차적으로 수행하는 메서드이므로 테스트 데이터에서 절대 사용하면 안됨

In [15]:
# Q.MinMaxScaler를 사용하여 정규화하세요.

from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터셋 변환. fit() 과 transform() 호출.
scaler.fit(iris_df)
iris_df_mscaled = scaler.transform(iris_df)

# transform() 시 scale 변환된 데이터셋이 numpy ndarray로 반환되어 이를 DateFrame으로 변환
iris_df_mscaled = pd.DataFrame(data = iris_df_mscaled, columns = iris.feature_names)
print('feature 들의 최소값')
print(iris_df_mscaled.min())
print('\nfeature 들의 최대값')
print(iris_df_mscaled.max())


feature 들의 최소값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 최대값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


In [18]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 가상의 데이터 생성
X, y = np.arange(20).reshape((10, 2)), range(10)

# 데이터를 훈련 데이터와 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# StandardScaler 생성
scaler = StandardScaler()

# 훈련 데이터를 사용해 스케일러 학습
scaler.fit(X_train)

# 스케일러를 사용해 훈련 데이터와 테스트 데이터 변환
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)