In [1]:
# 모든 학습데이터는 숫자로 변환되어야 함
# 레이블인코딩: 문자열 값을 숫자로 변환
# 원핫 인코딩:  데이터 개수만큼 컬럼을 생성하고, 각 데이터의 위치가 되는 컬럼만 1, 나머지는 0

In [2]:
# [레이블 인코딩]: 데이터 값 내의 문자열에 인덱스 값을 할당하여(중복 제거) 관리
from sklearn.preprocessing import LabelEncoder

items = ['TV', 'Refrig', 'MicroWave', 'Desktop', 'Fan', 'Fan', 'Mixer', 'Mixer']
# 인덱스 부여
encoder = LabelEncoder()
encoder.fit(items)
print(encoder.classes_)

['Desktop' 'Fan' 'MicroWave' 'Mixer' 'Refrig' 'TV']


In [3]:
# 부여한 인덱스를 데이터셋에 적용
items_transformed = encoder.transform(items)
items_transformed

array([5, 4, 2, 0, 1, 1, 3, 3])

In [4]:
# 적용된 데이터셋의 원래 값 확인
encoder.inverse_transform(items_transformed)

array(['TV', 'Refrig', 'MicroWave', 'Desktop', 'Fan', 'Fan', 'Mixer',
       'Mixer'], dtype='<U9')

In [5]:
# [원 핫 인코딩]
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', 'Refrig', 'MicroWave', 'Desktop', 'Fan', 'Fan', 'Mixer', 'Mixer']

# 인덱스 부여
encoder = LabelEncoder()
encoder.fit(items)

# 부여한 인덱스를 데이터셋에 적용
items_transformed = encoder.transform(items)

# 2차원 배열로 변환
items_transformed = items_transformed.reshape(-1, 1)

# 인코딩
oh_encoder = OneHotEncoder(sparse_output=False) # sparse_output을 False로 해주면 희소행렬을 바꿔줌
oh_encoder.fit(items_transformed)
oh_encoder.transform(items_transformed)

array([[0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.]])

In [6]:
# 원 핫 인코딩 자동 라이브러리: pandas.get_dummies
import pandas as pd

items = ['TV', 'Refrig', 'MicroWave', 'Desktop', 'Fan', 'Fan', 'Mixer', 'Mixer']
df = pd.DataFrame({'item' : items})

In [7]:
pd.get_dummies(df, dtype=int)

Unnamed: 0,item_Desktop,item_Fan,item_MicroWave,item_Mixer,item_Refrig,item_TV
0,0,0,0,0,0,1
1,0,0,0,0,1,0
2,0,0,1,0,0,0
3,1,0,0,0,0,0
4,0,1,0,0,0,0
5,0,1,0,0,0,0
6,0,0,0,1,0,0
7,0,0,0,1,0,0


In [8]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

In [9]:
# iris_df.mean()
# iris_df.var()
iris_df.max()

sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64

In [10]:
from sklearn.preprocessing import StandardScaler

s_scaler = StandardScaler()
iris_df_s = s_scaler.fit_transform(iris_df)
iris_df_s.mean().round()

-0.0

In [11]:
iris_df_s.var()

1.0

In [12]:
iris_df_s.std()

1.0

In [14]:
from sklearn.preprocessing import MinMaxScaler

m_scaler = MinMaxScaler()
iris_df_m = m_scaler.fit_transform(iris_df)
iris_df_m.min()

0.0

In [16]:
iris_df_m.max()

1.0

In [18]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [30]:
train = np.arange(0, 11).reshape(11, 1)
test = np.arange(0, 6).reshape(-1, 1)

scaler_m = MinMaxScaler()
s_train = scaler_m.fit_transform(train).reshape(-1)
s_test = scaler_m.fit_transform(test).reshape(-1)

print(s_train)
print(s_test)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
[0.  0.2 0.4 0.6 0.8 1. ]
