# LabelEncoder
#### 문자형을 숫자형으로 바꾸는 방법

In [6]:
from sklearn.preprocessing import LabelEncoder
items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
print(labels)

[0 1 4 5 3 3 2 2]


In [7]:
#인코팅 전 원래의 값 확인
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

In [8]:
#인코딩된 값을 디코딩
encoder.inverse_transform([3,0,2,1])

array(['선풍기', 'TV', '믹서', '냉장고'], dtype='<U4')

# OneHotEncoder
#### 컴퓨터가 읽을 수 있는 값인 0과 1로 바꾸기. 값들은 0과 1 중 하나로 변한다.
#### OneHotEncoder을 하기 전에 2차원 데이터로 변환하는 과정이 필요하다.

In [9]:
from sklearn.preprocessing import OneHotEncoder ,LabelEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

#1.먼저 숫자값으로 변환을 위해 LabelEncoder로 변환
#LabelEncoder : 문자형을 숫자형으로 바꾸는 방법

encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2], dtype=int64)

In [10]:
#2. 2차원 데이터로 변환
labels=labels.reshape(-1,1)   #(,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]], dtype=int64)

In [11]:
#3. 원-핫 인코딩을 적용
#OneHotEncoder : 컴퓨터가 읽을 수 있는 값인 0과 1로 바꾸기. 값들은 0과 1 중 하나로 변한다.
one_encoder=OneHotEncoder()
one_encoder.fit(labels)
one_labels=one_encoder.transform(labels)
one_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [12]:
print(one_labels)
#결과값 해석 : 해당 행,열에는 1의 값이 들어가 있음을 나타내준다.

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


In [13]:
one_labels.shape

(8, 6)

In [15]:
#1차원을 2차원으로 보여주는 방법
one_labels.toarray()
#print(one_labels)이 반영되어있음을 알 수 있다.

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

# get_dummies
#### 이것도 OneHotEncoder의 일종이다.

In [16]:
import pandas as pd

df=pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [17]:
pd.get_dummies(df)
#이것도 OneHotEncoder의 일종이다.

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [18]:
#Pandas 데이터프레임을 Numpy 배열로 변환
pd.get_dummies(df).to_numpy()

array([[1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0]], dtype=uint8)

# StandardScaler

In [21]:
from sklearn.datasets import load_iris
import pandas as pd

iris=load_iris()
iris_data=iris.data
iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)

print(iris_df.mean())
print(iris_df.std())

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64


In [25]:
from sklearn.preprocessing import StandardScaler

scaler=StandardScaler()
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)
#print(iris_scaled)
iris_scaled_df=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)

print(iris_scaled_df.mean())
print(iris_scaled_df.std())

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


# MinMaxScaler

In [27]:
from sklearn.preprocessing import MinMaxScaler

scaler=MinMaxScaler()
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)
#print(iris_scaled)
iris_scaled_df=pd.DataFrame(data=iris_scaled,columns=iris.feature_names)

print(iris_scaled_df.mean())
print(iris_scaled_df.std())

sepal length (cm)    0.428704
sepal width (cm)     0.440556
petal length (cm)    0.467458
petal width (cm)     0.458056
dtype: float64
sepal length (cm)    0.230018
sepal width (cm)     0.181611
petal length (cm)    0.299203
petal width (cm)     0.317599
dtype: float64
