## 데이터 인코딩

### 레이블 인코딩(Label encoding)

In [1]:
# import LabelEncoder
from sklearn.preprocessing import LabelEncoder # sklearn.preprocessing: 전처리 관련 함수 제공

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder 객체 생성
encoder = LabelEncoder()

# fit( ), transform( )으로 레이블 인코딩 수행
# fit_transform()으로 한 번에 진행 가능
encoder.fit(items) # TV 하나, 냉장고 하나, 선풍기 둘 이런 식으로 내부적인 데이터만 생성
labels = encoder.transform(items) # 실제로 카테고리를 숫자로 변경해주는 transform

print('Encoding:', labels)

# 아래 매핑된 값 확인
# 가나다 순으로 0부터 지정

Encoding: [0 1 4 5 3 3 2 2]


In [2]:
print('Encoding Class:', encoder.classes_) # 0~5에 각각 어떤 값에 매핑되었는지 확인

Encoding Class: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [3]:
print('Decoding original value:', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

Decoding original value: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


### Pandas의 map 함수 사용
- pandas의 map 함수를 사용하여 레이블 인코딩 작업을 쉽게 진행할 수 있음

In [4]:
import pandas as pd

# item 목록 데이터프레임 생성
df = pd.DataFrame({'item':['TV', '냉장고', '전자렌지', '컴퓨터',
                           '선풍기', '선풍기', '믹서', '믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [5]:
# 레이블을 dictionary 형태로 직접 입력
item_map = {
    'TV': 0, 
    '냉장고': 1,
    '믹서': 2, 
    '선풍기': 3,
    '전자렌지': 4,
    '컴퓨터': 5,
}

In [6]:
# item 컬럼을 item_map 값과 매핑하여 item_code 컬럼 생성
df['item_code'] = df['item'].map(item_map)

In [7]:
df

Unnamed: 0,item,item_code
0,TV,0
1,냉장고,1
2,전자렌지,4
3,컴퓨터,5
4,선풍기,3
5,선풍기,3
6,믹서,2
7,믹서,2


### 원-핫 인코딩(One-Hot encoding)
#### 원-핫 인코딩에서 고려해야 하는 요소들
- 배열(array) 형태로 변환
- 2차원 데이터로 변환: 원-핫 인코딩은 2차원 데이터로 진행해주어야 함

In [8]:
# import OneHotEncoder
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

items = np.array(items) # items를 numpy 자료구조 배열 형태로 변환
print(items)

print(items.shape, items.ndim, '\n') # 크기와 차원 확인
# 8개의 요소를 가진 1차원 데이터

# 2차원 데이터로 변환
items = items.reshape(-1, 1) # 8개의 데이터이므로 열의 개수 1만 적어주면 행의 개수 8로 자동 설정
# (8, 1)이 정석이지만, 행과 열의 개수 중 하나만 정해진 상태에서 다른 한 쪽에 -1만 적어주면 쉽게 변환 가능

print(items.shape, '\n', items)

['TV' '냉장고' '전자렌지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']
(8,) 1 

(8, 1) 
 [['TV']
 ['냉장고']
 ['전자렌지']
 ['컴퓨터']
 ['선풍기']
 ['선풍기']
 ['믹서']
 ['믹서']]


In [9]:
# OneHotEncoder 객체 생성
oh_encoder = OneHotEncoder()

# fit, tranform 적용
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)
oh_labels

# OneHotEncoder는 기본값으로 sparse matrix(희소행렬)를 반환
# 희소행렬은 직관적으로 데이터를 살피기 어려움
# 데이터를 보기 좋은 형태로 변환하는 과정을 거쳐야 하기 때문에,
# pandas의 원-핫 인코딩 함수 pd.get_dummies를 더 많이 사용

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [10]:
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())

print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

# toarray()를 사용하면 sparse matrix 형태의 데이터가 직관적인 array 형태로 변환

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [11]:
import pandas as pd

df = pd.DataFrame({'item':['TV', '냉장고', '전자렌지', '컴퓨터',
                           '선풍기', '선풍기', '믹서', '믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [12]:
pd.get_dummies(df) # 컬럼이 여러 개일 경우 df['컬럼명'] 인자 사용

# 다른 과정 없이 데이터프레임만 생성해주면 되어서 OneHotEncoder에 비해 사용하기 편리함
# 더미 변수의 컬럼명은 item_item명으로 자동 지정

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


## 데이터(Feature) 스케일링과 정규화

### StandardScaler

In [13]:
# import StandardScaler
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np # 데이터 생성에 numpy 자주 사용

data = np.arange(10) # 0~9의 10개 값
data[5] = 1000 # 5번 인덱스의 값을 1000으로 변경

# data의 평균, 표준편차
data.mean(), data.std()

# 특잇값 1000 하나로 인해 전체 통계값이 크게 달라지는 경우
# 표준화 작업을 통해 평균을 0에, 분산을 1에 가깝게 변환

(104.0, 298.6804312304373)

In [14]:
# StandardScaler() 객체 생성
scaler = StandardScaler()

# fit_transform으로 표준화 (2차원 변형 필요)
scaled = scaler.fit_transform(data.reshape(-1, 1))

In [15]:
# 표준화된 평균, 표준편차 출력
scaled.mean(), scaled.std()

# 평균 값은 -6이 아닌 0에 매우 가까운 값 (뒤에 지수가 붙음)

(-6.106226635438361e-17, 0.9999999999999999)

In [16]:
round(scaled.mean(), 2), scaled.std()

# 평균은 0(-0), 분산은 1에 가까운 값 -> 정확히 1이 나오는 경우는 거의 없음

(-0.0, 0.9999999999999999)

In [17]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 셋을 DataFrame으로 변환 
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print()
print('feature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [18]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터셋 변환: fit( ), transform( ) 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
# iris_scaled = scaler.fit_transform(iris_df)

# iris_scaled 데이터프레임 변환
# transform 시 scale 변환된 데이터가 numpy ndarray 형태로 반환되어 다시 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print()
print('feature 들의 분산 값')
print(iris_df_scaled.var())

# 평균은 0에 가까운 값, 분산은 1에 가까운 값으로 바뀐 것 확인

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### MinMaxScaler

In [19]:
# import MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# 영화 평점 예제
# 다음영화 평점(0~10점), 네이버영화 평점(1~5점)
# 1과 2부터 5와 10까지 사실은 같은 값이지만 다르게 취급되어 패턴이 다르게 생성될 것
# 같은 범위 내에서 움직이게 하는 것이 머신러닝 성능을 높이는 데 도움이 됨
movie = {'daum':[2,4,6,8,10],
         'naver':[1,2,3,4,5] }

# movie를 데이터프레임으로 변환
mv = pd.DataFrame(movie)

# MinMaxScaler 객체 생성
min_max_scaler = MinMaxScaler()

# fit_transform 실행
min_max_mv = min_max_scaler.fit_transform(mv)

pd.DataFrame(min_max_mv, columns =['daum', 'naver'])

# 정규화 작업 후 다음, 네이버 모두 0~1의 값으로 변환

Unnamed: 0,daum,naver
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


####  붓꽃 데이터  MinMaxScaler 로 변환

In [20]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터셋 변환: fit(), transform() 호출
iris_scaled = scaler.fit_transform(iris_df) # iris_df 변수 그대로 사용

# iris_scaled 데이터프레임 변환
# 마찬가지로 transform 시 ndarray 형태로 반환된 데이터를 DataFrame 변환
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

print('feature 들의 최솟값')
print(iris_df_scaled.min())
print()
print('feature 들의 최댓값')
print(iris_df_scaled.max())

feature 들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
