In [1]:
import warnings
warnings.filterwarnings('ignore')

import random
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats
from scipy.stats import t, norm, chi2, chi2_contingency

from matplotlib import rc
rc('font', family='Malgun Gothic')      #한글 폰트설정
plt.rcParams['axes.unicode_minus']=False      #마이너스 부호 출력 설정

In [2]:
import math, scipy, sympy
from bs4 import BeautifulSoup as BS
import requests, re, urllib

from urllib import robotparser, request
from urllib.request import urlopen
import chardet

import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from time import sleep

import os, sys, json

import cx_Oracle

In [3]:
from sklearn.datasets import load_iris
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.model_selection import GridSearchCV

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

### 데이터 인코딩

* 레이블 인코딩(Label encoding)

In [4]:
from sklearn.preprocessing import LabelEncoder
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder 객체 생성
encoder = LabelEncoder()

# fit( ) 과 transform( ) 으로 label 인코딩 수행
encoder.fit(items)
labels = encoder.transform(items)   #레이블 인코딩
print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [5]:
print('인코딩 클래스:',encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [16]:
print('디코딩 원본 값:',encoder.inverse_transform([0,1,4,5,3,3,2,2]))

디코딩 원본 값: ['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


#### 원-핫 인코딩(One-Hot encoding)
- 원-핫 인코딩은 범주형 데이터를 처리할 때 많이 사용하는 기법으로, 각 범주를 벡터의 요소로 변환하여 해당 범주에 해당하면 1, 그렇지 않으면 0을 할당하는 방식

In [24]:
from sklearn.preprocessing import OneHotEncoder
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print(labels,'\n')

# labels는 1차원이지만, 원핫 인코더는 2차원 데이터를 입력받음
# 데이터 변환: itmes -> 1차원 배열 -> 2차원
labels = labels.reshape(-1, 1)
print(labels,'\n')

# 원-핫 인코딩을 적용합니다. 
oh_encoder = OneHotEncoder()
oh_labels = oh_encoder.fit_transform(labels)

# toarray() 함수: sparse matrix(희소행렬/ 대부분의 요소가 0인 행렬)를 
# dense format(일반적인 2차원 배열 형태)으로 변환하는데 사용
print('원-핫 인코딩 데이터')
print(oh_labels.toarray(),'\n')

print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

[0 1 4 5 3 3 2 2] 

[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]] 

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]] 

원-핫 인코딩 데이터 차원
(8, 6)


In [54]:
from sklearn.preprocessing import OneHotEncoder
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 2차원 ndarray로 변환합니다. 
items = np.array(items).reshape(-1, 1)

# 원-핫 인코딩을 적용합니다. 
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)

# OneHotEncoder로 변환한 결과는 희소행렬이므로 toarray()를 이용해
# 밀집 행렬(2차원 행렬 중 대부분의 원소가 0이 아닌)로 변환. 
print('원-핫 인코딩 데이터')
print(oh_labels.toarray(),'\n')
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]] 

원-핫 인코딩 데이터 차원
(8, 6)


#### 후자의 경우 범주형 변수의 순서 정보가 보존된다는 점에서만 차이. 이외에 인코딩 결과 자체는 차이x
- 리스트 -> 레이블 인코딩 -> 2차원 배열로 변환 -> 원-핫 인코딩
- 리스트 -> 2차원 배열로 변환 -> 원-핫 인코딩

In [37]:
# 판다스 원핫 인코딩 함수: get_dummies()
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

df = pd.DataFrame(items, columns=['items'])
pd.get_dummies(df)

# pd.get_dummies(items).values    #데이터프레임에 넣지 않고도 가능

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화

StandardScaler와 MinMaxScaler는 모두 scikit-learn 라이브러리의 데이터 전처리 도구입니다. 이들은 특성 스케일링(feature scaling)을 수행하는 데 사용되며, 이는 모든 특성이 동일한 스케일을 갖도록 변환하는 과정입니다. 특성의 스케일이 다르면 머신러닝 알고리즘의 성능에 부정적인 영향을 미칠 수 있습니다.

#### StandardScaler
- 이 스케일러는 특성을 표준화합니다
- 특성의 평균을 0, 표준 편차를 1로 변경하여 정규 분포를 따르도록 만듭니다.
- 이는 각 특성의 값에서 특성의 평균을 빼고 표준 편차로 나눔으로써 수행됩니다. 표준화는 특성의 분포가 정규 분포가 아닐 때, 또는 특성 간의 스케일 차이를 제거하려 할 때 유용합니다.

#### MinMaxScaler
- 이 스케일러는 특성을 정규화합니다
- 특성의 최소값을 0, 최대값을 1로 변경하여 모든 특성이 0과 1 사이의 값으로 변환되도록 합니다.
- 이는 각 특성의 값에서 특성의 최소값을 빼고, 그 결과를 특성의 범위(최대값 - 최소값)로 나눔으로써 수행됩니다. 정규화는 특성의 분포가 균등하게 퍼져 있을 때, 또는 특성의 최소값과 최대값이 명확히 정해져 있을 때 유용합니다.

이 두 가지 스케일러는 모두 데이터의 분포나 값의 범위를 변경하지만, 어떤 스케일러를 사용할지는 문제의 요구 사항과 데이터의 특성에 따라 달라집니다. 또한, 이들 스케일러를 사용할 때는 항상 훈련 데이터를 기반으로 스케일러를 학습시킨 후, 이를 훈련 데이터와 테스트 데이터에 모두 적용해야 합니다. 이렇게 해야 테스트 데이터가 훈련 데이터와 동일한 방식으로 변환되므로, 모델이 일관된 입력을 받을 수 있습니다.

In [41]:
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다. 
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

print('<feature들의 평균 값>')
print(iris_df.mean(), '\n')

print('<feature들의 분산 값>')
print(iris_df.var())

<feature들의 평균 값>
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64 

<feature들의 분산 값>
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


#### StandardScaler 사용: 평균0, 표준편차1로 변환

In [43]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()    #객체 생성

# StandardScaler로 데이터 셋 변환. fit( ) 과 transform( ) 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform( ) -> scale 변환된 데이터 셋 -> numpy ndarry -> DataFrame
df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

print('<feature 들의 평균 값>')
print(df_scaled.mean(),'\n')

print('<feature 들의 분산 값>')
print(df_scaled.var())

<feature 들의 평균 값>
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64 

<feature 들의 분산 값>
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


#### MinMaxScaler 사용: 최대1, 최소0으로 변환

In [50]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()    #MinMaxScaler객체 생성

# MinMaxScaler 로 데이터 셋 변환. fit() 과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform( ) -> scale 변환된 데이터 셋 -> numpy ndarry -> DataFrame
df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

print('<feature들의 최솟값>')
print(df_scaled.min(),'\n')

print('<feature들의 최댓값>')
print(df_scaled.max())

<feature들의 최솟값>
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64 

<feature들의 최댓값>
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### Scaler를 이용하여 학습/테스트 데이터에 fit(), transform(), fit_transform() 적용 시 유의사항
- <fit 메서드>는 훈련 데이터에 대한 스케일링 파라미터(평균, 표준편차)를 계산하고, <transform 메서드>는 이 파라미터를 사용해 데이터를 실제로 변환
- fit 메서드는 훈련 데이터에만 적용되어야 하며, 이렇게 학습된 스케일러는 훈련 데이터와 테스트 데이터에 모두 적용 (가능하면 전체 데이터에 스케일링 변환을 적용한 뒤, 학습/테스트 데이터 분리)

In [52]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 가상 데이터 생성
x = np.arange(20).reshape((10,2))
y = range(10)

# 데이터를 훈련 데이터와 테스트 데이터로 분리
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2, random_state=42)

# StandarScaler 생성
scaler = StandardScaler()

# 훈련 데이터를 사용해 스케일러 학습
scaler.fit(x_train)

# 스케일러를 사용해 훈련 데이터와 테스트 데이터 변환
x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

In [12]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0 부터 10까지, 테스트 데이터는 0 부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)
test_array =  np.arange(0, 6).reshape(-1, 1)

In [13]:
# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정.
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10-> 1로 변환됨.
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [14]:
# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환.
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력.
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))


원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [15]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform() 만으로 변환해야 함. 
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))


원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


#### 과제(2): 아래 animals 데이터로 원핫 인코딩을 수행한 후, 데이터프레임으로 출력

In [53]:
animals = ['고양이','개','새','개','새','새','고양이','고양이']

animals = np.array(animals).reshape(-1,1)
enc = OneHotEncoder()
enc.fit(animals)
label = enc.transform(animals)

print(f'원핫 인코딩 데이터 차원: {label.shape}')
print(f'원핫 인코딩 데이터: \n{label.toarray()}')

원핫 인코딩 데이터 차원: (8, 3)
원핫 인코딩 데이터: 
[[0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]]


#### 레이블 인코딩 - 원핫 인코딩
종류가 적을 땐 숫자가 작으니까 레이블인코딩으로 나눠도 되는데,
만약 데이터 종류가 1000개쯤 되면 1~1000 사이의 숫자가 들어가서 숫자의 크기가 의미를 가지게 되므로(실제로는 아무 의미 없는데도 불구하고)<br>
이런 경우 차라리 원핫 인코딩이 더 좋음.
다만 원핫 인코딩은 규모가 너무 커져서 시간이 오래 걸리게 되므로, 주의