<a href="https://colab.research.google.com/github/ChaeYun430/MachineLearningStudy25/blob/master/data_handling/data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ===== 데이터 전처리 개요 =====
# 결손값 불허
# 해당 피처가 중요도가 높은 피처이고 Null을 단순히 피처의 평균값으로 대체할 경우
# 예측 왜곡이 심할 수 있다면 업무 로직 등을 상세히 검토해 더 정밀한 대체 값을 선정해야 함
# 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않음

In [None]:
# ===== 데이터 인코딩 =====

# ----- Label encoding -----
# 카테고리 피처를 코드형 숫자 값으로 변환하는 것
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
label_encoder = LabelEncoder()
label_encoder.fit(items)
labels = label_encoder.transform(items)
print(labels)
print(label_encoder.classes_) # 문자열 값이 어떤 숫자 값으로 인코딩 되었는지

decoded_labels = label_encoder.inverse_transform(labels) # 디코딩
print(decoded_labels)

# 숫자 변환 값은 단순 코드이지 숫자 값에 따른 순서나 중요도로 인식되어서는 안됨. 트리계열의 머신러닝 알고리즘 가능


# ----- One-Hot Encoding -----
# 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식
from sklearn.preprocessing import OneHotEncoder
import numpy as np

oh_items = np.array(items).reshape(-1, 1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(oh_items)
oh_labels = oh_encoder.transform(oh_items)

# sparse matrix -> dense matrix
print(type(oh_labels))
print(oh_labels)
print(oh_labels.toarray())

# ----- pandas의 get_dummues() -----
import pandas as pd

df_items = pd.DataFrame(items)
pd.get_dummies(df_items)

In [None]:
# ===== Feature Scaling =====
# 서로 다른 변수의 값  범위를 일정한 맞춤


from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_feature = iris.feature_names
iris_feature_data  = iris.data
iris_label = iris.target_names
iris_label_data =  iris.target

iris_df = pd.DataFrame(data = iris_feature_data, columns = iris_feature)

display(iris_df.mean())
display(iris_df.var())


# ----- 표준화 -----
# 데이터의 피처 각각이 평균이 0이고 분산이 가우시안 정규 분포를 가진값으로 변환해주는 것
from  sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
std_scaler.fit(iris_df)
iris_scaled =  std_scaler.transform(iris_df)

iris_scaled_df = pd.DataFrame(data = iris_scaled, columns = iris_feature)
display(iris_scaled_df.mean())
display(iris_scaled_df.var())


# ----- 정규화 -----
# 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 것
# 데이터 값을 -1과 1 사이의 범위 값으로 변환
from  sklearn.preprocessing import MinMaxScaler

std_scaler = MinMaxScaler()
std_scaler.fit(iris_df)
iris_scaled =  std_scaler.transform(iris_df)

iris_scaled_df = pd.DataFrame(data = iris_scaled, columns = iris_feature)
display(iris_scaled_df.min())
display(iris_scaled_df.max())

# 가능하다면 전체 데이처의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
# 학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 함