<a href="https://colab.research.google.com/github/novicedata/template_ML/blob/main/%EC%A0%84%EC%B2%98%EB%A6%AC/python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Preprocessing Tools

## Importing the libraries

In [None]:
import numpy as np # 배열 다루는 library
import matplotlib.pyplot as plt # 시각화
import pandas as pd # 데이터 가져오기 및 데이터 다루기

## Importing the dataset

In [None]:
dataset = pd.read_csv("Data.csv") # 우리가 데이터를 볼 때, 종속변수가 마지막 열에 가도록 미리 만들어주는게 좋다.
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [None]:
X = dataset.iloc[:,:-1].values # .iloc은 데이터에서 추출하려는 인덱스를 가져와줌. 열뿐 아니라 행도
y = dataset.iloc[:,-1].values

In [None]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [None]:
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


## Taking care of missing data

In [None]:
# 각 열에서 nan 값 보기
dataset.isnull().sum()


Country      0
Age          1
Salary       1
Purchased    0
dtype: int64

In [None]:
# 누락값이 1% 미만이면 그냥 제거 해도 상관 없음.
# 여기서 해볼건 데이터 열 평균 구해서 넣어주기
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X[:,1:3]) # 1번째 이상 3번째 미만임
X[:,1:3] = imputer.transform(X[:,1:3])

In [None]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## Encoding categorical data

### Encoding the Independent Variable

In [None]:
# 나라와 같은 경우 1,2,3 등으로 코딩할 수 있는데 문제는 이러한 값에 가중치가 있다보니.. one-hot 인코딩이 굿
# Yes, NO와 같은 이진 데이터는 0,1,로 인코딩해도 상관없음

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# 변환열, 비변환열, 어떤 인코딩인지 입력해주면됌
ct = ColumnTransformer(transformers=[("encoder", OneHotEncoder(),[0])], remainder='passthrough')

# ct.fit_transform(X) 이렇게 하면 넘파이어레이로 안됌. 그래서 반환해줘야.
X = np.array(ct.fit_transform(X))

In [None]:
print(X)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### Encoding the Dependent Variable

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

In [None]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


## Splitting the dataset into the Training set and Test set

feature scaling을 나중에 하는 이유는 결국 평균, 표준편차를 얻는 건데, 분할 전에 하면, test set의 값도 평균과 표준편차 값이 포함됨.. test set는 무조건 독립적이어야 하기에 나누고 하는게 맞음.

In [None]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
print(X_train, X_test, y_train, y_test, sep='\n')

[[1.0 0.0 0.0 35.0 58000.0]
 [1.0 0.0 0.0 44.0 72000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]]
[[0.0 1.0 0.0 50.0 83000.0]
 [0.0 0.0 1.0 27.0 48000.0]]
[1 0 1 0 1 1 0 0]
[0 1]


## Feature Scaling

feature scaling이 필요한 일부 모델에서 적용하면 된다.

x_stand = (x-mean(x))/(std(x)), x_norm = (x-min(x))/(max(x)-min(x))

표준화와 같은 경우 어느 모델이나 괜찮게 작동.

Normalisation이 경우 정규분포 따를 때 하는게 좋음.

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

# 원핫인코딩한 더미데이터는 건드리면 안됨.
X_train[:,3:] = sc.fit_transform(X_train[:,3:])
X_test[:,3:] = sc.transform(X_test[:,3:]) # train에 적용된 fit으로 해야 의미가 있음.

In [None]:
print(X_train, X_test)

[[1.0 0.0 0.0 -0.7529426005471072 -0.6260377781240918]
 [1.0 0.0 0.0 1.008453807952985 1.0130429500553495]
 [1.0 0.0 0.0 1.7912966561752484 1.8325833141450703]
 [0.0 1.0 0.0 -1.7314961608249362 -1.0943465576039322]
 [1.0 0.0 0.0 -0.3615211764359756 0.42765697570554906]
 [0.0 1.0 0.0 0.22561095973072184 0.05040823668012247]
 [0.0 0.0 1.0 -0.16581046438040975 -0.27480619351421154]
 [0.0 0.0 1.0 -0.013591021670525094 -1.3285009473438525]] [[0.0 1.0 0.0 2.1827180802863797 2.3008920936249107]
 [0.0 0.0 1.0 -2.3186282969916334 -1.7968097268236927]]
