<a href="https://colab.research.google.com/github/DDANGJUN/UdemyML_DataPreprocessTool/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **import library**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### **import dataset**

In [None]:
dataSet = pd.read_csv('Data.csv')
x = dataSet.iloc[:, :-1].values # ':' -> 모든 가로행의 값을 불러옴 / ':-1' -> 0부터 -2 인덱스까지의 세로열의 값을 불러옴(마지막 열은 불러오지 않음)
y = dataSet.iloc[:, -1 ].values # x -> 특성행렬 / y -> 종속변수벡터

In [None]:
print(x) # 결측 데이터(공백)은 nan으로 표시됨

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [None]:
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


### **결측값 처리**

결측 데이터를 처리하는데에는 여러 방법이 있다.
- 대량의 데이터를 보유하고 있다면 결측 인덱스가 있는 행을 지운다.
- 결측 데이터의 값을 동일 열의 모든 값의 평균으로 넣는다.

In [None]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean') #결측 데이터는 np.nan이고, 평균값으로 채운다
imputer.fit(x[: , 1:3]) # fit함수로 위 파라미터에 맞게 결측 값을 계산
x[:, 1:3] = imputer.transform(x[:, 1:3]) # x 배열에 계산한 값을 저장

In [None]:
print(x)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


### **독립 변수 인코딩**

Data의 Country열 값을 문자가 아닌 숫자로 변환한다.
만약 France = 0, Spain = 1, Germany = 2로 표현한다면 컴퓨터는 대입한 숫자들을 중요도로 판단 할 수 있기에 값의 종류만큼의 배열을 만들어 [1,0,0], [0,1,0], [0,0,1]과 같이 표현한다. (-> 원핫인코딩)


In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
x = np.array(ct.fit_transform(x))

In [None]:
print(x)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### **종속 변수 인코딩**

마지막 열인 Purchased 유무를 Yes = 1, No = 0으로 변환한다.

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y = le.fit_transform(y)

In [None]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


### **데이터 나누기**

데이터는 테스트Set과 훈련Set으로 나눈 후 작업해야한다. 데이터를 학습 시킬 때엔 훈련Set을 이용하고, 프로그램을 테스트 할 때 훈련Set에서 사용되지 않은 테스트Set을 사용해야한다.

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 1)

In [None]:
print(x_train)

[[0.0 0.0 1.0 38.77777777777778 52000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 35.0 58000.0]]


In [None]:
print(y_train)

[0 1 0 0 1 1 0 1]


In [None]:
print(x_test)

[[0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


In [None]:
print(y_test)

[0 1]


### **특성 스케일링**

데이터의 값들을 일정 범위 내로 맞추는 프로세스이다. 아래의 결과값은 -2 ~ 2 이내의 숫자들로 변환되었다.

x_train은 fit_transfrom을 사용하여 머신러닝 학습에 사용하지만,
x_test는 머신러닝 학습에 사용되면 안되기에 transfrom만 사용한다.

In [None]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
x_train[:, 3:] = sc.fit_transform(x_train[:, 3:])
x_test[:, 3:] = sc.transform(x_test[:, 3:])

In [None]:
print(x_train)

[[0.0 0.0 1.0 -0.1915918438457856 -1.0781259408412427]
 [0.0 1.0 0.0 -0.014117293757057902 -0.07013167641635401]
 [1.0 0.0 0.0 0.5667085065333239 0.6335624327104546]
 [0.0 0.0 1.0 -0.3045301939022488 -0.30786617274297895]
 [0.0 0.0 1.0 -1.901801144700799 -1.4204636155515822]
 [1.0 0.0 0.0 1.1475343068237056 1.2326533634535488]
 [0.0 1.0 0.0 1.4379472069688966 1.5749910381638883]
 [1.0 0.0 0.0 -0.7401495441200352 -0.5646194287757336]]


In [None]:
print(x_test)

[[0.0 1.0 0.0 -1.4661817944830127 -0.9069571034860731]
 [1.0 0.0 0.0 -0.44973664397484425 0.20564033932253029]]
