## 1. 머신러닝이란?
머신러닝은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이다.

$y = ax+b$
- 주어진 y값 : 종속변수
- 주어진 x값 : 독립변수

$y = \beta_0 + x_1\beta_1 + x_2\beta_2+...+x_n\beta_n$ <br>
x는 데이터의 특징을 나타낸다.

Car prediction 예제를 통해 머신러닝을 학습한다.

In [4]:
import pandas as pd

data = pd.read_csv('datasets/train-data.csv', encoding = 'cp949')
data.drop(columns = ['Unnamed: 0'], inplace = True)
data.head()

Unnamed: 0,Name,Location,Year,Kilometers_Driven,Fuel_Type,Transmission,Owner_Type,Mileage,Engine,Power,Seats,New_Price,Price
0,Maruti Wagon R LXI CNG,Mumbai,2010,72000,CNG,Manual,First,26.6 km/kg,998 CC,58.16 bhp,5.0,,1.75
1,Hyundai Creta 1.6 CRDi SX Option,Pune,2015,41000,Diesel,Manual,First,19.67 kmpl,1582 CC,126.2 bhp,5.0,,12.5
2,Honda Jazz V,Chennai,2011,46000,Petrol,Manual,First,18.2 kmpl,1199 CC,88.7 bhp,5.0,8.61 Lakh,4.5
3,Maruti Ertiga VDI,Chennai,2012,87000,Diesel,Manual,First,20.77 kmpl,1248 CC,88.76 bhp,7.0,,6.0
4,Audi A4 New 2.0 TDI Multitronic,Coimbatore,2013,40670,Diesel,Automatic,Second,15.2 kmpl,1968 CC,140.8 bhp,5.0,,17.74


여기서 Name ~ New_Price까지는 독립변수이며 마지막 칼럼인 Price를 예측해야 한다.

In [5]:
print(data.shape)

(6019, 13)


총 13개의 칼럼이 있으며 전체 데이터셋은 6019개이다.

In [7]:
# Label and split
X = data[['Year','Kilometers_Driven','Mileage','Engine','Power','Seats','New_Price']]
y = data['Price']
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2, random_state = 42)
# 매학습마다 동일한 데이터셋을 사용하기 위해 random_state설정. 일종의 시드를 고정하는 역할임.

#Training the model
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)

#Making the predictions
y_pred = lr.predict(X_test)

#Prediction performance
from sklearn import metrics
metrics.mean_squared_error(y_test, y_pred)

ValueError: could not convert string to float: '18.6 kmpl'

이렇게 되면 오류가 발생한다.<br>
왜냐하면 문자열을 숫자로 변환할 수 없기 때문이다.<br>
그렇다고 문제가 되는 Column을 다 제거하게 되면 정확한 데이터 분석을 할 수 없게 됨.

## 2. Data Preprocessing

- 데이터의 차원이 증가할수록 데이터를 표현하는 공간이 증가함.
- 그렇다보니 값이 없는 Feature가 늘어나기도 하고, 희박한 벡터, Sample Data가 기하학적으로 늘어남.
- 이로 인해 데이터 분포나 모델 추정이 어렵다.

### 2.1 Type of Feature
#### 2.1.1. Discrete Data (이산적 데이터)
- 수치적인 의미를 가지나 소수점 형태로 표현되지 못함.<br>

1) Discrete 1, Nominal Types
- 범주로 분류 가능한 Data Type
- 색, 학교명, 학번, 전공명
- 두 개의 Category로만 분류할 때는 Binary Type으로 구별<br>

2) Discrete 2, Ordinal Types
- 범주로 분류 가능하나 범주간의 순서가 있는 Data Type
- 측정되는 Scale또는 Unit이 사람마다 다를 수 있다.
- 순서가 있는 것과 배수로 증가하는 개념은 다르다.

#### 2.1.2 Continuous Data (연속적 데이터)
1) Continous, Numeric Types
- 수치적인 의미를 가지고 소수점으로도 표현 가능
- 정수 또는 실수로 표현
- 단위가 있는 Interval-scaled type
- 비율이 있는 Ratio-scaled type
- 측정 가능한 데이터
- 온도 (35.3도), 시험 평균점수(98.23점), 속도 (37km/h)

### 2.2 Data Quality Problems
데이터를 가공해야 하는 이슈들은 크게 3가지가 있음.
- 데이터가 빠진 경우(결측치의 처리)
- 라벨링된 데이터의 처리
- 데이터의 Scale의 차이가 매우 크게 나는 경우

### 2.2.1 Missing Values, 데이터가 빠진 경우

In [8]:
import pandas as pd
import numpy as np

raw_data = {
    'first_name':['Jason', np.nan, 'Tina','Jake','Amy'],
    'last_name':['Miller', np.nan, 'Ali','Miner','Cooze'],
    'age':[42,np.nan,36,24,73],
    'sex':['m', np.nan, 'f','m','f'],
    'preTestScore':[4,np.nan,np.nan,2,3],
    'postTestScore':[25,np.nan,np.nan,62,70],
}

In [9]:
df = pd.DataFrame(raw_data, columns = ['first_name','last_name','age','sex','preTestScore','postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Miner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


이렇게 `Nan`으로 된 Missing values가 있다.<br>
이럴 땐 아래 4개의 전략들을 사용한다.
- 전략1: 데이터가 없으면 Sample을 Drop시킨다.
- 전략2: 데이터가 없는 최소 개수를 정해서 Sample을 Drop시킨다.
- 전략3: 데이터가 거의 없는 Feature는 Feature 자체를 Drop시킨다.
- 전략4: 최빈값, 평균값으로 비어있는 데이터를 채운다.

#### 전략1, 데이터가 없으면 Sample을 Drop시킨다.

In [10]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Miner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [12]:
# 각 칼럼마다 null값의 개수를 반환.
df.isnull().sum()

first_name       1
last_name        1
age              1
sex              1
preTestScore     2
postTestScore    2
dtype: int64

In [15]:
# dropna()를 통해 NaN인 데이터 sample을 Drop시킨다.
df_no_nan = df.dropna()
df_no_nan

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Miner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [18]:
df_cleaned = df.dropna(how = 'all')
df_cleaned

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Miner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


이렇게 모든 데이터값이 NaN이어야지만 drop시키는 방법도 있다.

#### 전략2, 데이터가 없는 최소 개수를 정해서 Sample을 Drop시킨다.

In [19]:
df['location'] = np.nan
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Miner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [20]:
df.isnull().sum()

first_name       1
last_name        1
age              1
sex              1
preTestScore     2
postTestScore    2
location         5
dtype: int64

이제 조건에 맞게 샘플을 삭제시킨다.

In [21]:
df.dropna(axis = 0, thresh = 3)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
2,Tina,Ali,36.0,f,,,
3,Jake,Miner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


`df.dropna(axis = 0, thresh = 3)`
- axis=0은 행을 삭제한다는 의미
- thresh=3은 최소 4개 이상이어야 한다는 의미

#### 전략3, 데이터가 거의 없는 Feature는 Feature자체를 Drop 시킨다.

In [22]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Miner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [23]:
df.dropna(axis = 1, how = 'all')

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Miner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


`df.dropna(axis = 1, how = 'all')`
- `axis = 1` : 열(feature)을 삭제한다.
- `how='all'` : 만약 열 전체가 NaN값이라면.

#### 최빈값, 평균값으로 비어있는 데이터를 채운다.

In [26]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Miner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [27]:
# 평균값으로 채우기
mean_pre = df['preTestScore'].mean()
mean_post = df['postTestScore'].mean()

In [28]:
df['preTestScore'].fillna(df['preTestScore'].mean(), inplace=True)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Miner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [29]:
df['postTestScore'].fillna(df['postTestScore'].mean(), inplace=True)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,52.333333,
2,Tina,Ali,36.0,f,3.0,52.333333,
3,Jake,Miner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


### 2.2.2 Category Data
category Data는 <b>One-Hot Encoding</b>을 사용한다.

In [30]:
edges = pd.DataFrame({
    'source' : [0,1,2],
    'target' : [2,2,3],
    'weight' : [3,4,5],
    'color' : ['red','blue','blue'],
})
edges

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


color부분 숫자로 변환 긴급. 이때 <b>One-Hot Encoding</b>을 사용한다.

In [32]:
pd.get_dummies(edges)

Unnamed: 0,source,target,weight,color_blue,color_red
0,0,2,3,0,1
1,1,2,4,1,0
2,2,3,5,1,0


In [33]:
pd.get_dummies(edges['color'])

Unnamed: 0,blue,red
0,0,1
1,1,0
2,1,0


In [34]:
pd.get_dummies(edges[['color']])

Unnamed: 0,color_blue,color_red
0,0,1
1,1,0
2,1,0


In [35]:
weight_dict = {
    3:'M',
    4:'L',
    5:'XL'
}
edges['weight_sign'] = edges['weight'].map(weight_dict)
edges

Unnamed: 0,source,target,weight,color,weight_sign
0,0,2,3,red,M
1,1,2,4,blue,L
2,2,3,5,blue,XL


weight_sign 역시 아름답게 <b>One-Hot Encoding</b> 시켜준다.

In [36]:
edges = pd.get_dummies(edges)
edges

Unnamed: 0,source,target,weight,color_blue,color_red,weight_sign_L,weight_sign_M,weight_sign_XL
0,0,2,3,0,1,0,1,0
1,1,2,4,1,0,1,0,0
2,2,3,5,1,0,0,0,1


In [37]:
edges.values

array([[0, 2, 3, 0, 1, 0, 1, 0],
       [1, 2, 4, 1, 0, 1, 0, 0],
       [2, 3, 5, 1, 0, 0, 0, 1]], dtype=int64)

### 2.2.3 Feature Scaling
- Min-Max Normalization<br>
기존 변수의 범위를 새로운 최대-최소로 변경<br>
일반적으로 0과 1사이 값으로 변경함<br>
<br>

- Standardization(Z-score Normalization)<br>
기존 변수의 범위를 정규 분포로 변환<br>
실제 Min-Max의 값을 모를 때 활용가능<br>
$$x^{(i)}_{stdNorm} = \frac{x^{(i)} - \mu}{s_i}$$

먼저 <b>Min-Max Normalization</b>으로 진행

In [38]:
raw_data = {
    'A':[14.00,90.20,90.95,96.27,91.21],
    'B':[103.02, 107.26, 110.35, 114.23, 114.68],
    'C':['big','small','big','small','small'],
}
df = pd.DataFrame(raw_data, columns = ['A','B','C'])
df

Unnamed: 0,A,B,C
0,14.0,103.02,big
1,90.2,107.26,small
2,90.95,110.35,big
3,96.27,114.23,small
4,91.21,114.68,small


$$x^{(i)}_{norm} = \frac{x^{(i)} - x_{min}}{x_{max}-x_{min}} (newmax - newlow) + newlow$$

In [39]:
# Normalization 실시
(df['A']-df['A'].min())/(df['A'].max() - df['A'].min())*(1-0)+0

0    0.000000
1    0.926219
2    0.935335
3    1.000000
4    0.938495
Name: A, dtype: float64

<b>Min-Max Normalization</b>을 통해 이렇게 'A'의 값을 0과 1사이로 변환했음을 알 수 있다.

다음은 <b>Standardization</b>이다.

In [40]:
df

Unnamed: 0,A,B,C
0,14.0,103.02,big
1,90.2,107.26,small
2,90.95,110.35,big
3,96.27,114.23,small
4,91.21,114.68,small


$$x^{(i)}_{stdNorm} = \frac{x^{(i) - \mu}}{s_i}$$

In [41]:
(df['B'] - df['B'].mean()) / df['B'].std()

0   -1.405250
1   -0.540230
2    0.090174
3    0.881749
4    0.973556
Name: B, dtype: float64

위에서 했던 <b>Min-Max Normalization</b>과 <b>Standardization</b>은 sklearn에서 제공해줌.

In [46]:
# min-max normalization
from sklearn import preprocessing

minmax_scale = preprocessing.MinMaxScaler().fit(df[['A','B']])
df_minmax = minmax_scale.transform(df[['A','B']])
df_minmax

array([[0.        , 0.        ],
       [0.92621855, 0.36363636],
       [0.93533487, 0.62864494],
       [1.        , 0.96140652],
       [0.9384952 , 1.        ]])

In [47]:
# standardization
std_scale = preprocessing.StandardScaler().fit(df[['A','B']])
df_std = std_scale.transform(df[['A','B']])
df_std

array([[-1.99528969, -1.5711172 ],
       [ 0.43635594, -0.60399511],
       [ 0.46028946,  0.10081792],
       [ 0.63005789,  0.98582586],
       [ 0.46858641,  1.08846854]])