# 資料預處理

## 講座8 - 取得範例資料檔

範例程式及資料檔下載網址：
[https://www.superdatascience.com/machine-learning/](https://www.superdatascience.com/machine-learning/)

先下載目錄結構，解壓縮到你要的位置。

接下來選擇你想要的章節，下載檔案解壓縮到對應的資料夾內就可以了，後續每個章節的範例程式及資料檔也都比照辦理。

拿到資料後可以先看一下資料長什麼樣子。打開Data.csv：
![](images/Data.PNG)

這是一組10列(row)4行(column)的薪資資料。在後續大多數章節的課程中，我們就要嘗試利用independent variables(Country, Age, Salary)來對dependent variable(Purchased)進行預測。

## 補充 - Spyder IDE

現場demo
- 介面環境介紹
- 偏好設定
- 語法執行方式
- 變數檢視及其型態
- 說明視窗

## 講座9 - 載入套件

套件就是工具模組的集合，課程列出了三個機器學習常用的套件：

In [None]:
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

- numpy包含了一些常用的數學運算工具
- matplotlib.pyplot是用於繪圖的套件
- pandas適合用於資料管理、分析

np, plt, pd分別是我們自己給定的套件別名

## 補充 - 設定工作目錄

In [None]:
import os
os.getcwd()  # 取得當前工作目錄
os.chdir('path')  # 切換工作目錄

## 講座10 - 讀取資料

首先使用pd套件的read_csv來讀取資料，read_csv的詳細說明[點這裡](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)。

接著要定義出independent variables(X)和dependent variable(y)。
使用[iloc](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iloc.html)取indexing, 用[values](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.values.html)轉換為Numpy表示。

In [None]:
# Importing the dataset
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 3].values

指標系統(indexing)以中括號[]表示，不同維度以逗號區隔。

在python裡面的index是由0開始，可以用冒號(:)表示一個序列，例如[0:3]代表0, 1, 2(沒有包含3)。

負號則代表排除，例如[0:-1]代表排除最後一個元素。

沒有寫index的話則是盡量取最多，例如[:5]表示取0, 1, 2, 3, 4。

## 講座11 - 物件導向 OOP

類別(class)是一種我們想要用來建立某種東西的模板。舉例來說，如果我們制定了一個房屋建設計畫，那這個施工計畫就是一個類別。

物件(object)是類別的一個實例。所以同樣以房屋建設計畫為例，這時物件就是一個房子。一間房子(物件)是按照施工計畫(類別)所建造而成的。
因此可以有很多不同的物件屬於同一個類別，因為我們可以用同一份施工計畫來建造不同的房子。

方法(method)是一種使用在物件上的特定操作。承上例，當有客人造訪時打開門這個動作就是一種方法。我們也可以把方法視為作用在物件上的一個函數(function)：放入input、回傳output。

## 講座12 - 遺失值處理

回頭看看資料可以發現裡面有兩個遺失值。遇到資料有遺失值的時候有幾種處理方式，直接整列刪掉也是一種方法，不過貿然刪除資料會導致資訊的喪失，課程的講師覺得不太優，所以他推薦採用sklearn套件提供的[Imputer](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html)插補方法。

Imputer是一個class，fit和transform都是他的method，大家可以參考上面的連結說明。

In [None]:
# Taking care of missing data
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

這段程式碼就是指定遺失值(missing_values='NaN')都會以該行(axis=0)的平均數(strategy='mean')進行插補。

其實上面最後兩行也可以直接用fit_transform寫成底下這樣就好了：

In [None]:
X[:, 1:3] = imputer.fit_transform(X[:, 1:3])

## 講座13 - 類別資料處理

因為資料分析的各種演算法不管是計算資料間的距離或是矩陣運算之類，都只能處理數值資料，所以我們要先把類別資料數值化。

課程用到的一樣是sklearn套件的[LabelEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)和[OneHotEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)。

以Country為例，使用LabelEncoder轉為數值型態：

In [None]:
# Encoding categorical data
# Encoding the Independent Variable
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

這時候雖然Country已經是數值型態可以直接丟去跑分析，但實際上不合理。因為每個國家之間沒有順序關係，所以不能單純用含有大小比例關係的數字編碼，而必須轉成dummy variable：
![](images/dummy_variable.PNG)

In [None]:
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()

dependent variable的部分就只要作LabelEncoder就好了。

In [None]:
# Encoding the Dependent Variable
labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(y)

## 講座14 - 將資料分為訓練及測試樣本

如果我們在建立模型的時候把手上的所有資料都丟進去，那也許可以找到一個很完美的模型將目標變數100%正確的區分出來，例如下圖的綠線：
![](images/overfitting.PNG)

但其實黑線才是比較合理的模型，在預測一組新資料的時候通常可以獲得比綠線模型更好的效果。這邊綠線的情況就是所謂的overfitting。

要避免這種情況，可以將資料分為訓練樣本用於建模、測試樣本用於驗證，以此檢驗模型是否有過度擬合的情形。

課程中使用sklearn.cross_validation的[train_test_split](http://scikit-learn.org/0.17/modules/generated/sklearn.cross_validation.train_test_split.html)方法切割資料。

In [None]:
# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

上面最後一行用了一種比較特別的python變數指派方式，總之就是把回傳的list直接assign到這四個變數。

test_size其實是隨便，課程建議是0.2~0.3左右。random_state就是可以設定一個固定的seed，有設定的話每次跑出來結果會一樣。

## 講座15 - 變數尺度化

各變數之間的尺度如果不一致，有時候會對模型的準確度或是收斂速度造成影響。例如某些方法會去計算資料點間的歐氏距離，圖解說明如下：
![](images/distance.PNG)
此時假設X是Age, Y是Salary，則依照距離的公式，Age會變成幾乎無法對模型造成影響。所以為了避免這種情況，我們要對變數做scaling。

常用的scaling方法有兩種，都可以用：
![](images/scaling.PNG)

課程中使用sklearn.preprocessing的[StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)進行scaling。

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)

至於需不需要對dummy variable作scaling，課程講師是說看情況，雖然我聽完還是不知道為什麼要。

Y的部分則只有在regression的時候有可能會考慮作scaling。

## 講座17 - 資料預處理樣板

課程把整個資料預處理章節的程式整理成一份樣板檔，這樣以後每次要建模前都可以拿出來用，只要修改一些小地方就好了。

其中有一些小節因為不一定會用到所以被刪掉了，有需要再另外加。

In [None]:
# Data Preprocessing Template

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 3].values

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

# Feature Scaling
"""from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)"""