# Python 機器學習

## 郭耀仁

## 大綱

- 課程目標
- 能力盤點
- 建立開發環境
- ndarray 簡介
- DataFrame 簡介
- `sklearn` 快速上手
- 繪製 Decision Region Plot
- 預處理
- 分類
- 管線
- 第一次上傳
- 模型評估
- 整體學習
- 第二次上傳

## 課程目標

- 讓學員學會使用 Python 的機器學習相關套件
- 讓學員能參與 **Kaggle** 的分類模型競賽

## 能力盤點

- 基本能力：
    - 建立開發環境
    - `NumPy` 套件的 **ndarray**
    - `Pandas` 套件的 **DataFrame**
    - 繪製 **Decision Region Plot**

## 能力盤點（2）

- `Scikit-Learn` 模組：
    - 預處理
    - 分類
    - 管線
    - 模型評估
    - 整體學習

## 建立開發環境

- 為什麼選擇 [Anaconda](https://www.continuum.io/downloads)？

## 建立開發環境（2）

- 選擇 Python 3.6 版本安裝
- 安裝完成後在命令列輸入：

```
$ jupyter notebook
```

- 新增一個 Python 3 notebook

![day0102](https://storage.googleapis.com/2017_ithome_ironman/day0102.png)

## 建立開發環境（3）

- 在 cell 中執行以下指令：

```python
import numpy as np
import pandas as pd
import matplotlib
import sklearn

print(np.__version__)
print(pd.__version__)
print(matplotlib.__version__)
print(sklearn.__version__)
```

## 建立開發環境（4）

- 如果執行後出現下圖，**恭喜您**，我們的開發環境建立完畢了！

![midterm_01](https://storage.googleapis.com/py_ds_basic/midterm_01.png)

## `ndarray` 簡介

## `DataFrame` 簡介

## `sklearn` 快速上手

- `sklearn` 簡介
- 如何使用 `sklearn`

## `sklearn` 簡介

- Python 的機器學習套件
- 有六大功能模組：
    - 預處理
    - 降維
    - 迴歸
    - 分群
    - 分類
    - 模型評估

<http://scikit-learn.org/stable/>

## 預處理模組（Preprocessing）

> 在進行機器學習演算法之前，對資料進行轉換、遺漏值填補或標準化的前置作業。

|常見應用|方法|
|-------|---|
|類別值轉換|`LabelEncoder()`、`OneHotEncoder()`|
|遺漏值填補|`Imputer()`|
|標準化|`StandardScaler()`、`MinMaxScaler()`|

## 降維模組（Dimensionality reduction）

> 將多維資料的特徵映射到低維度的空間，目的在保留最多特徵的資訊。

|常見應用|方法|
|-------|---|
|主成份分析|`PCA()`|
|線性判別分析|`LDA()`|
|核主成份分析|`KernelPCA()`|

## 迴歸模組（Regression）

> 用來預測目標變數為連續型（數值）的學習演算法。

|常見應用|方法|
|-------|---|
|線性迴歸|`LinearRegression()`|
|決策樹迴歸|`DecisionTreeRegressor()`|
|隨機森林迴歸|`RandomForestRegressor()`|

## 分群模組（Clustering）

> 在不知道答案的情況下洞察資料潛藏樣式的學習演算法

|常見應用|方法|
|-------|---|
|k-means|`KMeans()`|
|階層分群|`AgglomerativeClustering()`|
|DBSCAN|`DBSCAN()`|

## 分類模組（Classification）

> 用來預測目標變數為離散型（類別）的學習演算法。

|常見應用|方法|
|-------|---|
|感知器|`Perceptron()`|
|羅吉斯迴歸|`LogisticRegression()`|
|支持向量機|`SVC()`|
|決策樹|`DecisionTreeClassifier()`|
|KNN|`KNeighborsClassifier()`|

## 模型評估模組（Model selection）

> 評估模型效能、微調機器學習模型參數與切割訓練測試資料。

|常見應用|方法|
|-------|---|
|切割訓練測試資料|`train_test_split()`|
|模型效能指標|`accuracy_score()`|
|微調參數|`GridSearchCV()`|
|k-fold 交叉驗證|`StratifiedKFold()`|

## 如何使用 `sklearn`

- 範例一：讀入內建玩具資料集

```python
from sklearn import datasets

iris = datasets.load_iris()
print(iris.feature_names)
print(iris.target_names)
print(iris.data.shape)
print(iris.target.shape)
```

## 如何使用 `sklearn`（2）

- 範例二：切割訓練測試資料

```python
from sklearn import datasets, model_selection

iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.3, random_state = 0)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)
```

## 如何使用 `sklearn`（3）

- 範例三：標準化維度

```python
from sklearn import datasets, preprocessing

iris = datasets.load_iris()
X = iris.data
std_scaler = preprocessing.StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)
print(X_std[0:5, :])
print(X[0:5, :])
```

## 繪製 Decision Region Plot

- 為什麼要繪製決策區域圖？
    - 利用視覺化暸解學習演算法的分類方法
    - 兩個特徵方便視覺化

## 繪製 Decision Region Plot（2）

- 準備只有兩個特徵的資料

```python
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:, 0:2] # sepal length(cm) 與 sepal width(cm)
y = iris.target
```

## 繪製 Decision Region Plot（3）

- 標準化兩個特徵

```python
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)
```

## 繪製 Decision Region Plot（4）

- 切割訓練測試資料集

```python
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size = 0.3, random_state = 0)
```

## 繪製 Decision Region Plot（5）

- 訓練感知器模型

```python
from sklearn.linear_model import Perceptron

ppn = Perceptron(n_iter = 40, eta0 = 0.1, random_state = 87)
ppn.fit(X_train, y_train)
```

## 繪製 Decision Region Plot（6）

- 預測並檢視評估指標：**分類正確率**

```python
from sklearn.metrics import accuracy_score

y_pred = ppn.predict(X_test)
print("分類正確率：%.2f" % accuracy_score(y_test, y_pred))
```

## 繪製 Decision Region Plot（7）

- 三種鳶尾花品種的標點樣式
    - square(s)
    - cross(x)
    - circle(o)
- 三種鳶尾花品種的填滿區域顏色

```python
from matplotlib.colors import ListedColormap

markers = ('x', 'o', 's')
colors = ('red', 'blue', 'green')
color_map = ListedColormap(colors)
```

## 繪製 Decision Region Plot（8）

- 定義 X 軸與 Y 軸的上下限

```python
x1_min, x1_max = X_std[:, 0].min() - 1, X_std[:, 0].max() + 1
x2_min, x2_max = X_std[:, 1].min() - 1, X_std[:, 1].max() + 1
```

## 繪製 Decision Region Plot（9）

- 在 x1 與 x2 的上下限每隔 0.02 就點一個點製造出網格陣列
- 使用 NumPy 的 `meshgrid()` 函數

```python
import numpy as np

xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, 0.02), np.arange(x2_min, x2_max, 0.02))
```

## 繪製 Decision Region Plot（10）

- 預測網格陣列中每個點的品種
- 用 `matplotlib` 的 `contourf()` 函數來畫等高線圖

```python
import numpy as np
import matplotlib.pyplot as plt

Z = ppn.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
Z = Z.reshape(xx1.shape)
plt.contourf(xx1, xx2, Z, alpha = 0.4, cmap = color_map)
plt.xlim(xx1.min(), xx1.max())
plt.ylim(xx2.min(), xx2.max())
plt.show()
```

## 繪製 Decision Region Plot（11）

- 把資料點放上去

```python
for i in np.unique(y):
    plt.scatter(x = X_std[y == i, 0], y = X_std[y == i, 1], marker = markers[i], alpha = 0.7, c = colors[i], label = i)
```

## 繪製 Decision Region Plot（12）

- 整理繪製 Decision Region Plot 的程式

```python
### from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
import numpy as np
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt

# 讀入資料集
iris = datasets.load_iris()
X = iris.data[:, 0:2] # sepal length(cm) 與 sepal width(cm)
y = iris.target

# 標準化
std_scaler = StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)

# 切分訓練測試資料
X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size = 0.3, random_state = 0)

# 訓練感知器模型
ppn = Perceptron(n_iter = 40, eta0 = 0.1, random_state = 0)
ppn.fit(X_train, y_train)

# 準備標點的樣式與網格顏色
markers = ('x', 'o', 's')
colors = ('red', 'blue', 'green')
color_map = ListedColormap(colors)

# 定義 X 軸與 Y 軸的上下限
x1_min, x1_max = X_std[:, 0].min() - 1, X_std[:, 0].max() + 1
x2_min, x2_max = X_std[:, 1].min() - 1, X_std[:, 1].max() + 1

# 網格陣列
xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, 0.02), np.arange(x2_min, x2_max, 0.02))

# 繪圖
Z = ppn.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
Z = Z.reshape(xx1.shape)
plt.contourf(xx1, xx2, Z, alpha = 0.2, cmap = color_map)
plt.xlim(xx1.min(), xx1.max())
plt.ylim(xx2.min(), xx2.max())
for i in np.unique(y):
    plt.scatter(x = X_std[y == i, 0], y = X_std[y == i, 1], marker = markers[i], alpha = 0.7, c = colors[i], label = i)
plt.xlabel('sepal length(standardized)')
plt.ylabel('sepal width(standardized)')
plt.legend(loc = 'upper left')
plt.show()
```

## 預處理

- 填補遺漏值
- 轉換類別值
- 標準化數值

> The `sklearn.preprocessing` package provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.

## 填補遺漏值

## 轉換類別值

- 將類別標籤轉換為整數值
- 使用 `LabelEncoder()` 函數

```python
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
label_encoder.fit(["female", "male"])
print(label_encoder.transform(["female", "male", "male", "female"]))
label_encoder.fit(["Q", "S", "C"])
print(label_encoder.transform(["Q", "S", "C", "C", "S"]))
```

## 分類

> 

- 資料點線性可分
    - 感知器
    - 羅吉斯迴歸
    - 線性支持向量機
- 資料點非線性可分
    - 核心支持向量機
    - 決策樹
    - knn

## 感知器

## 感知器（2）

- 使用 `sklearn` 實作感知器分類

![]()

## 羅吉斯迴歸

## 羅吉斯迴歸（2）

- 使用 `sklearn` 實作羅吉斯迴歸分類

![]()

## 線性支持向量機

## 線性支持向量機（2）

- 使用 `sklearn` 實作線性支持向量機分類

![]()

## 核心支持向量機

## 核心支持向量機（2）

- 使用 `sklearn` 實作核心支持向量機分類

![]()

## 決策樹

## 決策樹（2）

- 使用 `sklearn` 實作決策樹分類

![]()

## knn

## knn（2）

- 使用 `sklearn` 實作 knn 分類

![]()

## 第一次上傳

## 管線

## 模型評估

## 整體學習

## 第二次上傳