# Python 的 50+ 練習

> 資料科學模組 Scikit-Learn 入門

[數據交點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 這個章節會登場的模組

`scikit-learn` 模組。

## 關於 Scikit-Learn

## 什麼是 Scikit-Learn

> Scikit-learn 是 Python 機器學習的第三方模組，透過它可以進行監督式以及非監督式學習，提供了模型訓練、資料預處理、模型選擇以及模型評估等功能。

來源：<https://scikit-learn.org>

## （沒什麼用的冷知識）Scikit-Learn 是最受歡迎的 SciKit(SciPy Toolkit)

- Scikit-Learn 與 Scikit-Image 是兩個最受歡迎、維護最良善的 Scikits
- 還有眾多其他的 Scikits

來源：<https://projects.scipy.org/scikits.html>

## 根據說明文件的範例載入

多數時候我們使用 Scikit-Learn 中的特定類別或函數，因此以 `from sklearn import FUNCTION/CLASS` 載入特定類別或函數，而非 `import sklearn`

來源：<https://scikit-learn.org/stable/getting_started.html>

In [1]:
import sklearn # use `from sklearn import FUNCTION/CLASS` instead

## 如果環境中沒有安裝 Scikit-Learn，載入時會遭遇 `ModuleNotFoundError`

```
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'sklearn'
```

## 如果遭遇 `ModuleNotFoundError` 可以在終端機使用 `pip install scikit-learn` 或者 `conda install scikit-learn` 指令安裝

若要指定模組版本可以加上 `==MAJOR.MINOR.PATCH` 課程使用的模組版本為 1.0

```bash
pip install scikit-learn==1.0
```
或者

```bash
conda install scikit-learn==1.0
```

## 可以透過兩個屬性檢查版本號與安裝路徑

- `__version__` 屬性檢查版本號。
- `__file__` 屬性檢查安裝路徑。

In [2]:
print(sklearn.__version__)
print(sklearn.__file__)

1.0
/Users/kuoyaojen/opt/miniconda3/envs/pythonfiftyplus/lib/python3.9/site-packages/sklearn/__init__.py


## 為什麼選擇 Scikit-Learn

- 簡潔、一致且設計良善的應用程式介面設計，只要理解基礎用法和語法，就能延伸切換到其他的演算法或模型。
- 文件撰寫完整而豐富。
- 維護良善。

## Scikit-Learn 應用程式介面設計原則

- **一致性**。
- **可檢查性**。
- 不擴增新類別。
- 可組合性。
- **合理預設參數**。

## 什麼是機器學習

## 機器學習的三個要素、一個但書

> A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.

來源：[Machine Learning, Tom Mitchell, McGraw Hill, 1997](http://www.cs.cmu.edu/~tom/mlbook.html)

## 傳統透過電腦程式解決問題的方式示意圖

![Imgur](https://i.imgur.com/3pojPXW.png?1)

來源：<https://www.coursera.org/learn/introduction-tensorflow>

## 給定規則 $w$ 以及資料 $X$，我們就可以定義出函數 $f$ 生成答案 $y$

\begin{equation}
y = f(X;w) = Xw
\end{equation}

## 以機器學習的電腦程式解決問題的方式示意圖

![Imgur](https://i.imgur.com/YunyLd7.png)

來源：<https://www.coursera.org/learn/introduction-tensorflow>

## 給定答案 $y$ 以及資料 $X$，機器學習的電腦程式在最小化損失函數 $J$ 的前提下生成規則 $w$，進而獲得預測 $\hat{y}$

\begin{equation}
\text{choose} \; w \in \{w^1, w^2, ..., w^n\} \\
\text{where} \; w \; \text{minimizes} \; J(w) \\
\text{subject to} \; \hat{y} = h(X; w) = Xw \\
\text{where} \; J(w) \; \text{measures the loss between} \; y \; \text{and} \; \hat{y} \\
\end{equation}

## 預測數值時最常見的損失函數 $J$

最小化均方誤差（Mean squared error）。

\begin{align}
\text{Minimize} \; J(w) =  \frac{1}{m} \sum_i^m (y_i - \hat{y_i})^2
\end{align}

## 預測類別時最常見的損失函數 $J$

最小化預測錯誤個數。

\begin{align}
\text{Minimize} \; J(w) = \sum_j n(E_j) \text{ where } E_j \; \text{represents the occurrence of } y_j \neq \hat{y_j}
\end{align}

## Scikit-Learn 的資料表達

## 特徵矩陣與目標陣列

- 外型 `(m, n)` 的特徵矩陣 $X$。
- 外型 `(m,)` 的目標陣列 $y$。

In [3]:
import matplotlib.pyplot as plt

def plot_X_y():
    fig = plt.figure(figsize=(6, 4))
    ax = fig.add_axes([0, 0, 1, 1])
    ax.axis('off')
    ax.axis('equal')
    # Draw features matrix
    ax.vlines(range(6), ymin=0, ymax=9, lw=1)
    ax.hlines(range(10), xmin=0, xmax=5, lw=1)
    font_prop = dict(size=12, family='monospace')
    ax.text(-1, -1, "Feature Matrix ($X$)", size=14)
    ax.text(0.1, -0.3, r'n_features $\longrightarrow$', **font_prop)
    ax.text(-0.1, 0.1, r'$\longleftarrow$ m_samples', rotation=90,
            va='top', ha='right', **font_prop)
    # Draw labels vector
    ax.vlines(range(8, 10), ymin=0, ymax=9, lw=1)
    ax.hlines(range(10), xmin=8, xmax=9, lw=1)
    ax.text(7, -1, "Target Array ($y$)", size=14)
    ax.text(7.9, 0.1, r'$\longleftarrow$ m_samples', rotation=90,
            va='top', ha='right', **font_prop)
    ax.set_ylim(10, -2)
    plt.show()

In [4]:
# 來源：<https://jakevdp.github.io/PythonDataScienceHandbook>
plot_X_y()

NameError: name 'plt' is not defined

## 如何從 `DataFrame` 中擷取特徵矩陣與目標陣列

- 還沒有正式介紹如何載入資料，之後在「資料的載入」章節會說明。
- 還沒有正式介紹如何從 `DataFrame` 選擇欄位，之後在「基礎資料框操作」章節會說明。

In [None]:
import pandas as pd

csv_url = "/home/jovyan/data/nba/player_stats.csv"
player_stats = pd.read_csv(csv_url) # import data
print(type(player_stats))
print(player_stats.shape)

## `player_stats` NBA 球員的基本資訊與生涯攻守數據

In [None]:
player_stats.head()

In [None]:
X = player_stats[['apg', 'rpg']].values # select 2 columns
y = player_stats['pos'].values          # select 1 column
print(X.shape)
print(y.shape)

In [None]:
X = player_stats['heightMeters'].values.reshape(-1, 1) # select 1 column
y = player_stats['weightKilograms'].values             # select 1 column
print(X.shape)
print(y.shape)

## 使用轉換器預處理資料

## 轉換器與預測器是 Scikit-Learn 所創造最重要的兩種類別

1. **轉換器（Transformers）：用來預處理資料**。
2. 預測器（Predictors）：用來訓練模型、生成規則 $w$

## 使用 Scikit-Learn 轉換器的標準步驟

1. 準備欲轉換的特徵矩陣 $X$ 或目標陣列 $y$
2. 建立轉換器類別的物件。
3. 將欲轉換的特徵矩陣 $X$ 或目標陣列 $y$ 輸入 `transformer.fit_transform()`
4. 檢查轉換結果。

## 使用 Scikit-Learn 轉換器 `PolynomialFeatures`

生成一個指定次方數的特徵多項式矩陣。

In [None]:
X = player_stats['heightMeters'].values.reshape(-1, 1) # step 1
polynomial_features = PolynomialFeatures()             # step 2
X_transformed = polynomial_features.fit_tranform(X)    # step 3
print(X_transformed[:5])                               # step 4

## 使用 Scikit-Learn 轉換器 `StandardScaler`

生成一個經過標準化的特徵矩陣。

\begin{equation}
z = \frac{x - \mu}{\sigma}
\end{equation}

In [None]:
X = player_stats['heightMeters'].values.reshape(-1, 1) # step 1
standard_scaler = StandardScaler()                     # step 2
X_transformed = standard_scaler.fit_tranform(X)        # step 3
print(X_transformed[:5])                               # step 4

## 使用預測器訓練及預測資料使用轉換器預處理資料

## 轉換器與預測器是 Scikit-Learn 所創造最重要的兩種類別

1. 轉換器（Transformers）：用來預處理資料。
2. **預測器（Predictors）：用來訓練模型、生成規則 $w$**

## 使用 Scikit-Learn 預測器的標準步驟

1. 準備欲轉換的特徵矩陣 $X$  與目標陣列 $y$
2. 切割訓練與驗證資料。
3. 建立預測器類別的物件。
4. 將訓練特徵矩陣 $X^{train}$ 與目標陣列 $y^{train}$ 輸入 `predictor.fit()`
5. 將驗證特徵矩陣 $X^{valid}$ 輸入 `predictor.predict()` 獲得 $\hat{y}^{valid}$
6. 比對 $\hat{y}^{valid}$ 與 $y^{valid}$ 之間的差異

## 關於切割訓練與驗證資料

- 訓練資料：具有實際值或標籤的已實現歷史資料。
- 驗證資料：具有實際值或標籤的已實現歷史資料，但是在使用上偽裝成不具有實際值或標籤的待預測資料。

## 使用 Scikit-Learn 預測器 `LinearRegression`

- 線性迴歸模型。
- 數值預測器：NBA 球員的體重。

In [None]:
X = player_stats['heightMeters'].values.reshape(-1, 1)      # step 1
y = player_stats['weightKilograms'].values                  # step 1
X_train, X_valid, y_train, y_valid = train_test_split(X, y) # step 2
linear_regression = LinearRegression()                      # step 3
linear_regression.fit(X_train, y_train)                     # step 4
y_hat = linear_regression.predict(X_valid)                  # step 5
print(mean_squared_error(y_valid, y_hat))                   # step 6

## 使用 Scikit-Learn 預測器 `LogisticRegression`

- 羅吉斯迴歸模型。
- 類別預測器（分類器）：NBA 球員的鋒衛位置。

In [None]:
pos_dict = {value: index for index, value in enumerate(player_stats['pos'].unique().sort())}
X = player_stats[['apg', 'rpg']].values                     # step 1
y = player_stats['pos'].map(pos_dict).values                # step 1
X_train, X_valid, y_train, y_valid = train_test_split(X, y) # step 2
logistic_regression = LogisticRegression()                  # step 3
logistic_regression.fit(X_train, y_train)                   # step 4
y_hat = logistic_regression.predict(X_valid)                # step 5
number_of_misclassification = (y_valid != y_hat).sum()      # step 6
print(number_of_misclassification)                          # step 6