# Python 的 50+ 練習：資料科學學習手冊

> 資料科學模組 Scikit-Learn 入門

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放絕對路徑為 `/home/jovyan/data`，相對路徑為 `../data`
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選上方選單的 File -> Save Notebook 儲存 exercises.ipynb。
    2. 點選上方選單的 File -> New -> Terminal 開啟終端機。
    3. 在終端機輸入 `python 13-scikit-learn/test_runner.py` 後按下 Enter 執行測試。

In [None]:
import numpy as np
import pandas as pd
import sklearn
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression

## 101. 建立一個多項式特徵轉換器

定義函數 `create_a_polynomial_feature()` 能夠回傳一個 `PolynomialFeatures`

- 使用 `PolynomialFeatures` 類別。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_polynomial_feature() -> sklearn.preprocessing._polynomial.PolynomialFeatures:
    """
    >>> a_polynomial_feature = create_a_polynomial_feature()
    >>> type(a_polynomial_feature)
    sklearn.preprocessing._polynomial.PolynomialFeatures
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 102. 添加截距與二次項

定義函數 `create_polynomial_features_for_ndarray()` 能夠將輸入的 `ndarray` 添加截距與二次項後回傳。

- 使用 `create_a_polynomial_feature()` 函數。
- 使用 `PolynomialFeatures.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_polynomial_features_for_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> create_polynomial_features_for_ndarray(input_ndarray)
    array([[ 1.,  0.,  0.],
           [ 1.,  1.,  1.],
           [ 1.,  2.,  4.],
           [ 1.,  3.,  9.],
           [ 1.,  4., 16.],
           [ 1.,  5., 25.],
           [ 1.,  6., 36.],
           [ 1.,  7., 49.],
           [ 1.,  8., 64.],
           [ 1.,  9., 81.]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 103. 添加截距

定義函數 `add_intercepts_for_ndarray()` 能夠將輸入的 `ndarray` 添加截距後回傳。

- 使用 `PolynomialFeatures` 類別。
- 設定參數 `degree=1`
- 使用 `PolynomialFeatures.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [None]:
def add_intercepts_for_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> add_intercepts_for_ndarray(input_ndarray)
    array([[1., 0.],
           [1., 1.],
           [1., 2.],
           [1., 3.],
           [1., 4.],
           [1., 5.],
           [1., 6.],
           [1., 7.],
           [1., 8.],
           [1., 9.]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 104. 建立一個 z-score 標準化轉換器

定義函數 `create_a_standard_scaler()` 能夠回傳一個 `StandardScaler`

- 使用 `StandardScaler` 類別。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_standard_scaler() -> sklearn.preprocessing._data.StandardScaler:
    """
    >>> a_standard_scaler = create_a_standard_scaler()
    >>> type(a_standard_scaler)
    sklearn.preprocessing._data.StandardScaler
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 105. z-score 標準化

定義函數 `standardize_a_ndarray()` 能夠將輸入的 `ndarray` 進行 z-score 標準化後回傳。

\begin{equation}
z = \frac{X - \mu}{\sigma}
\end{equation}

- 使用 `create_a_standard_scaler()` 函數。
- 使用 `StandardScaler.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [None]:
def standardize_a_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> standardize_a_ndarray(input_ndarray)
    array([[-1.5666989 ],
           [-1.21854359],
           [-0.87038828],
           [-0.52223297],
           [-0.17407766],
           [ 0.17407766],
           [ 0.52223297],
           [ 0.87038828],
           [ 1.21854359],
           [ 1.5666989 ]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 106. 標準化轉換器的屬性

定義函數 `get_standard_scalers_attributes()` 能夠將輸入的 `ndarray` 的平均數 $\mu$ 與標準差 $\sigma$ 回傳。

\begin{equation}
z = \frac{X - \mu}{\sigma}
\end{equation}

- 使用 `create_a_standard_scaler()` 函數。
- 使用 `StandardScaler.fit_transform()`
- 運用 `StandardScaler.mean_`
- 運用 `StandardScaler.scale_`
- 將預期輸出寫在 `return` 之後。

In [None]:
def get_standard_scalers_attributes(X: np.ndarray) -> tuple:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> mu, sigma = get_standard_scalers_attributes(input_ndarray)
    >>> mu
    4.5
    >>> sigma
    2.8722813232690143
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 107. 建立一個 Min Max 標準化轉換器

定義函數 `create_a_minmax_scaler()` 能夠回傳一個 `MinMaxScaler`

- 使用 `MinMaxScaler` 類別。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_minmax_scaler() -> sklearn.preprocessing._data.MinMaxScaler:
    """
    >>> a_minmax_scaler = create_a_minmax_scaler()
    >>> type(a_minmax_scaler)
    sklearn.preprocessing._data.MinMaxScaler
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 108. 最小最大標準化

定義函數 `min_max_a_ndarray()` 能夠將輸入的 `ndarray` 進行最小最大標準化後回傳。

```
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
```

- 使用 `create_a_minmax_scaler()` 函數。
- 使用 `MinMaxScaler.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [None]:
def min_max_a_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> min_max_a_ndarray(input_ndarray)
    array([[0.        ],
           [0.11111111],
           [0.22222222],
           [0.33333333],
           [0.44444444],
           [0.55555556],
           [0.66666667],
           [0.77777778],
           [0.88888889],
           [1.        ]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 109. 最小最大標準化轉換器的屬性

定義函數 `get_minmax_scalers_attributes()` 能夠將輸入的 `ndarray` 的最小值與最大值回傳。

- 使用 `create_a_minmax_scaler()` 函數。
- 使用 `MinMaxScaler.fit_transform()`
- 運用 `MinMaxScaler.data_min_`
- 運用 `MinMaxScaler.data_max_`
- 將預期輸出寫在 `return` 之後。

In [None]:
def get_minmax_scalers_attributes(X: np.ndarray) -> tuple:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> Xmin, Xmax = get_minmax_scalers_attributes(input_ndarray)
    >>> Xmin
    0.0
    >>> Xmax
    9.0
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 110. 建立兩個預測器

定義函數 `create_linear_logistic_regression()` 能夠回傳 `LinearRegression` 與 `LogisticRegression`

- 使用 `LinearRegression` 類別。
- 使用 `LogisticRegression` 類別。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_linear_logistic_regression() -> tuple:
    """
    >>> linear_regression, logistic_regression = create_linear_logistic_regression()
    >>> type(linear_regression)
    sklearn.linear_model._base.LinearRegression
    >>> type(logistic_regression)
    sklearn.linear_model._logistic.LogisticRegression
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION