# Python 機器學習從零至一

> 資料科學模組 Scikit-Learn 入門

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 練習題閒置超過 15 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放於練習題的工作目錄。
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 執行測試：點選上方選單的 Kernel -> Restart & Run All -> Restart and Run All Cells

In [1]:
import unittest
import numpy as np
import pandas as pd
import sklearn
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression

## 01. 建立一個多項式特徵轉換器

定義函數 `create_a_polynomial_feature()` 能夠回傳一個 `PolynomialFeatures`

- 使用 `PolynomialFeatures` 類別。
- 將預期輸出寫在 `return` 之後。

In [2]:
def create_a_polynomial_feature() -> sklearn.preprocessing._polynomial.PolynomialFeatures:
    """
    >>> a_polynomial_feature = create_a_polynomial_feature()
    >>> type(a_polynomial_feature)
    sklearn.preprocessing._polynomial.PolynomialFeatures
    """
    ### BEGIN SOLUTION
    polynomial_features = PolynomialFeatures()
    return polynomial_features
    ### END SOLUTION

## 02. 添加截距與二次項

定義函數 `create_polynomial_features_for_ndarray()` 能夠將輸入的 `ndarray` 添加截距與二次項後回傳。

- 使用 `create_a_polynomial_feature()` 函數。
- 使用 `PolynomialFeatures.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [3]:
def create_polynomial_features_for_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> create_polynomial_features_for_ndarray(input_ndarray)
    array([[ 1.,  0.,  0.],
           [ 1.,  1.,  1.],
           [ 1.,  2.,  4.],
           [ 1.,  3.,  9.],
           [ 1.,  4., 16.],
           [ 1.,  5., 25.],
           [ 1.,  6., 36.],
           [ 1.,  7., 49.],
           [ 1.,  8., 64.],
           [ 1.,  9., 81.]])
    """
    ### BEGIN SOLUTION
    polynomial_features = create_a_polynomial_feature()
    return polynomial_features.fit_transform(X)
    ### END SOLUTION

## 03. 添加截距

定義函數 `add_intercepts_for_ndarray()` 能夠將輸入的 `ndarray` 添加截距後回傳。

- 使用 `PolynomialFeatures` 類別。
- 設定參數 `degree=1`
- 使用 `PolynomialFeatures.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [4]:
def add_intercepts_for_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> add_intercepts_for_ndarray(input_ndarray)
    array([[1., 0.],
           [1., 1.],
           [1., 2.],
           [1., 3.],
           [1., 4.],
           [1., 5.],
           [1., 6.],
           [1., 7.],
           [1., 8.],
           [1., 9.]])
    """
    ### BEGIN SOLUTION
    polynomial_features = PolynomialFeatures(degree=1)
    return polynomial_features.fit_transform(X)
    ### END SOLUTION

## 04. 建立一個 z-score 標準化轉換器

定義函數 `create_a_standard_scaler()` 能夠回傳一個 `StandardScaler`

- 使用 `StandardScaler` 類別。
- 將預期輸出寫在 `return` 之後。

In [5]:
def create_a_standard_scaler() -> sklearn.preprocessing._data.StandardScaler:
    """
    >>> a_standard_scaler = create_a_standard_scaler()
    >>> type(a_standard_scaler)
    sklearn.preprocessing._data.StandardScaler
    """
    ### BEGIN SOLUTION
    standard_scaler = StandardScaler()
    return standard_scaler
    ### END SOLUTION

## 05. z-score 標準化

定義函數 `standardize_a_ndarray()` 能夠將輸入的 `ndarray` 進行 z-score 標準化後回傳。

\begin{equation}
z = \frac{X - \mu}{\sigma}
\end{equation}

- 使用 `create_a_standard_scaler()` 函數。
- 使用 `StandardScaler.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [6]:
def standardize_a_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> standardize_a_ndarray(input_ndarray)
    array([[-1.5666989 ],
           [-1.21854359],
           [-0.87038828],
           [-0.52223297],
           [-0.17407766],
           [ 0.17407766],
           [ 0.52223297],
           [ 0.87038828],
           [ 1.21854359],
           [ 1.5666989 ]])
    """
    ### BEGIN SOLUTION
    standard_scaler = create_a_standard_scaler()
    return standard_scaler.fit_transform(X)
    ### END SOLUTION

## 06. 標準化轉換器的屬性

定義函數 `get_standard_scalers_attributes()` 能夠將輸入的 `ndarray` 的平均數 $\mu$ 與標準差 $\sigma$ 回傳。

\begin{equation}
z = \frac{X - \mu}{\sigma}
\end{equation}

- 使用 `create_a_standard_scaler()` 函數。
- 使用 `StandardScaler.fit_transform()`
- 運用 `StandardScaler.mean_`
- 運用 `StandardScaler.scale_`
- 將預期輸出寫在 `return` 之後。

In [7]:
def get_standard_scalers_attributes(X: np.ndarray) -> tuple:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> mu, sigma = get_standard_scalers_attributes(input_ndarray)
    >>> mu
    4.5
    >>> sigma
    2.8722813232690143
    """
    ### BEGIN SOLUTION
    standard_scaler = create_a_standard_scaler()
    standard_scaler.fit_transform(X)
    return standard_scaler.mean_[0], standard_scaler.scale_[0]
    ### END SOLUTION

## 07. 建立一個 Min Max 標準化轉換器

定義函數 `create_a_minmax_scaler()` 能夠回傳一個 `MinMaxScaler`

- 使用 `MinMaxScaler` 類別。
- 將預期輸出寫在 `return` 之後。

In [8]:
def create_a_minmax_scaler() -> sklearn.preprocessing._data.MinMaxScaler:
    """
    >>> a_minmax_scaler = create_a_minmax_scaler()
    >>> type(a_minmax_scaler)
    sklearn.preprocessing._data.MinMaxScaler
    """
    ### BEGIN SOLUTION
    min_max_scaler = MinMaxScaler()
    return min_max_scaler
    ### END SOLUTION

## 08. 最小最大標準化

定義函數 `min_max_a_ndarray()` 能夠將輸入的 `ndarray` 進行最小最大標準化後回傳。

```
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
```

- 使用 `create_a_minmax_scaler()` 函數。
- 使用 `MinMaxScaler.fit_transform()`
- 將預期輸出寫在 `return` 之後。

In [9]:
def min_max_a_ndarray(X: np.ndarray) -> np.ndarray:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> min_max_a_ndarray(input_ndarray)
    array([[0.        ],
           [0.11111111],
           [0.22222222],
           [0.33333333],
           [0.44444444],
           [0.55555556],
           [0.66666667],
           [0.77777778],
           [0.88888889],
           [1.        ]])
    """
    ### BEGIN SOLUTION
    min_max_scaler = create_a_minmax_scaler()
    return min_max_scaler.fit_transform(X)
    ### END SOLUTION

## 09. 最小最大標準化轉換器的屬性

定義函數 `get_minmax_scalers_attributes()` 能夠將輸入的 `ndarray` 的最小值與最大值回傳。

- 使用 `create_a_minmax_scaler()` 函數。
- 使用 `MinMaxScaler.fit_transform()`
- 運用 `MinMaxScaler.data_min_`
- 運用 `MinMaxScaler.data_max_`
- 將預期輸出寫在 `return` 之後。

In [10]:
def get_minmax_scalers_attributes(X: np.ndarray) -> tuple:
    """
    >>> input_ndarray = np.arange(10).reshape(-1, 1)
    >>> input_ndarray
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    >>> Xmin, Xmax = get_minmax_scalers_attributes(input_ndarray)
    >>> Xmin
    0.0
    >>> Xmax
    9.0
    """
    ### BEGIN SOLUTION
    min_max_scaler = create_a_minmax_scaler()
    min_max_scaler.fit_transform(X)
    return min_max_scaler.data_min_[0], min_max_scaler.data_max_[0]
    ### END SOLUTION

## 10. 建立兩個預測器

定義函數 `create_linear_logistic_regression()` 能夠回傳 `LinearRegression` 與 `LogisticRegression`

- 使用 `LinearRegression` 類別。
- 使用 `LogisticRegression` 類別。
- 將預期輸出寫在 `return` 之後。

In [11]:
def create_linear_logistic_regression() -> tuple:
    """
    >>> linear_regression, logistic_regression = create_linear_logistic_regression()
    >>> type(linear_regression)
    sklearn.linear_model._base.LinearRegression
    >>> type(logistic_regression)
    sklearn.linear_model._logistic.LogisticRegression
    """
    ### BEGIN SOLUTION
    return LinearRegression(), LogisticRegression()
    ### END SOLUTION

## 練習題結束，以下儲存格為批改測試使用。

In [12]:
class TestSklearn(unittest.TestCase):
    def test_01_create_a_polynomial_feature(self):
        a_polynomial_feature = create_a_polynomial_feature()
        self.assertIsInstance(a_polynomial_feature, sklearn.preprocessing._polynomial.PolynomialFeatures)
    def test_02_create_polynomial_features_for_ndarray(self):
        input_ndarray = np.arange(10).reshape(-1, 1)
        self.assertEqual(create_polynomial_features_for_ndarray(input_ndarray).shape, (10, 3))
    def test_03_add_intercepts_for_ndarray(self):
        input_ndarray = np.arange(10).reshape(-1, 1)
        self.assertEqual(add_intercepts_for_ndarray(input_ndarray).shape, (10, 2))
    def test_04_create_a_standard_scaler(self):
        a_standard_scaler = create_a_standard_scaler()
        self.assertIsInstance(a_standard_scaler, sklearn.preprocessing._data.StandardScaler)
    def test_05_standardize_a_ndarray(self):
        input_ndarray = np.arange(10).reshape(-1, 1)
        self.assertEqual(standardize_a_ndarray(input_ndarray).shape, (10, 1))
    def test_06_get_standard_scalers_attributes(self):
        input_ndarray = np.arange(10).reshape(-1, 1)
        mu, sigma = get_standard_scalers_attributes(input_ndarray)
        self.assertTrue(mu >= 4.5)
        self.assertTrue(sigma >= 2.8)
    def test_07_create_a_minmax_scaler(self):
        a_minmax_scaler = create_a_minmax_scaler()
        self.assertIsInstance(a_minmax_scaler, sklearn.preprocessing._data.MinMaxScaler)
    def test_08_min_max_a_ndarray(self):
        input_ndarray = np.arange(10).reshape(-1, 1)
        self.assertEqual(min_max_a_ndarray(input_ndarray).shape, (10, 1))
    def test_09_get_minmax_scalers_attributes(self):
        input_ndarray = np.arange(10).reshape(-1, 1)
        Xmin, Xmax = get_minmax_scalers_attributes(input_ndarray)
        self.assertAlmostEqual(Xmin, 0.0)
        self.assertAlmostEqual(Xmax, 9.0)
    def test_10_create_linear_logistic_regression(self):
        linear_regression, logistic_regression = create_linear_logistic_regression()
        self.assertIsInstance(linear_regression, sklearn.linear_model._base.LinearRegression)
        self.assertIsInstance(logistic_regression, sklearn.linear_model._logistic.LogisticRegression)

suite = unittest.TestLoader().loadTestsFromTestCase(TestSklearn)
runner = unittest.TextTestRunner(verbosity=2)
test_results = runner.run(suite)
number_of_failures = len(test_results.failures)
number_of_errors = len(test_results.errors)
number_of_test_runs = test_results.testsRun
number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)

test_01_create_a_polynomial_feature (__main__.TestSklearn) ... ok
test_02_create_polynomial_features_for_ndarray (__main__.TestSklearn) ... ok
test_03_add_intercepts_for_ndarray (__main__.TestSklearn) ... ok
test_04_create_a_standard_scaler (__main__.TestSklearn) ... ok
test_05_standardize_a_ndarray (__main__.TestSklearn) ... ok
test_06_get_standard_scalers_attributes (__main__.TestSklearn) ... ok
test_07_create_a_minmax_scaler (__main__.TestSklearn) ... ok
test_08_min_max_a_ndarray (__main__.TestSklearn) ... ok
test_09_get_minmax_scalers_attributes (__main__.TestSklearn) ... ok
test_10_create_linear_logistic_regression (__main__.TestSklearn) ... ok

----------------------------------------------------------------------
Ran 10 tests in 0.022s

OK


In [13]:
print("你在資料科學模組 Scikit-Learn 入門的 {} 個問題中答對了 {} 題。".format(number_of_test_runs, number_of_successes))

你在資料科學模組 Scikit-Learn 入門的 10 個問題中答對了 10 題。
