# Python 機器學習從零至一 

> 表現的評估

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

In [1]:
import unittest
import numpy as np

## 練習題指引

- 練習題閒置超過 15 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放於練習題的工作目錄。
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 執行測試：點選上方選單的 Kernel -> Restart & Run All -> Restart and Run All Cells

## 01. 定義類別 `MeanError` 可以實例化具有兩個方法 `get_mse()` 與 `get_mae()` 的物件，可以計算兩個長度相同陣列之間的均方誤差與平均絕對誤差。

\begin{equation}
\text{MSE} = \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y_{i}})^2 \\
\text{MAE} = \frac{1}{m}\sum_{i=1}^{m} \mid y_i - \hat{y_{i}} \mid
\end{equation}

來源：<https://en.wikipedia.org/wiki/Mean_squared_error>, <https://en.wikipedia.org/wiki/Mean_absolute_error>

In [2]:
class MeanError:
    """
    >>> y = np.array([5, 5, 6, 6])
    >>> y_hat = np.array([5, 5, 6, 6])
    >>> me = MeanError(y, y_hat)
    >>> me.get_mse()
    0.0
    >>> me.get_mae()
    0.0
    >>> y = np.array([5, 5, 6, 6])
    >>> y_hat = np.array([5, 6, 7, 8])
    >>> me = MeanError(y, y_hat)
    >>> me.get_mse()
    1.5
    >>> me.get_mae()
    1.0
    """
    ### BEGIN SOLUTION
    def __init__(self, y, y_hat):
        self._y = y
        self._y_hat = y_hat
    def get_error(self):
        return self._y - self._y_hat
    def get_mse(self):
        error = self.get_error()
        se = error**2
        mse = np.sum(se) / error.size
        return mse
    def get_mae(self):
        error = self.get_error()
        ae = np.absolute(error)
        mae = np.sum(ae) / error.size
        return mae
    ### END SOLUTION

## 02. 定義函數 `get_confusion_matrix` 可以為兩個長度相同陣列建立一個外型 `(2, 2)` 的混淆矩陣，真陰性、真陽性、偽陰性與偽陽性的個數分別位於 `[0, 0]`, `[1, 1]`, `[1, 0]`, `[0, 1]`

來源：<https://en.wikipedia.org/wiki/Confusion_matrix>

In [3]:
def get_confusion_matrix(y_true: np.ndarray, y_pred: np.ndarray) -> np.ndarray:
    """
    >>> np.random.seed(0)
    >>> y = np.random.randint(0, 2, size=100)
    >>> np.random.seed(1)
    >>> y_hat = np.random.randint(0, 2, size=100)
    >>> get_confusion_matrix(y, y_hat)
    array([[21, 23],
           [24, 32]])
    >>> np.random.seed(2)
    >>> y = np.random.randint(0, 2, size=100)
    >>> np.random.seed(3)
    >>> y_hat = np.random.randint(0, 2, size=100)
    >>> get_confusion_matrix(y, y_hat)
    array([[27, 28],
           [23, 22]])
    """
    ### BEGIN SOLUTION
    n_tn = 0
    n_tp = 0
    n_fn = 0
    n_fp = 0
    for y_true_i, y_pred_i in zip(y_true, y_pred):
        if y_true_i == 0 and y_pred_i == 0:
            n_tn += 1
        elif y_true_i == 1 and y_pred_i == 1:
            n_tp += 1
        elif y_true_i == 1 and y_pred_i == 0:
            n_fn += 1
        elif y_true_i == 0 and y_pred_i == 1:
            n_fp += 1
    cm = np.array([[n_tn, n_fp],
                   [n_fn, n_tp]])
    return cm
    ### END SOLUTION

In [4]:
class TestPerformance(unittest.TestCase):
    def test_01_MeanError(self):
        y = np.array([5, 5, 6, 6])
        y_hat = np.array([5, 5, 6, 6])
        me = MeanError(y, y_hat)
        self.assertTrue(me.get_mse() >= 0.0)
        self.assertTrue(me.get_mse() <= 0.1)
        self.assertTrue(me.get_mae() >= 0.0)
        self.assertTrue(me.get_mae() <= 0.1)
        y_hat = np.array([5, 6, 7, 8])
        me = MeanError(y, y_hat)
        self.assertTrue(me.get_mse() >= 1.5)
        self.assertTrue(me.get_mse() <= 1.6)
        self.assertTrue(me.get_mae() >= 1.0)
        self.assertTrue(me.get_mae() <= 1.1)
        y_hat = np.array([-5, -5, -6, -6])
        me = MeanError(y, y_hat)
        self.assertTrue(me.get_mse() >= 122.0)
        self.assertTrue(me.get_mse() <= 122.1)
        self.assertTrue(me.get_mae() >= 11.0)
        self.assertTrue(me.get_mae() <= 11.1)
    def test_02_get_confusion_matrix(self):
        np.random.seed(0)
        y = np.random.randint(0, 2, size=100)
        np.random.seed(1)
        y_hat = np.random.randint(0, 2, size=100)
        np.testing.assert_array_equal(get_confusion_matrix(y, y_hat),
        np.array([[21, 23],
                  [24, 32]]))
        np.random.seed(2)
        y = np.random.randint(0, 2, size=100)
        np.random.seed(3)
        y_hat = np.random.randint(0, 2, size=100)
        np.testing.assert_array_equal(get_confusion_matrix(y, y_hat),
        np.array([[27, 28],
                  [23, 22]]))

suite = unittest.TestLoader().loadTestsFromTestCase(TestPerformance)
runner = unittest.TextTestRunner(verbosity=2)
test_results = runner.run(suite)
number_of_failures = len(test_results.failures)
number_of_errors = len(test_results.errors)
number_of_test_runs = test_results.testsRun
number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)

test_01_MeanError (__main__.TestPerformance) ... ok
test_02_get_confusion_matrix (__main__.TestPerformance) ... ok

----------------------------------------------------------------------
Ran 2 tests in 0.021s

OK


In [5]:
print("你在表現的評估的 {} 個問題中答對了 {} 題。".format(number_of_test_runs, number_of_successes))

你在表現的評估的 2 個問題中答對了 2 題。
