# Python 的 50+ 練習：資料科學學習手冊

> 資料科學模組 NumPy 入門

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 由於近期 mybinder.org 的服務不穩定，新增 Google Colab 作為另一個寫作練習題的平台。
- 開始寫作之前，可以先按上方「Copy to Drive」按鈕將筆記本複製到自己的 Google 雲端硬碟。
- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放絕對路徑為 `/content`
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選右上角 Connect
    2. 點選上方選單的 Runtime -> Restart and run all -> Yes -> Run anyway
    3. 移動到 Google Colab 的最後一個儲存格看批改測試結果。

In [None]:
import numpy as np

## 071. 前十個質數

定義函數 `create_first_ten_primes_array()` 回傳一個外型為 `(10,)`、儲存了前十個質數的 `ndarray`

- 使用 `np.array()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_ten_primes_array() -> np.ndarray:
    """
    >>> first_ten_primes_array = create_first_ten_primes_array()
    >>> first_ten_primes_array
    array([ 2,  3,  5,  7, 11, 13, 17, 19, 23, 29])
    >>> type(first_ten_primes_array)
    numpy.ndarray
    >>> first_ten_primes_array.shape
    (10,)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 072. 前十個偶數

定義函數 `create_first_ten_evens_array()` 回傳一個外型為 `(10,)`、儲存了前十個偶數的 `ndarray`

- 使用 `np.arange()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_ten_evens_array() -> np.ndarray:
    """
    >>> first_ten_evens_array = create_first_ten_evens_array()
    >>> first_ten_evens_array
    array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])
    >>> type(first_ten_evens_array)
    numpy.ndarray
    >>> first_ten_evens_array.shape
    (10,)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 073. 用 `class` 摘要 `ndarray`

定義類別 `SummarizeNdarray` 能夠用來建立具有四個方法 `get_ndim()`、`get_shape()`、`get_size()`、`get_dtype()` 的物件。

- 運用 `self`
- 使用 `__init__()`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。

In [None]:
class SummarizeNdarray:
    """
    >>> ndarray_summary = SummarizeNdarray(np.arange(10))
    >>> ndarray_summary.get_ndim()
    1
    >>> ndarray_summary.get_shape()
    (10,)
    >>> ndarray_summary.get_size()
    10
    >>> ndarray_summary.get_dtype()
    dtype('int64')
    >>> ndarray_summary = SummarizeNdarray(np.array([[5, 5], [6, 6], [55, 66]]))
    >>> ndarray_summary.get_ndim()
    2
    >>> ndarray_summary.get_shape()
    (3, 2)
    >>> ndarray_summary.get_size()
    6
    >>> ndarray_summary.get_dtype()
    dtype('int64')
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 074. 方塊矩陣（Square matrix）

定義函數 `create_a_square_matrix()` 回傳外型為 `(n, n)`、元素皆為 `fill_int` 的 `ndarray`

- 使用 `np.full()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_square_matrix(n: int, fill_int: int) -> np.ndarray:
    """
    >>> create_a_square_matrix(2, 5566)
    array([[5566, 5566],
           [5566, 5566]])
    >>> create_a_square_matrix(3, 55)
    array([[55, 55, 55],
           [55, 55, 55],
           [55, 55, 55]])
    >>> create_a_square_matrix(4, 66)
    array([[66, 66, 66, 66],
           [66, 66, 66, 66],
           [66, 66, 66, 66],
           [66, 66, 66, 66]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 075. 將數個距離由公里轉換英里

定義函數 `convert_kilometers_to_miles()` 能夠將數個單位為公里的距離轉換為英里。

\begin{equation}
1 \; \text{km} = 0.62137 \; \text{mile}
\end{equation}

- 運用 `ndarray` 的 Elementwise 特性。
- 將預期輸出寫在 `return` 之後。

In [None]:
def convert_kilometers_to_miles(x: np.ndarray) -> np.ndarray:
    """
    >>> convert_kilometers_to_miles(np.array([1.6, 3, 5, 10, 21.095, 42.195]))
    array([ 0.994192  ,  1.86411   ,  3.10685   ,  6.2137    , 13.10780015,
           26.21870715])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 076. 對角矩陣

定義函數 `create_a_diagonal_matrix()` 回傳一個外型為 `(n, n)`、對角線上的數字為 `fill_int`、其餘數字為 0 的 `ndarray`

- 使用 `np.eye()` 函數。
- 運用 `ndarray` 的 Elementwise 特性。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_diagonal_matrix(n: int, fill_int: int) -> np.ndarray:
    """
    >>> create_a_diagonal_matrix(2, 5566)
    array([[5566,    0],
           [   0, 5566]])
    >>> create_a_diagonal_matrix(3, 55)
    array([[55,  0,  0],
           [ 0, 55,  0],
           [ 0,  0, 55]])
    >>> create_a_diagonal_matrix(4, 66)
    array([[66,  0,  0,  0],
           [ 0, 66,  0,  0],
           [ 0,  0, 66,  0],
           [ 0,  0,  0, 66]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 077. 向量化函數

定義函數 `vectorized_is_prime()` 判斷 `ndarray` 中的元素是否為質數。

- 使用 `is_prime()` 函數。
- 使用 `np.vectorize()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def is_prime(x: int) -> bool:
    number_of_divisors = 0
    for integer in range(1, x + 1):
        if x % integer == 0:
            number_of_divisors += 1
    return number_of_divisors == 2

def vectorized_is_prime(x: np.ndarray) -> np.ndarray:
    """
    >>> vectorized_is_prime(np.arange(10))
    array([False, False,  True,  True, False,  True, False,  True, False,
           False])
    >>> vectorized_is_prime(np.arange(11, 20))
    array([ True, False,  True, False, False, False,  True, False,  True])
    >>> vectorized_is_prime(np.arange(21, 30))
    array([False, False,  True, False, False, False, False, False,  True])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 078. 篩選質數

定義函數 `filter_primes()` 回傳輸入 `ndarray` 中的質數。

- 使用 `vectorized_is_prime()` 函數。
- 運用 `ndarray` 的 Boolean indexing
- 將預期輸出寫在 `return` 之後。

In [None]:
def filter_primes(x: np.ndarray) -> np.ndarray:
    """
    >>> filter_primes(np.arange(10))
    array([2, 3, 5, 7])
    >>> filter_primes(np.arange(11, 20))
    array([11, 13, 17, 19])
    >>> filter_primes(np.arange(21, 30))
    array([23, 29])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 079. 新增截距

定義函數 `add_intercepts()` 能夠水平合併一個外型 `(m, 1)`、數值皆為 1 的 `ndarray` 到輸入外型為 `(m, n)` 的 `ndarray` 成為外型 `(m, n+1)` 的輸出。

- 使用 `np.ones()` 函數。
- 運用 `ndarray.reshape()`
- 使用 `np.concatenate()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def add_intercepts(x: np.ndarray) -> np.ndarray:
    """
    >>> A = np.array([5, 5, 6, 6]).reshape(-1, 1)
    >>> add_intercepts(A)
    array([[1, 5],
           [1, 5],
           [1, 6],
           [1, 6]])
    >>> B = np.zeros((5, 2), dtype=int)
    >>> add_intercepts(B)
    array([[1, 0, 0],
           [1, 0, 0],
           [1, 0, 0],
           [1, 0, 0],
           [1, 0, 0]])
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 080. 分割訓練與驗證

定義函數 `split_train_test()` 能夠垂直分割一個外型 `(m, n)` 的 `ndarray` 成為兩個外型分別為 `(m*(1 - test_size), n)`、`(m*test_size, n)` 的 `ndarray`

- 使用 `np.split()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def split_train_test(x: np.ndarray, test_size: float) -> tuple:
    """
    >>> A = np.ones((10, 2))
    >>> A_train, A_test = split_train_test(A, test_size=0.3)
    >>> A_train.shape
    (7, 2)
    >>> A_test.shape
    (3, 2)
    >>> B = np.ones((10, 3))
    >>> B_train, B_test = split_train_test(B, test_size=0.4)
    >>> B_train.shape
    (6, 3)
    >>> B_test.shape
    (4, 3)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 練習題到此結束，以下的儲存格可以忽略

In [None]:
!wget -N https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/exercise_index.json

In [None]:
import unittest
import json

def run_suite(test_class, chapter_index):
    suite = unittest.TestLoader().loadTestsFromTestCase(test_class)
    runner = unittest.TextTestRunner(verbosity=2)
    test_results = runner.run(suite)
    number_of_failures = len(test_results.failures)
    number_of_errors = len(test_results.errors)
    number_of_test_runs = test_results.testsRun
    number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)
    with open("exercise_index.json", "r") as f:
        exercise_index = json.load(f)
    chapter_name = exercise_index[chapter_index]["chapter_name"]
    number_of_total_questions = 0
    number_of_completed_questions = 0
    for i in range(len(exercise_index)):
        number_of_total_questions += exercise_index[i]["number_of_exercises"]
        if i < chapter_index:
            number_of_completed_questions += exercise_index[i]["number_of_exercises"]
    number_of_completed_questions += number_of_successes
    chapter_percentage = number_of_successes * 100 / number_of_test_runs
    overall_percentage = number_of_completed_questions * 100 / number_of_total_questions
    print("你在「{}」章節的練習題完成率為 ... {:.2f}% ({}/{})".format(chapter_name, chapter_percentage, number_of_successes, number_of_test_runs))
    print("整體課程練習題的累計完成率為 ... {:.2f}% ({}/{})".format(overall_percentage, number_of_completed_questions, number_of_total_questions))
    if chapter_percentage == 100 and chapter_index < 19:
        print("表現得很好，你已經完成「{}」所有習題，我們繼續往下個章節：「{}」前進！".format(exercise_index[chapter_index]["chapter_name"], exercise_index[chapter_index + 1]["chapter_name"]))
        if chapter_index == 4:
            print("太棒了，你已經完成「Python 的 50+ 練習」的第一部分：Python 程式設計的基礎觀念，接下來還有三個部分等你來挑戰！")
        elif chapter_index == 8:
            print("表現得非常好，你已經完成「Python 的 50+ 練習」的第二部分：Python 程式設計的進階觀念，接著讓我們邁向資料科學！")
        elif chapter_index == 12:
            print("太令人佩服，你已經完成「Python 的 50+ 練習」的第三部分：Python 資料科學的基礎，距離完課只剩下最後一哩路！")
    elif chapter_percentage == 100 and chapter_index == 19:
        print("恭喜完課，你已經完成「Python 的 50+ 練習」所有習題，能夠堅持到底完成所有的教學影片與練習題真是非常了不起！後面已經沒有練習題了，你現在是一位擅長寫程式處理資料的分析師！")
    elif chapter_percentage >= 50:
        print("你已經完成「{}」章節一半以上的練習，繼續加油！".format(chapter_name))

class TestNumpy(unittest.TestCase):
    def test_071_create_first_ten_primes_array(self):
        first_ten_primes_array = create_first_ten_primes_array()
        np.testing.assert_equal(first_ten_primes_array, np.array([ 2,  3,  5,  7, 11, 13, 17, 19, 23, 29]))
        self.assertIsInstance(first_ten_primes_array, np.ndarray)
        self.assertEqual(first_ten_primes_array.shape, (10,))
    def test_072_create_first_ten_evens_array(self):
        first_ten_evens_array = create_first_ten_evens_array()
        np.testing.assert_array_equal(first_ten_evens_array,
                                     np.array([0,  2,  4,  6,  8, 10, 12, 14, 16, 18]))
        self.assertIsInstance(first_ten_evens_array, np.ndarray)
        self.assertEqual(first_ten_evens_array.shape, (10,))
    def test_073_SummarizeNdarray(self):
        ndarray_summary = SummarizeNdarray(np.arange(10))
        self.assertEqual(ndarray_summary.get_ndim(), 1)
        self.assertEqual(ndarray_summary.get_shape(), (10,))
        self.assertEqual(ndarray_summary.get_size(), 10)
        ndarray_summary = SummarizeNdarray(np.array([[5, 5], [6, 6], [55, 66]]))
        self.assertEqual(ndarray_summary.get_ndim(), 2)
        self.assertEqual(ndarray_summary.get_shape(), (3, 2))
        self.assertEqual(ndarray_summary.get_size(), 6)
    def test_074_create_a_square_matrix(self):
        a_square_matrix = create_a_square_matrix(2, 5566)
        self.assertEqual(a_square_matrix.shape, (2, 2))
        self.assertEqual(a_square_matrix.sum(), 5566 * 2**2)
        a_square_matrix = create_a_square_matrix(3, 55)
        self.assertEqual(a_square_matrix.shape, (3, 3))
        self.assertEqual(a_square_matrix.sum(), 55 * 3**2)
        a_square_matrix = create_a_square_matrix(4, 66)
        self.assertEqual(a_square_matrix.shape, (4, 4))
        self.assertEqual(a_square_matrix.sum(), 66 * 4**2)
    def test_075_convert_kilometers_to_miles(self):
        result_array = convert_kilometers_to_miles(np.array([1.6, 3, 5, 10, 21.095, 42.195]))
        self.assertTrue(result_array[0] >= 0.9)
        self.assertTrue(result_array[1] >= 1.8)
        self.assertTrue(result_array[2] >= 3)
        self.assertTrue(result_array[3] >= 6)
        self.assertTrue(result_array[4] >= 13)
        self.assertTrue(result_array[5] >= 26)
    def test_076_create_a_diagonal_matrix(self):
        a_diagonal_matrix = create_a_diagonal_matrix(2, 5566)
        self.assertEqual(a_diagonal_matrix.shape, (2, 2))
        self.assertEqual(a_diagonal_matrix.sum(), 5566 * 2)
        a_diagonal_matrix = create_a_diagonal_matrix(3, 55)
        self.assertEqual(a_diagonal_matrix.shape, (3, 3))
        self.assertEqual(a_diagonal_matrix.sum(), 55 * 3)
        a_diagonal_matrix = create_a_diagonal_matrix(4, 66)
        self.assertEqual(a_diagonal_matrix.shape, (4, 4))
        self.assertEqual(a_diagonal_matrix.sum(), 66 * 4)
    def test_077_vectorized_is_prime(self):
        np.testing.assert_equal(vectorized_is_prime(np.arange(10)),
         np.array([False, False,  True,  True, False,  True, False,  True, False, False]))
        np.testing.assert_equal(vectorized_is_prime(np.arange(11, 20)),
         np.array([ True, False,  True, False, False, False,  True, False,  True]))
        np.testing.assert_equal(vectorized_is_prime(np.arange(21, 30)),
         np.array([False, False,  True, False, False, False, False, False,  True]))
    def test_078_filter_primes(self):
        np.testing.assert_equal(filter_primes(np.arange(10)), np.array([2, 3, 5, 7]))
        np.testing.assert_equal(filter_primes(np.arange(11, 20)), np.array([11, 13, 17, 19]))
        np.testing.assert_equal(filter_primes(np.arange(21, 30)), np.array([23, 29]))
    def test_079_add_intercept(self):
        A = np.array([5, 5, 6, 6]).reshape(-1, 1)
        np.testing.assert_equal(add_intercepts(A),
        np.array([[1, 5],
                  [1, 5],
                  [1, 6],
                  [1, 6]]))
        B = np.zeros((5, 2), dtype=int)
        np.testing.assert_equal(add_intercepts(B),
        np.array([[1, 0, 0],
                  [1, 0, 0],
                  [1, 0, 0],
                  [1, 0, 0],
                  [1, 0, 0]]))
    def test_080_split_train_test(self):
        A = np.ones((10, 2))
        A_train, A_test = split_train_test(A, test_size=0.3)
        self.assertEqual(A_train.shape, (7, 2))
        self.assertEqual(A_test.shape, (3, 2))
        B = np.ones((10, 3))
        B_train, B_test = split_train_test(B, test_size=0.4)
        self.assertEqual(B_train.shape, (6, 3))
        self.assertEqual(B_test.shape, (4, 3))

run_suite(TestNumpy, 9)