# Python 的 50+ 練習：資料科學學習手冊

> 資料科學模組 NumPy 入門

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案會存放在 `data` 資料夾中。
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選上方選單的 File -> Save Notebook 儲存 exercises.ipynb。
    2. 點選上方選單的 File -> New -> Terminal 開啟終端機。
    3. 在終端機輸入 `python 10-numpy/test_runner.py` 後按下 Enter 執行測試。

In [None]:
import numpy as np

## 071. 前十個質數

定義函數 `create_first_ten_primes_array()` 回傳一個外型為 `(10,)`、儲存了前十個質數的 `ndarray`

- 使用 `np.array()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_ten_primes_array() -> np.ndarray:
    """
    >>> first_ten_primes_array = create_first_ten_primes_array()
    >>> first_ten_primes_array
    array([ 2,  3,  5,  7, 11, 13, 17, 19, 23, 29])
    >>> type(first_ten_primes_array)
    numpy.ndarray
    >>> first_ten_primes_array.shape
    (10,)
    """
    ### BEGIN SOLUTION
    out_arr = np.array([2, 3, 5, 7, 11, 13, 17, 19, 23, 29])
    return out_arr
    ### END SOLUTION

## 072. 前十個偶數

定義函數 `create_first_ten_evens_array()` 回傳一個外型為 `(10,)`、儲存了前十個偶數的 `ndarray`

- 使用 `np.arange()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_ten_evens_array() -> np.ndarray:
    """
    >>> first_ten_evens_array = create_first_ten_evens_array()
    >>> first_ten_evens_array
    array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])
    >>> type(first_ten_evens_array)
    numpy.ndarray
    >>> first_ten_evens_array.shape
    (10,)
    """
    ### BEGIN SOLUTION
    out_arr = np.arange(0, 20, 2)
    return out_arr
    ### END SOLUTION

## 073. 用 `class` 摘要 `ndarray`

定義類別 `SummarizeNdarray` 能夠用來建立具有四個方法 `get_ndim()`、`get_shape()`、`get_size()`、`get_dtype()` 的物件。

- 運用 `self`
- 使用 `__init__()`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。

In [None]:
class SummarizeNdarray:
    """
    >>> ndarray_summary = SummarizeNdarray(np.arange(10))
    >>> ndarray_summary.get_ndim()
    1
    >>> ndarray_summary.get_shape()
    (10,)
    >>> ndarray_summary.get_size()
    10
    >>> ndarray_summary.get_dtype()
    dtype('int64')
    >>> ndarray_summary = SummarizeNdarray(np.array([[5, 5], [6, 6], [55, 66]]))
    >>> ndarray_summary.get_ndim()
    2
    >>> ndarray_summary.get_shape()
    (3, 2)
    >>> ndarray_summary.get_size()
    6
    >>> ndarray_summary.get_dtype()
    dtype('int64')
    """
    ### BEGIN SOLUTION
    def __init__(self, x):
        self.summary = {
            "ndim": x.ndim,
            "shape": x.shape,
            "size": x.size,
            "dtype": x.dtype
        }
    def get_ndim(self):
        return self.summary["ndim"]
    def get_shape(self):
        return self.summary["shape"]
    def get_size(self):
        return self.summary["size"]
    def get_dtype(self):
        return self.summary["dtype"]
    ### END SOLUTION

## 074. 方塊矩陣（Square matrix）

定義函數 `create_a_square_matrix()` 回傳外型為 `(n, n)`、元素皆為 `fill_int` 的 `ndarray`

- 使用 `np.full()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_square_matrix(n: int, fill_int: int) -> np.ndarray:
    """
    >>> create_a_square_matrix(2, 5566)
    array([[5566, 5566],
           [5566, 5566]])
    >>> create_a_square_matrix(3, 55)
    array([[55, 55, 55],
           [55, 55, 55],
           [55, 55, 55]])
    >>> create_a_square_matrix(4, 66)
    array([[66, 66, 66, 66],
           [66, 66, 66, 66],
           [66, 66, 66, 66],
           [66, 66, 66, 66]])
    """
    ### BEGIN SOLUTION
    arr_shape = (n, n)
    out_arr = np.full(shape=arr_shape, fill_value=fill_int)
    return out_arr
    ### END SOLUTION

## 075. 將數個距離由公里轉換英里

定義函數 `convert_kilometers_to_miles()` 能夠將數個單位為公里的距離轉換為英里。

\begin{equation}
1 \; \text{km} = 0.62137 \; \text{mile}
\end{equation}

- 運用 `ndarray` 的 Elementwise 特性。
- 將預期輸出寫在 `return` 之後。

In [None]:
def convert_kilometers_to_miles(x: np.ndarray) -> np.ndarray:
    """
    >>> convert_kilometers_to_miles(np.array([1.6, 3, 5, 10, 21.095, 42.195]))
    array([ 0.994192  ,  1.86411   ,  3.10685   ,  6.2137    , 13.10780015,
           26.21870715])
    """
    ### BEGIN SOLUTION
    return x * 0.62137
    ### END SOLUTION

## 076. 對角矩陣

定義函數 `create_a_diagonal_matrix()` 回傳一個外型為 `(n, n)`、對角線上的數字為 `fill_int`、其餘數字為 0 的 `ndarray`

- 使用 `np.eye()` 函數。
- 運用 `ndarray` 的 Elementwise 特性。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_diagonal_matrix(n: int, fill_int: int) -> np.ndarray:
    """
    >>> create_a_diagonal_matrix(2, 5566)
    array([[5566,    0],
           [   0, 5566]])
    >>> create_a_diagonal_matrix(3, 55)
    array([[55,  0,  0],
           [ 0, 55,  0],
           [ 0,  0, 55]])
    >>> create_a_diagonal_matrix(4, 66)
    array([[66,  0,  0,  0],
           [ 0, 66,  0,  0],
           [ 0,  0, 66,  0],
           [ 0,  0,  0, 66]])
    """
    ### BEGIN SOLUTION
    identity_matrix = np.eye(n, dtype=int)
    out_arr = identity_matrix * fill_int
    return out_arr
    ### END SOLUTION

## 077. 向量化函數

定義函數 `vectorized_is_prime()` 判斷 `ndarray` 中的元素是否為質數。

- 使用 `is_prime()` 函數。
- 使用 `np.vectorize()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def is_prime(x: int) -> bool:
    number_of_divisors = 0
    for integer in range(1, x + 1):
        if x % integer == 0:
            number_of_divisors += 1
    return number_of_divisors == 2

def vectorized_is_prime(x: np.ndarray) -> np.ndarray:
    """
    >>> vectorized_is_prime(np.arange(10))
    array([False, False,  True,  True, False,  True, False,  True, False,
           False])
    >>> vectorized_is_prime(np.arange(11, 20))
    array([ True, False,  True, False, False, False,  True, False,  True])
    >>> vectorized_is_prime(np.arange(21, 30))
    array([False, False,  True, False, False, False, False, False,  True])
    """
    ### BEGIN SOLUTION
    vectorize_is_prime = np.vectorize(is_prime)
    return vectorize_is_prime(x)
    ### END SOLUTION

## 078. 篩選質數

定義函數 `filter_primes()` 回傳輸入 `ndarray` 中的質數。

- 使用 `vectorized_is_prime()` 函數。
- 運用 `ndarray` 的 Boolean indexing
- 將預期輸出寫在 `return` 之後。

In [None]:
def filter_primes(x: np.ndarray) -> np.ndarray:
    """
    >>> filter_primes(np.arange(10))
    array([2, 3, 5, 7])
    >>> filter_primes(np.arange(11, 20))
    array([11, 13, 17, 19])
    >>> filter_primes(np.arange(21, 30))
    array([23, 29])
    """
    ### BEGIN SOLUTION
    is_primes = vectorized_is_prime(x)
    return x[is_primes]
    ### END SOLUTION

## 079. 新增截距

定義函數 `add_intercepts()` 能夠水平合併一個外型 `(m, 1)`、數值皆為 1 的 `ndarray` 到輸入外型為 `(m, n)` 的 `ndarray` 成為外型 `(m, n+1)` 的輸出。

- 使用 `np.ones()` 函數。
- 運用 `ndarray.reshape()`
- 使用 `np.concatenate()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def add_intercepts(x: np.ndarray) -> np.ndarray:
    """
    >>> A = np.array([5, 5, 6, 6]).reshape(-1, 1)
    >>> add_intercepts(A)
    array([[1, 5],
           [1, 5],
           [1, 6],
           [1, 6]])
    >>> B = np.zeros((5, 2), dtype=int)
    >>> add_intercepts(B)
    array([[1, 0, 0],
           [1, 0, 0],
           [1, 0, 0],
           [1, 0, 0],
           [1, 0, 0]])
    """
    ### BEGIN SOLUTION
    m = x.shape[0]
    intercepts = np.ones(m, dtype=int).reshape(-1, 1)
    out = np.concatenate([intercepts, x], axis=1)
    return out
    ### END SOLUTION

## 080. 分割訓練與驗證

定義函數 `split_train_test()` 能夠垂直分割一個外型 `(m, n)` 的 `ndarray` 成為兩個外型分別為 `(m*(1 - test_size), n)`、`(m*test_size, n)` 的 `ndarray`

- 使用 `np.split()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def split_train_test(x: np.ndarray, test_size: float) -> tuple:
    """
    >>> A = np.ones((10, 2))
    >>> A_train, A_test = split_train_test(A, test_size=0.3)
    >>> A_train.shape
    (7, 2)
    >>> A_test.shape
    (3, 2)
    >>> B = np.ones((10, 3))
    >>> B_train, B_test = split_train_test(B, test_size=0.4)
    >>> B_train.shape
    (6, 3)
    >>> B_test.shape
    (4, 3)
    """
    ### BEGIN SOLUTION
    m = x.shape[0]
    test_index = int(m * test_size)
    arr_test, arr_train = np.split(x, [test_index])
    return arr_train, arr_test
    ### END SOLUTION