# Python 的 50+ 練習：資料科學學習手冊

> 監督式學習

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放絕對路徑為 `/home/jovyan/data`
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選上方選單的 File -> Save Notebook 儲存 exercises.ipynb。
    2. 點選上方選單的 File -> New -> Terminal 開啟終端機。
    3. 在終端機輸入 `python 20-supervised-learning/test_runner.py` 後按下 Enter 執行測試。

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error

## 181. 載入 `house-prices` 中的 `train.csv` 與 `test.csv`

定義函數 `import_house_prices()` 將位於 `/home/jovyan/data/house-prices` 路徑的 `train.csv` 與 `test.csv` 載入。

來源：<https://www.kaggle.com/c/house-prices-advanced-regression-techniques>

- 運用絕對路徑。
- 使用 `pd.read_csv()` 函數。
- 將預期輸出寫在 `return` 之後。

In [2]:
def import_house_prices() -> tuple:
    """
    >>> train, test = import_house_prices()
    >>> type(train)
    pandas.core.frame.DataFrame
    >>> type(test)
    pandas.core.frame.DataFrame
    >>> train.shape
    (1460, 81)
    >>> test.shape
    (1459, 80)
    """
    ### BEGIN SOLUTION
    train_csv = pd.read_csv("../data/house-prices/train.csv")
    test_csv = pd.read_csv("../data/house-prices/test.csv")
    return train_csv, test_csv
    ### END SOLUTION

## 182. 找出 `house-prices` 目標陣列欄位

定義函數 `find_target_array_variable_house_prices()` 將位於 `train.csv` 與 `test.csv` 差別的欄位找出來。

- 使用 `import_house_prices()` 函數。
- 運用 `DataFrame.columns` 的集合運算特性。
- 將預期輸出寫在 `return` 之後。

In [3]:
def find_target_array_variable_house_prices() -> pd.core.indexes.base.Index:
    """
    >>> target_array_variable_house_prices = find_target_array_variable_house_prices()
    >>> target_array_variable_house_prices
    Index(['SalePrice'], dtype='object')
    """
    ### BEGIN SOLUTION
    train, test = import_house_prices()
    train_columns = train.columns
    test_columns = test.columns
    return train_columns.difference(test_columns)
    ### END SOLUTION

## 183. 選擇 `house-prices` 目標陣列與特徵矩陣

定義函數 `extract_target_array_feature_matrix_house_prices()` 以 `train.csv` 中的 `SalePrice` 作為目標陣列 $y$、`OverallQual` 作為特徵矩陣 $X$

- 使用 `import_house_prices()` 函數。
- 運用選擇欄位技巧。
- 注意特徵矩陣外型。
- 將預期輸出寫在 `return` 之後。

In [4]:
def extract_target_array_feature_matrix_house_prices() -> tuple:
    """
    >>> y, X = extract_target_array_feature_matrix_house_prices()
    >>> type(y)
    numpy.ndarray
    >>> type(X)
    numpy.ndarray
    >>> y.shape
    (1460,)
    >>> X.shape
    (1460, 1)
    """
    ### BEGIN SOLUTION
    train, test = import_house_prices()
    y = train["SalePrice"].values
    X = train["OverallQual"].values.reshape(-1, 1)
    return y, X
    ### END SOLUTION

## 184. 切割 `house-prices` 訓練與驗證資料

定義函數 `split_train_valid_house_prices()` 將 `extract_target_array_feature_matrix_house_prices()` 函數所輸出的 $y$ 與 $X$ 切割為訓練與驗證資料。

- 使用 `train_test_split(test_size=0.3, random_state=42)` 函數。
- 將預期輸出寫在 `return` 之後。

In [5]:
def split_train_valid_house_prices(X: np.ndarray, y: np.ndarray) -> tuple:
    """
    >>> y, X = extract_target_array_feature_matrix_house_prices()
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_house_prices(X, y)
    >>> X_train.shape
    (1022, 1)
    >>> X_valid.shape
    (438, 1)
    >>> y_train.shape
    (1022,)
    >>> y_valid.shape
    (438,)
    """
    ### BEGIN SOLUTION
    return train_test_split(X, y, test_size=0.3, random_state=42)
    ### END SOLUTION

## 185. 建立 `house-prices` 虛假模型

定義類別 `DummyModelHousePrices` 用來建立具有兩個方法 `fit()`、`predict()` 的物件，能夠在 `split_train_valid_house_prices()` 函數所輸出 $y^{train}$ 最小值與最大值之間取隨機整數，建立虛假模型預測 $\hat{y}$

- 使用 `self`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。
- 使用 `ndarray.min()` 與 `ndarray.max()`
- 使用 `np.random.randint()` 函數。

In [6]:
class DummyModelHousePrices:
    """
    >>> y, X = extract_target_array_feature_matrix_house_prices()
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_house_prices(X, y)
    >>> dummy_model_house_prices = DummyModelHousePrices()
    >>> dummy_model_house_prices.fit(y_train)
    >>> y_hat = dummy_model_house_prices.predict(X_valid)
    >>> type(y_hat)
    numpy.ndarray
    >>> y_hat.shape
    (438,)
    """
    ### BEGIN SOLUTION
    def fit(self, y_train):
        self.y_train_min = y_train.min()
        self.y_train_max = y_train.max()
    def predict(self, X_valid):
        m = X_valid.shape[0]
        return np.random.randint(self.y_train_min, self.y_train_max, size=m)
    ### END SOLUTION

## 186. 建立 `house-prices` 專家模型

定義類別 `ExpertModelHousePrices` 用來建立具有兩個方法 `fit()`、`predict()` 的物件，能夠依據 `split_train_valid_house_prices()` 函數所輸出 $X^{train}$ 與 $y^{train}$ 建立專家模型，以 `OverallQual` 分組，聚合 `SalePrice` 的平均數，以分組聚合的對應關係預測 $\hat{y}$

- 使用 `self`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。
- 使用分組聚合技巧。

In [7]:
class ExpertModelHousePrices:
    """
    >>> y, X = extract_target_array_feature_matrix_house_prices()
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_house_prices(X, y)
    >>> expert_model_house_prices = ExpertModelHousePrices()
    >>> expert_model_house_prices.fit(X_train, y_train)
    OverallQual
    1      50150.000000
    2      60000.000000
    3      85950.000000
    4     107983.750000
    5     133982.099617
    6     162075.261993
    7     206433.647826
    8     274112.188525
    9     355825.366667
    10    437396.454545
    Name: SalePrice, dtype: float64
    >>> y_hat = expert_model_house_prices.predict(X_valid)
    >>> type(y_hat)
    numpy.ndarray
    >>> y_hat.shape
    (438,)
    """
    ### BEGIN SOLUTION
    def fit(self, X_train, y_train):
        df = pd.DataFrame()
        df["OverallQual"] = X_train.ravel()
        df["SalePrice"] = y_train
        self.sale_price_by_overall_qual = df.groupby("OverallQual")["SalePrice"].mean()
        return self.sale_price_by_overall_qual
    def predict(self, X_valid):
        X_valid_ravel = X_valid.ravel()
        y_hat = list(map(lambda x: self.sale_price_by_overall_qual[x], X_valid_ravel))
        return np.array(y_hat)
    ### END SOLUTION

## 187. 建立 `house-prices` 基於機器學習的模型

定義類別 `MachineLearningModelHousePrices` 用來建立具有兩個方法 `fit()`、`predict()` 的物件，能夠依據 `split_train_valid_house_prices()` 函數所輸出 $X^{train}$ 與 $y^{train}$ 建立基於機器學習的模型，直接使用 Scikit-Learn `LinearRegression` 類別 `fit()` 與 `predict()` 方法的預測 $\hat{y}$

- 使用 `self`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。

In [8]:
class MachineLearningModelHousePrices:
    """
    >>> y, X = extract_target_array_feature_matrix_house_prices()
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_house_prices(X, y)
    >>> machine_learning_model_house_prices = MachineLearningModelHousePrices()
    >>> machine_learning_model_house_prices.fit(X_train, y_train)
    LinearRegression()
    >>> y_hat = machine_learning_model_house_prices.predict(X_valid)
    >>> type(y_hat)
    numpy.ndarray
    >>> y_hat.shape
    (438,)
    """
    ### BEGIN SOLUTION
    def fit(self, X_train, y_train):
        linear_regression = LinearRegression()
        self.model = linear_regression.fit(X_train, y_train)
        return self.model
    def predict(self, X_valid):
        return self.model.predict(X_valid)
    ### END SOLUTION

## 188. 驗證 `house-prices` 的三個模型

定義函數 `validate_model_performance_house_prices()` 能夠依據 `split_train_valid_house_prices()` 函數所輸出 $y^{valid}$，計算虛假模型、專家模型與基於機器學習模型的表現評估。

- 使用 `mean_squared_error()` 函數。
- 將預期輸出寫在 `return` 之後。

In [9]:
def validate_model_performance_house_prices(dummy_y_hat: np.ndarray,
                                            expert_y_hat: np.ndarray,
                                            machine_learning_y_hat: np.ndarray,
                                            y_valid: np.ndarray) -> dict:
    """
    >>> y, X = extract_target_array_feature_matrix_house_prices()
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_house_prices(X, y)
    >>> dummy_model_house_prices = DummyModelHousePrices()
    >>> dummy_model_house_prices.fit(y_train)
    >>> dummy_y_hat = dummy_model_house_prices.predict(X_valid)
    >>> expert_model_house_prices = ExpertModelHousePrices()
    >>> expert_model_house_prices.fit(X_train, y_train)
    OverallQual
    1      50150.000000
    2      60000.000000
    3      85950.000000
    4     107983.750000
    5     133982.099617
    6     162075.261993
    7     206433.647826
    8     274112.188525
    9     355825.366667
    10    437396.454545
    Name: SalePrice, dtype: float64
    >>> expert_y_hat = expert_model_house_prices.predict(X_valid)
    >>> machine_learning_model_house_prices = MachineLearningModelHousePrices()
    >>> machine_learning_model_house_prices.fit(X_train, y_train)
    LinearRegression()
    >>> machine_learning_y_hat = machine_learning_model_house_prices.predict(X_valid)
    >>> validate_model_performance_house_prices(dummy_y_hat, expert_y_hat, machine_learning_y_hat, y_valid)
    {'dummy': 95083333626.51826,
     'expert': 2023633279.0004246,
     'machine_learning': 2483429086.6514378}
    """
    ### BEGIN SOLUTION
    output_dict = {
        "dummy": mean_squared_error(y_valid, dummy_y_hat),
        "expert": mean_squared_error(y_valid, expert_y_hat),
        "machine_learning": mean_squared_error(y_valid, machine_learning_y_hat)
    }
    return output_dict
    ### END SOLUTION

## 189. 以 `house-prices` 專家模型預測位於 `/home/jovyan/data/house-prices` 路徑的 `test.csv`

定義函數 `predict_sale_price()` 能夠依據 `OverallQual` 與專家模型預測 `test.csv` 的 `SalePrice`

- 使用 `import_house_prices()` 函數。
- 使用 `extract_target_array_feature_matrix_house_prices()` 函數。
- 使用 `split_train_valid_house_prices()` 函數。
- 使用 `ExpertModelHousePrices` 類別。
- 將預期輸出寫在 `return` 之後。

In [10]:
def predict_sale_price(X_test: pd.core.frame.DataFrame) -> pd.core.frame.DataFrame:
    """
    >>> train, test = import_house_prices()
    >>> X_test = test[["Id", "OverallQual"]]
    >>> predict_sale_price(X_test)
            Id      SalePrice
    0     1461  133982.099617
    1     1462  162075.261993
    2     1463  133982.099617
    3     1464  162075.261993
    4     1465  274112.188525
    ...    ...            ...
    1454  2915  107983.750000
    1455  2916  107983.750000
    1456  2917  133982.099617
    1457  2918  133982.099617
    1458  2919  206433.647826

    [1459 rows x 2 columns]
    """
    ### BEGIN SOLUTION
    train, test = import_house_prices()
    y, X = extract_target_array_feature_matrix_house_prices()
    X_train, X_valid, y_train, y_valid = split_train_valid_house_prices(X, y)
    expert_model_house_prices = ExpertModelHousePrices()
    expert_model_house_prices.fit(X_train, y_train)
    X_test_ndarray = X_test["OverallQual"].values.reshape(-1, 1)
    y_hat = expert_model_house_prices.predict(X_test_ndarray)
    output_dataframe = pd.DataFrame()
    output_dataframe["Id"] = X_test["Id"].values
    output_dataframe["SalePrice"] = y_hat
    return output_dataframe
    ### END SOLUTION

## 190. 將 `house-prices` 專家模型預測結果輸出為 `submission_house_prices.csv`

定義函數 `export_sale_price_as_submission()` 能夠將 `predict_sale_price()` 函數的輸出以 `submission_house_prices.csv` 格式匯出至工作目錄。

- 使用 `predict_sale_price()` 函數。
- 使用 `DataFrame.to_csv("submission_house_prices.csv", index=False)`

In [11]:
def export_sale_price_as_submission(X_test: pd.core.frame.DataFrame) -> None:
    """
    >>> train, test = import_house_prices()
    >>> X_test = test[["Id", "OverallQual"]]
    >>> export_sale_price_as_submission(X_test)
    >>> submission_csv = pd.read_csv("submission_house_prices.csv")
    >>> submission_csv.shape
    (1459, 2)
    """
    ### BEGIN SOLUTION
    sale_price = predict_sale_price(X_test)
    sale_price.to_csv("submission_house_prices.csv", index=False)
    ### END SOLUTION

## 191. 載入 `titanic` 中的 `train.csv` 與 `test.csv`

定義函數 `import_titanic()` 將位於 `/home/jovyan/data/titanic` 路徑的 `train.csv` 與 `test.csv` 載入。

來源：<https://www.kaggle.com/c/titanic>

- 運用絕對路徑。
- 使用 `pd.read_csv()` 函數。
- 將預期輸出寫在 `return` 之後。

In [12]:
def import_titanic() -> tuple:
    """
    >>> train, test = import_titanic()
    >>> type(train)
    pandas.core.frame.DataFrame
    >>> type(test)
    pandas.core.frame.DataFrame
    >>> train.shape
    (891, 12)
    >>> test.shape
    (418, 11)
    """
    ### BEGIN SOLUTION
    train_csv = pd.read_csv("../data/titanic/train.csv")
    test_csv = pd.read_csv("../data/titanic/test.csv")
    return train_csv, test_csv
    ### END SOLUTION

## 192. 找出 `titanic` 目標陣列欄位

定義函數 `find_target_array_variable_titanic()` 將位於 `train.csv` 與 `test.csv` 差別的欄位找出來。

- 使用 `import_titanic()` 函數。
- 運用 `DataFrame.columns` 的集合運算特性。
- 將預期輸出寫在 `return` 之後。

In [13]:
def find_target_array_variable_titanic() -> pd.core.indexes.base.Index:
    """
    >>> target_array_variable_titanic = find_target_array_variable_titanic()
    >>> target_array_variable_titanic
    Index(['Survived'], dtype='object')
    """
    ### BEGIN SOLUTION
    train, test = import_titanic()
    train_columns = train.columns
    test_columns = test.columns
    return train_columns.difference(test_columns)
    ### END SOLUTION

## 193. 選擇 `titanic` 目標陣列與特徵矩陣

定義函數 `extract_target_array_feature_matrix_titanic()` 以 `train.csv` 中的 `Survived` 作為目標陣列 $y$、`Sex`、`Age` 作為特徵矩陣 $X$

- 使用 `import_titanic()` 函數。
- 運用選擇欄位技巧。
- 注意特徵矩陣外型。
- 將預期輸出寫在 `return` 之後。

In [14]:
def extract_target_array_feature_matrix_titanic() -> tuple:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> type(y)
    numpy.ndarray
    >>> type(X)
    numpy.ndarray
    >>> y.shape
    (891,)
    >>> X.shape
    (891, 2)
    """
    ### BEGIN SOLUTION
    train, test = import_titanic()
    y = train["Survived"].values
    X = train[["Sex", "Age"]].values
    return y, X
    ### END SOLUTION

## 194. 操作 `titanic` 特徵矩陣

定義函數 `wrangle_feature_matrix_titanic()` 將 `extract_target_array_feature_matrix_titanic()` 函數輸出的 `X` 第 0 欄轉換為整數、第 1 欄填補未定義值，轉換與填補的規則如下：

- `{'female': 0, 'male': 1}`
- 使用 `Series.map()`
- 使用 `Series.mean()`
- 使用 `Series.fillna()` 以平均數作為填補值。
- 將預期輸出寫在 `return` 之後。

In [15]:
def wrangle_feature_matrix_titanic(X: np.ndarray) -> np.ndarray:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> X_wrangled = wrangle_feature_matrix_titanic(X)
    >>> type(X_wrangled)
    numpy.ndarray
    >>> np.unique(X_wrangled[:, 0])
    array([0, 1])
    >>> np.sum(np.isnan(X_wrangled[:, 1]))
    0
    """
    ### BEGIN SOLUTION
    X_dataframe = pd.DataFrame(X)
    X_dataframe[0] = X_dataframe[0].map({'female': 0, 'male': 1})
    mean_age = X_dataframe[1].mean()
    X_dataframe[1] = X_dataframe[1].fillna(mean_age)
    X_dataframe[1] = X_dataframe[1].astype(int)
    return X_dataframe.values
    ### END SOLUTION

## 195. 切割 `titanic` 訓練與驗證資料

定義函數 `split_train_valid_titanic()` 將 `extract_target_array_feature_matrix_titanic()` 函數所輸出的 $y$ 與 `wrangle_feature_matrix_titanic()` 函數所輸出的 `X_wrangled` 切割為訓練與驗證資料。

- 使用 `train_test_split(test_size=0.3, random_state=42)` 函數。
- 將預期輸出寫在 `return` 之後。

In [16]:
def split_train_valid_titanic(X: np.ndarray, y: np.ndarray) -> tuple:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> X_wrangled = wrangle_feature_matrix_titanic(X)
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_titanic(X_wrangled, y)
    >>> X_train.shape
    (623, 2)
    >>> X_valid.shape
    (268, 2)
    >>> y_train.shape
    (623,)
    >>> y_valid.shape
    (268,)
    """
    ### BEGIN SOLUTION
    return train_test_split(X, y, test_size=0.3, random_state=42)
    ### END SOLUTION

## 196. 建立 `titanic` 虛假模型

定義類別 `DummyModelTitanic` 用來建立具有兩個方法 `fit()`、`predict()` 的物件，能夠隨機生成整數 0 或 1，建立虛假模型預測 $\hat{y}$

- 使用 `self`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。
- 使用 `np.random.randint()` 函數。

In [17]:
class DummyModelTitanic:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> X_wrangled = wrangle_feature_matrix_titanic(X)
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_titanic(X_wrangled, y)
    >>> dummy_model_titanic = DummyModelTitanic()
    >>> dummy_model_titanic.fit(y_train)
    >>> y_hat = dummy_model_titanic.predict(X_valid)
    >>> type(y_hat)
    numpy.ndarray
    >>> y_hat.shape
    (268,)
    """
    ### BEGIN SOLUTION
    def fit(self, y_train):
        self.y_train_min = y_train.min()
        self.y_train_max = y_train.max()
    def predict(self, X_valid):
        m = X_valid.shape[0]
        return np.random.randint(self.y_train_min, self.y_train_max + 1, size=m)
    ### END SOLUTION

## 197. 建立 `titanic` 專家模型

定義類別 `ExpertModelTitanic` 用來建立具有兩個方法 `fit()`、`predict()` 的物件，能夠依據 `split_train_valid_titanic()` 函數所輸出 $X^{train}$ 與 $y^{train}$ 建立專家模型，`Sex` 為 `'female'` 或者 `Age` 小於平均就預測 $\hat{y}$ 為 `1`，否則預測為 `0`

- 使用 `self`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。
- 使用 `wrangle_feature_matrix_titanic()` 函數。

In [18]:
class ExpertModelTitanic:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> X_wrangled = wrangle_feature_matrix_titanic(X)
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_titanic(X_wrangled, y)
    >>> expert_model_titanic = ExpertModelTitanic()
    >>> expert_model_titanic.fit(X_train)
    >>> y_hat = expert_model_titanic.predict(X_valid)
    >>> type(y_hat)
    numpy.ndarray
    >>> y_hat.shape
    (268,)
    """
    ### BEGIN SOLUTION
    def fit(self, X_train):
        mean_age = np.mean(X_train[1])
        self.mean_age = mean_age
        self.survived_dict = {
            (True, True): 1,
            (True, False): 1,
            (False, True): 1,
            (False, False): 0
        }
    def predict(self, X_valid):
        m = X_valid.shape[0]
        y_hat = []
        for row in range(m):
            is_female = X_valid[row, 0] == 0
            is_age_lower_than_mean = X_valid[row, 1] < self.mean_age
            key = (is_female, is_age_lower_than_mean)
            survived = self.survived_dict[key]
            y_hat.append(survived)
        return np.array(y_hat)
    ### END SOLUTION

## 198. 建立 `titanic` 基於機器學習的模型

定義類別 `MachineLearningModelTitanic` 用來建立具有兩個方法 `fit()`、`predict()` 的物件，能夠依據 `split_train_valid_titanic()` 函數所輸出 $X^{train}$ 與 $y^{train}$ 建立基於機器學習的模型，直接使用 Scikit-Learn `LogisticRegression` 類別 `fit()` 與 `predict()` 方法的預測 $\hat{y}$

- 使用 `self`
- 以 `self.attribute` 在類別程式區塊中使用屬性。
- 以 `self.method()` 在類別程式區塊中使用方法。

In [19]:
class MachineLearningModelTitanic:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> X_wrangled = wrangle_feature_matrix_titanic(X)
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_titanic(X_wrangled, y)
    >>> machine_learning_model_titanic = MachineLearningModelTitanic()
    >>> machine_learning_model_titanic.fit(X_train, y_train)
    LogisticRegression()
    >>> y_hat = machine_learning_model_titanic.predict(X_valid)
    >>> type(y_hat)
    numpy.ndarray
    >>> y_hat.shape
    (268,)
    """
    ### BEGIN SOLUTION
    def fit(self, X_train, y_train):
        logistic_regression = LogisticRegression()
        self.model = logistic_regression.fit(X_train, y_train)
        return self.model
    def predict(self, X_valid):
        return self.model.predict(X_valid)
    ### END SOLUTION

## 199. 驗證 `titanic` 的三個模型

定義函數 `validate_model_performance_titanic()` 能夠依據 `split_train_valid_titanic()` 函數所輸出 $y^{valid}$，計算虛假模型、專家模型與基於機器學習模型的表現評估。

- 計算誤分類數。
- 將預期輸出寫在 `return` 之後。

In [20]:
def validate_model_performance_titanic(dummy_y_hat: np.ndarray,
                                            expert_y_hat: np.ndarray,
                                            machine_learning_y_hat: np.ndarray,
                                            y_valid: np.ndarray) -> dict:
    """
    >>> y, X = extract_target_array_feature_matrix_titanic()
    >>> X_wrangled = wrangle_feature_matrix_titanic(X)
    >>> X_train, X_valid, y_train, y_valid = split_train_valid_titanic(X_wrangled, y)
    >>> dummy_model_titanic = DummyModelTitanic()
    >>> dummy_model_titanic.fit(y_train)
    >>> dummy_y_hat = dummy_model_titanic.predict(X_valid)
    >>> expert_model_titanic = ExpertModelTitanic()
    >>> expert_model_titanic.fit(X_train)
    >>> expert_y_hat = expert_model_titanic.predict(X_valid)
    >>> machine_learning_model_titanic = MachineLearningModelTitanic()
    >>> machine_learning_model_titanic.fit(X_train, y_train)
    LogisticRegression()
    >>> machine_learning_y_hat = machine_learning_model_titanic.predict(X_valid)
    >>> validate_model_performance_titanic(dummy_y_hat, expert_y_hat, machine_learning_y_hat, y_valid)
    {'dummy': 118, 'expert': 55, 'machine_learning': 56}
    """
    ### BEGIN SOLUTION
    output_dict = {
        "dummy": (y_valid != dummy_y_hat).sum(),
        "expert": (y_valid != expert_y_hat).sum(),
        "machine_learning": (y_valid != machine_learning_y_hat).sum()
    }
    return output_dict
    ### END SOLUTION

## 200. 以 `titanic` 機器學習模型預測位於 `/home/jovyan/data/titanic` 路徑的 `test.csv`

定義函數 `predict_survived()` 能夠依據 `Age`、`Sex` 與基於機器學習的模型預測 `test.csv` 的 `Survived` 並以 `submission_titanic.csv` 格式匯出至工作目錄。

- 使用 `import_titanic()` 函數。
- 使用 `extract_target_array_feature_matrix_titanic()` 函數。
- 使用 `wrangle_feature_matrix_titanic()` 函數。
- 使用 `split_train_valid_titanic()` 函數。
- 使用 `MachineLearningModelTitanic` 類別。
- 使用 `DataFrame.to_csv("submission_titanic.csv", index=False)`
- 將預期輸出寫在 `return` 之後。

In [21]:
def predict_survived(X_test: pd.core.frame.DataFrame) -> pd.core.frame.DataFrame:
    """
    >>> train, test = import_titanic()
    >>> X_test = test[["PassengerId", "Sex", "Age"]]
    >>> predict_survived(X_test)
         PassengerId  Survived
    0            892         0
    1            893         1
    2            894         0
    3            895         0
    4            896         1
    ..           ...       ...
    413         1305         0
    414         1306         1
    415         1307         0
    416         1308         0
    417         1309         0

    [418 rows x 2 columns]
    >>> submission_csv = pd.read_csv("submission_titanic.csv")
    >>> submission_csv.shape
    (418, 2)
    """
    ### BEGIN SOLUTION
    train, test = import_titanic()
    y, X = extract_target_array_feature_matrix_titanic()
    X_wrangled = wrangle_feature_matrix_titanic(X)
    X_train, X_valid, y_train, y_valid = split_train_valid_titanic(X_wrangled, y)
    machine_learning_model_titanic = MachineLearningModelTitanic()
    machine_learning_model_titanic.fit(X_train, y_train)
    X_test_ndarray = X_test[["Sex", "Age"]].values
    X_test_ndarray = wrangle_feature_matrix_titanic(X_test_ndarray)
    y_hat = machine_learning_model_titanic.predict(X_test_ndarray)
    output_dataframe = pd.DataFrame()
    output_dataframe["PassengerId"] = X_test["PassengerId"].values
    output_dataframe["Survived"] = y_hat
    output_dataframe.to_csv("submission_titanic.csv", index=False)
    return output_dataframe
    ### END SOLUTION