# Python 的 50+ 練習：資料科學學習手冊

> 探索性分析

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 由於近期 mybinder.org 的服務不穩定，新增 Google Colab 作為另一個寫作練習題的平台。
- 開始寫作之前，可以先按上方「Copy to Drive」按鈕將筆記本複製到自己的 Google 雲端硬碟。
- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放絕對路徑為 `/content`
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選右上角 Connect
    2. 點選上方選單的 Runtime -> Restart and run all -> Yes -> Run anyway
    3. 移動到 Google Colab 的最後一個儲存格看批改測試結果。
- 先執行下列兩個程式碼儲存格載入需要的模組與下載檔案至 `/content`

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image

In [None]:
!wget -N https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/exercise_index.json
!wget -N https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/data/covid19/time_series_covid19_confirmed_global.csv
!wget -N https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/data/covid19/time_series_covid19_deaths_global.csv

## 171. 載入 `time_series_covid19_confirmed_global.csv`

定義函數 `import_covid19_time_series_confirmed()` 將位於 `/content` 路徑的 `time_series_covid19_confirmed_global.csv` 載入。

- 運用絕對路徑。
- 使用 `pd.read_csv()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_covid19_time_series_confirmed() -> pd.core.frame.DataFrame:
    """
    >>> covid19_time_series_confirmed = import_covid19_time_series_confirmed()
    >>> covid19_time_series_confirmed.shape
    (280, 735)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 172. 確診人數前十多的國家

定義函數 `find_top_ten_confirmed_by_country_region()` 選擇 `1/21/22`，並依照 `Country/Region` 變數加總後排序得到確診人數前十多的國家。

- 使用 `import_covid19_time_series_confirmed()` 函數。
- 運用選擇欄位技巧。
- 運用分組聚合技巧。
- 運用排序技巧。
- 運用 Fancy indexing
- 將預期輸出寫在 `return` 之後。

In [None]:
def find_top_ten_confirmed_by_country_region() -> pd.core.series.Series:
    """
    >>> top_ten_confirmed_by_country_region = find_top_ten_confirmed_by_country_region()
    >>> top_ten_confirmed_by_country_region
    Country/Region
    Germany            8635461
    Spain              8975458
    Italy              9603856
    Russia            10804032
    Turkey            10808770
    United Kingdom    15814617
    France            16116748
    Brazil            23766499
    India             38903731
    US                70209840
    Name: 1/21/22, dtype: int64
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 173. 用水平長條圖視覺化確診人數前十多的國家

定義函數 `export_top_ten_confirmed_by_country_region()` 將確診人數前十多的國家輸出為水平長條圖，圖檔名為 `confirmed_barh.png`。

![](https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/19-exploration/confirmed_barh.jpg)

- 使用 `find_top_ten_confirmed_by_country_region()` 函數。
- 使用 `plt.subplots()` 函數。
- 使用 `AxesSubplot.barh()`
- 使用 `fig.savefig()`

In [None]:
def export_top_ten_confirmed_by_country_region() -> None:
    """
    >>> export_top_ten_confirmed_by_country_region()
    >>> im = Image.open("confirmed_barh.png")
    >>> im.format
    'PNG'
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 174. 載入 `time_series_covid19_deaths_global.csv`

定義函數 `import_covid19_time_series_deaths()` 將位於 `/content` 路徑的 `time_series_covid19_deaths_global.csv` 載入。

- 運用絕對路徑。
- 使用 `pd.read_csv()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_covid19_time_series_deaths() -> pd.core.frame.DataFrame:
    """
    >>> covid19_time_series_deaths = import_covid19_time_series_deaths()
    >>> covid19_time_series_deaths.shape
    (280, 735)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 175. 死亡人數前十多的國家

定義函數 `find_top_ten_deaths_by_country_region()` 選擇 `1/21/22`，並依照 `Country/Region` 變數加總後排序得到死亡人數前十多的國家。

- 使用 `import_covid19_time_series_deaths()` 函數。
- 運用選擇欄位技巧。
- 運用分組聚合技巧。
- 運用排序技巧。
- 運用 Fancy indexing
- 將預期輸出寫在 `return` 之後。

In [None]:
def find_top_ten_deaths_by_country_region() -> pd.core.series.Series:
    """
    >>> top_ten_deaths_by_country_region = find_top_ten_deaths_by_country_region()
    >>> top_ten_deaths_by_country_region
    Country/Region
    Iran              132172
    Italy             142963
    Indonesia         144201
    United Kingdom    154001
    Peru              203994
    Mexico            302721
    Russia            318200
    India             488884
    Brazil            622875
    US                864556
    Name: 1/21/22, dtype: int64
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 176. 用水平長條圖視覺化死亡人數前十多的國家

定義函數 `export_top_ten_deaths_by_country_region()` 將死亡人數前十多的國家輸出為水平長條圖，圖檔名為 `deaths_barh.png`

![](https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/19-exploration/deaths_barh.jpg)

- 使用 `find_top_ten_deaths_by_country_region()` 函數。
- 使用 `plt.subplots()` 函數。
- 使用 `AxesSubplot.barh()`
- 使用 `fig.savefig()`

In [None]:
def export_top_ten_deaths_by_country_region() -> None:
    """
    >>> export_top_ten_deaths_by_country_region()
    >>> im = Image.open("deaths_barh.png")
    >>> im.format
    'PNG'
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 177. 轉置日期欄位與確診數並以日期分組

定義函數 `sum_confirmed_by_date()` 將 `time_series_covid19_confirmed_global.csv` 中 `Province/State`、`Country/Region`、`Lat`、`Long` 以外日期的欄位與其對應的確診數轉置為長格式的外觀，變數名稱分別取為 `Date`、`Confirmed`。依照 `Date` 變數分組加總 `Confirmed`，並且將 `Date` 轉換為 `DatetimeIndex`

- 使用 `import_covid19_time_series_confirmed()` 函數。
- 使用 `pd.melt()` 函數。
- 運用分組聚合技巧。
- 使用 `pd.to_datetime()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def sum_confirmed_by_date() -> pd.core.series.Series:
    """
    >>> confirmed_by_date = sum_confirmed_by_date()
    >>> confirmed_by_date
    Date
    2020-01-22          557
    2020-01-23          655
    2020-01-24          941
    2020-01-25         1434
    2020-01-26         2118
                    ...    
    2022-01-17    331071195
    2022-01-18    334769899
    2022-01-19    339002398
    2022-01-20    342581803
    2022-01-21    346464304
    Name: Confirmed, Length: 731, dtype: int64
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 178. 轉置日期欄位與死亡數並以日期分組

定義函數 `sum_deaths_by_date()` 將 `time_series_covid19_deaths_global.csv` 中 `Province/State`、`Country/Region`、`Lat`、`Long` 以外日期的欄位與其對應的死亡數轉置為長格式的外觀，變數名稱分別取為 `Date`、`Deaths`。依照 `Date` 變數分組加總 `Deaths`，並且將 `Date` 轉換為 `DatetimeIndex`

- 使用 `import_covid19_time_series_deaths()` 函數。
- 使用 `pd.melt()` 函數。
- 運用分組聚合技巧。
- 使用 `pd.to_datetime()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def sum_deaths_by_date() -> pd.core.series.Series:
    """
    >>> deaths_by_date = sum_deaths_by_date()
    >>> deaths_by_date
    Date
    2020-01-22         17
    2020-01-23         18
    2020-01-24         26
    2020-01-25         42
    2020-01-26         56
                   ...   
    2022-01-17    5547087
    2022-01-18    5555528
    2022-01-19    5565940
    2022-01-20    5575061
    2022-01-21    5585224
    Name: Deaths, Length: 731, dtype: int64
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 179. 關聯確診數與死亡數

定義函數 `merge_confirmed_deaths_series()` 利用日期將全球累計確診數與死亡數的時間序列關聯為一個 `DataFrame`

- 使用 `sum_confirmed_by_date()` 函數。
- 使用 `sum_deaths_by_date()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def merge_confirmed_deaths_series() -> pd.core.frame.DataFrame:
    """
    >>> merged_confirmed_deaths = merge_confirmed_deaths_series()
    >>> merged_confirmed_deaths
                Confirmed   Deaths
    Date                          
    2020-01-22        557       17
    2020-01-23        655       18
    2020-01-24        941       26
    2020-01-25       1434       42
    2020-01-26       2118       56
    ...               ...      ...
    2022-01-17  331071195  5547087
    2022-01-18  334769899  5555528
    2022-01-19  339002398  5565940
    2022-01-20  342581803  5575061
    2022-01-21  346464304  5585224

    [731 rows x 2 columns]
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 180. 用線圖視覺化全球累計確診數與死亡數的時間序列

定義函數 `export_time_series_subplots()` 將全球累計確診數與死亡數的時間序列輸出為 `(1, 2)` 的子圖，圖檔名為 `time_series_subplots.png`

![](https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/19-exploration/time_series_subplots.jpg)

- 使用 `merge_confirmed_deaths_series()` 函數。
- 使用 `plt.subplots(1, 2, figsize=(15, 4))` 函數。
- 運用繪製子圖技巧。
- 使用 `AxesSubplot.plot()`
- 使用 `AxesSubplot.set_title()`
- 使用 `fig.savefig()`

In [None]:
def export_time_series_subplots() -> None:
    """
    >>> export_time_series_subplots()
    >>> im = Image.open("time_series_subplots.png")
    >>> im.format
    'PNG'
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 練習題到此結束，以下的儲存格可以忽略

In [None]:
import unittest
import json

def run_suite(test_class, chapter_index):
    suite = unittest.TestLoader().loadTestsFromTestCase(test_class)
    runner = unittest.TextTestRunner(verbosity=2)
    test_results = runner.run(suite)
    number_of_failures = len(test_results.failures)
    number_of_errors = len(test_results.errors)
    number_of_test_runs = test_results.testsRun
    number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)
    with open("exercise_index.json", "r") as f:
        exercise_index = json.load(f)
    chapter_name = exercise_index[chapter_index]["chapter_name"]
    number_of_total_questions = 0
    number_of_completed_questions = 0
    for i in range(len(exercise_index)):
        number_of_total_questions += exercise_index[i]["number_of_exercises"]
        if i < chapter_index:
            number_of_completed_questions += exercise_index[i]["number_of_exercises"]
    number_of_completed_questions += number_of_successes
    chapter_percentage = number_of_successes * 100 / number_of_test_runs
    overall_percentage = number_of_completed_questions * 100 / number_of_total_questions
    print("你在「{}」章節的練習題完成率為 ... {:.2f}% ({}/{})".format(chapter_name, chapter_percentage, number_of_successes, number_of_test_runs))
    print("整體課程練習題的累計完成率為 ... {:.2f}% ({}/{})".format(overall_percentage, number_of_completed_questions, number_of_total_questions))
    if chapter_percentage == 100 and chapter_index < 19:
        print("表現得很好，你已經完成「{}」所有習題，我們繼續往下個章節：「{}」前進！".format(exercise_index[chapter_index]["chapter_name"], exercise_index[chapter_index + 1]["chapter_name"]))
        if chapter_index == 4:
            print("太棒了，你已經完成「Python 的 50+ 練習」的第一部分：Python 程式設計的基礎觀念，接下來還有三個部分等你來挑戰！")
        elif chapter_index == 8:
            print("表現得非常好，你已經完成「Python 的 50+ 練習」的第二部分：Python 程式設計的進階觀念，接著讓我們邁向資料科學！")
        elif chapter_index == 12:
            print("太令人佩服，你已經完成「Python 的 50+ 練習」的第三部分：Python 資料科學的基礎，距離完課只剩下最後一哩路！")
    elif chapter_percentage == 100 and chapter_index == 19:
        print("恭喜完課，你已經完成「Python 的 50+ 練習」所有習題，能夠堅持到底完成所有的教學影片與練習題真是非常了不起！後面已經沒有練習題了，你現在是一位擅長寫程式處理資料的分析師！")
    elif chapter_percentage >= 50:
        print("你已經完成「{}」章節一半以上的練習，繼續加油！".format(chapter_name))

class TestExploration(unittest.TestCase):
    def test_171_import_covid19_time_series_confirmed(self):
        covid19_time_series_confirmed = import_covid19_time_series_confirmed()
        self.assertIsInstance(covid19_time_series_confirmed, pd.core.frame.DataFrame)
        self.assertEqual(covid19_time_series_confirmed.shape, (280, 735))
    def test_172_find_top_ten_confirmed_by_country_region(self):
        top_ten_confirmed_by_country_region = find_top_ten_confirmed_by_country_region()
        self.assertIsInstance(top_ten_confirmed_by_country_region, pd.core.series.Series)
        self.assertEqual(top_ten_confirmed_by_country_region.size, 10)
    def test_173_export_top_ten_confirmed_by_country_region(self):
        export_top_ten_confirmed_by_country_region()
        im = Image.open("confirmed_barh.png")
        self.assertEqual(im.format, 'PNG')
        #im_test = Image.open("/home/jovyan/test-images/confirmed_barh.png")
        #diff_sum = (np.array(im) - np.array(im_test)).sum()
        #self.assertEqual(diff_sum, 0)
    def test_174_import_covid19_time_series_deaths(self):
        covid19_time_series_deaths = import_covid19_time_series_deaths()
        self.assertIsInstance(covid19_time_series_deaths, pd.core.frame.DataFrame)
        self.assertEqual(covid19_time_series_deaths.shape, (280, 735))
    def test_175_find_top_ten_deaths_by_country_region(self):
        top_ten_deaths_by_country_region = find_top_ten_deaths_by_country_region()
        self.assertIsInstance(top_ten_deaths_by_country_region, pd.core.series.Series)
        self.assertEqual(top_ten_deaths_by_country_region.size, 10)
    def test_176_export_top_ten_deaths_by_country_region(self):
        export_top_ten_deaths_by_country_region()
        im = Image.open("deaths_barh.png")
        self.assertEqual(im.format, 'PNG')
        #im_test = Image.open("/home/jovyan/test-images/deaths_barh.png")
        #diff_sum = (np.array(im) - np.array(im_test)).sum()
        #self.assertEqual(diff_sum, 0)
    def test_177_sum_confirmed_by_date(self):
        confirmed_by_date = sum_confirmed_by_date()
        self.assertIsInstance(confirmed_by_date, pd.core.series.Series)
        self.assertEqual(confirmed_by_date.size, 731)
    def test_178_sum_deaths_by_date(self):
        deaths_by_date = sum_deaths_by_date()
        self.assertIsInstance(deaths_by_date, pd.core.series.Series)
        self.assertEqual(deaths_by_date.size, 731)
    def test_179_merge_confirmed_deaths_series(self):
        merged_confirmed_deaths = merge_confirmed_deaths_series()
        self.assertIsInstance(merged_confirmed_deaths, pd.core.frame.DataFrame)
        self.assertEqual(merged_confirmed_deaths.shape, (731, 2))
    def test_180_export_time_series_subplots(self):
        export_time_series_subplots()
        im = Image.open("time_series_subplots.png")
        self.assertEqual(im.format, 'PNG')
        #im_test = Image.open("/home/jovyan/test-images/time_series_subplots.png")
        #diff_sum = (np.array(im) - np.array(im_test)).sum()
        #self.assertEqual(diff_sum, 0)

run_suite(TestExploration, 18)