# Python 的 50+ 練習：資料科學學習手冊

> 資料科學模組 Pandas 入門

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 由於近期 mybinder.org 的服務不穩定，新增 Google Colab 作為另一個寫作練習題的平台。
- 開始寫作之前，可以先按上方「Copy to Drive」按鈕將筆記本複製到自己的 Google 雲端硬碟。
- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案存放絕對路徑為 `/content`
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選右上角 Connect
    2. 點選上方選單的 Runtime -> Restart and run all -> Yes -> Run anyway
    3. 移動到 Google Colab 的最後一個儲存格看批改測試結果。

In [None]:
import numpy as np
import pandas as pd

## 081. 建立前 5 個偶數的 `Index`

定義函數 `create_first_five_evens_index()` 能夠回傳指定的 `Index`

- 使用 `np.arange()` 函數。
- 使用 `pd.Index()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_five_evens_index() -> pd.core.indexes.numeric.Int64Index:
    """
    >>> first_five_evens_index = create_first_five_evens_index()
    >>> first_five_evens_index
    Int64Index([0, 2, 4, 6, 8], dtype='int64')
    >>> type(first_five_evens_index)
    pandas.core.indexes.numeric.Int64Index
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 082. 建立包含指定文字的 `Index`

定義函數 `create_a_str_index()` 能夠回傳指定的 `Index`

- 使用 `pd.Index()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_a_str_index() -> pd.core.indexes.base.Index:
    """
    >>> a_str_index = create_a_str_index()
    >>> a_str_index
    Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')
    >>> type(a_str_index)
    pandas.core.indexes.base.Index
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 083. 建立前 5 個偶數的 `Series`

定義函數 `create_first_five_evens_series()` 能夠回傳指定的 `Series`

- 使用 `np.arange()` 函數。
- 使用 `pd.Series()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_five_evens_series() -> pd.core.series.Series:
    """
    >>> first_five_evens_series = create_first_five_evens_series()
    >>> first_five_evens_series
    0    0
    1    2
    2    4
    3    6
    4    8
    dtype: int64
    >>> type(first_five_evens_series)
    pandas.core.series.Series
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 084. 調整前 5 個偶數 `Series` 的 `Index`

定義函數 `update_first_five_evens_series_index()` 能夠調整前 5 個偶數 `Series` 的 `Index`

- 使用 `create_first_five_evens_series()` 函數。
- 運用 `Series.index`
- 將預期輸出寫在 `return` 之後。

In [None]:
def update_first_five_evens_series_index() -> pd.core.series.Series:
    """
    >>> updated_first_five_evens_series_index = update_first_five_evens_series_index()
    >>> updated_first_five_evens_series_index
    1st    0
    2nd    2
    3rd    4
    4th    6
    5th    8
    dtype: int64
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 085. 建立前 5 個奇數的 `Series`

定義函數 `create_first_five_odds_series()` 能夠回傳指定的 `Series`

- 使用 `np.arange()` 函數。
- 使用 `pd.Series()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_five_odds_series() -> pd.core.series.Series:
    """
    >>> first_five_odds_series = create_first_five_odds_series()
    >>> first_five_odds_series
    1st    1
    2nd    3
    3rd    5
    4th    7
    5th    9
    dtype: int64
    >>> type(first_five_odds_series)
    pandas.core.series.Series
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 086. 建立前 5 個質數的 `Series`

定義函數 `create_first_five_primes_series()` 能夠回傳指定的 `Series`

- 使用 `np.array()` 函數。
- 使用 `pd.Series()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_five_primes_series() -> pd.core.series.Series:
    """
    >>> first_five_primes_series = create_first_five_primes_series()
    >>> first_five_primes_series
    1st     2
    2nd     3
    3rd     5
    4th     7
    5th    11
    dtype: int64
    >>> type(first_five_primes_series)
    pandas.core.series.Series
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 087. 建立前 5 個整數的 `DataFrame`

定義函數 `create_first_five_integer_dataframe()` 能夠回傳指定的 `DataFrame`

- 使用 `update_first_five_evens_series_index()` 函數。
- 使用 `create_first_five_odds_series()` 函數。
- 使用 `create_first_five_primes_series()` 函數。
- 使用 `pd.DataFrame()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_first_five_integer_dataframe() -> pd.core.frame.DataFrame:
    """
    >>> first_five_integer_dataframe = create_first_five_integer_dataframe()
    >>> first_five_integer_dataframe
         even  odd  prime
    1st     0    1      2
    2nd     2    3      3
    3rd     4    5      5
    4th     6    7      7
    5th     8    9     11
    >>> type(first_five_integer_dataframe)
    pandas.core.frame.DataFrame
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 088. 建立魔戒三部曲電影資訊的 `DataFrame`

定義函數 `create_lord_of_the_rings_dataframe()` 能夠回傳指定的 `DataFrame`

- 使用 `pd.DataFrame()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_lord_of_the_rings_dataframe() -> pd.core.frame.DataFrame:
    """
    >>> lord_of_the_rings_dataframe = create_lord_of_the_rings_dataframe()
    >>> lord_of_the_rings_dataframe
                            title       director  imdb_rating  release_year
    0  The Fellowship of the Ring  Peter Jackson          8.8          2001
    1              The Two Towers  Peter Jackson          8.7          2002
    2      The Return of the King  Peter Jackson          8.9          2003
    >>> type(lord_of_the_rings_dataframe)
    pandas.core.frame.DataFrame
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 089. 建立黑暗騎士三部曲電影資訊的 `DataFrame`

定義函數 `create_dark_knight_dataframe()` 能夠回傳指定的 `DataFrame`

- 使用 `pd.DataFrame()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def create_dark_knight_dataframe() -> pd.core.frame.DataFrame:
    """
    >>> dark_knight_dataframe = create_dark_knight_dataframe()
    >>> dark_knight_dataframe
                       title           director  imdb_rating  release_year
    0          Batman Begins  Christopher Nolan          8.2          2005
    1        The Dark Knight  Christopher Nolan          9.0          2008
    2  The Dark Knight Rises  Christopher Nolan          8.3          2012
    >>> type(dark_knight_dataframe)
    pandas.core.frame.DataFrame
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 090. 用 `dict` 摘要 `DataFrame`

定義函數 `summarize_dataframe_with_dict` 回傳有四組鍵值對應的 `dict` 摘要輸入的 `DataFrame`

- 運用 `DataFrame.shape`
- 運用 `DataFrame.index`
- 運用 `DataFrame.columns`
- 將預期輸出寫在 `return` 之後。

In [None]:
def summarize_dataframe_with_dict(x: pd.core.frame.DataFrame) -> dict:
    """
    >>> lord_of_the_rings_dataframe = create_lord_of_the_rings_dataframe()
    >>> dark_knight_dataframe = create_dark_knight_dataframe()
    >>> summarize_dataframe_with_dict(lord_of_the_rings_dataframe)
    {'shape': (3, 4),
     'index': RangeIndex(start=0, stop=3, step=1),
     'columns': Index(['title', 'director', 'imdb_rating', 'release_year'], dtype='object')}
    >>> summarize_dataframe_with_dict(dark_knight_dataframe)
    {'shape': (3, 4),
     'index': RangeIndex(start=0, stop=3, step=1),
     'columns': Index(['title', 'director', 'imdb_rating', 'release_year'], dtype='object')}
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 練習題到此結束，以下的儲存格可以忽略

In [None]:
!wget -N https://raw.githubusercontent.com/datainpoint/classroom-hahow-pythonfiftyplus/main/exercise_index.json

In [None]:
import unittest
import json

def run_suite(test_class, chapter_index):
    suite = unittest.TestLoader().loadTestsFromTestCase(test_class)
    runner = unittest.TextTestRunner(verbosity=2)
    test_results = runner.run(suite)
    number_of_failures = len(test_results.failures)
    number_of_errors = len(test_results.errors)
    number_of_test_runs = test_results.testsRun
    number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)
    with open("exercise_index.json", "r") as f:
        exercise_index = json.load(f)
    chapter_name = exercise_index[chapter_index]["chapter_name"]
    number_of_total_questions = 0
    number_of_completed_questions = 0
    for i in range(len(exercise_index)):
        number_of_total_questions += exercise_index[i]["number_of_exercises"]
        if i < chapter_index:
            number_of_completed_questions += exercise_index[i]["number_of_exercises"]
    number_of_completed_questions += number_of_successes
    chapter_percentage = number_of_successes * 100 / number_of_test_runs
    overall_percentage = number_of_completed_questions * 100 / number_of_total_questions
    print("你在「{}」章節的練習題完成率為 ... {:.2f}% ({}/{})".format(chapter_name, chapter_percentage, number_of_successes, number_of_test_runs))
    print("整體課程練習題的累計完成率為 ... {:.2f}% ({}/{})".format(overall_percentage, number_of_completed_questions, number_of_total_questions))
    if chapter_percentage == 100 and chapter_index < 19:
        print("表現得很好，你已經完成「{}」所有習題，我們繼續往下個章節：「{}」前進！".format(exercise_index[chapter_index]["chapter_name"], exercise_index[chapter_index + 1]["chapter_name"]))
        if chapter_index == 4:
            print("太棒了，你已經完成「Python 的 50+ 練習」的第一部分：Python 程式設計的基礎觀念，接下來還有三個部分等你來挑戰！")
        elif chapter_index == 8:
            print("表現得非常好，你已經完成「Python 的 50+ 練習」的第二部分：Python 程式設計的進階觀念，接著讓我們邁向資料科學！")
        elif chapter_index == 12:
            print("太令人佩服，你已經完成「Python 的 50+ 練習」的第三部分：Python 資料科學的基礎，距離完課只剩下最後一哩路！")
    elif chapter_percentage == 100 and chapter_index == 19:
        print("恭喜完課，你已經完成「Python 的 50+ 練習」所有習題，能夠堅持到底完成所有的教學影片與練習題真是非常了不起！後面已經沒有練習題了，你現在是一位擅長寫程式處理資料的分析師！")
    elif chapter_percentage >= 50:
        print("你已經完成「{}」章節一半以上的練習，繼續加油！".format(chapter_name))

class TestPandas(unittest.TestCase):
    def test_081_create_first_five_evens_index(self):
        first_five_evens_index = create_first_five_evens_index()
        self.assertEqual(first_five_evens_index.size, 5)
        self.assertEqual(first_five_evens_index[0], 0)
        self.assertEqual(first_five_evens_index[-1], 8)
    def test_082_create_a_str_index(self):
        a_str_index = create_a_str_index()
        self.assertEqual(a_str_index.size, 5)
        self.assertEqual(a_str_index[0], '1st')
        self.assertEqual(a_str_index[-1], '5th')
    def test_083_create_first_five_evens_series(self):
        first_five_evens_series = create_first_five_evens_series()
        self.assertEqual(first_five_evens_series.size, 5)
        self.assertEqual(first_five_evens_series[0], 0)
        self.assertEqual(first_five_evens_series[4], 8)
        self.assertIsInstance(first_five_evens_series, pd.core.series.Series)
    def test_084_update_first_five_evens_series_index(self):
        updated_first_five_evens_series_index = update_first_five_evens_series_index()
        self.assertIsInstance(updated_first_five_evens_series_index, pd.core.series.Series)
        pd.testing.assert_index_equal(updated_first_five_evens_series_index.index, pd.Index(['1st', '2nd', '3rd', '4th', '5th']))
        np.testing.assert_array_equal(updated_first_five_evens_series_index.values, np.array([0, 2, 4, 6, 8]))
    def test_085_create_first_five_odds_series(self):
        first_five_odds_series = create_first_five_odds_series()
        self.assertIsInstance(first_five_odds_series, pd.core.series.Series)
        pd.testing.assert_index_equal(first_five_odds_series.index, pd.Index(['1st', '2nd', '3rd', '4th', '5th']))
        np.testing.assert_array_equal(first_five_odds_series.values, np.array([1, 3, 5, 7, 9]))
    def test_086_create_first_five_primes_series(self):
        first_five_primes_series = create_first_five_primes_series()
        self.assertIsInstance(first_five_primes_series, pd.core.series.Series)
        pd.testing.assert_index_equal(first_five_primes_series.index, pd.Index(['1st', '2nd', '3rd', '4th', '5th']))
        np.testing.assert_array_equal(first_five_primes_series.values, np.array([2, 3, 5, 7, 11]))
    def test_087_create_first_five_integer_dataframe(self):
        first_five_integer_dataframe = create_first_five_integer_dataframe()
        self.assertIsInstance(first_five_integer_dataframe, pd.core.frame.DataFrame)
        pd.testing.assert_index_equal(first_five_integer_dataframe.index, pd.Index(['1st', '2nd', '3rd', '4th', '5th']))
        self.assertEqual(first_five_integer_dataframe.shape, (5, 3))
    def test_088_create_lord_of_the_rings_dataframe(self):
        lord_of_the_rings_dataframe = create_lord_of_the_rings_dataframe()
        self.assertIsInstance(lord_of_the_rings_dataframe, pd.core.frame.DataFrame)
        self.assertEqual(lord_of_the_rings_dataframe.shape, (3, 4))
    def test_089_create_dark_knight_dataframe(self):
        dark_knight_dataframe = create_dark_knight_dataframe()
        self.assertIsInstance(dark_knight_dataframe, pd.core.frame.DataFrame)
        self.assertEqual(dark_knight_dataframe.shape, (3, 4))
    def test_090_summarize_dataframe_with_dict(self):
        lord_of_the_rings_dataframe = create_lord_of_the_rings_dataframe()
        dark_knight_dataframe = create_dark_knight_dataframe()
        summary = summarize_dataframe_with_dict(lord_of_the_rings_dataframe)
        self.assertEqual(summary["shape"], (3, 4))
        pd.testing.assert_index_equal(summary["columns"], pd.Index(['title', 'director', 'imdb_rating', 'release_year']))
        summary = summarize_dataframe_with_dict(dark_knight_dataframe)
        self.assertEqual(summary["shape"], (3, 4))
        pd.testing.assert_index_equal(summary["columns"], pd.Index(['title', 'director', 'imdb_rating', 'release_year']))

run_suite(TestPandas, 10)