# Python 的 50+ 練習：資料科學學習手冊

> 資料的載入

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，檔案會存放在 `/home/jovyan/data` 資料夾中。
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 執行測試的步驟：
    1. 點選上方選單的 File -> Save Notebook 儲存 exercises.ipynb。
    2. 點選上方選單的 File -> New -> Terminal 開啟終端機。
    3. 在終端機輸入 `python 14-import/test_runner.py` 後按下 Enter 執行測試。

In [5]:
import json
import sqlite3
import pandas as pd

## 098. 自行定義函數 `import_txt_file` 將 `/home/jovyan/data` 中的 `the_shawshank_redemption_summaries.txt` 檔案載入為一個長度 5 的 `list`。

- 預期輸入：None
- 預期輸出：`list`

In [1]:
def import_txt_file() -> list:
    """
    >>> txt_file = import_txt_file()
    >>> type(txt_file)
    list
    >>> len(txt_file)
    5
    """
    ### BEGIN SOLUTION
    with open("/home/jovyan/data/the_shawshank_redemption_summaries.txt") as f:
        out_list = f.readlines()
    return out_list
    ### END SOLUTION

## 099. 自行定義函數 `import_json_file` 將 `/home/jovyan/data` 中的 `imdb_top_rated_movies.json` 檔案載入為一個長度 250 的 `list`。

- 預期輸入：None
- 預期輸出：`list`

In [6]:
def import_json_file() -> list:
    """
    >>> json_file = import_json_file()
    >>> type(json_file)
    list
    >>> len(json_file)
    250
    """
    ### BEGIN SOLUTION
    with open("/home/jovyan/data/imdb_top_rated_movies.json") as f:
        out_list = json.load(f)
    return out_list
    ### END SOLUTION

## 100. 自行定義函數 `import_csv_file` 將 `/home/jovyan/data` 中的 `imdb_top_rated_movies.csv` 檔案載入為一個外型 `(250, 4)` 的資料框。

- 預期輸入：None
- 預期輸出：`pandas.core.frame.DataFrame`

In [8]:
def import_csv_file() -> pd.core.frame.DataFrame:
    """
    >>> csv_file = import_csv_file()
    >>> type(csv_file)
    pandas.core.frame.DataFrame
    >>> csv_file.shape
    (250, 4)
    """
    ### BEGIN SOLUTION
    out_df = pd.read_csv("/home/jovyan/data/imdb_top_rated_movies.csv")
    return out_df
    ### END SOLUTION

## 101. 自行定義函數 `import_excel_file` 將 `/home/jovyan/data` 中的 `imdb_top_rated_movies.xlsx` 檔案載入為一個外型 `(250, 4)` 的資料框。

- 預期輸入：None
- 預期輸出：`pandas.core.frame.DataFrame`

In [11]:
def import_excel_file() -> pd.core.frame.DataFrame:
    """
    >>> excel_file = import_excel_file()
    >>> type(excel_file)
    pandas.core.frame.DataFrame
    >>> excel_file.shape
    (250, 4)
    """
    ### BEGIN SOLUTION
    out_df = pd.read_xlsx("/home/jovyan/data/imdb_top_rated_movies.xlsx")
    return out_df
    ### END SOLUTION

## 102. 自行定義函數 `import_database_table` 將 `/home/jovyan/data` 資料庫 `imdb.db` 中的 `movies` 表格載入為一個外型 `(250, 6)` 的資料框。

- 預期輸入：None
- 預期輸出：`pandas.core.frame.DataFrame`

In [12]:
def import_database_table() -> pd.core.frame.DataFrame:
    """
    >>> database_table = import_database_table()
    >>> type(database_table)
    pandas.core.frame.DataFrame
    >>> database_table.shape
    (250, 6)
    """
    ### BEGIN SOLUTION
    conn = sqlite3.connect("/home/jovyan/data/imdb.db")
    sql_query = """SELECT * FROM movies;"""
    out_df = pd.read_sql(sql_query, conn)
    return out_df
    ### END SOLUTION