# Python 的 50+ 練習：資料科學學習手冊

> 資料的載入

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 練習題閒置超過 10 分鐘會自動斷線，只要重新點選練習題連結即可重新啟動。
- 第一個程式碼儲存格會將可能用得到的模組載入。
- 如果練習題需要載入檔案，請指定絕對路徑 `/home/jovyan/data/{file_path}`
- 練習題已經給定函數、類別、預期輸入或參數名稱，我們只需要寫作程式區塊。同時也給定函數的類別提示，說明預期輸入以及預期輸出的類別。
- 說明（Docstring）會描述測試如何進行，閱讀說明能夠暸解預期輸入以及預期輸出之間的關係，幫助我們更快解題。
- 請在 `### BEGIN SOLUTION` 與 `### END SOLUTION` 這兩個註解之間寫作函數或者類別的程式區塊。
- 將預期輸出放置在 `return` 保留字之後，若只是用 `print()` 函數將預期輸出印出無法通過測試。
- 語法錯誤（`SyntaxError`）或縮排錯誤（`IndentationError`）等將會導致測試失效，測試之前應該先在筆記本使用函數觀察是否與說明（Docstring）描述的功能相符。
- 如果卡關，可以先看練習題詳解或者複習課程單元影片之後再繼續寫作。
- 執行測試的步驟：
    1. 點選上方選單的 File -> Save Notebook 儲存 exercises.ipynb。
    2. 點選上方選單的 File -> New -> Terminal 開啟終端機。
    3. 在終端機輸入 `python 14-import/test_runner.py` 後按下 Enter 執行測試。

In [None]:
import json
import sqlite3
import pandas as pd

## 111. 載入 `the_shawshank_redemption_summaries.txt`

定義函數 `import_txt_file()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `the_shawshank_redemption_summaries.txt` 載入為一個 `list`。

- 指定絕對路徑。
- 運用 `with` 敘述。
- 使用 `open()` 函數。
- 使用 `TextIOWrapper.readlines()`
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_txt_file() -> list:
    """
    >>> txt_file = import_txt_file()
    >>> type(txt_file)
    list
    >>> len(txt_file)
    5
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 112. 載入 `teams_rowbased.json`

定義函數 `import_json_file_as_list()` 將位於 `/home/jovyan/data/nba` 路徑的 `teams_rowbased.json` 載入為一個 `list`。

- 指定絕對路徑。
- 運用 `with` 敘述。
- 使用 `open()` 函數。
- 使用 `json.load()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_json_file_as_list() -> list:
    """
    >>> json_file_as_list = import_json_file_as_list()
    >>> type(json_file_as_list)
    list
    >>> len(json_file_as_list)
    34
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 113. 載入 `teams_columnbased.json`

定義函數 `import_json_file_as_dataframe()` 將位於 `/home/jovyan/data/nba` 路徑的 `teams_columnbased.json` 載入為一個 `DataFrame`。

- 指定絕對路徑。
- 使用 `pd.read_json()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_json_file_as_dataframe() -> pd.core.frame.DataFrame:
    """
    >>> json_file_as_dataframe = import_json_file_as_dataframe()
    >>> type(json_file_as_dataframe)
    pandas.core.frame.DataFrame
    >>> json_file_as_dataframe.shape
    (34, 12)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 114. 載入 `movies.csv`

定義函數 `import_csv_file()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `movies.csv` 載入為一個 `DataFrame`

- 指定絕對路徑。
- 使用 `pd.read_csv()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_csv_file() -> pd.core.frame.DataFrame:
    """
    >>> csv_file = import_csv_file()
    >>> type(csv_file)
    pandas.core.frame.DataFrame
    >>> csv_file.shape
    (250, 6)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 115. 載入 `imdb.xlsx` 中的 `movies` 試算表

自行定義函數 `import_xlsx_file_movies()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `imdb.xlsx` 中的 `movies` 試算表載入。

- 指定絕對路徑。
- 使用 `pd.read_excel()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_xlsx_file_movies() -> pd.core.frame.DataFrame:
    """
    >>> xlsx_file_movies = import_xlsx_file_movies()
    >>> type(xlsx_file_movies)
    pandas.core.frame.DataFrame
    >>> xlsx_file_movies.shape
    (250, 6)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 116. 載入 `imdb.xlsx` 中的 `casting` 試算表

自行定義函數 `import_xlsx_file_casting()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `imdb.xlsx` 中的 `casting` 試算表載入。

- 指定絕對路徑。
- 使用 `pd.read_excel()` 函數。
- 指定 `sheet_name` 參數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_xlsx_file_casting() -> pd.core.frame.DataFrame:
    """
    >>> xlsx_file_casting = import_xlsx_file_casting()
    >>> type(xlsx_file_casting)
    pandas.core.frame.DataFrame
    >>> xlsx_file_casting.shape
    (3584, 3)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 117. 載入 `imdb.xlsx` 中的 `actors` 試算表

自行定義函數 `import_xlsx_file_actors()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `imdb.xlsx` 中的 `actors` 試算表載入。

- 指定絕對路徑。
- 使用 `pd.read_excel()` 函數。
- 指定 `sheet_name` 參數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_xlsx_file_actors() -> pd.core.frame.DataFrame:
    """
    >>> xlsx_file_actors = import_xlsx_file_actors()
    >>> type(xlsx_file_actors)
    pandas.core.frame.DataFrame
    >>> xlsx_file_actors.shape
    (3108, 2)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 118. 載入 `imdb.db` 中的 `movies` 資料表

自行定義函數 `import_database_table_movies()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `imdb.db` 中的 `movies` 資料表載入。

```sql
SELECT *
  FROM movies;
```

- 指定絕對路徑。
- 使用 `sqlite3.connect()` 函數。
- 運用給定的 SQL 查詢。
- 使用 `pd.read_sql()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_database_table_movies() -> pd.core.frame.DataFrame:
    """
    >>> database_table_movies = import_database_table_movies()
    >>> type(database_table_movies)
    pandas.core.frame.DataFrame
    >>> database_table_movies.shape
    (250, 6)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 119. 載入 `imdb.db` 中的 `casting` 資料表

自行定義函數 `import_database_table_casting()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `imdb.db` 中的 `casting` 資料表載入。

```sql
SELECT *
  FROM casting;
```

- 使用絕對路徑。
- 使用 `sqlite3.connect()` 函數。
- 運用給定的 SQL 查詢。
- 使用 `pd.read_sql()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_database_table_casting() -> pd.core.frame.DataFrame:
    """
    >>> database_table_casting = import_database_table_casting()
    >>> type(database_table_casting)
    pandas.core.frame.DataFrame
    >>> database_table_casting.shape
    (3584, 3)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION

## 120. 載入 `imdb.db` 中的 `actors` 資料表

自行定義函數 `import_database_table_actors()` 將位於 `/home/jovyan/data/internet-movie-database` 路徑的 `imdb.db` 中的 `actors` 資料表載入。

```sql
SELECT *
  FROM actors;
```

- 指定絕對路徑。
- 使用 `sqlite3.connect()` 函數。
- 運用給定的 SQL 查詢。
- 使用 `pd.read_sql()` 函數。
- 將預期輸出寫在 `return` 之後。

In [None]:
def import_database_table_actors() -> pd.core.frame.DataFrame:
    """
    >>> database_table_actors = import_database_table_actors()
    >>> type(database_table_actors)
    pandas.core.frame.DataFrame
    >>> database_table_actors.shape
    (3108, 2)
    """
    ### BEGIN SOLUTION
    
    ### END SOLUTION