# SQL 的五十道練習

> 篩選資料

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 在每份練習題的開始，都會先將四個學習資料庫載入環境。
- 因此 SQL 可以指定四個學習資料庫中的資料表，不需要額外指定資料庫。
- 在 SQL 語法起點與 SQL 語法終點這兩個單行註解之間撰寫能夠得到預期結果的 SQL。
- 可以先在自己電腦的 SQLiteStudio 或者 DBeaver 寫出跟預期結果相同的 SQL 後再複製貼上到練習題。
- 執行測試的方式為點選上方選單的 Kernel -> Restart & Run All -> Restart and Run All Cells。
- 可以每寫一題就執行測試，也可以全部寫完再執行測試。
- 練習題閒置超過 10 分鐘會自動斷線，這時只要重新點選練習題連結即可重新啟動。

In [8]:
import sqlite3
import unittest
import json
import os
import numpy as np
import pandas as pd
conn = sqlite3.connect('../databases/nba.db')
conn.execute("""ATTACH '../databases/covid19.db' AS covid19""")
conn.execute("""ATTACH '../databases/twElection2020.db' AS twElection2020""")
conn.execute("""ATTACH '../databases/imdb.db' AS imdb""")

<sqlite3.Cursor at 0x177522d6b20>

## 17. 從 `covid19` 資料庫的 `time_series` 資料表將台灣的觀測值篩選出來，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(435, 4) 的查詢結果。

```
    Country_Region        Date  Confirmed  Daily_Cases
0           Taiwan  2020-01-22          1            1
1           Taiwan  2020-01-23          1            0
2           Taiwan  2020-01-24          3            2
3           Taiwan  2020-01-25          3            0
4           Taiwan  2020-01-26          4            1
..             ...         ...        ...          ...
430         Taiwan  2021-03-27       1020            7
431         Taiwan  2021-03-28       1022            2
432         Taiwan  2021-03-29       1023            1
433         Taiwan  2021-03-30       1024            1
434         Taiwan  2021-03-31       1030            6

[435 rows x 4 columns]
```

In [10]:
filter_tw_from_time_series =\
"""
-- SQL 查詢語法起點

SELECT Country_Region, Date, Confirmed, Daily_Cases
FROM time_series
WHERE Country_Region = "Taiwan"

-- SQL 查詢語法終點
"""

## 18. 從 `imdb` 資料庫的 `movies` 資料表將上映年份為 1994 的電影篩選出來，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(5, 4) 的查詢結果。

```
                      title  rating           director  runtime
0  The Shawshank Redemption     9.3     Frank Darabont      142
1              Pulp Fiction     8.9  Quentin Tarantino      154
2              Forrest Gump     8.8    Robert Zemeckis      142
3    Léon: The Professional     8.5         Luc Besson      110
4             The Lion King     8.5       Roger Allers       88
```

In [3]:
filter_year_1994_from_movies =\
"""
-- SQL 查詢語法起點
SELECT title, rating, director, runtime
FROM movies
WHERE release_year = 1994;
-- SQL 查詢語法終點
"""

## 19. 從 `imdb` 資料庫的 `actors` 資料表將 Tom Hanks、Christian Bale、Leonardo DiCaprio 篩選出來，參考下列的預期查詢結果。

PS Tom Hanks 是一位著名的美國男演員及電視製片人，以演技精湛而著稱。他是歷史上第2位連續兩屆獲得奧斯卡金像獎最佳男主角獎的演員，亦是最年輕獲得美國電影學會終身成就獎的演員。Christian Bale 是一名英國男演員和電影製片人，在蝙蝠俠三部曲中飾演 Bruce Wayne 獲得了廣泛讚揚及商業認可。Leonardo DiCaprio 是一位美國著名男演員、電影製片人兼環保概念的推動者，出演了由史詩愛情片鐵達尼號知名度大開。
Source: Wikipedia

- 預期輸入：SQL 查詢語法。
- 預期輸出：(3, 2) 的查詢結果。

```
     id               name
0   502     Christian Bale
1  1773  Leonardo DiCaprio
2  2865          Tom Hanks
```

In [4]:
filter_three_male_actors_from_actors =\
"""
-- SQL 查詢語法起點
SELECT id, name
FROM actors
WHERE name IN ("Tom Hanks", "Christian Bale", "Leonardo DiCaprio");
-- SQL 查詢語法終點
"""

## 20. 從 `imdb` 資料庫的 `movies` 資料表篩選出由 Christopher Nolan 或 Peter Jackson 所導演的電影，參考下列的預期查詢結果。

PS Christopher Nolan 是一名英國導演、編劇及監製，他的十部電影在全球獲得超過 47 億美元的票房，執導著名電影包含「黑暗騎士三部曲」、全面啟動、星際效應及敦克爾克大行動；Peter Jackson 是一名紐西蘭導演、編劇及監製，執導最出名的作品是「魔戒電影三部曲」與「哈比人電影系列」。
Source: Wikipedia

- 預期輸入：SQL 查詢語法。
- 預期輸出：(10, 2) 的查詢結果。

```
                                               title           director
0                                    The Dark Knight  Christopher Nolan
1                                          Inception  Christopher Nolan
2                                       Interstellar  Christopher Nolan
3                                       The Prestige  Christopher Nolan
4                                            Memento  Christopher Nolan
5                              The Dark Knight Rises  Christopher Nolan
6                                      Batman Begins  Christopher Nolan
7      The Lord of the Rings: The Return of the King      Peter Jackson
8  The Lord of the Rings: The Fellowship of the Ring      Peter Jackson
9              The Lord of the Rings: The Two Towers      Peter Jackson
```

In [5]:
filter_directed_by_two_directors_from_movies =\
"""
-- SQL 查詢語法起點
SELECT title, director
FROM movies
WHERE director IN ("Christopher Nolan", "Peter Jackson")
ORDER BY director;
-- SQL 查詢語法終點
"""

## 21. 從 `covid19` 資料庫的 `lookup_table` 資料表篩選出 `Country_Region` 名稱有 land 的國家，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(10, 1) 的查詢結果。

```
     Country_Region
0           Finland
1           Iceland
2           Ireland
3  Marshall Islands
4       Netherlands
5       New Zealand
6            Poland
7   Solomon Islands
8       Switzerland
9          Thailand
```

In [6]:
match_country_name_pattern_from_lookup_table =\
"""
-- SQL 查詢語法起點
SELECT DISTINCT Country_Region
FROM lookup_table
WHERE Country_Region LIKE "%Land%"
ORDER BY Country_Region
LIMIT 10;
-- SQL 查詢語法終點
"""

## 執行測試！

Kernel -> Restart & Run All -> Restart and Run All Cells.

In [11]:
class TestWhere(unittest.TestCase):
    def test_17_filter_tw_from_time_series(self):
        tw_from_time_series = pd.read_sql(filter_tw_from_time_series, conn)
        self.assertEqual(tw_from_time_series.shape, ((435, 4)))
        column_values = set(tw_from_time_series['Country_Region'].values)
        self.assertTrue('Taiwan' in column_values)
    def test_18_filter_year_1994_from_movies(self):
        year_1994_from_movies = pd.read_sql(filter_year_1994_from_movies, conn)
        self.assertEqual(year_1994_from_movies.shape, (5, 4))
        column_values = set(year_1994_from_movies['title'].values)
        self.assertTrue('The Shawshank Redemption' in column_values)
        self.assertTrue('Forrest Gump' in column_values)
    def test_19_filter_three_male_actors_from_actors(self):
        three_male_actors_from_actors = pd.read_sql(filter_three_male_actors_from_actors, conn)
        self.assertEqual(three_male_actors_from_actors.shape, (3, 2))
        column_values = set(three_male_actors_from_actors['name'].values)
        self.assertTrue('Christian Bale' in column_values)
        self.assertTrue('Leonardo DiCaprio' in column_values)
        self.assertTrue('Tom Hanks' in column_values)
    def test_20_filter_directed_by_two_directors_from_movies(self):
        directed_by_two_directors_from_movies = pd.read_sql(filter_directed_by_two_directors_from_movies, conn)
        self.assertEqual(directed_by_two_directors_from_movies.shape, (10, 2))
        column_values = set(directed_by_two_directors_from_movies['director'].values)
        self.assertTrue('Christopher Nolan' in column_values)
        self.assertTrue('Peter Jackson' in column_values)
    def test_21_match_country_name_pattern_from_lookup_table(self):
        country_name_pattern_from_lookup_table = pd.read_sql(match_country_name_pattern_from_lookup_table, conn)
        self.assertEqual(country_name_pattern_from_lookup_table.shape, (10, 1))
        column_values = country_name_pattern_from_lookup_table['Country_Region'].values
        self.assertTrue('Finland' in column_values)
        self.assertTrue('Iceland' in column_values)
        self.assertTrue('Ireland' in column_values)
        self.assertTrue('Netherlands' in column_values)

suite = unittest.TestLoader().loadTestsFromTestCase(TestWhere)
runner = unittest.TextTestRunner(verbosity=2)
test_results = runner.run(suite)
number_of_failures = len(test_results.failures)
number_of_errors = len(test_results.errors)
number_of_test_runs = test_results.testsRun
number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)
cwd = os.getcwd()
folder_name = cwd.split("/")[-1]
with open("../exercise_index.json", "r") as content:
    exercise_index = json.load(content)
chapter_name = exercise_index[folder_name]

test_17_filter_tw_from_time_series (__main__.TestWhere) ... ok
test_18_filter_year_1994_from_movies (__main__.TestWhere) ... ok
test_19_filter_three_male_actors_from_actors (__main__.TestWhere) ... ok
test_20_filter_directed_by_two_directors_from_movies (__main__.TestWhere) ... ok
test_21_match_country_name_pattern_from_lookup_table (__main__.TestWhere) ... ok

----------------------------------------------------------------------
Ran 5 tests in 3.211s

OK


UnicodeDecodeError: 'cp950' codec can't decode byte 0x9e in position 27: illegal multibyte sequence

In [8]:
print("您在「{}」章節中的 {} 道 SQL 練習答對了 {} 題。".format(chapter_name, number_of_test_runs, number_of_successes))

您在「篩選資料」章節中的 5 道 SQL 練習答對了 0 題。
