# SQL 的五十道練習：初學者友善的資料庫八週專班

> 第二天：參考解答

[數聚點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 練習題指引

- 在每份練習題的開始，都會先將所有學習資料庫載入環境。
- 因此 SQL 可以指定所有學習資料庫中的資料表，不需要額外指定資料庫。
- 在 SQL 語法起點與 SQL 語法終點這兩個單行註解之間撰寫能夠得到預期結果的 SQL。
- 可以先在自己電腦的 SQLiteStudio 或者 DBeaver 寫出跟預期結果相同的 SQL 後再複製貼上到練習題。
- 執行測試的方式為點選上方選單的 Kernel -> Restart & Run All -> Restart and Run All Cells。
- 可以每寫一題就執行測試，也可以全部寫完再執行測試。
- 練習題閒置超過 10 分鐘會自動斷線，這時只要重新點選練習題連結即可重新啟動。

In [1]:
import sqlite3
import unittest
import json
import os
import numpy as np
import pandas as pd

conn = sqlite3.connect('../databases/twElection2022.db')
conn.execute("""ATTACH '../databases/kaggleSurvey2022.db' AS kaggleSurvey2022""")

<sqlite3.Cursor at 0x1139265c0>

## 01. 從 `kaggleSurvey2022` 資料庫查詢填答者的職稱分佈，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(15, 2) 的查詢結果。

```
                                               choice  n_respondants
0                                      Data Scientist           1929
1   Data Analyst (Business, Marketing, Financial, ...           1538
2                              Currently not employed           1432
3                                   Software Engineer            980
4                                 Teacher / professor            833
5   Manager (Program, Project, Operations, Executi...            832
6                                               Other            754
7                                  Research Scientist            593
8                    Machine Learning/ MLops Engineer            571
9                             Engineer (non-software)            465
10                                      Data Engineer            352
11                                       Statistician            125
12                                     Data Architect             95
13                                 Data Administrator             70
14                                 Developer Advocate             61
```

In [2]:
find_distinct_titles_from_responses =\
"""
-- SQL 查詢語法起點
SELECT choice,
       COUNT(*) AS n_respondants
  FROM responses
 WHERE question_id = 22
 GROUP BY choice
 ORDER BY n_respondants DESC;
-- SQL 查詢語法終點
"""

## 02. 從 `twElection2022` 資料庫查詢六都（臺北市、新北市、桃園市、臺中市、臺南市、高雄市）的行政區，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(158, 2) 的查詢結果。

```
    county town
0      新北市  三峽區
1      新北市  三芝區
2      新北市  三重區
3      新北市  中和區
4      新北市  五股區
..     ...  ...
153    高雄市  阿蓮區
154    高雄市  鳥松區
155    高雄市  鳳山區
156    高雄市  鹽埕區
157    高雄市  鼓山區

[158 rows x 2 columns]
```

In [3]:
find_distinct_towns_in_capitals =\
"""
-- SQL 查詢語法起點
SELECT county,
       town
  FROM admin_regions
 WHERE county IN ('臺北市', '新北市', '桃園市', '臺中市', '臺南市', '高雄市')
 GROUP BY county,
          town;
-- SQL 查詢語法終點
"""

## 03. 從 `kaggleSurvey2022` 資料庫查詢日常使用的程式語言，列出排名第二至第五的結果，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(4, 2) 的查詢結果。

```
  choice  n_selections
0    SQL          9620
1      R          4571
2    C++          4549
3   Java          3862
```

In [4]:
find_2nd_to_5th_programming_languages =\
"""
-- SQL 查詢語法起點
SELECT choice,
       COUNT(*) AS n_selections
  FROM responses
 WHERE question_id = 11
 GROUP BY choice
 ORDER BY n_selections DESC
 LIMIT 4
OFFSET 1;
-- SQL 查詢語法終點
"""

## 04. 從 `twElection2022` 資料庫查詢台灣縣市的同名鄰里（`village`），顯示個數大於等於 10 個的同名鄰里，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(46, 2) 的查詢結果。

```
   village  n_duplicates
0      中興里            31
1      中正里            31
2      中山里            29
3      新興里            22
4      復興里            22
5      大同里            22
6      成功里            21
7      仁愛里            21
8      永安里            20
9      文化里            20
10     和平里            19
11     光明里            18
12     中和里            18
13     福德里            17
14     忠孝里            17
15     福興里            16
16     新生里            16
17     光華里            16
18     自強里            15
19     民生里            15
20     三民里            15
21     三和里            15
22     信義里            14
23     長安里            13
24     福安里            13
25     建國里            13
26     平和里            13
27     西安里            12
28     東興里            12
29     東勢里            12
30     新庄里            12
31     光復里            12
32     仁和里            12
33     永興里            11
34     振興里            11
35     南勢里            11
36     仁德里            11
37     中華里            11
38     中央里            11
39     福興村            10
40     民權里            10
41     東門里            10
42     東山里            10
43     東安里            10
44     廣興里            10
45     仁義里            10
```

In [5]:
find_villages_with_same_name =\
"""
-- SQL 查詢語法起點
SELECT village,
       COUNT(*) AS n_duplicates
  FROM admin_regions
 GROUP BY village
HAVING n_duplicates >= 10
 ORDER BY COUNT(*) DESC;
-- SQL 查詢語法終點
"""

## 05. 從 `twElection2022` 資料庫查詢同名同姓的候選人，參考下列的預期查詢結果。

- 預期輸入：SQL 查詢語法。
- 預期輸出：(5, 2) 的查詢結果。

```
  candidate  n_duplicates
0       陳志明             3
1       許淑華             2
2       洪志明             2
3       李柏毅             2
4       張志豪             2
```

In [6]:
find_candidates_with_same_name =\
"""
-- SQL 查詢語法起點
SELECT candidate,
       COUNT(*) AS n_duplicates
  FROM candidates
 GROUP BY candidate
HAVING n_duplicates > 1
 ORDER BY n_duplicates DESC;
-- SQL 查詢語法終點
"""

## 執行測試！

Kernel -> Restart & Run All -> Restart and Run All Cells.

In [7]:
class TestDayTwoExercises(unittest.TestCase):
    def test_01_find_distinct_titles_from_responses(self):
        distinct_titles_from_responses = pd.read_sql(find_distinct_titles_from_responses, conn)
        self.assertEqual(distinct_titles_from_responses.shape, (15, 2))
        column_values = distinct_titles_from_responses.iloc[:, 0].values
        self.assertTrue('Data Scientist' in column_values)
        self.assertTrue('Data Engineer' in column_values)
    def test_02_find_distinct_towns_in_capitals(self):
        distinct_towns_in_capitals = pd.read_sql(find_distinct_towns_in_capitals, conn)
        self.assertEqual(distinct_towns_in_capitals.shape, (158, 2))
        column_values = distinct_towns_in_capitals.iloc[:, 0].values
        self.assertTrue('臺南市' in column_values)
        self.assertTrue('高雄市' in column_values)
    def test_03_find_2nd_to_5th_programming_languages(self):
        Znd_to_5th_programming_languages = pd.read_sql(find_2nd_to_5th_programming_languages, conn)
        self.assertEqual(Znd_to_5th_programming_languages.shape, (4, 2))
        column_values = Znd_to_5th_programming_languages.iloc[:, 0].values
        self.assertTrue('SQL' in column_values)
        self.assertTrue('R' in column_values)
    def test_04_find_villages_with_same_name(self):
        villages_with_same_name = pd.read_sql(find_villages_with_same_name, conn)
        self.assertEqual(villages_with_same_name.shape, (46, 2))
        column_values = villages_with_same_name.iloc[:, 0].values
        self.assertTrue('中興里' in column_values)
        self.assertTrue('中正里' in column_values)
        self.assertTrue('中山里' in column_values)
    def test_05_find_candidates_with_same_name(self):
        candidates_with_same_name = pd.read_sql(find_candidates_with_same_name, conn)
        self.assertEqual(candidates_with_same_name.shape, (5, 2))
        column_values = candidates_with_same_name.iloc[:, 0].values
        self.assertTrue('陳志明' in column_values)
        self.assertTrue('許淑華' in column_values)
        self.assertTrue('張志豪' in column_values)

suite = unittest.TestLoader().loadTestsFromTestCase(TestDayTwoExercises)
runner = unittest.TextTestRunner(verbosity=2)
test_results = runner.run(suite)
number_of_failures = len(test_results.failures)
number_of_errors = len(test_results.errors)
number_of_test_runs = test_results.testsRun
number_of_successes = number_of_test_runs - (number_of_failures + number_of_errors)

test_01_find_distinct_titles_from_responses (__main__.TestDayTwoExercises) ... ok
test_02_find_distinct_towns_in_capitals (__main__.TestDayTwoExercises) ... ok
test_03_find_2nd_to_5th_programming_languages (__main__.TestDayTwoExercises) ... ok
test_04_find_villages_with_same_name (__main__.TestDayTwoExercises) ... ok
test_05_find_candidates_with_same_name (__main__.TestDayTwoExercises) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.314s

OK


In [8]:
print("您在「專班第二天」章節中的 {} 道 SQL 練習答對了 {} 題。".format(number_of_test_runs, number_of_successes))

您在「專班第二天」章節中的 5 道 SQL 練習答對了 5 題。
