<a href="https://colab.research.google.com/github/ccwu0918/book-sqlfifty/blob/main/ch02-environment/ch02-environment.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# SQL 的五十道練習：初學者友善的資料庫入門

> 建立學習環境

In [None]:
!pip install SQLAlchemy==1.4.46

In [None]:
!git clone https://github.com/ccwu0918/book-sqlfifty

Cloning into 'book-sqlfifty'...
remote: Enumerating objects: 186, done.[K
remote: Counting objects: 100% (186/186), done.[K
remote: Compressing objects: 100% (122/122), done.[K
remote: Total 186 (delta 54), reused 173 (delta 44), pack-reused 0[K
Receiving objects: 100% (186/186), 28.90 MiB | 15.58 MiB/s, done.
Resolving deltas: 100% (54/54), done.


In [None]:
%cd book-sqlfifty

/content/book-sqlfifty


讀者如果是資料科學的初學者，可以略過下述的程式碼；讀者如果不是資料科學的初學者，欲使用 JupyterLab 執行本章節內容，必須先執行下述程式碼載入所需模組與連接資料庫。

In [None]:
import sqlite3
import unittest
import json
import os
import numpy as np
import pandas as pd
conn = sqlite3.connect('./databases/imdb.db')
conn.execute("""ATTACH './databases/covid19.db' AS covid19""")
conn.execute("""ATTACH './databases/twElection2020.db' AS twElection2020""")
conn.execute("""ATTACH './databases/nba.db' AS nba""")
conn.execute("""ATTACH './databases/northwind.db' AS Northwind""")
conn.execute("""ATTACH './databases/Chinook_Sqlite.sqlite' AS Chinook""")

In [None]:
# %%capture
# load the SQL magic extension
# https://github.com/catherinedevlin/ipython-sql
# this extension allows us to connect to DBs and issue SQL command
%load_ext sql

# now we can use the magic extension to connect to our SQLite DB
# use %sql to write an inline SQL command
# use %%sql to write SQL commands in a cell
%sql sqlite:///databases/imdb.db

'Connected: @databases/imdb.db'

In [None]:
# %LOAD sqlite3 db=../databases/imdb.db timeout=2 shared_cache=true

In [None]:
%%sql
ATTACH "./databases/covid19.db" AS covid19;
ATTACH "./databases/twElection2020.db" AS twElection2020;
ATTACH "./databases/nba.db" AS nba;
ATTACH "./databases/northwind.db" AS Northwind;
ATTACH "./databases/Chinook_Sqlite.sqlite" AS Chinook;

 * sqlite:///databases/imdb.db
Done.
Done.
Done.


[]

## SQL 的學習門檻

平心而論，比起其他泛用程式語言（C 語言、Java、Python 等）或者科學計算專用語言（R 語言、Matlab、SAS 等），SQL 的學習門檻是比較低的，原因在於 SQL 是一個與英文高度相似的語言，所以即便完全沒有程式語言、資料科學基礎的讀者，只要具備一定程度的英文能力（可能是全民英檢中高級以上或者多益 650 分以上），在 SQL 的學習上依然能顯得輕鬆寫意。不過，我們還是有三個需要克服的難關：一是建立學習環境；二是範例資料；三是練習。

學習 SQL 我們會從用途最廣泛也最為簡易的資料查詢語言（Data Query Language, DQL）入門，但是在可以驗證自己所寫的查詢敘述會對應出什麼樣的查詢結果之前，卻需要先透過比較進階的資料定義語言（Data Definition Language, DDL）建立關聯式資料庫、建立資料表並插入觀測值，如此一來資料查詢語言才能夠有作用的對象。這也導致很多初學者會在一開始使用比較進階的資料定義語言時因為發生錯誤而打退堂鼓，本書考量到這點，借助 SQLite 關聯式資料庫管理系統輕巧、便利攜帶且自我包含的特點，將範例資料製作成學習資料庫，讓讀者一開始是對已經建立好、設定完善的關聯式資料庫寫作查詢敘述，如此一來可以在學習資料查詢語言之前，巧妙地跳過資料定義語言。

多數課程或教科書所使用的範例資料都是較為制式化的資料內容，像是國家城市資料、超級市場銷售資料或者班級成績資料。本書考量到這點，使用了像是 IMDb 網站的電影與演員資料、NBA 網站的球員、球隊與生涯統計資料、約翰霍普金斯大學 COVID-19 每日報告、地理區域與時間序列資料以及中選會總統與立委的選舉資料，希望能夠讓學習過程因為這些範例資料而饒富趣味。

想要有效確實地將 SQL 學起來，需要在每個知識點運用 LPAA 循環（Learn、Practice、Apply、Assess），首先透過本書的文字敘述理解觀念（Learn），接著在自己電腦中所建立的學習環境跟著本書的範例操作，觀察是否得到相似的查詢結果（Practice），然後是寫作練習題（Apply），若是卡關，可以翻閱本書所附的參考練習題詳解（Assess）。這也是本書寫作的核心精神，採用了 EBL (Exercise Based Learning) 的學習理念，可以確保學生在每個章節都會走一遍 LPAA 循環，五十九道練習都是明確給定預期輸入和預期輸出的題目設計，直觀而有效。

## 下載 SQLiteStudio

本書將會採用 SQLiteStudio 作為自己電腦中的學習環境，SQLiteStudio 是一個具備 SQLite 關聯式資料庫管理系統的圖形化介面軟體，透過 SQLiteStudio 能夠讓我們在自己電腦中連結學習資料庫、撰寫 SQL 查詢敘述並且檢視查詢結果。除了支援資料查詢語言，SQLiteStudio 的圖形化介面也支援 SQL 中的資料定義語言、資料操作語言、資料控制語言以及交易控制語言，讓使用者不僅可以用 SQL 與關聯式資料庫互動，亦能夠透過圖形化介面達成。

本書使用 SQLiteStudio 的安裝版本 3.2.1（之後更新版本的 SQLiteStudio 都改為免安裝設定），讀者必須依照自己電腦的作業系統選擇不同副檔名的安裝檔下載。

- Windows 作業系統的讀者下載副檔名為 `.exe` 的安裝檔：<https://bit.ly/gh-sqlite-studio-exe>
- macOS 的讀者下載副檔名為 `.dmg` 的安裝檔：<https://bit.ly/gh-sqlite-studio-dmg>

上述安裝檔下載連結源於 SQLiteStudio 官方 GitHub，我另外有用 AWS S3 儲存空間作為備份，假如未來讀者發現下載連結有問題，亦可以點選下列的備份下載連結。

- （備份下載連結）Windows 作業系統的讀者下載副檔名為 `.exe` 的安裝檔：<https://bit.ly/aws-sqlite-studio-exe>
- （備份下載連結）macOS 的讀者下載副檔名為 `.dmg` 的安裝檔：<https://bit.ly/aws-sqlite-studio-dmg>

## 安裝 SQLiteStudio

下載好 SQLiteStudio 安裝檔之後，Windows 作業系統的讀者在安裝過程大致不會碰到什麼問題，不過 macOS 的讀者需要特別留意因為安裝檔在預設的作業系統設定下不被允許安裝，必須要去系統設定（System Preferences）-> 安全與隱私（Security & Privacy）-> 一般（General）手動允許才能順利開始安裝過程，以下的安裝步驟截圖就以 macOS 為準示範。

1. 滑鼠游標雙擊安裝檔。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-01.png?raw=1)

2. 彈出視窗顯示不允許安裝，先不要點擊 Eject Disk Image，也不要點擊 Cancel

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-02.png?raw=1)

3. 前往系統設定（System Preferences）-> 安全與隱私（Security & Privacy）-> 一般（General），會看到有 Open Anyway 的按鈕可以點擊，這時將原本彈出視窗點擊 Cancel，然後點擊 Open Anyway

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-03.png?raw=1)

4. 彈出視窗這時多了 Open 按鈕可以點選，點擊後就開始安裝過程。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-04.png?raw=1)

5. 安裝路徑採預設即可，點擊 Continue 繼續。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-05.png?raw=1)

6. 安裝元件採預設即可，點擊 Continue 繼續。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-06.png?raw=1)

7. 點擊 Install 開始安裝。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-07.png?raw=1)

8. 安裝完畢後，啟動 SQLiteStudio

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/install-08.png?raw=1)

## 下載學習資料庫並用 SQLiteStudio 連線

誠如我們在 SQL 的學習門檻所提到的，本書借助 SQLite 關聯式資料庫管理系統輕巧、便利攜帶且自我包含的特點，將範例資料製作成學習資料庫，讓讀者一開始能夠直接對已經建立好、設定完善的關聯式資料庫寫作查詢敘述，如此一來可以在學習資料查詢語言之前，巧妙地跳過資料定義語言，我準備了四個學習資料庫，它們分別是 covid19.db、imdb.db、nba.db 與 twElection2020.db，學習資料庫的下載連結是源於我的 AWS S3 儲存空間，假如未來讀者發現下載連結有問題，可以寄信給我反映 <yaojenkuo@datainpoint.com>。

- covid19.db <https://bit.ly/covid19-db>
- imdb.db <https://bit.ly/imdb-db>
- nba.db <https://bit.ly/nba-db>
- twElection2020.db <https://bit.ly/tw-election-2020-db>
- Northwind SQLite DB <https://tdmdal.github.io/mma-sql-2022/data/northwind.sqlite3>
- Chinook SQLite DB <https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite>

讀者下載完畢之後先不要以滑鼠游標雙擊這些檔案，因為它們並不是副檔名為 `.exe` 的可執行檔案（Executables），請讀者將四個學習資料庫檔案置放在你熟悉的路徑即可，如果讀者熟悉的路徑是桌面，可以放在 `C:\Users\YOUR_NAME\Desktop`（Windows 作業系統）或者 `/Users/YOUR_NAME/Desktop`（macOS），`YOUR_NAME` 的部分替換為自己電腦的使用者名稱。

接著我們要為 SQLiteStudio 與學習資料庫建立連線並確認學習環境能妥善運行。

1. 啟動 SQLiteStudio
2. 點擊選單 Database -> Add a database

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/connect-01.png?raw=1)

3. Database type 採用預設的 SQLite 3，點擊圖示 Browse for existing database file on local computer

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/connect-02.png?raw=1)

4. 移動到四個學習資料庫檔案所置放的路徑，選擇其中一個學習資料庫，點擊 Open

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/connect-03.png?raw=1)

5. 點擊 OK

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/connect-04.png?raw=1)

6. 將滑鼠游標移動到左側資料庫圖示上按下右鍵，點擊 Connect to the database

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/connect-05.png?raw=1)

7. 重複步驟 2 到步驟 6 將四個學習資料庫都新增至 SQLiteStudio，並且建立連線。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/connect-06.png?raw=1)

## 哈囉世界與查詢四個學習資料庫中的第一個資料表

哈囉世界是指在電腦螢幕顯示「Hello, World!」（你好，世界！）字串的電腦程式，通常用來確認一個程式語言的開發環境及運行環境是否已經安裝妥當。學習 SQL 也不例外，不過若光是在 SQLiteStudio 顯示「Hello, World!」還不足以確認讀者是否有順利完成下載學習資料庫並用 SQLiteStudio 連線，因此還會查詢四個學習資料庫中第一個資料表（依照英文字母順序排列）的「前五列、所有欄」。

1. 點擊選單 Tools -> Open SQL Editor 開啟能夠寫作 SQL 敘述的編輯器。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-01.png?raw=1)

2. 在編輯器的區域寫下 `SELECT 'Hello, World!';`

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-02.png?raw=1)

3. 反白選取後點擊編輯器的 Execute query 圖示，完成哈囉世界。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-03.png?raw=1)

4. 在編輯器的選單點擊 `covid19`

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-04.png?raw=1)

5. 在編輯器的區域寫下

```sql
SELECT *
  FROM daily_report
 LIMIT 5;
```

6. 反白選取後點擊編輯器的 Execute query 圖示，完成查詢 `covid19` 學習資料庫中 `daily_report` 資料表的前五列、所有欄。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-05.png?raw=1)

7. 在編輯器的選單點擊 imdb

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-06.png?raw=1)

8. 在編輯器的區域寫下

```sql
SELECT *
  FROM actors
 LIMIT 5;
```

9. 反白選取後點擊編輯器的 Execute query 圖示，完成查詢 `imdb` 學習資料庫中 `actors` 資料表的前五列、所有欄。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-07.png?raw=1)

10. 在編輯器的選單點擊 `nba`

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-08.png?raw=1)

11. 在編輯器的區域寫下

```sql
SELECT *
  FROM career_summaries
 LIMIT 5;
```

12. 反白選取後點擊編輯器的 Execute query 圖示，完成查詢 `nba` 學習資料庫中 `career_summaries` 資料表的前五列、所有欄。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-09.png?raw=1)

13. 在編輯器的選單點擊 `twElection2020`

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-10.png?raw=1)

11. 在編輯器的區域寫下

```sql
SELECT *
  FROM admin_regions
 LIMIT 5;
```

12. 反白選取後點擊編輯器的 Execute query 圖示，完成查詢 `twElection2020` 學習資料庫中 `admin_regions` 資料表的前五列、所有欄。

![](https://github.com/ccwu0918/book-sqlfifty/blob/main/images/editor-11.png?raw=1)

## 關於學習資料庫

從四個學習資料庫的檔案名稱以及查詢四個學習資料庫的資料表，我們大概瞭解是關於新冠肺炎疫情、電影、美國職業籃球聯盟以及 2020 年台灣大選的資料，副檔名 `.db` 則體現資料庫（Database）的特徵，學習資料庫的數據有效期間除了 twElection2020.db 沒有效期之外（因為內容不會再有任何更新），其餘三個學習資料庫的數據截至 2022-05-31，也就是本書第一版的寫作期間。這些資料的來源與原始格式表列如下：

|學習資料庫|資料來源|原始資料格式|
|:--------|:-------|:----------|
|covid19.db|<https://github.com/CSSEGISandData/COVID-19>|CSV|
|imdb.db|<https://www.imdb.com>|HTML|
|nba.db|<https://data.nba.net/prod/v1/today.json>|JSON|
|twElection2020.db|<https://db.cec.gov.tw>|Microsoft Excel|

我們也能藉由查詢四個學習資料庫每一個資料表的元資料（Metadata）來獲得每一欄的資訊，包含：

- `cid`：欄流水號（Column ID）。
- `name`：欄名。
- `type`：欄資料類別。
- `notnull`：是否不允許 `NULL` 空值存在。
- `dflt_value`：預設值（Default value）。
- `pk`：是否為主鍵（Primary key）。

### 學習資料庫 `covid19`

In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('daily_report');

cid,name,type,notnull,dflt_value,pk
0,Combined_Key,TEXT,0,,1
1,Last_Update,TEXT,0,,0
2,Confirmed,INTEGER,0,,0
3,Deaths,INTEGER,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('lookup_table');

cid,name,type,notnull,dflt_value,pk
0,UID,INTEGER,0,,1
1,Combined_Key,TEXT,0,,0
2,iso2,TEXT,0,,0
3,iso3,TEXT,0,,0
4,Country_Region,TEXT,0,,0
5,Province_State,TEXT,0,,0
6,Admin2,TEXT,0,,0
7,Lat,REAL,0,,0
8,Long_,REAL,0,,0
9,Population,INTEGER,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('time_series');

cid,name,type,notnull,dflt_value,pk
0,Date,TEXT,0,,1
1,Country_Region,TEXT,0,,2
2,Confirmed,INTEGER,0,,0
3,Deaths,INTEGER,0,,0
4,Daily_Cases,INTEGER,0,,0
5,Daily_Deaths,INTEGER,0,,0


### 學習資料庫 `imdb`

In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('actors');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,name,TEXT,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('casting');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,movie_id,INTEGER,0,,0
1,actor_id,INTEGER,0,,0
2,ord,INTEGER,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('movies');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,title,TEXT,0,,0
2,release_year,INTEGER,0,,0
3,rating,REAL,0,,0
4,director,TEXT,0,,0
5,runtime,int,0,,0


### 學習資料庫 `nba`

In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('career_summaries');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,personId,INTEGER,0,,1
1,tpp,REAL,0,,0
2,ftp,REAL,0,,0
3,fgp,REAL,0,,0
4,ppg,REAL,0,,0
5,rpg,REAL,0,,0
6,apg,REAL,0,,0
7,bpg,REAL,0,,0
8,mpg,REAL,0,,0
9,spg,REAL,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('players');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,firstName,TEXT,0,,0
1,lastName,TEXT,0,,0
2,temporaryDisplayName,TEXT,0,,0
3,personId,INTEGER,0,,1
4,teamId,INTEGER,0,,0
5,jersey,INTEGER,0,,0
6,pos,TEXT,0,,0
7,heightFeet,INTEGER,0,,0
8,heightInches,INTEGER,0,,0
9,heightMeters,REAL,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('teams');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,city,TEXT,0,,0
1,fullName,TEXT,0,,0
2,isNBAFranchise,TEXT,0,,0
3,confName,TEXT,0,,0
4,tricode,TEXT,0,,0
5,teamShortName,TEXT,0,,0
6,divName,TEXT,0,,0
7,isAllStar,TEXT,0,,0
8,nickname,TEXT,0,,0
9,urlName,TEXT,0,,0


### 學習資料庫 `twElection2020`

In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('admin_regions');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,county,TEXT,0,,0
2,town,TEXT,0,,0
3,village,TEXT,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('candidates');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,party_id,INTEGER,0,,0
2,type,TEXT,0,,0
3,number,INTEGER,0,,0
4,candidate,TEXT,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('legislative_at_large');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,admin_region_id,INTEGER,0,,0
1,office,INTEGER,0,,0
2,party_id,INTEGER,0,,0
3,votes,INTEGER,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('legislative_regional');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,admin_region_id,INTEGER,0,,0
1,electoral_district,TEXT,0,,0
2,office,INTEGER,0,,0
3,candidate_id,INTEGER,0,,0
4,votes,INTEGER,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('parties');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,party,TEXT,0,,0


In [None]:
%%sql
SELECT *
  FROM PRAGMA_TABLE_INFO('presidential');

 * sqlite:///databases/imdb.db
Done.


cid,name,type,notnull,dflt_value,pk
0,admin_region_id,INTEGER,0,,0
1,office,INTEGER,0,,0
2,candidate_id,INTEGER,0,,0
3,votes,INTEGER,0,,0


## 重點統整

- 本書使用 SQLiteStudio 的安裝版本 `3.2.1`（之後更新版本的 SQLiteStudio 都改為免安裝設定），讀者必須依照自己電腦的作業系統選擇不同副檔名的安裝檔下載。
- 光是在 SQLiteStudio 顯示「Hello, World!」還不足以確認讀者是否有順利完成下載學習資料庫並用 SQLiteStudio 連線，因此還會查詢四個學習資料庫中第一個資料表（依照英文字母順序排列）的「前五列、所有欄」。
- 藉由查詢四個學習資料庫每一個資料表的元資料（Metadata）來獲得每一欄的資訊。

## 延伸閱讀

- SQLiteStudio <https://sqlitestudio.pl>
- 哈囉世界 <https://zh.m.wikipedia.org/zh-tw/Hello_World>