# 進階的 SQL 五十道練習

> 資料庫結構與資料表設計

[數聚點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 關聯式與非關聯式資料庫

## 資料儲存模式是多元的

- **關聯式（Relational model）**
- 非關聯式(Not Only SQL, NoSQL)

## 關聯式資料庫

- 基於「關聯式」資料儲存模式。
- 我們可以體會「關聯式」的場景：
    - 不同欄位在同一筆觀測值上是有關聯的，例如依據一個欄位的大小排序、依據一個欄位的條件篩選，也會影響到觀測值的順序。
    - 不同資料表可以透過子女資料表的連接鍵與父母資料表的主鍵相連接。

## 關聯式資料庫以表格的形式儲存資料

|id|title|release_year|
|--|:----|------------|
|1|The Shawshank Redemption|1994|
|2|The Godfather|1972|
|3|The Dark Knight|2008|
|4|The Godfather Part II|1974|
|5|12 Angry Men|1957|

## 非關聯式資料庫

- 網路式（Network model）
- 鍵值式（Key-value pair model）
- 欄導向式（Column-based model）
- 文件式（Document model）

## 鍵值式非關聯資料庫以鍵值配對的形式儲存資料

```
[
	{"id" : 1, "title" : "The Shawshank Redemption", "release_year" : 1994},
	{"id" : 2, "title" : "The Godfather", "release_year" : 1972},
	{"id" : 3, "title" : "The Dark Knight", "release_year" : 2008},
	{"id" : 4, "title" : "The Godfather Part II", "release_year" : 1974},
	{"id" : 5, "title" : "12 Angry Men", "release_year" : 1957}
]
```

## 目前主流且具代表性的資料庫管理系統仍以關聯式為大宗

- 開源
    - **MySQL**
    - MariaDB
    - PostgreSQL
    - **SQLite**
- 商業授權
    - Oracle Database
    - Microsoft SQL Server
    - IBM DB2

## 關聯式的優點

- 以眾人熟識的「表格」形式儲存。
- 可以事先對資料設定儲存規則（包含資料類型、約束），防止不符規定的資料被記錄。
- 以多個資料表建立關聯可以避免相同資料分散多處，有效降低資料更新成本。
- 資料格式容易保持整潔、有條理的狀態。

## 關聯式的缺點

- 資料量龐大時處理速度會變得緩慢。
- 由於嚴格要求資料的一致性，不容易將資料分散儲存。
- 「表格」形式的資料表較難呈現某些類型的資料（例如長度不一、
XML、JSON、地理圖資等）。

## 資料的對應關係

## 資料的對應關係就像是函數的映射關係

- 一對一（one-on-one） `1:1`
- 一對多（one-on-many） `1:n`
- 多對多（many-on-many） `n:m`

## 學習資料庫 `imdb` 的一對一關係

- 演員的流水編號（`actors.id`）與其姓名、頁面連結（`actors.name`、`actors.link`）
- 導演的流水編號（`directors.id`）與其姓名、頁面連結（`directors.name`、`directors.link`）
- 電影的流水編號（`movies.id`）與其名稱、頁面連結（`movies.title`、`movies.link`）
- 編劇的流水編號（`writers.id`）與其姓名、頁面連結（`writers.name`、`writers.link`）

## 學習資料庫 `covid19` 的一對多關係

`locations` 資料表：一個國家會有多個省份、州別，例如：美國有加州、麻州等；日本有東京都、大阪府等。

## 學習資料庫 `imdb` 的多對多關係

- 一位演員出演多部電影、一部電影由多位演員主演。
- 一位導演執導多部電影、一部電影由多位導演執導。
- 一位編劇撰寫多部電影、一部電影由多位編劇撰寫。

## 多對多關係

- 兩個資料表的多對多關係會加入一個橋接資料表（Bridge table）作為中介，進而將一個「多對多關係」轉換為兩個「一對多關係」。
    - 電影與演員的橋接資料表：`movies_actors`
    - 電影與導演的橋接資料表：`movies_directors`
    - 電影與編劇的橋接資料表：`movies_writers`

## 實體關係圖

## 什麼是實體關係圖（Entity Relationship Diagram, ER-Diagram）

- 實體關係圖會將關聯式資料庫中每個資料表像清單般展開。
- 實體關係圖會標註該資料表中用來區隔「不重複」觀測值的變數，也就是主鍵。
- 資料表與資料表之間的連線則描述兩者能夠透過連接鍵關聯，連線兩側的圖示則表示資料的對應關係。

## 學習資料庫 `imdb` 的實體關係圖

![](imdb-erd.png)

## 專有名詞的「換句話說」

- Schema：資料庫結構。
- 關聯（Relation）、實體（Entity）：資料表（Table）
- 元組（Tuple）：列（Row）、觀測值（Observation）或記錄（Record）
- 屬性（Attribute）：欄（Column）、變數（Variable）、鍵（Key）或欄位（Field）

## 資料表之間的連線及圖示

- 虛線表示資料表為「強關係」，意指父母資料表與子女資料表都有設定主鍵；反之實線表示資料表為「弱關係」，意指父母資料表與子女資料表至少有一者未設定主鍵。
- 連線兩側皆為單個接腳表示資料表為一對一關係；連線一側為單個接腳、另一側為「三叉戟」接腳表示資料表為一對多關係。

## 檢視與匯出實體關係圖：透過 MySQL Workbench

- 透過 MySQL Workbench 建立與本機 MySQL Server 的連線。
- Database > Reverse Engineer...
- 選擇欲檢視與匯出實體關係圖的資料庫。

![](reverse_engineer.png)

## 正規化

## 什麼是正規化（Normalization）

- 將資料調整為易於管理的結構。
- 刪除原始資料重複、不乾淨的部份，藉此減少佔用的磁碟空間，增進查詢效率。

## 正規化的優點

- 減少資料重複的情況、減少佔用的磁碟空間。
- 資料的維護更為輕鬆，減少更新範圍與遺漏。
- 資料更容易與其他系統搭配應用。

## 正規化的三個形式

1. 第一正規化形式（First Normal Form, 1NF）。
2. 第二正規化形式（Second Normal Form, 2NF）。
3. 第三正規化形式（Third Normal Form, 3NF）。

## 第一正規化形式

- 辨識出能夠區隔獨一資料的觀測值屬性，進而設定資料表的主鍵。
- 第一正規化形式與 Tidy data 的準則相符：
    - 每一列都是獨一的觀測值。
    - 每一欄都是獨立的變數。
    - 每一個儲存格都是獨立的資料值。
    
來源：<https://www.jstatsoft.org/article/view/v059i10>

## 第一正規化形式：以學習資料庫 `imdb` 為例

- 如何識別獨一的電影：IMDb 網站的個別頁面（`link`），避免電影名稱相同（低可能性）。
- 如何識別獨一導演、演員或編劇：IMDb 網站的個別頁面（`link`），避免同名同姓（高可能性）。

## 第二正規化形式

- 從已經符合第一正規化形式的資料進而調整。
- 將資料中不同種類的欄位切割至不同的資料表，進而設定資料表的外鍵。

## 第二正規化形式：以學習資料庫 `imdb` 為例

- 將導演、演員、編劇的資料從電影資料切割為其他資料表。
- 建立三個橋接資料表，並設定外鍵完成導演、演員、編劇與電影的三個多對多關係。

## 第三正規化形式

- 從已經符合第二正規化形式的資料進而調整。
- 消除欄位之間的遞移相依（Transitive dependency）情況。
- 「遞移相依」指的是欄位記錄了可以透過衍生計算欄位所生成的資料。

## 第三正規化形式：以學習資料庫 `imdb` 為例

- 電影的片長（分鐘數）可以換算成小時數（除以 60），那就不需要再記錄片長為幾個小時。
- 電影的上映年份（西元紀年）可以換算成民國紀年（減 1911），那就不需要再記錄民國紀年的上映年份。

## 拿捏正規化的程度

- 愈高的正規化程度，對資料庫「管理」愈便利，但是對於資料庫「使用」愈麻煩，因為使用者必須透過許多的 `JOIN` 才能取得最終所需的資料。
- 實務上以第二或第三正規化形式作為基本要求。
    - 1NF: 辨識獨一值，設定主鍵。
    - 2NF: 符合 1NF，切割資料表，設定外鍵。
    - 3NF: 符合 2NF，去除欄位的遞移相依性。

## 資料表設計

## 漸進式思考資料表如何設計

1. 概念模式。
2. 邏輯模式。
3. 實體模式。

## 概念模式：以學習資料庫 `imdb` 為例

- 將資料表羅列出來。
    - 電影。
    - 導演。
    - 演員。
    - 編劇。

## 邏輯模式：以學習資料庫 `imdb` 為例

- 思索資料表的關聯性
    - 電影 vs. 導演（多對多）
    - 電影 vs. 演員（多對多）
    - 電影 vs. 編劇（多對多）

## 資料表與欄位名稱命名準則

- 資料表、欄位名稱僅使用「半形英數字與底線」。
- 使用全小寫，第一個字元不使用數字。
- 資料表名稱取為複數（Plural）型態。
- 使用對外人也簡單易懂的名稱（避免使用縮寫）。
- 使用從欄位名稱就能看出所儲存資料命名。
- 用來連接父母資料表主鍵的連接鍵命名為「父母資料表名稱單數型態（Singular）\_id」。

## 資料表與欄位名稱命名準則：以學習資料庫 `imdb` 為例

- 主要實體資料表命名：`actors`、`directors`、`movies`、`writers`
- 橋接資料表命名：`movies_actors`、`movies_directors`、`movies_writers`
- 連接鍵命名：`actor_id`、`director_id`、`movie_id`、`writer_id`

## 實體模式

- 考量儲存的資料以及細節。
- 定義資料表、欄位、資料類型與約束，設定主鍵。
- 設定外鍵，確認資料表的對應關係。
- 繪製實體關係圖。
- 匯出資料庫。

## 個案研究：IMDb 資料庫

## IMDb 資料來源

- [IMDb Top 250 Movies](https://www.imdb.com/chart/top)
- 原始資料格式：HTML
- 更新狀態：持續。
- 資料期間：課程製作時間點。

## 使用 Python 擷取 IMDb 資料來源

- 下載 [imdbETLProject.zip](https://classroom-hahow-sqlfiftyplus.s3.ap-northeast-1.amazonaws.com/zip_files/imdbETLProject.zip) 並解壓縮作為一個專案資料夾。
- 開啟終端機/Anaconda Prompt 啟動專案環境 `conda activate pythonmysql`
- 使用 `cd` 指令移動到專案資料夾。
- 執行程式 `python imdbETL.py`

## 檢視 `python imdbETL.py` 執行結果

- 程式執行完畢後，檢視專案資料夾中是否產出以下檔案：
    - SQLite 資料庫檔案：`imdb.db`
    - CSV 檔案：`actors.csv`、`directors.csv`、`movies.csv`、`writers.csv`、`movies_actors.csv`、`movies_directors.csv`、`movies_writers.csv`

## 使用 DBeaver 匯入 CSV 檔案

- 建立 `imdb` 資料庫。
- 匯入 CSV 檔案。
- 設定主鍵、外鍵等約束。

```sql
CREATE DATABASE imdb CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
```

```sql
-- 設定主鍵
ALTER TABLE imdb.actors ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE imdb.directors ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE imdb.movies ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE imdb.writers ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE imdb.movies_actors ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE imdb.movies_directors ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE imdb.movies_writers ADD CONSTRAINT PRIMARY KEY (id);
-- 設定主鍵
```

```sql
-- 設定外鍵
ALTER TABLE imdb.movies_actors
    ADD CONSTRAINT fk_movies_actors_actors FOREIGN KEY (actor_id) REFERENCES actors (id),
    ADD CONSTRAINT fk_movies_actors_movies FOREIGN KEY (movie_id) REFERENCES movies (id);
-- 設定外鍵
```

```sql
-- 設定外鍵
ALTER TABLE imdb.movies_directors
    ADD CONSTRAINT fk_movies_directors_directors FOREIGN KEY (director_id) REFERENCES directors (id),
    ADD CONSTRAINT fk_movies_directors_movies FOREIGN KEY (movie_id) REFERENCES movies (id);
-- 設定外鍵
```

```sql
-- 設定外鍵
ALTER TABLE imdb.movies_writers
    ADD CONSTRAINT fk_movies_writers_writers FOREIGN KEY (writer_id) REFERENCES writers (id),
    ADD CONSTRAINT fk_movies_writers_movies FOREIGN KEY (movie_id) REFERENCES movies (id);
-- 設定外鍵
```

## 使用 MySQL Workbench

- 繪製實體關係圖。
- 匯出資料庫。

## 繼續進行正規化的討論

- 電影的上映年份可以切割為另一個實體 `release_years` 由 `release_year_id` 為連接鍵。
- 電影的評等可以切割為另一個實體 `ratings` 由 `rating_id` 為連接鍵。

## 個案研究：Covid19 資料庫

## Covid19 資料來源

- [COVID-19 Data Repository by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University](https://github.com/CSSEGISandData/COVID-19)
- 原始資料格式：CSV
- 更新狀態：停止，公開封存。
- 資料期間：2020-01-22 ~ 2023-03-09

## Covid19 資料庫：概念模式

- 累計個案數。
- 日曆。
- 地理資訊。

## Covid19 資料庫：邏輯模式

- 思索資料表的關聯性
    - 日曆 vs. 累計個案數（一對多）
    - 地理資訊 vs. 累計個案數（一對多）
    - 日曆 vs. 地理資訊（多對多）

## Covid19 資料庫：實體模式

- 主要實體資料表命名：`calendars`、`locations`
- 橋接資料表命名：`accumulative_cases`
- 連接鍵命名：`calendar_id`、`location_id`

## 使用 Python 擷取 Covid19 資料來源

- 下載 [covid19ETLProject.zip](https://classroom-hahow-sqlfiftyplus.s3.ap-northeast-1.amazonaws.com/zip_files/covid19ETLProject.zip) 並解壓縮作為一個專案資料夾。
- 開啟終端機/Anaconda Prompt 啟動專案環境 `conda activate pythonmysql`
- 使用 `cd` 指令移動到專案資料夾。
- 執行程式 `python covid19ETL.py`

## 檢視 `python covid19ETL.py` 執行結果

- 程式執行完畢後，檢視專案資料夾中是否產出以下檔案：
    - SQLite 資料庫檔案：`covid19.db`
    - CSV 檔案：`accumulative_cases.csv`、`calendars.csv`、`locations.csv`

## 使用 DBeaver 匯入 CSV 檔案

- 建立 `covid19` 資料庫。
- 匯入 CSV 檔案。
- 設定主鍵、外鍵等約束。

```sql
CREATE DATABASE covid19 CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
```

```sql
-- 更新資料
UPDATE covid19.locations
   SET iso2 = 'NA'
 WHERE country_name = 'Namibia';
 UPDATE covid19.locations
   SET iso2 = NULL,
       iso3 = NULL
 WHERE iso2 = '' AND
       iso3 = '';
-- 更新資料
```

```sql
-- 設定主鍵
ALTER TABLE covid19.accumulative_cases ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE covid19.calendars ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE covid19.locations ADD CONSTRAINT PRIMARY KEY (id);
-- 設定主鍵
```

```sql
-- 設定外鍵
ALTER TABLE covid19.accumulative_cases
    ADD CONSTRAINT fk_accumulative_cases_calendars FOREIGN KEY (calendar_id) REFERENCES calendars (id),
    ADD CONSTRAINT fk_accumulative_cases_locations FOREIGN KEY (location_id) REFERENCES locations (id);
-- 設定外鍵
```

## 使用 MySQL Workbench

- 繪製實體關係圖。
- 匯出資料庫。

## 繼續進行正規化的討論

- 累計個案數可以切割為 `accumulative_confirmed` 與 `accumulative_deaths`，同樣由 `location_id` 與 `calendar_id` 作為連接鍵。
- 地理資訊可以切割為 `country_regions` 與 `province_states`，由 `country_region_id` 與 `province_state_id` 分別為連接鍵。

## 個案研究：twElection2020 資料庫

## twElection2020 資料來源

- [投開票概況資料](https://db.cec.gov.tw/ElecTable)
- 原始資料格式：Excel XLSX
- 更新狀態：停止，公開封存。
- 資料期間：2020-01-11。

## twElection2020 資料庫：概念模式

- 投票所明細。
- 行政區。
- 候選人。
- 政黨。

## twElection2020 資料庫：邏輯模式

- 思索資料表的關聯性
    - 政黨 vs. 候選人（一對多）
    - 投票所 vs. 政黨（多對多）
    - 投票所 vs. 候選人（一對多）
    - 行政區 vs. 候選人（一對多）
    - 行政區 vs. 投票所（多對多）

## twElection2020 資料庫：實體模式

- 主要實體資料表命名：`admin_regions`、`candidates`、`parties`
- 橋接資料表命名：`presidential`、`legislative_regional`、`legislative_at_large`
- 連接鍵命名：`admin_region_id`、`candidate_id`、`party_id`

## 使用 Python 擷取 twElection2020 資料來源

- 下載 [twElection2020ETLProject.zip](https://classroom-hahow-sqlfiftyplus.s3.ap-northeast-1.amazonaws.com/zip_files/twElection2020ETLProject.zip) 並解壓縮作為一個專案資料夾。
- 開啟終端機/Anaconda Prompt 啟動專案環境 `conda activate pythonmysql`
- 使用 `cd` 指令移動到專案資料夾。
- 執行程式 `python twElection2020ETL.py`

## 檢視 `python twElection2020ETL.py` 執行結果

- 程式執行完畢後，檢視專案資料夾中是否產出以下檔案：
    - SQLite 資料庫檔案：`twElection2020.db`
    - CSV 檔案：`admin_regions.csv`、`candidates.csv`、`parties.csv`、`presidential.csv`、`legislative_regional.csv`、`legislative_at_large.csv`

## 使用 DBeaver 匯入 CSV 檔案

- 建立 `tw_election_2020` 資料庫。
- 匯入 CSV 檔案。
- 設定主鍵、外鍵等約束。

```sql
CREATE DATABASE tw_election_2020 CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
```

```sql
-- 設定主鍵
ALTER TABLE tw_election_2020.admin_regions ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE tw_election_2020.candidates ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE tw_election_2020.parties ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE tw_election_2020.presidential ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE tw_election_2020.legislative_regional ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE tw_election_2020.legislative_at_large ADD CONSTRAINT PRIMARY KEY (id);
-- 設定主鍵
```

```sql
-- 設定外鍵
ALTER TABLE tw_election_2020.candidates
    ADD CONSTRAINT fk_candidates_parties FOREIGN KEY (party_id) REFERENCES parties (id);
ALTER TABLE tw_election_2020.presidential
    ADD CONSTRAINT fk_presidientail_admin_regions FOREIGN KEY (admin_region_id) REFERENCES admin_regions (id),
    ADD CONSTRAINT fk_presidientail_candidates FOREIGN KEY (candidate_id) REFERENCES candidates (id);
```

```sql
ALTER TABLE tw_election_2020.legislative_regional
    ADD CONSTRAINT fk_legislative_regional_admin_regions FOREIGN KEY (admin_region_id) REFERENCES admin_regions (id),
    ADD CONSTRAINT fk_legislative_regional_candidates FOREIGN KEY (candidate_id) REFERENCES candidates (id);
```

```sql
ALTER TABLE tw_election_2020.legislative_at_large
    ADD CONSTRAINT fk_legislative_at_large_admin_regions FOREIGN KEY (admin_region_id) REFERENCES admin_regions (id),
    ADD CONSTRAINT fk_legislative_at_large_parties FOREIGN KEY (party_id) REFERENCES parties (id);
-- 設定外鍵
```

## 使用 MySQL Workbench

- 繪製實體關係圖。
- 匯出資料庫。

## 繼續進行正規化的討論

- 候選人參與的選舉種類可以切割為 `election_types` 以 `election_type_id` 作為連接鍵。
- 區域立委的選舉區可以切割為 `electoral_districts` 以 `electoral_district_id` 作為連接鍵。
- 行政區可以切割為 `counties`、`towns`、`villages`，由 `county_id`、`town_id` 與 `village_id` 分別為連接鍵。

## 重點統整

- 資料儲存模式是多元的
    - 關聯式（Relational model）：以表格形式儲存資料。
    - 非關聯式(Not Only SQL, NoSQL)
        - 網路式（Network model）
        - 鍵值式（Key-value pair model）
        - 欄導向式（Column-based model）
        - 文件式（Document model）

## 重點統整（續）

- 資料的對應關係就像是函數的映射關係
    - 一對一（one-on-one） `1:1`
    - 一對多（one-on-many） `1:n`
    - 多對多（many-on-many） `n:m`，多對多關係會以橋接資料表合成兩個一對多關係。
- 正規化的優點
    - 減少資料重複的情況、減少佔用的磁碟空間。
    - 資料的維護更為輕鬆，減少更新範圍與遺漏。
    - 資料更容易與其他系統搭配應用。

## 重點統整（續）

- 漸進式思考資料表如何設計
    - 概念模式。
    - 邏輯模式。
    - 實體模式。
- 在實體模式完成資料表設計
    - 考量儲存的資料以及細節。
    - 定義資料表、欄位、資料類型與約束，設定主鍵。
    - 設定外鍵，確認資料表的對應關係。
    - 繪製實體關係圖。
    - 匯出資料庫。