# 進階的 SQL 五十道練習

> 資料庫結構與資料表設計

[數聚點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

In [1]:
import requests
import pandas as pd

## 資料庫結構

## 多元的資料儲存模式

- **關聯式（Relational model）**
- NoSQL(Not Only SQL)
    - 網路式（Network model）
    - 鍵值式（Key-value pair model）
    - 欄導向式（Column-based model）
    - 文件式（Document model）

## 主流具代表性的資料庫管理系統均為關聯式

- 開源
    - MySQL
    - MariaDB
    - PostgreSQL
    - SQLite
- 商業授權
    - Oracle Database
    - Microsoft SQL Server
    - IBM DB2

## 關聯式的優點

- 以「表格」形式的資料表儲存。
- 可以事先對資料設定儲存規則（包含資料類型、限制），防止不符規定的資料被記錄。
- 以多個資料表建立關聯可以避免相同資料分散多處，有效降低資料更新成本。
- 資料格式容易保持整潔、有條理的狀態。

## 關聯式的缺點

- 資料量龐大時處理速度會變得緩慢。
- 由於嚴格要求資料的一致性，不容易將資料分散儲存。
- 「表格」形式的資料表較難呈現某些類型的資料（例如 XML、JSON、地理圖資等）。

## 資料表設計

## 漸進式地思考資料表如何設計

1. 概念模式。
2. 邏輯模式。
3. 實體模式。

## 概念模式：描述概念

- 電影。
- 導演。
- 演員。

來源：<https://www.imdb.com/chart/top>

## 邏輯模式：加入關聯性（Cardinality）

- 電影 vs. 導演（多對一）。
- 演員 vs. 電影（多對多）。

來源：<https://www.imdb.com/chart/top>

## 關聯性的種類

- 一對一：`movies.id` vs. `movies.title`、`actors.id` vs. `actors.name`
- 一對多：`directors.name` vs. `movies.title`
- 多對多：`movies.title` vs. `actors.name`

## 實體模式：加入關聯性、欄位、資料類型

- `movies`: `id(INT)`, `title(TEXT)`, `director_id(INT)`...etc.
- `directors`: `id(INT)`, `name(TEXT)`
- `actors`: `id(INT)`, `name(TEXT)`
- `casting`: `movie_id(INT)`, `actor_id(INT)`, `ord(INT)`

來源：<https://www.imdb.com/chart/top>

## 實體模式考量儲存的資料以及細節

- 進入到實體模式之後，會開始考量實體（Entity）與其屬性（Attribute）。
    - 實體是具有關聯的資料集合，也就是人、物品或者紀錄。
    - 屬性是用來將實體更詳細描述的內容，也就是人名、物品名稱或者紀錄數量（金額）。

## 實體（Entity）、屬性（Attribute）與鍵（Key）等其實只是「換句話說」

- 關聯（Relation）、實體（Entity）：資料表（Table）
- 元組（Tuple）：列（Row）、觀測值（Observation）或記錄（Record）
- 屬性（Attribute）：欄（Column）、變數（Variable）、鍵（Key）或欄位（Field）

## 什麼是實體關係圖（Entity Relationship Diagram, ER-Diagram）

- 實體關係圖會將關聯式資料庫中每個資料表像清單般展開，最上方是該資料表名稱。
- 置頂且粗體的欄位名稱則標註了該資料表中用來區隔「不重複」觀測值的變數，也就是所謂的主鍵（Primary Key）。
- 資料表與資料表之間的連線則描述兩者能夠透過連接鍵關聯，連線兩側的圖示則表示資料的關聯性（Cardinality）。

## 表示資料關聯性的圖示

![](../images/cardinality.png)

## 將資料調整為易於管理的結構：正規化

- 透過「正規化」進行資料調整。
- 正規化的優點：
    - 減少資料重複的情況、減少佔用的磁碟空間。
    - 資料的維護更為輕鬆，減少更新範圍與遺漏。
    - 資料更容易與其他系統搭配應用。

## 正規化的三個形式

1. 第一正規化形式。
2. 第二正規化形式。
3. 第三正規化形式。

## 第一正規化形式：設定主鍵

- 每一列都是獨立且獨一的觀測值。
- 每一欄都是獨立的變數。
- 每一個儲存格都是獨立的資料值。

## 第一正規化形式：以 `imdb` 為例

- `Rank & Title` 一個欄位之中包含了 `id`、`title` 與 `release_year` 的資訊。
- 除了 `Rank & Title` 以及 `IMDb Rating` 其他的資料都是未定義值或無意義。

In [2]:
resp = requests.get("https://www.imdb.com/chart/top", headers={"accept-language": "en,en-US;q=1.0"})
df = pd.read_html(resp.text)[0]
df.head()

Unnamed: 0.1,Unnamed: 0,Rank & Title,IMDb Rating,Your Rating,Unnamed: 4
0,,1. The Shawshank Redemption (1994),9.2,12345678910 NOT YET RELEASED Seen,
1,,2. The Godfather (1972),9.2,12345678910 NOT YET RELEASED Seen,
2,,3. The Dark Knight (2008),9.0,12345678910 NOT YET RELEASED Seen,
3,,4. The Godfather Part II (1974),9.0,12345678910 NOT YET RELEASED Seen,
4,,5. 12 Angry Men (1957),9.0,12345678910 NOT YET RELEASED Seen,


## 第二正規化形式：設定外鍵

- 從基於第一正規化形式的資料再著手進行調整。
- 將不同種類的資料切割至不同的資料表。

## 第二正規化形式：以 `imdb` 為例

- 與 IMDb Top 250 電影相關的資料
    - `actors`
    - `directors`
    - `movies`

## 第三正規化形式：設定對應資料表

- 從基於第二正規化形式的資料再著手進行調整。
- 將具有「附屬」關係的資料切割。

## 第三正規化形式：以 `imdb` 為例

- 建立 `casting` 資料表作為 `actors` 與 `movies` 的橋接資料表。
- 討論是否建立下列的對應資料表：
    - `ratings` 作為評價的對應資料表。
    - `release_years` 作為上映年份的對應資料表。
    - `release_dates` 作為上映日期的對應資料表。

## 正規化之後決定欄位設定

- 設定資料類型：數值、文字或日期。
- 限制：是否有預設值、是否允許空值 `NULL`、是否允許重複資料、是否需要自動產生連續整數編號、是否設定主鍵與外鍵。

## 資料表與欄位名稱命名準則

- 資料表、欄位名稱僅使用「半形英數字與底線」。
- 使用全小寫，第一個字元不使用數字。
- 資料表名稱取為複數（Plural）型態。
    - `imdb.actors`
    - `imdb.casting`
    - `imdb.directors`
    - `imdb.movies`

## 資料表與欄位名稱命名準則（續）

- 使用對外人也簡單易懂的名稱（避免使用縮寫）。
- 使用從欄位名稱就能看出所儲存資料命名。
- 用來連接父母資料表主鍵的欄位命名為「資料表名稱單數型態（Singular）\_id」。
    - `imdb.casting.actor_id`
    - `imdb.casting.movie_id`
    - `imdb.movies.director_id`

## 從零到一製作 `imdb` 學習資料庫

## 使用 Python 擷取網頁資料

- [imdb_data_colab.ipynb](https://github.com/datainpoint/classroom-adv-sqlfifty/blob/main/notebooks/imdb_data_colab.ipynb)
- 將輸出的 CSV 檔案下載到本機。
- 將輸出的 CSV 檔案匯入 MySQL。

## 使用資料操作語言與交易控制語言更新限制

```sql
START TRANSACTION;
ALTER TABLE actors ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE directors ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE casting ADD CONSTRAINT PRIMARY KEY (id);
ALTER TABLE movies ADD CONSTRAINT PRIMARY KEY (id);
COMMIT;
```

## 使用資料操作語言與交易控制語言更新限制（續）

```sql
START TRANSACTION;
ALTER TABLE casting ADD CONSTRAINT FOREIGN KEY (actor_id) REFERENCES actors (id);
ALTER TABLE casting ADD CONSTRAINT FOREIGN KEY (movie_id) REFERENCES movies (id);
ALTER TABLE movies ADD CONSTRAINT FOREIGN KEY (director_id) REFERENCES directors (id);
COMMIT;
```

## 檢視與匯出實體關係圖：透過 DBeaver

- Projects > ER Diagrams > Create New ER Diagram.
- 選擇欲檢視與匯出實體關係圖的資料庫。
- 給予實體關係圖一個檔案名稱。

![](../images/imdb_erd.png)

## 檢視與匯出實體關係圖：透過 MySQL Workbench

- 透過 MySQL Workbench 建立與本機 MySQL Server 的連線。
- Database > Reverse Engineer...
- 選擇欲檢視與匯出實體關係圖的資料庫。

![](../images/imdb_erd_mysqlworkbench.png)