# SQL 的五十道練習：初學者友善的資料庫八週專班

> 第一天

[數聚點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

In [1]:
%LOAD sqlite3 db=../databases/imdb.db timeout=2 shared_cache=true

## SQL、關聯式資料庫與關聯式資料庫管理系統

## SQL、關聯式資料庫與關聯式資料庫管理系統

- 什麼是 SQL
- 什麼是關聯式資料庫
- 什麼是關聯式資料庫管理系統

## 什麼是 SQL

- SQL 是 Structured Query Language 的縮寫，是一個專門針對關聯式資料庫中所儲存的資料進行查詢、定義、操作與控制的語言。
- SQL 在 1970 年代由國際商業機器公司（IBM）創造，剛開發出來時候僅只是為了更有效率地「查詢」儲存於關聯式資料庫中的資料，但是到了現代，除了查詢以外像是資料的建立、更新與刪除，也都能靠著 SQL 來完成。

## 什麼是 SQL（續）

- 具體來說，SQL 是由保留字（Keyword）、符號、常數與函數所組合而成的一種語言。
- 按照 SQL 使用目的可以再細分為:

|SQL 的分類|範例|
|:---------|:----|
|資料查詢語言（Data Query Language, DQL）|`SELECT ...`|
|資料定義語言（Data Definition Language, DDL）|`CREATE ...`|
|資料操作語言（Data Manipulation Language, DML）|`UPDATE ...`|
|資料控制語言（Data Control Language, DCL）|`GRANT ...`|
|交易控制語言（Transaction Control Language, TCL）|`COMMIT`|

## 什麼是 SQL（續）

- 我們可以理解 SQL 是一個能夠與關聯式資料庫互動的專用語言。
- 常見的互動有四個：包含創造（Create）、查詢（Read）、更新（Update）與刪除（Delete），這四個動作又在業界與社群被簡稱為 CRUD
- 舉例來說在社群應用程式中的一舉一動，不論是透過滑鼠點擊或者手勢觸控，都會被應用程式轉換為 CRUD 的指令：上傳新的動態與貼文，就是創造的體現；瀏覽追蹤對象的動態與貼文，就是查詢的體現；編輯動態與貼文，就是更新的體現；撤掉動態與貼文，就是刪除的體現。

## 什麼是關聯式資料庫

- 我們拆成「關聯式」與「資料庫」分別定義：
    - 資料庫是一種特定、經過加工的資料集合，能夠放置在伺服器、個人電腦、手機或者微型電腦之中。
    - 關聯式則是描述資料庫中的資料集合是以列（Rows）與欄（Columns）所組成的二維表格形式記錄，並且遵守關聯式模型準則設計，這樣的資料庫就被稱為關聯式資料庫。有時列也有其他別名，像是紀錄（Records）、觀測值（Observations）、元組（Tuples）等；欄的其他別名則有欄位（Fields）、變數（Variables）、屬性（Attributes）等。

## 什麼是關聯式資料庫（續）

![](https://upload.wikimedia.org/wikipedia/commons/thumb/7/7c/Relational_database_terms.svg/512px-Relational_database_terms.svg.png)

來源：<https://en.wikipedia.org/wiki/Relational_database>

## 能夠被稱為是資料庫的資料集合必須要同時具備兩個特徵

1. 觀測值必須具備屬性。
2. 資料集合必須具備元資料（Metadata）。

## 觀測值必須具備屬性

- 第一個特徵是描述資料表內容必須是完整的，觀測值與屬性都要具備，例如 `id` 到 `runtime` 這六個變數名稱就是屬性的體現。
- 如果資料只有觀測值而沒有屬性，例如二維陣列，就不是具備資料庫特徵的資料集合。
- 如果資料只有屬性而沒有擺放觀測值的位置，例如一維陣列，就不是具備資料庫特徵的資料集合。

In [2]:
SELECT *
  FROM movies
 LIMIT 5;

id,title,release_year,rating,director,runtime
1,The Shawshank Redemption,1994,9.3,Frank Darabont,142
2,The Godfather,1972,9.2,Francis Ford Coppola,175
3,The Godfather: Part II,1974,9.0,Francis Ford Coppola,202
4,The Dark Knight,2008,9.0,Christopher Nolan,152
5,12 Angry Men,1957,9.0,Sidney Lumet,96


## 資料集合必須具備元資料（Metadata）

- 第二個特徵是資料集合必須要具備能夠自我解釋（Self-explainable）的能力，這個能力就是所謂的元資料（Metadata）。
- 比較能夠幫助理解的譬喻是元資料之於資料表，就像英英字典之於英文單字，當我們在查詢英文單字時英英字典會用另外一段英文來描述；當我們在查詢資料表的詳細資料時，元資料會用另外一個資料表來描述。

In [3]:
SELECT *
  FROM PRAGMA_TABLE_INFO('movies');

cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,title,TEXT,0,,0
2,release_year,INTEGER,0,,0
3,rating,REAL,0,,0
4,director,TEXT,0,,0
5,runtime,INTEGER,0,,0


## 元資料（Metadata）的內容

- `cid`：欄流水號（Column ID）。
- `name`：欄名。
- `type`：欄資料類別。
- `notnull`：是否不允許 `NULL` 空值存在。
- `dflt_value`：預設值（Default value）。
- `pk`：是否為主鍵（Primary key）。

## 什麼是關聯式資料庫管理系統

- 管理關聯式資料庫的電腦軟體稱為關聯式資料庫管理系統（Relational Database Management System, RDBMS）。
- 透過關聯式資料庫管理系統，可以讓關聯式資料庫具有多人共用、處理大量資料、自動化讀寫與備份等功能。

## 常見的關聯式資料庫管理系統大致可以分為商業授權與開放原始碼兩個大類

- 商業授權
    - DB2：國際商業機器公司的關聯式資料庫管理系統。
    - SQL Server：微軟公司的關聯式資料庫管理系統。
    - Oracle Database：甲骨文公司的關聯式資料庫管理系統。
- 開放原始碼
    - MySQL：開放原始碼的關聯式資料庫管理系統，現為甲骨文公司所有。
    - MariaDB：開放原始碼的關聯式資料庫管理系統，是 MySQL 的分支。
    - SQLite：開放原始碼的關聯式資料庫管理系統。

## SQL、關聯式資料庫與關聯式資料庫管理系統三者的關係

|SQL|關聯式資料庫|關聯式資料庫管理系統|
|:--|:---------|:----------------|
|駕駛車的技術、執照|車|道路、車庫、交通號誌、路線管理|
|駕駛船的技術、執照|船|水域、船塢、港口、航線管理|
|駕駛飛機的技術、執照|飛機|空域、機場、停機坪、跑道、塔台、航線管理|

## 本課程使用輕量、無伺服器架構並且與主流程式語言都能串接的 SQLite 開放原始碼關聯式資料庫管理系統

- 初學者從學習任何一個關聯式資料庫管理系統起步皆可。
- 標準 SQL 能順利在常見的關聯式資料庫管理系統運行。
- 以駕駛車的技術為例，自用小客車的駕照能夠廣泛應用在轎車、休旅車或廂型車的駕駛。

## SQL 的學習前置作業

## SQL 的學習門檻

- SQL 與其他泛用程式語言（C 語言、Java、Python 等）或者科學計算專用語言（R 語言、Matlab、SAS 等）相較起來學習門檻比較低的。
- 原因在於 SQL 是一個與英文高度相似的語言，所以即便完全沒有程式語言、資料科學基礎的讀者，只要具備一定程度的英文能力（可能是全民英檢中高級以上或者多益 650 分以上），在 SQL 的學習上依然能顯得輕鬆寫意。

## 三個需要克服的難關

1. 建立學習環境。
2. 範例資料。
3. 練習。

## 下載 SQLiteStudio

- 本課程使用 SQLiteStudio 的安裝版本 3.2.1（之後更新版本的 SQLiteStudio 都改為免安裝設定）。
- Windows 作業系統下載副檔名為 .exe 的安裝檔：<https://bit.ly/gh-sqlite-studio-exe>
- macOS 下載副檔名為 .dmg 的安裝檔：<https://bit.ly/gh-sqlite-studio-dmg>

## 下載 DBeaver

- 本課程使用 DBeaver 的安裝版本 21.0.1
- Windows 作業系統下載副檔名為 .exe 的安裝檔：<https://bit.ly/dbeaver-ce-exe>
- macOS 下載副檔名為 .dmg 的安裝檔：<https://bit.ly/dbeaver-ce-dmg>

## 範例資料

- 多數課程或教科書所使用的範例資料都是較為制式化的資料內容，像是國家城市資料、超級市場銷售資料或者班級成績資料。
- 本課程考量到這點，使用了像是 IMDb 網站的電影與演員資料、NBA 網站的球員、球隊與生涯統計資料、約翰霍普金斯大學 COVID-19 每日報告、地理區域與時間序列資料、中選會的選舉資料與 Kaggle 機器學習與資料科學調查。

## 學習資料庫的資料來源

1. [covid19.db](https://hahow-sqlfifty.s3-ap-northeast-1.amazonaws.com/covid19.db) 源自 Johns Hopkins 的全球疫情儀表板專案 <https://github.com/CSSEGISandData/COVID-19>
2. [imdb.db](https://hahow-sqlfifty.s3-ap-northeast-1.amazonaws.com/twElection2020.db) 源自 [IMDb.com](https://www.imdb.com) 最高評等的 250 部電影 <https://www.imdb.com/chart/top>
3. [nba.db](https://hahow-sqlfifty.s3-ap-northeast-1.amazonaws.com/nba.db) 源自 NBA 官方 API <https://data.nba.net/prod/v1/today.json>
4. [twElection2020.db](https://hahow-sqlfifty.s3-ap-northeast-1.amazonaws.com/twElection2020.db)、[twElection2022.db](https://hahow-sqlfifty.s3.ap-northeast-1.amazonaws.com/twElection2022.db) 源自中選會選舉資料庫網站 <https://db.cec.gov.tw>
5. [kaggleSurvey2022.db](https://hahow-sqlfifty.s3.ap-northeast-1.amazonaws.com/kaggleSurvey2022.db) 源自 [kaggle.com](https://www.kaggle.com/c/kaggle-survey-2022)

## 哈囉世界與學習資料庫中的第一個資料表

- 哈囉世界是指在電腦螢幕顯示「Hello, World!」（你好，世界！）字串的電腦程式，通常用來確認一個程式語言的開發環境及運行環境是否已經安裝妥當。
- 學習 SQL 也不例外，不過若光是顯示「Hello, World!」還不足以確認是否有順利完成下載學習資料庫並連線，因此還會查詢學習資料庫中第一個資料表（依照英文字母順序排列）的「前五列、所有欄」。

## 哈囉世界

In [4]:
SELECT 'Hello, world!';

"'Hello, world!'"
"Hello, world!"


## 查詢學習資料庫中第一個資料表

In [5]:
SELECT *
  FROM actors
 LIMIT 5;

id,name
1,Aamir Khan
2,Aaron Eckhart
3,Abbas-Ali Roomandi
4,Abbey Lee
5,Abbie Cornish


## 列出學習資料庫所有資料表

In [6]:
SELECT name
  FROM sqlite_master;

name
actors
movies
casting


## 查詢學習資料庫每一個資料表的元資料（Metadata）

```sql
SELECT *
  FROM PRAGMA_TABLE_INFO('TABLE_NAME');
```

In [7]:
SELECT *
  FROM PRAGMA_TABLE_INFO('actors');

cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,name,TEXT,0,,0


In [8]:
SELECT *
  FROM PRAGMA_TABLE_INFO('casting');

cid,name,type,notnull,dflt_value,pk
0,movie_id,INTEGER,0,,0
1,actor_id,INTEGER,0,,0
2,ord,INTEGER,0,,0


In [9]:
SELECT *
  FROM PRAGMA_TABLE_INFO('movies');

cid,name,type,notnull,dflt_value,pk
0,id,INTEGER,0,,1
1,title,TEXT,0,,0
2,release_year,INTEGER,0,,0
3,rating,REAL,0,,0
4,director,TEXT,0,,0
5,runtime,INTEGER,0,,0


## SQL 敘述

## SQL 敘述的組成

我們可以將 SQL 敘述歸納為以下幾個部分的組成：

- 保留字：具有特定功能的指令，例如 `SELECT`、`FROM` 與 `LIMIT`。
- 符號：具有特定功能的符號，例如 `*` 與 `;`。
- 常數：由使用者給予的資料，例如 `'Hello, world!'`。
- 函數：具有特定邏輯的輸入與輸出對應，例如 `PRAGMA_TABLE_INFO()`。

## SQL 敘述的組成（續）

- `SELECT` 是「選擇」欄的保留字。
- `FROM` 是指定「從」哪個資料表查詢。
- `LIMIT m` 是讓查詢結果顯示前 `m` 列。
- `*` 表示「所有欄」，`;` 表示一段 SQL 敘述的結束。
- 我們習慣以 `(m, n)` 來描述一個具有 `m` 列、`n` 欄的資料表或者查詢結果，其中 `m` 不包含欄名那一列。

## 舉例來說 `SELECT 'Hello, world!';` 的查詢結果是 `(1, 1)`

In [10]:
SELECT 'Hello, world!';

"'Hello, world!'"
"Hello, world!"


## `SELECT * FROM actors LIMIT 5;` 的查詢結果是 `(5, 2)`

In [11]:
SELECT *
  FROM actors
 LIMIT 5;

id,name
1,Aamir Khan
2,Aaron Eckhart
3,Abbas-Ali Roomandi
4,Abbey Lee
5,Abbie Cornish


## 查詢結果顯示常數：`SELECT constants`

使用單獨存在的 `SELECT` 保留字指定希望在查詢結果中顯示的常數，常用的常數類別有四種，分別是整數、浮點數、文字與空值，我們可以使用 `TYPEOF()` 函數顯示常數或者資料表欄位的類別，當 `SELECT` 之後有不只一個資料的時候就用逗號 `,` 分隔。

|常數類別|範例|
|:------|:---|
|整數 `integer`|`7`, `19`, `5566`, ...etc.|
|浮點數 `real`|`2.718`, `3.14159`, ...etc.|
|文字 `text`|`'Hello, World!'`, `'SQL'`, ...etc.|
|空值 `null`|`NULL`|

## 為查詢結果剔除重複值：`DISTINCT`

- `DISTINCT` 只能寫作一次，即便希望查詢多個欄位的獨一值。
- `DISTINCT` 要接在 `SELECT` 之後寫，不能在第二個之後才寫。

```sql
SELECT DISTINCT columns
  FROM table;
```

In [12]:
SELECT DISTINCT director
  FROM movies
 LIMIT 10;

director
Frank Darabont
Francis Ford Coppola
Christopher Nolan
Sidney Lumet
Steven Spielberg
Peter Jackson
Quentin Tarantino
Sergio Leone
David Fincher
Robert Zemeckis


## `DISTINCT` 只能寫作一次

```sql
SELECT DISTINCT director,
       DISTINCT release_year
  FROM movies
 LIMIT 10;
```

## `DISTINCT` 要接在 `SELECT` 之後寫，不能在第二個之後才寫

```sql
SELECT director,
       DISTINCT release_year
  FROM movies
 LIMIT 10;
```

## 學長姐常見問題彙整

## 學長姐常見問題彙整

> 老師你好，
>
> 我是用SQLstudio來上課，想問有沒有辦法把每次寫好的script存成檔案之後再叫出來?
>
> 我有google過似乎是會存成sql.，但在在SQLstudio中好像沒看到類似save as 的按鍵。
>
> 謝謝

## 學長姐常見問題彙整（續）

> 老師您好，我目前遇到兩個問題，一是資料庫裡的資料表非常多，我要如何能 (快速/正確) 知道題目或是別人要求我去抓取的資料要從哪裡 FROM 呢？我目前的方法就是一個一個資料表點開來去找，非常得土法煉鋼…

## 學長姐常見問題彙整（續）

> 請問如果之後的工作可能會使用SQL server，在這門課程上有什麼需要注意的嗎？
> 
> MS SQL語法是否有哪些要做轉換？
> 
> 在開發環境，老師的資料庫教材可以直接用在VS code/SQL server做讀取嗎？
>
> 謝謝！

## 學長姐常見問題彙整（續）

> 老師您好。看過之前老師和學員討論有關mysql workbench與sqlitestudio之間的差異，學生有基本的了解。且老師有題及，兩者的 SQL 語法大多數都是相同的，只有在少數特定功能與函數上面有所差別。
>
> 學生這邊想請教老師，若學生想試著用mysql workbench再進行一次課堂練習。在mysql workbench中，也是可以像在sqlitestudio中直接選取增加database，然後再進行連接的動作嗎?
>
> 另外，老師好像也有題及不能直接將 .db 轉檔的問題?所以在使用mysql workbench或SQL Server是能直接讀 .db 檔嗎?
>
> 再麻煩老師解惑，謝謝。

## 學長姐常見問題彙整（續）

> 安裝完dbeaver 要使用出現此訊息,應如何處理呢?謝謝老師

## 學長姐常見問題彙整（續）

> 老師您好:
>
> 想向您請教 SQLiteStudio Code 是否可以調整字體大小?

## 直播問題與討論