## SQL介紹

### 什麼是 SQL？
+ SQL = Structured Query Language
+ 用來「跟資料庫對話」
+ 可以「新增、查詢、更新、刪除」資料
+ 幾乎所有大型資料庫（MySQL、PostgreSQL、SQLite、SQL Server…）都支援

+ SQL按照使用目的可以區分
    + 資料查詢語言(DQL)
        + 通常SELECT開始
    + 資料操作語言(DML)
        + 通常UPDATE、DELETE、INSERT開頭
    + 資料定義語言(DDL)
        + 通常CREATE開頭
    + 資料控制語言(DCL)
        + 通常GRANT、REVOKE開頭

+ 資料庫互動**CRUD**
    + 創造Create：發布新動態
    + 查詢Read：瀏覽追蹤對象的動態
    + 更新Update：編輯先前發佈動態內容
    + 刪除Deleta：撤銷先前發佈的動態


+ 具有兩個特徵的資料集合被稱為資料庫
    + 觀測質必須具有**屬性**
    + 資料集合必須具有**元資料(metadata)**


+ 資料庫與資料庫管理系統
    + SQL：開船的技術與執照。
    + 資料庫：船。
    + 資料庫管理系統：船塢、碼頭、湖泊、河流或海洋。
    + 兩大分類
        + 關聯式資料庫管理系統(RDBMS)
        + 非關聯式資料庫管理系統(NoSQL)
    + 常見的管理系統
        * 甲骨文（Oracle）的 Oracle Database
        * 微軟（Microsoft）的 SQL Server
        * 國際商業機器（IBM）的 DB2
        * 開放原始碼的 SQLite
        * 開放原始碼的 MySQL
        * 開放原始碼的 PostgreSQL

### 資料結構：資料表 (Tables)
+ 資料存放在 **表格（Table）** 中
+ 表格就像一個 Excel 工作表
+ Row：一筆資料（例如一位客戶）
+ Column：一個欄位（例如姓名、電話）

### 一個簡單的 SQL 查詢
```sql
SELECT 欄位名
FROM 表格名
WHERE 條件;
```

範例： 
```sql
SELECT CustomerName
FROM Customers
WHERE Country = 'USA';
```

## 基礎SQL語法整理

### WHERE 條件進階（AND / OR）

#### 語法規則

- `WHERE` 可以指定篩選條件
- 使用 `AND` 表示**同時符合多個條件**
- 使用 `OR` 表示**符合其中一個條件即可**

基本結構：

```sql
SELECT 欄位1, 欄位2
FROM 表格名稱
WHERE 條件1 AND/OR 條件2;
```

---

#### 範例

查詢來自美國或英國的客戶：

```sql
SELECT CustomerName, Country
FROM Customers
WHERE Country = 'USA' OR Country = 'UK';
```

查詢來自德國且城市是Berlin的客戶：

```sql
SELECT CustomerName, City
FROM Customers
WHERE Country = 'Germany' AND City = 'Berlin';
```

### ORDER BY 排序

#### 語法規則

- 使用 `ORDER BY` 指定排序欄位
- 預設是升冪（ASC），也可以指定降冪（DESC）

基本結構：

```sql
SELECT 欄位1, 欄位2
FROM 表格名稱
ORDER BY 欄位1 ASC|DESC;
```

---

#### 範例

查詢客戶，依名稱升冪排序：

```sql
SELECT CustomerName, Country
FROM Customers
ORDER BY CustomerName ASC;
```

依國家降冪排序：

```sql
SELECT CustomerName, Country
FROM Customers
ORDER BY Country DESC;
```

### GROUP BY 分組

#### 語法規則

- `GROUP BY` 把資料根據某個欄位分組
- 通常搭配聚合函數一起使用（例如 `COUNT()`、`SUM()`）
- 可以用 `HAVING` 來對分組結果再加篩選條件

基本結構：

```sql
SELECT 欄位, 聚合函數
FROM 表格名稱
GROUP BY 欄位;
```

---

#### 範例

統計每個國家的客戶數量：

```sql
SELECT Country, COUNT(*) AS CustomerCount
FROM Customers
GROUP BY Country;
```

只顯示客戶數大於5個的國家：

```sql
SELECT Country, COUNT(*) AS CustomerCount
FROM Customers
GROUP BY Country
HAVING CustomerCount > 5;
```

### JOIN 表格連接

#### 語法規則

- `JOIN` 用來**跨表格**查詢資料
- 最常用的是 `INNER JOIN`（只取有對應的資料）
- 也可以用 `LEFT JOIN`（保留左表所有資料）

基本結構：

```sql
SELECT 表1.欄位, 表2.欄位
FROM 表1
JOIN 表2 ON 表1.對應欄位 = 表2.對應欄位;
```

---

#### 範例

查詢訂單和客戶的資訊：

```sql
SELECT Orders.OrderID, Customers.CustomerName
FROM Orders
JOIN Customers ON Orders.CustomerID = Customers.CustomerID;
```

查詢所有客戶（即使沒有訂單也要列出）：

```sql
SELECT Customers.CustomerName, Orders.OrderID
FROM Customers
LEFT JOIN Orders ON Customers.CustomerID = Orders.CustomerID;
```

### 子查詢 Subquery

#### 語法規則

- 子查詢是「查詢中的查詢」
- 可以放在 `SELECT`、`FROM`、或 `WHERE` 子句中
- 通常用括號 `()` 包起來

基本結構：

```sql
SELECT 欄位
FROM 表格
WHERE 某欄位 IN (子查詢);
```

---

#### 範例

查詢有下單的客戶名稱：

```sql
SELECT CustomerName
FROM Customers
WHERE CustomerID IN (
    SELECT DISTINCT CustomerID
    FROM Orders
);
```

查詢訂單總金額最高的訂單：

```sql
SELECT OrderID, (UnitPrice * Quantity * (1 - Discount)) AS TotalAmount
FROM "Order Details"
WHERE (UnitPrice * Quantity * (1 - Discount)) = (
    SELECT MAX(UnitPrice * Quantity * (1 - Discount))
    FROM "Order Details"
);
```

## 載入資料

### Northwind 資料集


Northwind 是一個經典的範例資料集，
最初由 Microsoft 隨 Access 2000 提供，
主要設計目的是為了展示資料庫的基本應用。

#### 資料集內容
+ 模擬一間貿易公司（Northwind Traders）的運作
+ 涵蓋了完整的商業流程資料
+ 客戶（Customers）
+ 產品（Products）
+ 訂單（Orders）
+ 員工（Employees）
+ 供應商（Suppliers）
+ 配送（Shippers）
+ 資料之間有設計關聯性（多對多、一對多）

#### 表格結構
![imgur figure](https://i.imgur.com/GsppbGf.png)
+ [表格結構](https://www.mermaidchart.com/raw/30673096-5cb0-46e9-a990-c9cf08450e9a?theme=light&version=v0.1&format=svg)

### 讀取資料

In [1]:
import sqlite3
import pandas as pd
FILE_PATH = "dataset/northwind.db"

conn = sqlite3.connect(FILE_PATH)
def run_query(query):
    return pd.read_sql_query(query,conn)

In [2]:
# 查看一共有哪些表
QUERY = "SELECT name FROM sqlite_master WHERE type='table';"
run_query(QUERY)

Unnamed: 0,name
0,Categories
1,sqlite_sequence
2,CustomerCustomerDemo
3,CustomerDemographics
4,Customers
5,Employees
6,EmployeeTerritories
7,Order Details
8,Orders
9,Products


In [3]:
# 查看表的結構
QUERY = """
Pragma table_info(Categories);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,CategoryID,INTEGER,0,,1
1,1,CategoryName,TEXT,0,,0
2,2,Description,TEXT,0,,0
3,3,Picture,BLOB,0,,0


## 基礎練習


### 練習 1：查詢所有產品的詳細資訊
> 你是產品管理部的新人，主管要你產出一份「所有產品」的詳細清單，並要求你先確認有哪些產品資料可以被查到。

#### 思考
1.	從哪個表格查資料？
→ 試著用 sqlite_master 或 SELECT * 快速瀏覽表格。
2.	哪些欄位是必要的？
→ 產品名稱、價格、分類、是否停售？還有什麼？
3.	是否需要進行篩選或排序？
→ 本題不需要，但可加入 LIMIT 以利檢查。

#### 操作

In [None]:
# 查看表的結構
QUERY = """
    Pragma table_info(OrderDetails);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,ProductID,INTEGER,1,,1
1,1,ProductName,TEXT,1,,0
2,2,SupplierID,INTEGER,0,,0
3,3,CategoryID,INTEGER,0,,0
4,4,QuantityPerUnit,TEXT,0,,0
5,5,UnitPrice,NUMERIC,0,0,0
6,6,UnitsInStock,INTEGER,0,0,0
7,7,UnitsOnOrder,INTEGER,0,0,0
8,8,ReorderLevel,INTEGER,0,0,0
9,9,Discontinued,TEXT,1,'0',0


In [None]:
# 查詢所有的產品
run_query("""

""")

Unnamed: 0,ProductID,ProductName,SupplierID,CategoryID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Chai,1,1,10 boxes x 20 bags,18.00,39,0,10,0
1,2,Chang,1,1,24 - 12 oz bottles,19.00,17,40,25,0
2,3,Aniseed Syrup,1,2,12 - 550 ml bottles,10.00,13,70,25,0
3,4,Chef Anton's Cajun Seasoning,2,2,48 - 6 oz jars,22.00,53,0,0,0
4,5,Chef Anton's Gumbo Mix,2,2,36 boxes,21.35,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...
72,73,Röd Kaviar,17,8,24 - 150 g jars,15.00,101,0,5,0
73,74,Longlife Tofu,4,7,5 kg pkg.,10.00,4,20,5,0
74,75,Rhönbräu Klosterbier,12,1,24 - 0.5 l bottles,7.75,125,0,25,0
75,76,Lakkalikööri,23,1,500 ml,18.00,57,0,20,0


### 練習 2：找出高價產品（單價 > $20）
> 行銷部門要推出高價產品的促銷活動，請你列出所有單價高於 $20 的產品。

#### 思考
1.	在哪個表格有產品價格？
→ 確認 Products 表中有沒有價格欄位。
2.	要顯示哪些資訊？
→ 只需要產品名稱與價格就好嗎？
3.	條件怎麼寫？
→ 價格屬於數值，比較運算符是 >。

#### 操作

In [None]:
# 查看 Products 表中的欄位
QUERY = """

"""
run_query(QUERY)

Unnamed: 0,ProductID,ProductName,SupplierID,CategoryID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Chai,1,1,10 boxes x 20 bags,18.0,39,0,10,0
1,2,Chang,1,1,24 - 12 oz bottles,19.0,17,40,25,0
2,3,Aniseed Syrup,1,2,12 - 550 ml bottles,10.0,13,70,25,0
3,4,Chef Anton's Cajun Seasoning,2,2,48 - 6 oz jars,22.0,53,0,0,0
4,5,Chef Anton's Gumbo Mix,2,2,36 boxes,21.35,0,0,0,1


從上面的query中，我們可以看到 Products 表格中關於價格的欄位應該是 `UnitPrice`，記得檢查一下它的資料型態(`NUMERIC`)。

In [None]:
# 查詢 UnitPrice 大於 20 的產品
QUERY = """

"""
run_query(QUERY)

Unnamed: 0,ProductName,UnitPrice
0,Chef Anton's Cajun Seasoning,22.0
1,Chef Anton's Gumbo Mix,21.35
2,Grandma's Boysenberry Spread,25.0
3,Uncle Bob's Organic Dried Pears,30.0
4,Northwoods Cranberry Sauce,40.0
5,Mishi Kobe Niku,97.0
6,Ikura,31.0
7,Queso Cabrales,21.0
8,Queso Manchego La Pastora,38.0
9,Tofu,23.25


In [None]:
# 再加入排序
QUERY = """
    SELECT
"""
run_query(QUERY)

Unnamed: 0,ProductName,UnitPrice
0,Côte de Blaye,263.5
1,Thüringer Rostbratwurst,123.79
2,Mishi Kobe Niku,97.0
3,Sir Rodney's Marmalade,81.0
4,Carnarvon Tigers,62.5
5,Raclette Courdavault,55.0
6,Manjimup Dried Apples,53.0
7,Tarte au sucre,49.3
8,Ipoh Coffee,46.0
9,Rössle Sauerkraut,45.6


### 練習 3：找出來自倫敦的客戶
> 你在準備倫敦地區的客戶關係計劃，需要列出來自倫敦的公司與聯絡人。

#### 思考
1.	「客戶」的資料在哪裡？
→ 是 Customers 還是別的表格？
2.	地點資訊放在哪個欄位？
→ 看看 City 有沒有。
3.	倫敦的拼法是什麼？
→ 建議先查一下有哪些城市：

#### 操作

In [None]:
# 先查看城市有哪些
QUERY = """
    SELECT ... Customers;
"""
run_query(QUERY)

Unnamed: 0,City
0,Berlin
1,México D.F.
2,London
3,Luleå
4,Mannheim
...,...
65,Oulu
66,Resende
67,Seattle
68,Helsinki


In [None]:
# 忽略大小寫，查詢是否有不同版本的  london 
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,City
0,London


In [None]:
# 正式查詢
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,CompanyName,ContactName
0,Around the Horn,Thomas Hardy
1,B's Beverages,Victoria Ashworth
2,Consolidated Holdings,Elizabeth Brown
3,Eastern Connection,Ann Devon
4,North/South,Simon Crowther
5,Seven Seas Imports,Hari Kumar


### 練習 4：列出所有員工的姓名與職稱
> 人資部門要更新組織架構，請你列出所有員工的姓名與職稱，讓設計師排版。

#### 思考
1.	員工在哪個表格？
→ 觀察 Employees 表的欄位。
2.	姓名資訊如何存放？
→ 分開的 FirstName / LastName，還是合併？
3.	想要排序嗎？
→ 本題可以不排序，但排序會更清楚。

#### 操作

In [12]:
# 查看 Employee 表的結構
QUERY = """
    Pragma table_info(Employees);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,EmployeeID,INTEGER,0,,1
1,1,LastName,TEXT,0,,0
2,2,FirstName,TEXT,0,,0
3,3,Title,TEXT,0,,0
4,4,TitleOfCourtesy,TEXT,0,,0
5,5,BirthDate,DATE,0,,0
6,6,HireDate,DATE,0,,0
7,7,Address,TEXT,0,,0
8,8,City,TEXT,0,,0
9,9,Region,TEXT,0,,0


In [None]:
# 查詢
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,LastName,FirstName,Title
0,Davolio,Nancy,Sales Representative
1,Fuller,Andrew,"Vice President, Sales"
2,Leverling,Janet,Sales Representative
3,Peacock,Margaret,Sales Representative
4,Buchanan,Steven,Sales Manager
5,Suyama,Michael,Sales Representative
6,King,Robert,Sales Representative
7,Callahan,Laura,Inside Sales Coordinator
8,Dodsworth,Anne,Sales Representative
9,Green,Alice,


In [None]:
# 合併名稱
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,FullName,Title
0,Davolio Nancy,Sales Representative
1,Fuller Andrew,"Vice President, Sales"
2,Leverling Janet,Sales Representative
3,Peacock Margaret,Sales Representative
4,Buchanan Steven,Sales Manager
5,Suyama Michael,Sales Representative
6,King Robert,Sales Representative
7,Callahan Laura,Inside Sales Coordinator
8,Dodsworth Anne,Sales Representative
9,Green Alice,


### 練習 5：統計 2020 年的訂單數
> 財務部門要求提供 2020 年的訂單數以核對報表。

#### 思考
1.	訂單資料在哪裡？
→ 應該是 Orders 表。
2.	如何判斷訂單的「年」？
→ 查看 OrderDate 欄位型態。
3.	用什麼函數提取年份？
→ SQLite 用 strftime('%Y', OrderDate)。
4.	如何統計數量？
→ 使用 COUNT(*)。

#### 操作

In [15]:
# 查看表的結構
QUERY = """
    Pragma table_info(Orders);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,OrderID,INTEGER,1,,1
1,1,CustomerID,TEXT,0,,0
2,2,EmployeeID,INTEGER,0,,0
3,3,OrderDate,DATETIME,0,,0
4,4,RequiredDate,DATETIME,0,,0
5,5,ShippedDate,DATETIME,0,,0
6,6,ShipVia,INTEGER,0,,0
7,7,Freight,NUMERIC,0,0.0,0
8,8,ShipName,TEXT,0,,0
9,9,ShipAddress,TEXT,0,,0


In [None]:
# 看看 Orders 表的資料
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,OrderID,CustomerID,EmployeeID,OrderDate,RequiredDate,ShippedDate,ShipVia,Freight,ShipName,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry
0,10248,VINET,5,2016-07-04,2016-08-01,2016-07-16,3,16.75,Vins et alcools Chevalier,59 rue de l-Abbaye,Reims,Western Europe,51100,France
1,10249,TOMSP,6,2016-07-05,2016-08-16,2016-07-10,1,22.25,Toms Spezialitäten,Luisenstr. 48,Münster,Western Europe,44087,Germany
2,10250,HANAR,4,2016-07-08,2016-08-05,2016-07-12,2,25.0,Hanari Carnes,"Rua do Paço, 67",Rio de Janeiro,South America,05454-876,Brazil
3,10251,VICTE,3,2016-07-08,2016-08-05,2016-07-15,1,20.25,Victuailles en stock,"2, rue du Commerce",Lyon,Western Europe,69004,France
4,10252,SUPRD,4,2016-07-09,2016-08-06,2016-07-11,2,36.25,Suprêmes délices,"Boulevard Tirou, 255",Charleroi,Western Europe,B-6000,Belgium


In [None]:
# 前置步驟，先確認年份格式
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,"strftime('%Y', OrderDate)"
0,2016
1,2017
2,2018
3,2023
4,2022
5,2019
6,2015
7,2014
8,2013
9,2020


In [None]:
# 確認是否有 空 的年份
QUERY = """
    SELECT ...
"""
run_query(QUERY)

Unnamed: 0,OrderDate


In [None]:
# 查詢 2020 年的訂單
QUERY = """
    SELECT ...
run_query(QUERY)

Unnamed: 0,OrderID,OrderDate
0,11087,2020-04-25 14:00:46
1,11088,2020-10-08 17:17:24
2,11140,2020-08-27 13:25:15
3,11147,2020-05-28 02:47:24
4,11152,2020-03-19 07:15:34
...,...,...
1371,26464,2020-08-22 06:18:21
1372,26467,2020-05-12 02:45:08
1373,26506,2020-04-02 17:11:14
1374,26517,2020-07-13 13:58:49


## 進階練習
+ 多表 JOIN（橫向資料整合）  
+ 分群統計（GROUP BY + 聚合函數）  
+ 條件篩選（WHERE + 多條件）  
+ SQLite 中常用查詢技巧

### 練習 6：統計每位員工處理了幾筆訂單
> 業務經理想知道每位員工負責了多少訂單，作為 KPI 考核的參考。

#### 思考
1.	要查的是誰的資料？
→ 員工。
2.	訂單資料在哪裡？
→ Orders 表。
3.	員工資料在哪裡？
→ Employees 表。
4.	如何讓訂單與員工對應？
→ 透過 Orders.EmployeeID = Employees.EmployeeID。
5.	怎麼計算每位員工負責的訂單數量？
→ 用 GROUP BY EmployeeID，再用 COUNT(OrderID)。

#### 操作

In [20]:
# 查看表的結構 Orders
QUERY = """
    Pragma table_info(Orders);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,OrderID,INTEGER,1,,1
1,1,CustomerID,TEXT,0,,0
2,2,EmployeeID,INTEGER,0,,0
3,3,OrderDate,DATETIME,0,,0
4,4,RequiredDate,DATETIME,0,,0
5,5,ShippedDate,DATETIME,0,,0
6,6,ShipVia,INTEGER,0,,0
7,7,Freight,NUMERIC,0,0.0,0
8,8,ShipName,TEXT,0,,0
9,9,ShipAddress,TEXT,0,,0


In [21]:
# 查看表的結構 Employees
QUERY = """
    Pragma table_info(Employees);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,EmployeeID,INTEGER,0,,1
1,1,LastName,TEXT,0,,0
2,2,FirstName,TEXT,0,,0
3,3,Title,TEXT,0,,0
4,4,TitleOfCourtesy,TEXT,0,,0
5,5,BirthDate,DATE,0,,0
6,6,HireDate,DATE,0,,0
7,7,Address,TEXT,0,,0
8,8,City,TEXT,0,,0
9,9,Region,TEXT,0,,0


In [None]:
# 步驟 1：看一下 Orders 表的結構
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 確認有 EmployeeID，可以連到員工。

Unnamed: 0,OrderID,CustomerID,EmployeeID,OrderDate,RequiredDate,ShippedDate,ShipVia,Freight,ShipName,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry
0,10248,VINET,5,2016-07-04,2016-08-01,2016-07-16,3,16.75,Vins et alcools Chevalier,59 rue de l-Abbaye,Reims,Western Europe,51100,France
1,10249,TOMSP,6,2016-07-05,2016-08-16,2016-07-10,1,22.25,Toms Spezialitäten,Luisenstr. 48,Münster,Western Europe,44087,Germany
2,10250,HANAR,4,2016-07-08,2016-08-05,2016-07-12,2,25.0,Hanari Carnes,"Rua do Paço, 67",Rio de Janeiro,South America,05454-876,Brazil
3,10251,VICTE,3,2016-07-08,2016-08-05,2016-07-15,1,20.25,Victuailles en stock,"2, rue du Commerce",Lyon,Western Europe,69004,France
4,10252,SUPRD,4,2016-07-09,2016-08-06,2016-07-11,2,36.25,Suprêmes délices,"Boulevard Tirou, 255",Charleroi,Western Europe,B-6000,Belgium


In [None]:
# 步驟 2：只取 Orders 的 EmployeeID 和 OrderID
QUERY = """
    SELECT ...
"""

run_query(QUERY)
# 縮小範圍，專注在需要的欄位。

Unnamed: 0,EmployeeID,OrderID
0,5,10248
1,6,10249
2,4,10250
3,3,10251
4,4,10252
...,...,...
16277,6,26525
16278,9,26526
16279,4,26527
16280,9,26528


In [None]:
# 步驟 3：查看 Employees 表的結構
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 有員工編號與姓名，之後可以用來關聯。

Unnamed: 0,EmployeeID,LastName,FirstName
0,1,Davolio,Nancy
1,2,Fuller,Andrew
2,3,Leverling,Janet
3,4,Peacock,Margaret
4,5,Buchanan,Steven
5,6,Suyama,Michael
6,7,King,Robert
7,8,Callahan,Laura
8,9,Dodsworth,Anne
9,10,Green,Alice


In [None]:
# 步驟 4：JOIN Orders 和 Employees
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 成功把訂單連到員工，看到每筆訂單負責人。

Unnamed: 0,OrderID,EmployeeID,EmployeeName
0,10248,5,Buchanan Steven
1,10249,6,Suyama Michael
2,10250,4,Peacock Margaret
3,10251,3,Leverling Janet
4,10252,4,Peacock Margaret
...,...,...,...
16277,26525,6,Suyama Michael
16278,26526,9,Dodsworth Anne
16279,26527,4,Peacock Margaret
16280,26528,9,Dodsworth Anne


In [None]:
# 步驟 5：分組統計每位員工處理訂單數量
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 得到每位員工的訂單數量。

Unnamed: 0,EmployeeName,OrderCount
0,Davolio Nancy,1846
1,Fuller Andrew,1771
2,Leverling Janet,1846
3,Peacock Margaret,1908
4,Buchanan Steven,1804
5,Suyama Michael,1754
6,King Robert,1789
7,Callahan Laura,1798
8,Dodsworth Anne,1766


In [None]:
# 步驟 6：依訂單數量排序（多到少）
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 完整結果，訂單數多的員工排在上面。

Unnamed: 0,EmployeeName,OrderCount
0,Peacock Margaret,1908
1,Leverling Janet,1846
2,Davolio Nancy,1846
3,Buchanan Steven,1804
4,Callahan Laura,1798
5,King Robert,1789
6,Fuller Andrew,1771
7,Dodsworth Anne,1766
8,Suyama Michael,1754


### 練習 7：找出最有潛力的市場
> 客服部門想要了解不同國家中，哪些城市有最多客戶，好規劃在地服務據點。

#### 思考
1.	要分析的對象是誰？
→ 客戶（Customers 表）。
2.	地點資訊存在哪些欄位？
→ Country、City。
3.	怎麼知道每個城市有多少客戶？
→ GROUP BY Country, City，然後 COUNT(*)。
4.	怎麼知道哪些城市是最多客戶的？
→ 對 CustomerCount 做排序，觀察每國排前面的城市。

#### 操作

In [None]:
QUERY = """
    Pragma table_info(Customers);
"""
run_query(QUERY)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,CustomerID,TEXT,0,,1
1,1,CompanyName,TEXT,0,,0
2,2,ContactName,TEXT,0,,0
3,3,ContactTitle,TEXT,0,,0
4,4,Address,TEXT,0,,0
5,5,City,TEXT,0,,0
6,6,Region,TEXT,0,,0
7,7,PostalCode,TEXT,0,,0
8,8,Country,TEXT,0,,0
9,9,Phone,TEXT,0,,0


In [None]:
# 步驟 1：快速看一下 Customers 表的結構
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 確認有 Country 和 City 欄位

Unnamed: 0,CustomerID,CompanyName,ContactName,ContactTitle,Address,City,Region,PostalCode,Country,Phone,Fax
0,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Berlin,Western Europe,12209,Germany,030-0074321,030-0076545
1,ANATR,Ana Trujillo Emparedados y helados,Ana Trujillo,Owner,Avda. de la Constitución 2222,México D.F.,Central America,05021,Mexico,(5) 555-4729,(5) 555-3745
2,ANTON,Antonio Moreno Taquería,Antonio Moreno,Owner,Mataderos 2312,México D.F.,Central America,05023,Mexico,(5) 555-3932,
3,AROUT,Around the Horn,Thomas Hardy,Sales Representative,120 Hanover Sq.,London,British Isles,WA1 1DP,UK,(171) 555-7788,(171) 555-6750
4,BERGS,Berglunds snabbköp,Christina Berglund,Order Administrator,Berguvsvägen 8,Luleå,Northern Europe,S-958 22,Sweden,0921-12 34 65,0921-12 34 67


In [None]:
# 步驟 2：只取出 Country 和 City 欄位來簡單查看
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 確認每筆客戶都有標示國家和城市。

Unnamed: 0,Country,City
0,Germany,Berlin
1,Mexico,México D.F.
2,Mexico,México D.F.
3,UK,London
4,Sweden,Luleå
...,...,...
88,Finland,Oulu
89,Brazil,Resende
90,USA,Seattle
91,Finland,Helsinki


In [None]:
# 步驟 3：統計每個國家、每個城市的客戶數
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 每個 (國家, 城市) 配對出現多少次，即有多少客戶。

Unnamed: 0,Country,City,CustomerCount
0,,,2
1,Argentina,Buenos Aires,3
2,Austria,Graz,1
3,Austria,Salzburg,1
4,Belgium,Bruxelles,1
...,...,...,...
65,USA,Walla Walla,1
66,Venezuela,Barquisimeto,1
67,Venezuela,Caracas,1
68,Venezuela,I. de Margarita,1


In [None]:
# 步驟 4：加上排序，讓每個國家內最多客戶的城市排最前面
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 同一國家中，客戶數多的城市排在上方，方便觀察熱門城市。

Unnamed: 0,Country,City,CustomerCount
0,UK,London,6
1,Mexico,México D.F.,5
2,Brazil,Sao Paulo,4
3,Argentina,Buenos Aires,3
4,Brazil,Rio de Janeiro,3
...,...,...,...
65,USA,Walla Walla,1
66,Venezuela,Barquisimeto,1
67,Venezuela,Caracas,1
68,Venezuela,I. de Margarita,1


#### 思考與調整
觀察點：
+ 很多國家的城市客戶數都非常零碎（1~2人）。
+ 或許城市太細了，不適合做市場判斷。

修正：換成以國家為單位統計。

In [None]:
# 步驟 5：統計每個國家的客戶數
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 客戶最多的國家排在上面。

Unnamed: 0,Country,CustomerCount
0,USA,13
1,Germany,11
2,France,11
3,Brazil,9
4,UK,7
5,Spain,5
6,Mexico,5
7,Venezuela,4
8,Italy,3
9,Canada,3


#### 額外挑戰
> 根據訂單資料，請計算前5大國家（依訂單數排序）佔有的市場比例（%）。
+ 只計算有國家資訊（Country 不為 NULL）的訂單。
+ 結果需要顯示：
+ 前5大國家訂單總數
+ 總訂單數（有國家資訊的）
+ 市場佔比百分比（小數點後兩位）

+ 思考
    1.	哪些資料表需要 JOIN？
    2.	要不要過濾 NULL 值？
    3.	如何取前5大？
    4.	如何算總數、局部加總、以及比例？


✅ 小提示小抄

| SQL 小技巧 | 用法提示 |
|:---|:---|
| JOIN | `JOIN Customers ON CustomerID` |
| 過濾 NULL | `WHERE Country IS NOT NULL` |
| 分組統計 | `GROUP BY Country` |
| 排序取前幾名 | `ORDER BY ... DESC LIMIT 5` |
| 加總統計 | `SUM(...)` |
| 小數點取兩位 | `ROUND(..., 2)` |

In [None]:
# 步驟 1：建立每個國家的訂單數 CountryOrders
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 目標：每個國家的訂單數（已過濾 Country IS NOT NULL）

Unnamed: 0,Country,OrderCount
0,Argentina,516
1,Austria,364
2,Belgium,331
3,Brazil,1659
4,Canada,520
5,Denmark,332
6,Finland,331
7,France,1909
8,Germany,1895
9,Ireland,182


In [None]:
# 步驟 2：從 CountryOrders 中，抓出訂單最多的前5個國家
QUERY = """
    -- 請撰寫 SQL，選出訂單數最多的前5個國家
"""
run_query(QUERY)
# 目標：列出前5大國家的訂單數

Unnamed: 0,Country,OrderCount
0,USA,2280
1,France,1909
2,Germany,1895
3,Brazil,1659
4,UK,1234


In [None]:
# 步驟 3：計算這5個國家的訂單數總和 (Top5Total)
QUERY = """
    -- 請撰寫 SQL，將步驟2的結果加總
"""
run_query(QUERY)
# 目標：計算前5大國家訂單總數。

Unnamed: 0,Top5Total
0,8977


In [None]:
# 步驟 4：計算所有國家的訂單數總和 (TotalOrders)
QUERY = """
    -- 請撰寫 SQL，將步驟1 CountryOrders 的 OrderCount 全部加總
"""
run_query(QUERY)
# 目標：所有有國家資料的訂單數加總

Unnamed: 0,Total
0,15947


In [None]:
# 計算比例
8977 / 15947 

0.5629271963378691

In [None]:
# 步驟 5（進階合併版）：一次計算前5大市場佔比 (%)
QUERY = """
    -- 建立一個暫時表 CountryOrders：統計每個國家的訂單數
    WITH CountryOrders AS (
        SELECT ...
    ),
    
    -- 建立第二個暫時表 Top5Orders：取訂單數最多的前5個國家，加總訂單數
    Top5Orders AS (
        SELECT ...
    ),
    
    -- 建立第三個暫時表 TotalOrders：計算所有國家訂單數的總和
    TotalOrders AS (
        SELECT ...
    )
    
    -- 最後輸出：前5大國家訂單總數、整體訂單總數、以及市場佔比 (%)
    SELECT 
        Top5Total,
        Total,
        ROUND((CAST(Top5Total AS REAL) / Total) * 100, 2) AS Top5MarketSharePercent
    FROM Top5Orders, TotalOrders;
"""
run_query(QUERY)
# 一次查出：前5大國家訂單總數、整體訂單總數、市場佔比百分比。

Unnamed: 0,Top5Total,Total,Top5MarketSharePercent
0,8977,15947,56.29


### 練習 8：分析 2020 年每個月的銷售額
> 財務部門希望製作 2020 年度每個月的銷售趨勢圖，  
> 請計算 2020 年每個月的銷售總金額（Revenue）。

#### 思考
1.	銷售金額的資料在哪裡？
→ Order Details 裡有單價、數量、折扣，需要自己計算每筆金額。
2.	訂單的日期資料在哪裡？
→ 在 Orders 表的 OrderDate 欄位。
3.	如何知道是哪一年哪一個月？
→ 使用 strftime('%Y-%m', OrderDate) 取年月。
4.	要怎麼把銷售資料跟訂單日期連起來？
→ Order Details 的 OrderID JOIN Orders 的 OrderID。
5.	如何計算每月銷售額？
→ GROUP BY 年月，SUM(實際金額)。

#### 操作

In [None]:
# 步驟 1：查看 Order Details 表的結構
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 確認有 OrderID、UnitPrice、Quantity、Discount。

Unnamed: 0,OrderID,ProductID,UnitPrice,Quantity,Discount
0,10248,11,14.0,12,0.0
1,10248,42,9.8,10,0.0
2,10248,72,34.8,5,0.0
3,10249,14,18.6,9,0.0
4,10249,51,42.4,40,0.0


In [None]:
# 步驟 2：查看 Orders 表的結構
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 確認有 OrderID 和 OrderDate，準備做 JOIN。

Unnamed: 0,OrderID,CustomerID,EmployeeID,OrderDate,RequiredDate,ShippedDate,ShipVia,Freight,ShipName,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry
0,10248,VINET,5,2016-07-04,2016-08-01,2016-07-16,3,16.75,Vins et alcools Chevalier,59 rue de l-Abbaye,Reims,Western Europe,51100,France
1,10249,TOMSP,6,2016-07-05,2016-08-16,2016-07-10,1,22.25,Toms Spezialitäten,Luisenstr. 48,Münster,Western Europe,44087,Germany
2,10250,HANAR,4,2016-07-08,2016-08-05,2016-07-12,2,25.0,Hanari Carnes,"Rua do Paço, 67",Rio de Janeiro,South America,05454-876,Brazil
3,10251,VICTE,3,2016-07-08,2016-08-05,2016-07-15,1,20.25,Victuailles en stock,"2, rue du Commerce",Lyon,Western Europe,69004,France
4,10252,SUPRD,4,2016-07-09,2016-08-06,2016-07-11,2,36.25,Suprêmes délices,"Boulevard Tirou, 255",Charleroi,Western Europe,B-6000,Belgium


In [None]:
# 步驟 3：試著 JOIN Order Details 和 Orders
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 成功把每筆訂單的銷售資料與日期對接起來。

Unnamed: 0,OrderID,OrderDate,UnitPrice,Quantity,Discount
0,10248,2016-07-04,14.0,12,0.0
1,10248,2016-07-04,9.8,10,0.0
2,10248,2016-07-04,34.8,5,0.0
3,10249,2016-07-05,18.6,9,0.0
4,10249,2016-07-05,42.4,40,0.0
5,10250,2016-07-08,7.7,10,0.0
6,10250,2016-07-08,42.4,35,0.15
7,10250,2016-07-08,16.8,15,0.15
8,10251,2016-07-08,16.8,6,0.05
9,10251,2016-07-08,15.6,15,0.05


In [None]:
# 步驟 4：只取 2020 年的訂單
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 過濾只留 2020 年的訂單資料。

Unnamed: 0,OrderID,OrderDate,UnitPrice,Quantity,Discount
0,11087,2020-04-25 14:00:46,19.0,31,0.0
1,11087,2020-04-25 14:00:46,10.0,1,0.0
2,11087,2020-04-25 14:00:46,12.0,24,0.0
3,11087,2020-04-25 14:00:46,10.0,7,0.0
4,11087,2020-04-25 14:00:46,55.0,10,0.0
5,11087,2020-04-25 14:00:46,25.0,38,0.0
6,11087,2020-04-25 14:00:46,26.0,44,0.0
7,11087,2020-04-25 14:00:46,21.0,43,0.0
8,11087,2020-04-25 14:00:46,7.75,43,0.0
9,11087,2020-04-25 14:00:46,13.0,21,0.0


In [None]:
# 步驟 5：計算每筆訂單明細的實際銷售金額
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 每一筆訂單明細，計算出扣掉折扣後的銷售金額。

Unnamed: 0,OrderID,OrderDate,SalesAmount
0,11087,2020-04-25 14:00:46,589.0
1,11087,2020-04-25 14:00:46,10.0
2,11087,2020-04-25 14:00:46,288.0
3,11087,2020-04-25 14:00:46,70.0
4,11087,2020-04-25 14:00:46,550.0
5,11087,2020-04-25 14:00:46,950.0
6,11087,2020-04-25 14:00:46,1144.0
7,11087,2020-04-25 14:00:46,903.0
8,11087,2020-04-25 14:00:46,333.25
9,11087,2020-04-25 14:00:46,273.0


In [None]:
# 步驟 6：取出年月並分組，統計每個月的銷售額
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 每個月的總銷售金額（保留到小數點第二位），並按月份排序。

Unnamed: 0,Month,TotalSales
0,2020-01,3423774.29
1,2020-02,3467644.26
2,2020-03,3018709.85
3,2020-04,2655472.57
4,2020-05,3122293.71
5,2020-06,2871344.17
6,2020-07,3643366.59
7,2020-08,3794089.55
8,2020-09,3783178.34
9,2020-10,3060490.64


### 練習 9：找出某位員工的所有下屬（直接或間接）
> 在 Northwind 資料庫中，
> Employees 表有一個 ReportsTo 欄位，
> 表示這位員工是向哪位上司（主管 EmployeeID）報告。

也就是說：
+ 一位主管 可能有好幾層下屬（下屬的下屬、再下屬…）。
+ 我們想要從一位員工出發，列出他 所有直接和間接的下屬。

#### 思考
1.	從哪個表格找員工上下關係？
→ Employees 表（有 EmployeeID 和 ReportsTo）。
2.	起點是什麼？
→ 指定一個主管的 EmployeeID。
3.	如何往下遞迴？
→ 把 EmployeeID 與 ReportsTo 一層一層連結下去。

#### 操作

In [None]:
# 步驟 1：看看 Employees 表的結構
QUERY = """
    SELECT ...
"""
run_query(QUERY)
# 確認 EmployeeID 和 ReportsTo 結構，有辦法遞迴下去。

Unnamed: 0,EmployeeID,LastName,FirstName,ReportsTo
0,1,Davolio,Nancy,2.0
1,2,Fuller,Andrew,
2,3,Leverling,Janet,2.0
3,4,Peacock,Margaret,2.0
4,5,Buchanan,Steven,2.0
5,6,Suyama,Michael,5.0
6,7,King,Robert,5.0
7,8,Callahan,Laura,2.0
8,9,Dodsworth,Anne,5.0
9,10,Green,Alice,6.0


In [None]:
# 步驟 2：找出直接下屬（第一層）
QUERY = """
    -- 假設我們要從 EmployeeID = 2 (Andrew Fuller) 開始
    SELECT ...
"""
run_query(QUERY)
# 找到直接向 Andrew Fuller 回報的人。

Unnamed: 0,EmployeeID,LastName,FirstName
0,1,Davolio,Nancy
1,3,Leverling,Janet
2,4,Peacock,Margaret
3,5,Buchanan,Steven
4,8,Callahan,Laura


In [None]:
# 步驟 3：設計 Recursive CTE 找所有層級的下屬
QUERY = """
    WITH RECURSIVE Subordinates AS (
        -- 基本情況：直接下屬
        SELECT 
            ...
        
        UNION ALL
        
        -- 遞迴情況：下屬的下屬
        SELECT 
            ...
        ...
    )
    ...
"""
run_query(QUERY)
# 完整列出從 Andrew Fuller 開始，所有層級的下屬（直接或間接）。

Unnamed: 0,EmployeeID,LastName,FirstName,ReportsTo,Level
0,1,Davolio,Nancy,2,1
1,3,Leverling,Janet,2,1
2,4,Peacock,Margaret,2,1
3,5,Buchanan,Steven,2,1
4,8,Callahan,Laura,2,1
5,6,Suyama,Michael,5,2
6,7,King,Robert,5,2
7,9,Dodsworth,Anne,5,2
8,10,Green,Alice,6,3
9,11,Brown,Bob,7,3


#### 額外挑戰：顯示每個員工的層級縮排

In [None]:
# 延伸挑戰 1：層級縮排版
QUERY = """
    WITH RECURSIVE Subordinates AS (
        -- 基本情況：找出指定主管（EmployeeID = 2）的直接下屬
        SELECT 
            ...
        
        UNION ALL
        
        -- 遞迴情況：找出下屬的下屬
        SELECT 
            ...
    )
    -- 最後輸出結果，加上縮排顯示層級
    SELECT 
        ...
"""
run_query(QUERY)
# 每位員工前面加上層級數量的破折號縮排，清楚表示樹狀結構。

Unnamed: 0,EmployeeID,IndentedName,Level
0,1,--Davolio Nancy,1
1,3,--Leverling Janet,1
2,4,--Peacock Margaret,1
3,5,--Buchanan Steven,1
4,8,--Callahan Laura,1
5,6,----Suyama Michael,2
6,7,----King Robert,2
7,9,----Dodsworth Anne,2
8,10,-----Green Alice,3
9,11,-----Brown Bob,3


#### 額外挑戰：找出最深層級是多少

In [None]:
# 延伸挑戰 2：找出最大層級數
QUERY = """
    WITH RECURSIVE Subordinates AS (
        SELECT 
            ...
        
        UNION ALL
        
        SELECT 
            ...
    )
    ...
"""
run_query(QUERY)
# 找出從主管出發，整個組織裡的最大層級。

Unnamed: 0,MaxLevel
0,3


#### 額外挑戰: 計算每位主管的下屬總數

In [None]:
# 延伸挑戰 3：計算每位主管的下屬總數
QUERY = """
    WITH RECURSIVE Subordinates AS (
        -- 基本情況：每個有 ReportsTo 的員工都作為起點，記下自己是 RootManager
        SELECT 
            ...
        
        UNION ALL
        
        -- 遞迴情況：往下接著找下屬的下屬
        SELECT 
            ...
    )
    -- 最後統計每位主管底下有多少個下屬
    SELECT 
        ...
"""
run_query(QUERY)
# 輸出每位主管的ID與其負責的下屬人數，從多到少排序。

Unnamed: 0,ManagerID,SubordinateCount
0,5,6
1,7,2
2,6,2
3,11,1
4,10,1
5,9,1
6,8,1
7,4,1
8,3,1
9,1,1
