# SQL 的五十道練習：初學者友善的資料庫八週專班

> 第四天

[數聚點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 複習一下 SQL 的分類

|SQL 的分類|範例|
|:---------|:----|
|資料查詢語言（Data Query Language, DQL）|`SELECT ...`|
|資料定義語言（Data Definition Language, DDL）|`CREATE ...`|
|資料操作語言（Data Manipulation Language, DML）|`UPDATE ...`|
|資料控制語言（Data Control Language, DCL）|`GRANT ...`|
|交易控制語言（Transaction Control Language, TCL）|`COMMIT`|

## 資料定義語言

## 資料定義語言（Data Definition Language, DDL）最主要的保留字

- `CREATE`
- `DROP`

這意味著我們可以在資料庫創造與刪除物件。

## 有哪些物件可以被創造與刪除

- 檢視表（Views）。
- 資料表（Tables）。

## 什麼是檢視表

- 檢視表可以直接將 SQL 敘述儲存在資料庫中，並且給予一個檢視表命名。
- 想要檢視該段 SQL 敘述的查詢結果時，只需要將檢視表命名放在 `FROM` 保留字之後即可。

```sql
SELECT *
  FROM view;
```

## 檢視表不等於資料表

- 實際上檢視表儲存的內容並不是列（Rows）與欄（Columns）所組成的二維表格，而是一段 SQL 敘述。
- 只有在對檢視表寫作資料查詢語言時，才會執行被儲存的 SQL 敘述。
- 簡單來說，檢視表是一種介於「子查詢」與「建立資料表」之間的功能。
- 就像是資料表版本的「衍生計算欄位」，由於多數「非資料庫管理員」的資料分析師在公司中沒有建立資料表的權限，因此若是有建立檢視表的權限將可以滿足我們對資料表的創造需求。

## 建立檢視表

使用 `CREATE VIEW` 建立檢視表並給予檢視表命名，然後再加入希望檢視表被查詢時所執行的 SQL 敘述。

```sql
CREATE VIEW view_name
    AS
   SQL Statement;
```

## 建立為檢視表之後是可以確實在 SQLiteStudio 的資料庫清單中看到，而非像子查詢使用後即被捨棄

```sql
-- CREATE VIEW
CREATE VIEW avg_rating_by_release_year
    AS
SELECT release_year,
       AVG(rating) AS avg_rating
  FROM movies
 GROUP BY release_year;

-- SELECT FROM VIEW 
SELECT *
  FROM avg_rating_by_release_year
 WHERE avg_rating >= 8.5;
```

## 刪除檢視表

使用 `DROP VIEW` 刪除檢視表，指定欲刪除的檢視表命名即可。

```sql
DROP VIEW view_name;
```

## 刪除檢視表之後，在 SQLiteStudio 的資料庫清單中就能夠看到檢視表已經不存在

```sql
-- DROP VIEW
DROP VIEW avg_rating_by_release_year;
```

## 刪除檢視表之後，就無法在 `FROM` 保留字之後指定檢視表查詢。

```sql
SELECT *
  FROM avg_rating_by_release_year
 WHERE avg_rating >= 8.5;
```

## Common Table Expression(CTE)

## 什麼是 Common Table Expression(CTE)

- Common Table Expression(CTE)是一種介於子查詢與檢視表之間的存在。
- 我們可以將 Common Table Expression(CTE) 視為一種暫存的檢視表，僅在一個 SQL 敘述中有效。
- 使用 CTE 時必須在同一個 SQL 敘述中涵蓋建立與查詢的語法。

## 建立 Common Table Expression(CTE)

使用 `WITH` 建立 Common Table Expression(CTE) 並給予命名，然後再加入 SQL 敘述。

```sql
WITH cte_name AS (
    SQL Statement
)
SELECT columns FROM cte_name ...;
```

```sql
WITH avg_rating_by_release_year AS (
    SELECT release_year,
           AVG(rating) AS avg_rating
      FROM movies
     GROUP BY release_year
)
SELECT *
  FROM avg_rating_by_release_year;
```

## 除了資料查詢語言，其他 SQL 分支如何在實戰中應用

- 資料定義語言（Data Definition Language, DDL）：建立檢視表、資料表，成為活躍使用者（Power user）。
- 資料操作語言（Data Manipulation Language, DML）：成為資料工程師、資料庫管理員（DBA）。
- 資料控制語言（Data Control Language, DCL）：成為資料庫管理員（DBA）。
- 交易控制語言（Transaction Control Language, TCL）：成為資料工程師、參與 ETL（Extract Transform Load）管線規劃。

## 額外練習題參考解答

- [第二天](https://gke.mybinder.org/v2/gh/datainpoint/environment-hahow-sqlfifty/main?urlpath=git-pull%3Frepo%3Dhttps%253A%252F%252Fgithub.com%252Fdatainpoint%252Fclassroom-hahow-sqlfifty%26urlpath%3Dtree%252Fclassroom-hahow-sqlfifty%252Fworkshop%252Fsuggested_answers_day_two.ipynb%26branch%3Dmain)
- [第三天](https://gke.mybinder.org/v2/gh/datainpoint/environment-hahow-sqlfifty/main?urlpath=git-pull%3Frepo%3Dhttps%253A%252F%252Fgithub.com%252Fdatainpoint%252Fclassroom-hahow-sqlfifty%26urlpath%3Dtree%252Fclassroom-hahow-sqlfifty%252Fworkshop%252Fsuggested_answers_day_three.ipynb%26branch%3Dmain)

## 如何求職、準備作品集

## 與 SQL 課程相關的問題

> 目前是 SQL 的初級班，如果在實務業界，有沒有建議我們跟進階的學習資源和方式，可以讓我們職場找工作可以拿到工作的入場券？
>
> 以求職為導向的話，除了這堂課的內容以外，有無建議其他要加深 SQL 的技巧或能力?
>
> 對於水平合併有更加了解，但還是想知道有沒有其他可以學習 sql 題目的網站可以加強？也想知道 sql 學習到怎樣的階段才算是有一定的程度到外面求職？
>
> 但在學習的路上會發現可以理解內容，但對於吸收內化後，可以馬上解題的部分還有一些距離，希望老師可以給予一些方向跟建議

## 需要 SQL 的相關工作

- **商業分析師**、**資料分析師**、**資料科學家**：熟悉 DQL（掌握 Sub-query 與 JOIN 就有自信地開始求職！）。
- 資料工程師、後端工程師：熟悉 DQL、DDL、DML、TCL 與 Stored Procedure。
- 資料庫管理員：熟悉 DQL、DDL、DML、TCL、DCL、Stored Procedure 與效能調校。

## 精進 DQL 的學習網站

- [DataCamp](https://datacamp.pxf.io/LXaLej)
- [Codewars](https://www.codewars.com/kata/sql)
- [Leetcode](https://leetcode.com/problemset/database)
- [SQLZOO](https://sqlzoo.net/wiki/SQL_Tutorial)
- [SQLBolt](https://sqlbolt.com)

## 效果更好的吸收與內化

- 找到自己感興趣的資料來源。
- 依據正規化準則設計資料表的關聯模型。
    - [第一正規化](https://zh.wikipedia.org/zh-tw/%E7%AC%AC%E4%B8%80%E6%AD%A3%E8%A6%8F%E5%8C%96)：排除重複值的出現，要求資料表的每一列都由不可分割的資料值組成。
    - [第二正規化](https://zh.wikipedia.org/zh-hant/%E7%AC%AC%E4%BA%8C%E6%AD%A3%E8%A6%8F%E5%8C%96)：互相依賴、具有從屬與對應關係的資料要分不同的資料表紀錄。
    - [第三正規化](https://zh.wikipedia.org/zh-tw/%E7%AC%AC%E4%B8%89%E6%AD%A3%E8%A6%8F%E5%8C%96)：第二正規化的進一步加強，切割從屬關係。

## 與作品集準備相關的問題

> 針對單一分析專案來說，其實會有點不知道單個分析專案要怎麼製作？怎麼呈現？也就是實戰的部分不知道怎麼進行。希望有機會可以分享實戰的部分。
>
> 有看到YTR分享，在作品集的同一個專案中，可以自行選擇要同時呈現多少工具的能力(SQL/Python/Tableau)，想請教的是，假設希望都使用，那該如何同時呈現出這些工具的使用呢？
>
> 常聽到分析之前要做資料前處理，比如資料清洗之類的，不曉得下一次的直播中，有可以教學關於資料前處理的部份嗎？
>
> 作品集的介紹，希望可以有參考的實際範例，如何設計、必備項目、優缺點、注意事項、怎麼樣才是讓人驚艷的作品，讓我們有更明確的框架概念。

## 資料科學的管線（應用場景）

![](../images/r-for-data-science.png)

來源：<https://r4ds.had.co.nz>

## 挑選想要展現能力的應用場景

- SQL: Import, Tidy, Transform.
- Python/R: End-to-end.
- Tableau: Visualize, Communicate.

## 作品集的設計

- 最好能夠視理想工作、產業而尋找題目素材。
- 一個基於「問題解決 Problem Solving」的題目。
- 起承轉合可以從 5W2H 開始，然後以資料科學的管線作為框架來解題。
- 選定最拿手、最熟悉的分析工具，而非熱門但陌生的。

## 作品集的必備項目

- 問題解決的思路。
- 標記語言或文字。
- 資料集。
- 可重現、有組織性的程式碼（至少是函數的形式。）
- 可運行、帶入參數的執行環境或者網頁應用程式。

## 作品集的注意事項

- 避免使用玩具資料集，例如鳶尾花（Iris）、鐵達尼號（Titanic）、波士頓房價（Boston Housing Price）、手寫數字（MNIST）。
    - 什麼時候可以使用玩具資料集？當你在展現 Build-from-scratch 的能力時。
- 挑選特定的應用場景展現能力：
    - 應徵商業分析師：Visualize, Communicate.
    - 應徵資料分析師：Import, Tidy, Transform, Visualize, Communicate.
    - 應徵資料科學家：Model, Visualize, Communicate.

## 會令人驚豔的作品集

- 面試者自己蒐集、定義並整併的（多個）資料來源。
- 程式碼可以重現，是可以輸入參數執行的型態（函數、類別或者模組。）
- 是可執行（Google Colab）或者網頁應用程式的格式，而非靜態的格式。
- 能夠用簡潔的文字、視覺化傳達主要的問題解決思路、結論。

## 以曾經寫過的 Medium/Substack/Shiny apps 為例

- [使用 Python 探索氣溫觀測紀錄](https://medium.com/datainpoint/%E4%BD%BF%E7%94%A8-python-%E6%8E%A2%E7%B4%A2%E6%B0%A3%E6%BA%AB%E8%A7%80%E6%B8%AC%E7%B4%80%E9%8C%84-d2dff9642a25)
- [探索主流深度學習框架在 GitHub 的活躍程度
](https://medium.com/datainpoint/%E6%8E%A2%E7%B4%A2%E4%B8%BB%E6%B5%81%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92%E6%A1%86%E6%9E%B6%E5%9C%A8-github-%E7%9A%84%E6%B4%BB%E8%BA%8D%E7%A8%8B%E5%BA%A6-cbc15a41c09a)
- [臺北馬拉松參賽選手水平逐漸提升](https://medium.com/datainpoint/%E8%87%BA%E5%8C%97%E9%A6%AC%E6%8B%89%E6%9D%BE%E5%8F%83%E8%B3%BD%E9%81%B8%E6%89%8B%E6%B0%B4%E5%B9%B3%E9%80%90%E6%BC%B8%E6%8F%90%E5%8D%87-179931f811f3)
- [生活中的資料科學：中選會選舉資料庫
](https://medium.com/datainpoint/taiwan-presidential-election-2020-votes-867c0f03afbc)
- [結合 Python 基礎資料分析套件的小專案](https://open.substack.com/pub/datainpoint/p/-python-?r=8zju4&utm_campaign=post&utm_medium=web)
- [指數是什麼？動手算一次就懂](https://open.substack.com/pub/datainpoint/p/b26?r=8zju4&utm_campaign=post&utm_medium=web)
- [在資料分析添加物件導向的風味](https://datainpoint.substack.com/p/project-kaggle-survey-2021)
- [擴大紓困方案試算](https://yaojenkuo.shinyapps.io/bailout_calculator)
- [Gapminder Replica](https://yaojenkuo.shinyapps.io/gapminder_replica)

## 以 `covid19.db` 學習資料庫的 End-to-end 建立流程為例

<https://colab.research.google.com/github/datainpoint/classroom-hahow-sqlfifty/blob/main/workshop/get_covid19_data.ipynb>

## 與後續專班規劃相關的問題

> 許願希望老師可以開分析專案實戰班/作品集製作實戰班之類的。
>
> 請問老師之後會開 python 的課程嗎？

## 素材與網頁應用程式

- 素材
    - [Kaggle](https://www.kaggle.com)
    - [Coursera](https://www.coursera.org)
- 網頁應用程式
    - [Shiny for Python](https://shiny.rstudio.com/py)
    - [gradio](https://gradio.app/demos/)
    - [Streamlit](https://streamlit.io/gallery)
- 歡迎各位學員提供！

## 我的 Python 課程

[Python 的 50+ 練習](https://hahow.in/cr/pythonfiftyplus)