# SQL 的五十道練習

> 函數（或稱函式）

郭耀仁 <yaojenkuo@datainpoint.com>，[數據交點](https://www.datainpoint.com/)

In [1]:
%LOAD ../databases/imdb.db

In [2]:
ATTACH "../databases/nba.db" AS nba;

In [3]:
ATTACH "../databases/twElection2020.db" AS twElection2020;

In [4]:
ATTACH "../databases/covid19.db" AS covid19;

## 什麼是函數（或稱函式）

## Function，函數或稱函式，在程式語言和資料分析的工具中都扮演舉足輕重的角色。

## Function 是預先被定義好的運算處理邏輯，透過 Function 的作用，能夠將「輸入」對應為「輸出」，進而完成數值計算、字串操作與數值聚合等任務。

## Function 的運作有四個組成：

1. Function 的名稱。
2. 輸入。
3. 參數。
4. 輸出。

## 以買珍珠奶茶為例

![](pearl_milk_tea.jpg)

## 在 SQL 中的 Functions 可依照功能分為：

- 用來轉換資料類型。
- 用來計算數值。
- 用來操作文字。
- 用來操作日期時間。
- 用來彙總資訊。

## 用來轉換資料類型的 Functions

## 使用 `CAST()` function 可以將查詢結果的資料類型轉換為指定資料類型

```sql
-- 用來轉換資料類型的 CAST() function
SELECT CAST(data AS data_type) AS alias;
```

## 使用 `/` 相除兩個整數的欄位所衍生的欄位依然會以整數類型存在

In [5]:
SELECT points / gamesPlayed AS points_per_game
  FROM career_summaries;

points_per_game
7
3
9
11
19
0
6
7
10
7


In [6]:
SELECT CAST(points AS REAL) / gamesPlayed AS points_per_game
  FROM career_summaries;

points_per_game
7.52631578947368
3.08571428571429
9.7536496350365
11.2125
19.4519607843137
0.0
6.93650793650794
7.23863636363636
10.1784232365145
7.62790697674419


## 使用 `COALESCE()` function 可以將空值（或稱遺漏值）轉換為指定的資料

```sql
-- 用來轉換空值（或稱遺漏值）的 COALESCE() function
SELECT COALESCE(NULL, replacement) AS alias;
```

In [7]:
SELECT COALESCE(NULL, 5566) AS null_integer,
       COALESCE(NULL, 5566.0) AS null_real,
       COALESCE(NULL, 'missing') AS null_text;

null_integer,null_real,null_text
5566,5566.0,missing


## 用來計算數值的 Functions

## 使用 `ROUND()` function 可以調整查詢結果的小數點位數

```sql
-- 用來調整查詢結果的小數點位數的 ROUND() function
SELECT ROUND(REAL, n_digits) AS alias;
```

In [8]:
SELECT ROUND(CAST(points AS REAL) / gamesPlayed, 2) AS points_per_game
  FROM career_summaries;

points_per_game
7.53
3.09
9.75
11.21
19.45
0.0
6.94
7.24
10.18
7.63


## 使用 `ABS()` function 可以將數值調整為絕對值

```sql
-- 用來將數值調整為絕對值的 ABS() function
SELECT ABS(NUMERIC) AS alias;
```

In [9]:
SELECT ABS(-5566) AS abs_integer,
       ABS(-5566.0) AS abs_real;

abs_integer,abs_real
5566,5566.0


## 用來操作文字的 Functions

## 使用 `INSTR()` function 可以判斷指定特徵出現在文字中的第幾個位置

```sql
-- 用來判斷指定特徵出現在文字中第幾個位置的 INSTR() function
SELECT INSTR(TEXT, pattern) AS alias;
```

In [10]:
SELECT INSTR('Tony Stark', 'Stark') AS pattern_exists,
       INSTR('Tony Stark', 'Thor') AS pattern_doesnt_exist;

pattern_exists,pattern_doesnt_exist
6,0


## 使用 `LENGTH()` function 可以計算文字中有幾個字元，包含空格、標點符號

```sql
-- 用來計算文字中有幾個字元的 LENGTH() function
SELECT LENGTH(TEXT) AS alias;
```

In [11]:
SELECT LENGTH('Tony Stark') AS len_ironman,
       LENGTH('Rogers, Steve') AS len_captain;

len_ironman,len_captain
10,13


## 使用 `TRIM()` function 可以去除文字前後多餘的空白

```sql
-- 用來去除文字前後多餘的空白的 TRIM() function
SELECT TRIM(TEXT) AS alias;
```

In [12]:
SELECT LENGTH('  Tony Stark  ') AS ironman,
       LENGTH(TRIM('  Tony Stark  ')) AS trimmed_captain;

ironman,trimmed_captain
14,10


## 使用 `REPLACE()` function 可以將文字中的特徵取代為指定內容

```sql
-- 用來將文字中的特徵取代為指定內容的 REPLACE() function
SELECT REPLACE(TEXT, pattern, replacement) AS alias;
```

In [13]:
SELECT REPLACE('Anakin Skywalker', 'Anakin', 'Luke') AS luke;

luke
Luke Skywalker


## 使用 `SUBSTR()` function 可利用索引值將文字中的指定段落擷取出來

```sql
-- 利用索引值將文字中的指定段落擷取出來的 SUBSTR() function
SELECT SUBSTR(TEXT, start, stop) AS alias;
```

In [14]:
SELECT SUBSTR('Anakin Skywalker', 1, 6) AS anakin,
       SUBSTR('Luke Skywalker', 1, 4) AS luke;

anakin,luke
Anakin,Luke


## 使用 `LOWER()` 與 `UPPER()` function 可以調整英文的大小寫

```sql
-- 用來調整英文的大小寫的 LOWER() 與 UPPER() function
SELECT LOWER(TEXT) AS alias,
       UPPER(TEXT) AS alias;
```

In [15]:
SELECT LOWER('Luke Skywalker') AS luke,
       UPPER('Luke Skywalker') AS LUKE;

luke,LUKE
luke skywalker,LUKE SKYWALKER


## 用來操作日期時間的 Functions

## 標準的日期格式為 YYYY-MM-DD，專有名詞稱之為 ISO8601 格式

- 四位數的西元年
- 二位數的月
- 二位數的日
- 中間以減號 `-` 相連

## 使用 `DATE()` function 操作日期

```sql
-- 用來操作日期的 DATE() function
SELECT DATE(TEXT, *args);
```

In [16]:
SELECT DATE('now') AS today,
       DATE('now','-1 day') AS yesterday,
       DATE('2020-12-31', '+1 month') AS one_month_after_new_years_eve,
       DATE('2020-12-31', '+3 month', '+1 day') AS beginning_of_second_quarter;

today,yesterday,one_month_after_new_years_eve,beginning_of_second_quarter
2021-02-02,2021-02-01,2021-01-31,2021-04-01


## 標準的時間格式為 HH:MM:SS，專有名詞同樣稱之為 ISO8601 格式

- 二位數的小時
- 二位數的分鐘
- 二位數的秒
- 中間以冒號 `:` 相連

## 使用 `TIME()` function 操作時間

```sql
-- 用來操作時間的 TIME() function
SELECT TIME(TEXT, *args);
```

In [17]:
SELECT TIME('now') AS now,
       TIME('now','-1 minute') AS one_minute_ago,
       TIME('23:59:59', '-10 second') AS starts_counting_down;

now,one_minute_ago,starts_counting_down
02:38:03,02:37:03,23:59:49


## 標準的日期時間格式為 YYYY-MM-DD HH:MM:SS，專有名詞同樣稱之為 ISO8601 格式

## 使用 `DATETIME()` function 操作日期時間

```sql
-- 用來操作日期時間的 DATETIME() function
SELECT DATETIME(TEXT, *args);
```

In [18]:
SELECT DATETIME('now') AS now,
       DATETIME('now','-1 minute') AS one_minute_ago,
       DATETIME('now','-1 day') AS one_day_ago,
       DATETIME('2020-12-31 23:59:59', '-10 second') AS starts_counting_down;

now,one_minute_ago,one_day_ago,starts_counting_down
2021-02-02 02:38:03,2021-02-02 02:37:03,2021-02-01 02:38:03,2020-12-31 23:59:49


## 使用 `STRFTIME()` function 調整日期、時間或日期時間的格式 

```sql
-- 用來調整日期、時間或日期時間格式的 STRFTIME() function
SELECT STRFTIME(format, TEXT);
```

## 常用的日期、時間與日期時間格式

- `%d`：二位數的日（01-31）
- `%H`：二位數的小時（00-24）
- `%j`：一年中的第幾天（001-366）
- `%m`：二位數的月（01-12）
- `%M`：二位數的分（00-59）

## 常用的日期、時間與日期時間格式

- `%S`：二位數的秒（00-59）
- `%w`：一星期中的第幾天（0-6）
- `%W`：一年中的第幾週（00-53）
- `%Y`：四位數的年（0000-9999）

In [19]:
SELECT STRFTIME('%d', '2020-12-31') AS day_part,
       STRFTIME('%j', '2020-12-31') AS year_day_format,
       STRFTIME('%m', '2020-12-31') AS month_part,
       STRFTIME('%w', '2020-12-31') AS weekday,
       STRFTIME('%W', '2020-12-31') AS nth_week,
       STRFTIME('%Y', '2020-12-31') AS year_part;

day_part,year_day_format,month_part,weekday,nth_week,year_part
31,366,12,4,52,2020


## 用來彙總資訊的 Functions

## 整體而言，Functions 可以粗分為兩大類：

- 通用（Universal functions）
- 聚合（Aggregate functions）

## 通用與聚合的不同在 Function 所作用的維度

- Universal functions 作用在「每一個觀測值」。
- Aggregate functions 作用在「一整欄變數」。

## Universal functions：一個觀測值對應一個輸出

In [20]:
SELECT ROUND(ppg) AS ppg_rounded
  FROM career_summaries;

ppg_rounded
8.0
3.0
10.0
11.0
20.0
0.0
7.0
7.0
10.0
8.0


## Aggregate functions：一整欄變數對應一個輸出

In [21]:
SELECT AVG(points) AS points_avg
  FROM career_summaries;

points_avg
3195.58585858586


## 常用的 Aggregate functions

- `AVG(column_name)`：計算變數的平均數
- `COUNT(column_name)`：計算變數的「非」遺漏值數
- `COUNT(*)`：計算資料表的觀測值數
- `MAX(column_name)`：計算變數的最大值
- `MIN(column_name)`：計算變數的最小值
- `SUM(column_name)`：計算變數的加總

In [22]:
SELECT AVG(Confirmed) AS avg_confirmed
  FROM daily_report;

avg_confirmed
25877.3196783111


In [23]:
SELECT COUNT(Province_State) AS n_states
  FROM daily_report;

n_states
3808


In [24]:
SELECT COUNT(*) AS n_rows
  FROM daily_report;

n_rows
3979


In [25]:
SELECT MAX(Confirmed) AS max_confirmed
  FROM daily_report;

max_confirmed
3341249


In [26]:
SELECT MIN(Confirmed) AS min_confirmed
  FROM daily_report;

min_confirmed
0


## 重點統整

- 函數（或稱函式）是預先被定義好的運算處理邏輯，能夠將「輸入」對應為「輸出」。
- 函數（或稱函式）依照功能區分有：
    - 用來轉換資料類型。
    - 用來計算數值。
    - 用來操作文字。
    - 用來操作日期時間。
    - 用來彙總資訊。
- 函數（或稱函式）有兩種大類：通用 vs. 聚合。

## 目前我們會的 SQL

```sql
SELECT DISTINCT column_name AS alias,
       column_name ... column_name AS calculated_field,
       FUNCTION_NAME(column_name) AS alias
  FROM table_name;
```