# SQL学习

## 查询思想

- 弄清问题是什么，返回的字段是什么

- 需要连接哪些表，一张表够不够，列出涉及的表

- 根据什么字段排序，基于哪个字段，limit多少

## 基础

ERD实体关系图 [鱼骨图](http://www.vertabelo.com/blog/technical-articles/crow-s-foot-notation)

优势：快速访问、容易共享、访问控制

数据库类型：Postgres MySQL SQLite Microsoft SQL Server Oracle

语句类型：create、drop、select； 不区分大小写

三范式：  
1. 表格存储了逻辑分组的数据吗？
2. 我能在一个位置进行更改，而不是在多个表格中对同一信息作出更改吗？
3. 我能快速高效地访问和操纵数据吗？

## 查询

- SELECT

```SQL
select * from table
```

规则：  
1. 大写
2. 不区分大小写
3. 可以用空格，和分号，适当用

- LIMIT

LIMIT 命令始终是查询的最后一部分  
```SQL
SELECT *  
FROM orders  
LIMIT 10;  
```

**ORDER BY  DESC**  
默认正序ASC

ORDER BY 语句始终在 SELECT 和 FROM 语句之后，但位于 LIMIT 语句之前

- ORDER BY 多列，可以在每列后面使用DESC

```SQL
SELECT *  
FROM orders  
ORDER BY occurred_at DESC, total_amt_usd DESC  
LIMIT 5;  
```

- WHERE

在order前面，用于bool判断，！=，大于小于，=，以及**like、not、in**等运算符

```SQL
SELECT *  
FROM orders  
WHERE total_amt_usd < 500  
LIMIT 10;
```

- 派生列

用运算符+、—、\*、/，派生出来的新列，用AS取别名

```SQL
SELECT id, account_id, standard_amt_usd/standard_qty AS unit_price  
FROM orders  
LIMIT 10;
```

- 条件逻辑运算  
都用于WHRER语句中

- LIKE  
可用于进行类似于使用 WHERE 和 = 的运算，但是这用于你可能 不 知道自己想准确查找哪些内容的情况。  
```SQL
SELECT name
FROM accounts
WHERE name LIKE '%one%';  
```
`%表示任意个`  

- IN  
用于执行类似于使用 WHERE 和 = 的运算，但用于多个条件的情况。 
```SQL
SELECT *
FROM web_events
WHERE channel IN ('organic', 'adwords');
```
- NOT  
这与 IN 和 LIKE 一起使用，用于选择 NOT LIKE 或 NOT IN 某个条件的所有行。  

- AND & BETWEEN  
可用于组合所有组合条件必须为真的运算,不包括边界
```SQL
SELECT *  
FROM web_events  
WHERE channel IN ('organic', 'adwords') AND occurred_at BETWEEN '2016-01-01' AND '2017-01-01'  
ORDER BY occurred_at DESC;  
```

- OR  
可用于组合至少一个组合条件必须为真的运算  

## JOIN
重要，提升

```SQL
SELECT r.name region, a.name account, o.total_amt_usd/(o.total + 0.01) unit_price
FROM region r
JOIN sales_reps s
ON s.region_id = r.id
JOIN accounts a
ON a.sales_rep_id = s.id
JOIN orders o
ON o.account_id = a.id;
```

- LEFT JOIN、RIGHT JOIN  

left join ，就是以左列为主，对应的查出来+左列剩下的，此时右列为null  
right join，就是以右列为主，null出现在左列，右列全部列出来，和左列有几个对应就对应列出几个，再加上右列剩下的，左列为null

## 聚合
聚合函数针对列进行聚合

- null  
null数据库特性，不是一个值，可以使用IS NULL，判断

- COUNT  
注意count(\*),和count('col'),有时候不相等的

- SUM  
计算数值，null会视为0

- MIN、MAX、AVG  
求min、max同理：  
```SQL
SELECT MIN(occurred_at) 
FROM orders;
```
用非聚合函数求最小  
```SQL
SELECT occurred_at 
FROM orders 
ORDER BY occurred_at
LIMIT 1;
```
求中位数：  
```SQL
SELECT *
FROM (SELECT total_amt_usd
      FROM orders
      ORDER BY total_amt_usd
      LIMIT 3457) AS Table1
ORDER BY total_amt_usd DESC
LIMIT 2;
```

- GROUP BY  
**使用聚合函数，若含有其它字段，就需要使用group by 子句，分类聚合。可用1、2、3等代替其它字段进行group by**

```SQL
SELECT name,COUNT(*) FROM table1 GROUP BY 1
```

位于where 和 order by之间，也就是：  
```SQL
SELECT * FROM ... WHERE ... GROUP BY ... ORDER BY ...LIMIT 10
```

> 类似与pandas中dataframe的value_count()，计算每种分类

- DISTINCT  
去重复,可以用来检查有多少不同的取值。后面多个字段，表示考虑所有这些字段，去掉相同的
>使用 DISTINCT 时，尤其是在聚合函数中使用时，会让查询速度有所减慢。

- HAVING  
出现在GROUP BY 后面，ORDER BY 前面。WHERE不能对聚合函数设条件，只能用WHERE 也就是：  
> SELECT * FROM ...WHERE .. GROUP BY ..HAVING.. OREDER BY .. LIMIT .. 

```SQL
SELECT s.id, s.name, COUNT(*) num_accounts
FROM accounts a
JOIN sales_reps s
ON s.id = a.sales_rep_id
GROUP BY s.id, s.name
HAVING COUNT(*) > 5
ORDER BY num_accounts;
```

- DATE_TRUNC()  
```SQL
SELECT DATE_TRUNC('month', o.occurred_at) ord_date, SUM(o.gloss_amt_usd) tot_spent
FROM orders o 
JOIN accounts a
ON a.id = o.account_id
WHERE a.name = 'Walmart'
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1;
```

- DATE_PART()
```SQL
SELECT DATE_PART('month', occurred_at) ord_month, COUNT(*) total_sales
FROM orders
WHERE occurred_at BETWEEN '2014-01-01' AND '2017-01-01'
GROUP BY 1
ORDER BY 2 DESC;
```

- CASE 
```SQL
SELECT CASE WHEN .. THEN...WHEN..THEN...ELSE...END AS ...
```

```SQL
SELECT a.name, SUM(total_amt_usd) total_spent, 
     CASE WHEN SUM(total_amt_usd) > 200000 THEN 'top'
     WHEN  SUM(total_amt_usd) > 100000 THEN 'middle'
     ELSE 'low' END AS customer_level
FROM orders o
JOIN accounts a
ON o.account_id = a.id
WHERE occurred_at > '2015-12-31' 
GROUP BY 1
ORDER BY 2 DESC;
```

### 子查询
select \* from（select \* from）

- 子查询

```SQL
SELECT channel, AVG(events) AS average_events
FROM (SELECT DATE_TRUNC('day',occurred_at) AS day,
channel, COUNT(*) as events
FROM web_events
GROUP BY 1,2) sub
GROUP BY channel
ORDER BY 2 DESC;
```

- with语句  
将子查询单独列出来

```SQL
WITH table1 AS (
SELECT *
FROM web_events),

table2 AS (
SELECT *
FROM accounts)


SELECT *
FROM table1
JOIN table2
ON table1.account_id = table2.id;
```

### 清理数据

- left,right,length函数  
left，从左边开始选取多少位；right，从右边开始选取多少位；length，计算长度

```SQL
SELECT LEFT(UPPER(name), 1) AS first_letter, COUNT(*) num_companies
FROM accounts
GROUP BY 1
ORDER BY 2 DESC;
```