# SQL基础篇
## 为什么要学习SQL？
对于专职数据分析从业者，SQL肯定是岗位要求的必备技能。对于非专职从业者，例如只是在工作中会涉及到一些数据分析，且数据量比较小，比如几千几万条数据，用Excel就足够了，但如果处理几十万条数据，用Excel操作就需要有比较好的耐心了，处理时间长，且随时可能会崩溃闪退。要是处理的数据量级在百万以上，你不放弃Excel，Excel也会放弃你，因为Excel的每个Sheet最大能展示约104万行数据。

## SQL难学吗？
从定性的角度讲，那它比语数外要简单太多了，从定量的角度讲，市面上也不乏一些7天或30天速成的书籍教材。所谓难的根本原因是在学之前缺乏学以致用的思考，没明白它带给你的收益和成本各有多大。其实只要想清楚学会之后，能用在什么地方，就已经成功了一半。

## 要学到什么程度？
每个人的对数据分析的诉求不一样，不用贪多求全，就好比现在手机功能很强大，你要打个电话，并不需要把手机的所有功能都研究一遍再打，因为有些功能可能你永远都用不到，比如调整窗口动画缩放的的倍数。

SQL也是一样，往深了研究有很多东西，但对于非研发人员来讲，很多问题是不需要考虑的，比如怎么样进行索引的优化，尤其在工作中，大概率你是没有权限去做一些操作的，除了查询。

## SQL查询
### 单表查询
#### 1、基本格式
```SQL
SELECT  //必要信息
列名称   //必要信息，数据表里的列（字段）名称，若有多个用英文逗号分割，*代表所有列（字段)
FROM    //必要信息
表名称   //必要信息，数据表的名称
```

例：查询订单表中所有的订单ID
```SQL
SELECT       //必要信息
ACCOUNT_ID   //用户id在数据表中的列（字段）名称是ACCOUNT_ID
FROM         //必要信息
`ORDERS`     //数据表的名称是ORDERS，数据表名前后添加`符号。
```

#### 2、扩展1--限制条件
```SQL
SELECT  
DISTINCT   //对查询结果进行去重
列名称   
FROM    
表名称   
WHERE 列名称 + 判断逻辑 + 判断值  //根据情况添加限制条件
```

例：查询订单表中的特定用户id及其支付时间，限制条件包括2019年7月31日支付、北京市用户、订单金额9.9元

```SQL
SELECT 
DISTINCT      
ACCOUNT_ID,PAY_TIME   //若有多个用英文逗号分割，*代表所有列（字段)
FROM         
`ORDERS`     
WHERE CITY = 'BEIJING' AND PRICE = 9.9 AND DATE(PAY_TIME) = '2019-07-31' 
//值为字符串（文本）信息时，主要要用'引号包围；多个限制条件并存，用AND或OR连接；
```

#### 3、扩展2--分组、排序及筛选
```SQL
SELECT  
  列名称,
  COUNT(列名称) AS X, //按分组对某列计数，如果是统计查询结果一共有多少行，可以用COUNT(*)或COUNT(1)，AS是重命名
  SUM(列名称) AS Y,   //按分组对某列求和，前提是该列为数值
  AVG(列名称) AS Z    //按分组对某列求平均值，前提是该列为数值
  MIN(列名称)         //按分组对某列求最小值，前提是该列为数值
  MAX(列名称)         //按分组对某列求最大值，前提是该列为数值
FROM    
  表名称   
WHERE 列名称 + 判断逻辑 + 判断值  
GROUP BY 列名称  //指定分组维度
HAVING 列名称 + 判断逻辑 + 判断值  //根据情况添加限制条件,WHERE是查询时的限制，HAVING是查询后对结果的筛选
ORDER BY X DESC  //按X列进行排序，不加DESC是升序，加DESC是降序
```

例：查询订单表中，每个用户的订单数、订单总金额、平均订单金额，限制条件包括2019年7月31日支付、北京市用户、手机号不为空，再筛选一下复购用户的数据，最后按订单总金额降序排列。

```SQL
SELECT       
  ACCOUNT_ID,
  COUNT(ORDER_ID) AS X,  //订单数
  SUM(PRICE) AS Y,       //订单总金额
  AVG(PRICE)        //平均订单金额
FROM         
  `ORDERS`     
WHERE CITY = 'BEIJING' AND DATE(PAY_TIME) = '2019-07-31' AND MOBILE IS NOT NULL // IS NOT NULL是字段值不为空
GROUP BY ACCOUNT_ID  //按用户id进行分组
HAVING X > 1      //订单数大于1的为复购
ORDER BY Y DESC  //按订单总金额降序排列
```

### 多表查询
#### 1、子查询
```SQL
SELECT
  列名称1,
  (SELECT 列名称2 FROM `数据表1` WHERE `数据表1`.列名称1 = `数据表2`.列名称2) AS 列名称2
//数据表1与数据表2有等值的字段时，可以此字段作为关联，查询数据表2中相应的字段值
FROM
  `数据表2`
```

例：查询订单表中用户id对应的用户姓名

```SQL
SELECT
  ACCOUNT_ID,
  (SELECT NAME FROM `ACCOUNT` WHERE `ACCOUNT`.ID = `ORDERS`.ACCOUNT_ID) AS NAME
//订单表中有用户id，用户表中也有用户id，将用户id作为关联字段，根据订单表的用户id，查询用户表中该用户的姓名
FROM
  `ORDERS`
```

#### 2、INNER JOIN 内连接查询
![SQL Inner Join](../imgs/SQLInnerJoin.jpeg)
```SQL
SELECT A.*,B.*
FROM A
INNER JOIN B
ON A.id=B.id
```

#### 3、LEFT JOIN 左关联查询
![SQL Left Join](../imgs/SQLLeftJoin.jpeg)
```SQL
SELECT A.*,B.*
FROM A
LEFT JOIN B
ON A.id=B.id
```

#### 4、RIGHT JOIN 右关联查询
![SQL Right Join](../imgs/SQLRightJoin.jpeg)
```SQL
SELECT A.*,B.*
FROM A
RIGHT JOIN B
ON A.id=B.id
```

#### 5、左连接-内连接
![SQL Left Inner Join](../imgs/SQLLeftInnerJoin.jpeg)
```SQL
SELECT A.*,B.*
FROM A
LEFT JOIN B
ON A.id=B.id
WHERE B.id IS NULL
```

#### 6、右连接-内连接
![SQL Right Inner Join](../imgs/SQLRightInnerJoin.jpeg)
```SQL
SELECT A.*,B.*
FROM A
RIGHT JOIN B
ON A.id=B.id
WHERE A.id IS NULL
```

## 作业
作业以presto来练习，测试数据见表 
```
rpt.padabook_sql_student (sid, sname, ssex) 学生表， sid为名义主键
rpt.padabook_sql_course  (cid, cname, tid) 课程表，cid为名义主键, tid为名义外键
rpt.padabook_sql_score   (sid, cid, score) 成绩表，sid, cid为名义外键   
rpt.padabook_sql_teacher (tid, tname) 教师表, tid为名义主键
```
- 查询“001”课程比“002”课程成绩高的所有学生的学号（注：学生同时选修了这两门课）；
- 查询“003”课程的学生成绩情况，要求输出学生学号，姓名和成绩情况（大于或等于80表示优秀，大于或等于60表示及格，小于60分表示不及格）；
- 查询没学过“张三”老师课的同学的学号、姓名；
- 查询没有学全所有课的同学的学号、姓名；
- 按平均成绩从低到高显示所有学生的“语文”、“数学”、“英语”三门的课程成绩，按如下形式显示：学生ID,语文,数学,英语,有效课程数,有效平均分；
- 查询各科成绩,各分数段人数:课程ID,课程名称,[100-85],[85-70],[70-60],[ <60]
- 查询出只选修了一门课程的全部学生的学号和姓名；
- 查询课程成绩在70分以上的学号、姓名、课程名称和分数；
- 查询选修“王五”老师所授课程的学生中，成绩最高的学生学号、姓名及其成绩；
- 查询全部学生都选修的课程的课程号和课程名；


## 参考文章
- [SQL查询快速入门](https://zhuanlan.zhihu.com/p/75964761)
- [TiDB SQL](https://docs.pingcap.com/zh/tidb/stable/functions-and-operators-overview)
- [Presto SQL](https://prestodb.io/docs/current/functions.html)
- [MySQL](https://dev.mysql.com/doc/refman/5.7/en/functions.html)
- [Click House](https://clickhouse.tech/docs/en/sql-reference/statements/select/)

## 附录
### 测试数据
```SQL
create table padabook_sql_student (
      sid   string
    , sname string
    , ssex  string
)
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/home/da/dylanwu/padabook_sql_student.csv' OVERWRITE  INTO TABLE padabook_sql_student;

create table padabook_sql_course (
      cid   string
    , cname string
    , tid   string
)
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/home/da/dylanwu/padabook_sql_course.csv' OVERWRITE  INTO TABLE padabook_sql_course;

create table padabook_sql_score (
      sid   string
    , cid   string
    , score bigint
)
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/home/da/dylanwu/padabook_sql_score.csv' OVERWRITE  INTO TABLE padabook_sql_score;

create table padabook_sql_teacher (
      tid   string
    , tname string
)
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/home/da/dylanwu/padabook_sql_teacher.csv' OVERWRITE  INTO TABLE padabook_sql_teacher;
```