In [2]:
import pandas as pd
import sqlite3 as sql

## Entity Relationship Digrams (实体关系图 ERD)
实体关系图 ERD 是一个常用的用来了解数据库中数据的方法。同时也是我们了解各数据表之间关系的关键。

![image info](Picture/DB_outline.png)

在样例数据库中有五张数据表，分别是
* web_events (网络事件)
* accounts (账户)
* orders (订单)
* sales_reps (销售代表)
* region (地区)

五张表通过特定的关系链接在一起，具体我们后面章节会讲到。在本个章节中我们只需要对单个表格进行操作，所以表格之间的关系暂时不是很重要。

In [3]:
database = 'parchposey.db'
connection = sql.connect(database)

In [3]:
# SELECT, FROM

In [1]:
query = "\
SELECT *\
FROM orders\
"
df = pd.read_sql(query, connection)
df

NameError: name 'pd' is not defined

## 2.LIMIT
LIMIT 可以用来限制显示的行数，使用LIMIT回避加载整个表格快很多。<br>
通常情况下LIMIT都是在整个查询的最后使用。如果我们只想看前5个订单的话，可以把LIMIT限制在5。

In [5]:
query = "\
SELECT *\
FROM orders \
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,account_id,occurred_at,standard_qty,gloss_qty,poster_qty,total,standard_amt_usd,gloss_amt_usd,poster_amt_usd,total_amt_usd
0,1,1001,2015-10-06 17:31:14,123,22,24,169,613.77,164.78,194.88,973.43
1,2,1001,2015-11-05 03:34:33,190,41,57,288,948.1,307.09,462.84,1718.03
2,3,1001,2015-12-04 04:21:55,85,47,0,132,424.15,352.03,0.0,776.18
3,4,1001,2016-01-02 01:18:24,144,32,0,176,718.56,239.68,0.0,958.24
4,5,1001,2016-02-01 19:27:27,108,29,28,165,538.92,217.21,227.36,983.49


## 3. ORDER BY
**ORDER BY** 可以用来为查询结果排序。<br>
在**SQL**中，**ORDER BY**只是作用在查询的结果上，而并不会改变表中数据本身的顺序。<br>
排序的顺序有两种，不声明的情况下默认排序的结果为升序，如需降序排列，需要声明关键字 **DESC**（DESCENDING）。
### 3.1 单列排序

问：查询**orders**表中的5个最早的订单。结果需要包括id，occurred_at 以及total_amt_usd列

In [6]:
query = "\
SELECT id, occurred_at, total_amt_usd \
FROM orders \
ORDER BY occurred_at \
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,occurred_at,total_amt_usd
0,5786,2013-12-04 04:22:44,627.48
1,2415,2013-12-04 04:45:54,2646.77
2,4108,2013-12-04 04:53:25,2709.62
3,4489,2013-12-05 20:29:16,277.13
4,287,2013-12-05 20:33:56,3001.85


问：查询**orders**表中的订单数额最大的5个订单。结果需要包括id，occurred_at 以及total_amt_usd列

In [7]:
query = "\
SELECT id, occurred_at, total_amt_usd \
FROM orders \
ORDER BY total_amt_usd DESC \
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,occurred_at,total_amt_usd
0,4016,2016-12-26 08:53:24,232207.07
1,3892,2016-06-24 13:32:55,112875.18
2,3963,2015-03-30 00:05:30,107533.55
3,5791,2014-10-24 12:06:22,95005.82
4,3778,2016-07-17 14:50:43,93547.84


### 3.2 多列排序
也可以按照多个列表的数值进行排序。多列排序时，列的优先级由左向右递减。

问: 查询订单，结果需要包括id，account_id 以及total_amt_usd列。首先按照accound_id升序排列，之后按照total_amt_usd降序排列。显示前10行数据。

In [8]:
query = "\
SELECT id, account_id, total_amt_usd \
FROM orders \
ORDER BY account_id, total_amt_usd DESC \
LIMIT 10;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,account_id,total_amt_usd
0,4308,1001,9426.71
1,4309,1001,9230.67
2,4316,1001,9134.31
3,4317,1001,8963.91
4,4314,1001,8863.24
5,4307,1001,8757.18
6,4311,1001,8672.95
7,4310,1001,8538.26
8,4312,1001,8343.09
9,4313,1001,8311.59


## 4. WHERE
**WHERE** 关键字非常重要，主要用来筛选数据。因此总是和一些常见的通用操作符来搭配使用。<br>
* \> 大于
* < 小于
* \>= 大于等于
* <= 小于等于
* = 等于
* != 不等于

问：查询所有gloss_amt_usd大于等于1000的**orders**的前5行

In [9]:
query = "\
SELECT * \
FROM orders \
WHERE gloss_amt_usd >= 1000 \
ORDER BY gloss_amt_usd DESC \
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,account_id,occurred_at,standard_qty,gloss_qty,poster_qty,total,standard_amt_usd,gloss_amt_usd,poster_amt_usd,total_amt_usd
0,3963,4211,2015-03-30 00:05:30,114,14281,0,14395,568.86,106964.69,0.0,107533.55
1,731,1521,2016-06-05 17:14:15,555,12012,31,12598,2769.45,89969.88,251.72,92991.05
2,4942,1701,2015-09-24 21:02:25,0,10744,95,10839,0.0,80472.56,771.4,81243.96
3,1913,2461,2013-12-29 09:50:38,0,6450,45,6495,0.0,48310.5,365.4,48675.9
4,4230,4451,2014-04-07 03:03:23,498,4489,2,4989,2485.02,33622.61,16.24,36123.87


**WHERE** 也可以用于筛选非数字数据。 通常搭配 **=** ，**!=**， **LIKE**， **NOT**，**IN** 等关键字一起使用来筛选。

问: 在**accounts**表中查询Exxon Monbil(埃克森美孚)的name, website 以及primary_poc

In [10]:
query = "\
SELECT name, website, primary_poc \
FROM accounts \
WHERE name = 'Exxon Mobil'; \
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,name,website,primary_poc
0,Exxon Mobil,www.exxonmobil.com,Sung Shields


## 5. Derived Columns (派生列)
使用当前存在的列去创建新的列叫做列的派生（派生。。。听着挺高大上的，其实就是很简单的东西），新创建的列就是派生列。<br>
比较常见的是利用数学表达式去创建新的列（+ - * /，算算统计数据等等），对字符串，日期的派生操作也非常常见。<br>
派生的新列当然也需要有姓名，**AS**关键字就可以用来给派生列命名。**AS**的详细用法我们后面会再提到。

问：在**orders**表格中，新建一列数据用来计算strandard_amt_usd占total_amt_usd的百分比，并将此列命名为std_percent。

In [11]:
query = "\
SELECT id, (standard_amt_usd/total_amt_usd)*100 AS std_percent, standard_amt_usd, total_amt_usd  \
FROM orders \
LIMIT 5; \
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,std_percent,standard_amt_usd,total_amt_usd
0,1,63.0523,613.77,973.43
1,2,55.185299,948.1,1718.03
2,3,54.64583,424.15,776.18
3,4,74.987477,718.56,958.24
4,5,54.796693,538.92,983.49


问：计算标准纸张（standard paper）的单价。

In [12]:
query = "\
SELECT id, standard_amt_usd/standard_qty AS unit_price \
FROM orders \
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,unit_price
0,1,4.99
1,2,4.99
2,3,4.99
3,4,4.99
4,5,4.99


## 6. Logical Operators 逻辑运算符
* **LIKE**，字面意思，查找相似
* **IN** ，字面意思'是否存在'
* **NOT IN**, **NOT LIKE**，前面的否定
* **AND**, **BETWEEN**， 与门，多个条件同时为真时为真
* **OR**, 或门，多个条件中有真则为真
* ...

**LIKE** 在进行模糊匹配的时候非常好用，所以通常和**WHERE**一起用来进行模糊筛选。<br>
通常还要搭配通配符%，%可以匹配一切字符,匹配的字符可以出现1次，多次，也可以干脆不出现。<br>
举个例子：'%glis%' 就可以用来匹配 ‘english’，‘glish’，‘englis3232。<br>
**主要区分大小写**

问：在**accounts**表中找到前5个名字'C'开头的公司。

In [13]:
query = "\
SELECT name \
FROM accounts \
WHERE name like 'C%'\
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,name
0,CVS Health
1,Chevron
2,Costco
3,Cardinal Health
4,Citigroup


问：在**accounts**表中找到前五个名字中有'one'的公司

In [14]:
query = "\
SELECT name \
FROM accounts \
WHERE name like '%one%'\
LIMIT 5;\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,name
0,Honeywell International
1,INTL FCStone
2,Capital One Financial
3,AutoZone
4,Oneok


**IN** 可以用来将一列数据和多个数据进行匹配（= 就只能匹配一个数据，垃圾），在筛选数值和文字是都挺好用的。<br>
直接看例子, WHERE name IN ('百度'，'腾讯'，‘锤子’) 就可以筛选出这三个公司的数据。

问：在**accounts**表中，找出'Walmart','Target'和 'Nordstrom'的账户的 name, primary_poc 和 sales_rep_id

In [15]:
query = "\
SELECT name, primary_poc, sales_rep_id \
FROM accounts \
WHERE name IN ('Walmart', 'Target', 'Nordstrom');\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,name,primary_poc,sales_rep_id
0,Walmart,Tamara Tuma,321500
1,Target,Luba Streett,321660
2,Nordstrom,Yan Crater,321820


**NOT** 就很简单了，反着来呗，可以和 **LIKE**, **IN** 搭配使用。<br>
**NOT LIKE** 不相似（不爱了），**NOT IN** 不在（不在了）

问：在 **accounts** 表中，找出除了'Walmart', 'Target'和 'Nordstrom'之外的账户的 name, primary_poc 和 sales_rep_id

In [16]:
query = "\
SELECT name, primary_poc, sales_rep_id \
FROM accounts \
WHERE name NOT IN ('Walmart', 'Target', 'Nordstrom');\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,name,primary_poc,sales_rep_id
0,Exxon Mobil,Sung Shields,321510
1,Apple,Jodee Lupo,321520
2,Berkshire Hathaway,Serafina Banda,321530
3,McKesson,Angeles Crusoe,321540
4,UnitedHealth Group,Savanna Gayman,321550
...,...,...,...
343,KKR,Buffy Azure,321970
344,Oneok,Esta Engelhardt,321960
345,Newmont Mining,Khadijah Riemann,321970
346,PPL,Deanne Hertlein,321960


**AND** 通常和 **WHERE** 一起使用用来执行多个逻辑判断, 条件A **AND** 条件B **AND** 条件C ...<br>

**BETWEEN** 特定条件下使用 **BETWEEN** 更加简洁。<br>
**WHERE** A > 3 **AND** A < 5 == **WHERE** A **BETWEEN** 3 **AND** 5 

问：在**orders**表中，找到所有 standard_qty 大于1000，poster_qty 是0并且 gloss_qty 是0的 orders

In [17]:
query = "\
SELECT * \
FROM orders \
WHERE standard_qty > 1000 AND poster_qty = 0 AND gloss_qty = 0; \
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,account_id,occurred_at,standard_qty,gloss_qty,poster_qty,total,standard_amt_usd,gloss_amt_usd,poster_amt_usd,total_amt_usd
0,2613,2951,2016-08-15 00:06:12,1171,0,0,1171,5843.29,0,0,5843.29
1,3260,3491,2014-08-29 22:43:00,1552,0,0,1552,7744.48,0,0,7744.48


问：在**accounts**表中，找到所有名称首字母既不是'C'也不是's'的公司

In [18]:
query = "\
SELECT name \
FROM accounts \
WHERE name NOT LIKE 'C%' AND name LIKE '%s'; \
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,name
0,General Motors
1,United Technologies
2,Lowe's
3,UPS
4,HCA Holdings
...,...
64,United Natural Foods
65,Dean Foods
66,Mohawk Industries
67,Franklin Resources


问：在**orders** 表中，找出gloss_qty在24,29之间的orders，并显示时间

In [19]:
query = "\
SELECT occurred_at, gloss_qty \
FROM orders \
WHERE gloss_qty BETWEEN 24 AND 29; \
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,occurred_at,gloss_qty
0,2016-02-01 19:27:27,29
1,2016-03-02 15:29:32,24
2,2016-10-14 23:54:21,28
3,2015-08-09 18:29:20,24
4,2016-02-01 20:00:37,26
...,...,...
479,2016-07-23 14:32:34,24
480,2014-06-26 04:12:30,24
481,2014-03-08 15:33:55,25
482,2014-03-09 07:21:16,27


上面这个例子说明了当使用**BETWEEN**时，上下边界是包含的，相当于>= 和 <=

**OR** 与 **AND** 的使用方法相似

问：在**orders**表中，找到所有的 gloss_qty 或者 poster_qty 大于4000的订单

In [20]:
query = "\
SELECT id, gloss_qty, poster_qty \
FROM orders \
WHERE gloss_qty >4000 OR poster_qty>4000 \
LIMIT 5\
"
df = pd.read_sql(query, connection)
df

Unnamed: 0,id,gloss_qty,poster_qty
0,362,23,11380
1,731,12012,31
2,1191,32,9301
3,1913,6450,45
4,1939,0,4078


做个小结，下面是SQL基础语句的速查表，比较简单就不翻译了。

![missed](Picture/cheat_sheet_SQL_basic.png)