# 实习1 关系数据库创建和数据查询

**实习目的：**了解数据库系统的发展历史与趋势，熟悉PostgreSQL数据库管理系统，掌握关系代数和关系数据库标准语言SQL，包括关系数据库和表的创建、数据导入和插入、完整性约束、数据查询、关系代数与SQL语句相互转换、结果分析。

**注意事项：**
* 可以创建新的Cell用于测试，但问题回答和SQL语句写在相应的Cell中，并执行（Shift+Enter）
* 看到 `In [*]:` ，意味着该Cell的SQL语句正在执行
    * **如果运行时间过长：重新连接数据库，需要重新开始整个Kernel**
    * 菜单"Kernel >> Restart", 重新执行SQL连接、数据库创建等前面的Cell 
* 注意:
    * `%sql [SQL]` 是 _single line_ SQL queries
    * `%%sql [SQL]` 是 _multi line_ SQL queries
* **Jupyter Notebook对SQL语句的错误提示较弱，可以先在pgAdmin 4上执行，查看详细的错误信息**
* 实习1总分50分，实习考察的题目后面标了具体分数，可以相互讨论思路，作业抄袭或雷同都要扣分
* 实习1\_学号\_姓名.ipynb替换其中的学号和姓名，包含执行结果，发送到zjusdb@163.com，截止日期**2019.3.17**

### 1. 阅读中国计算机学会通讯2014年第5期的[大数据存储渊源](http://www.cad.zju.edu.cn/home/ybtao/sdb/resources/CCCF2014.pdf)和2016年微信上的[诸神之战：计算机领域的固步自封与跨界战争](http://mp.weixin.qq.com/s/PSqJ_o3T_6vUww0V-bN4Gw)，根据文中内容回答以下问题。

1.1 关系型数据库公司RTI在技术创新上处于领先地位，但创业没有RSI成功，分析其主要原因有哪些？（2分）

1.2 CAP Theorem是指什么？非结构化数据库通常满足CAP中的哪些？（2分）

1.3 2009年的SIGMOD会议上，SAP的董事会主席，创始人之一，已经在大学任教的Hasso Plattner教授给了一个这样的报告：A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database。分别举例说明哪些生活中的应用属于OLTP和OLAP？（2分）

### 2. 基于关系代数Python工具集（relation_algebra.py），实现关系代数和SQL语句的相互转换。

##### 关系代数Python工具集使用介绍

这里给出关系代数Python工具集的简要使用介绍，它的语法非常直观。(感兴趣的同学可以查看文件夹下关于关系代数和显示工具的源码。)

下面我们使用Python集成的sqlite数据库。同时，我们需要导入一些必要的Python扩展。

In [None]:
%load_ext sql
%sql sqlite://

%load_ext autoreload
%autoreload 2

#  帮助绘制一些符号标记
from IPython.core.display import display, HTML
from markdown import markdown
def render_markdown_raw(m): return display(HTML(markdown(m))) 
def render_markdown(m): return render_markdown_raw(m.toMD())

# 导入一些关系代数模块的对象及方法
from relation_algebra import Select, Project, Union, NJoin, CrossProduct, BaseRelation
from relation_algebra import get_result, compare_results

from display_tools import side_by_side

import random

创建需要使用的表。

In [None]:
%%sql
drop table if exists R; create table R(A int, B int);
drop table if exists S; create table S(B int, C int);
drop table if exists T; create table T(C int, D int);
drop table if exists U; create table U(D int, E int);

向创建的表中插入数据。

In [None]:
for x in range(0,10,2):
    for y in range(0,10,3):
        %sql INSERT INTO R VALUES (:x, :y);
for x in range(0,20,4):
    for y in range(0,10,2):
        %sql INSERT INTO S VALUES (:x, :y);
for x in range(0,5,1):
    for y in range(0,10,2):
        %sql INSERT INTO T VALUES (:x, :y);
for x in range(0,10,2):
    for y in range(0,5,1):
        %sql INSERT INTO U VALUES (:x, :y);

#### BaseRelation类

关系代数主要处理集合。先要将SQL语句的输出转化成一个BaseRelation对象，如r是SQL查询结果，R为Python的BaseRelation类存储r的实例：

In [None]:
r = %sql SELECT * FROM R;
R = BaseRelation(r, name="R")

s = %sql SELECT * FROM S;
S = BaseRelation(s, name="S")

t = %sql SELECT * FROM T;
T = BaseRelation(t, name="T")

get_result函数可以用来查看关系实例：

In [None]:
print get_result(R)

render_markdown函数用来显示关系模式：

In [None]:
render_markdown(R)
render_markdown(S)
render_markdown(T)

#### 选择(Select)类

In [None]:
s = Select("A", 2, R)
render_markdown(s)
print get_result(s)

#### 投影(Project)类

In [None]:
p = Project(["A"], R)
render_markdown(p)
print get_result(p)

#### 自然连接(NJoin)类

In [None]:
j = NJoin(R, S)
render_markdown(j)
print get_result(j)

#### 组合性

从关系代数中导入Select, Project, Union, NJoin, CrossProduct, BaseRelation几个类可以相互组合。

#### 组合性可以帮助我们完成SQL语句和关系代数之间的转换。

为了方便检查SQL和关系代数转化的正确性，可以利用side_by_side函数将两个表的数据放在一起显示。

In [None]:
r = %sql SELECT * FROM R;
s = %sql SELECT * FROM S;
side_by_side(r,s)

#### 2.1 SQL语句转换为关系代数

In [None]:
%%sql
SELECT DISTINCT R.B
FROM R
WHERE R.A = 2;

In [None]:
X = %sql SELECT DISTINCT R.B FROM R WHERE R.A = 2;
x = BaseRelation(X)

y = Project(["B"], Select("A", 2, R))
render_markdown(y)

print compare_results(x,y) #比较两种方式的结果是否一致

#### 2.2 SQL语句转换为关系代数（2分）

In [None]:
%%sql
SELECT DISTINCT R.A, T.D
FROM R, S, T
WHERE R.B = S.B AND S.C = T.C AND R.A = 2;

In [None]:


#类似2.1，写出转化后请利用compare_results(x,y)函数比较结果的正确性

#### 2.3 关系代数转换为SQL语句（2分）

In [None]:
x = Project(["A","C"],
        NJoin(
            NJoin(Select("B", 0, BaseRelation(r, name="R")), BaseRelation(s, name="S")),
            Select("C", 0, BaseRelation(t, name="T"))))
render_markdown(x)
print get_result(x)

In [None]:


#写出转化后请利用compare_results(x,y)函数比较结果的正确性

#### 2.4 关系代数转换为SQL语句（2分）

<img src="Figure 2.4.png">

In [None]:


#写出转化后请利用compare_results(x,y)函数比较结果的正确性

### 3. 公共自行车服务

在PostgreSQL上创建站点、租车记录和天气关系数据库，导入相关数据，并构造相关数据查询语句。

<img src="Figure 3.jpg">

####  3.1 公共自行车服务数据库的关系如下图所示：

<img src="Figure 3.1.png">

基于上图创建Station、Trip和Weather关系。

####  3.1.0 连接你所创建的数据库
通过pgAdmin III/4在PostgreSQL数据库中创建lab1数据库，并连接该数据库。

In [None]:
%%sql postgresql://postgres:postgres@localhost/lab1

SET statement_timeout = 0;
SET lock_timeout = 0;
SET client_encoding = 'utf-8';
SET standard_conforming_strings = on;
SET check_function_bodies = false;
SET client_min_messages = warning;

#### 3.1.1 站点关系创建
关系模式为station(station_id, station_name, lat, long, dock_count, city, installation_date, zip_code)。

可以按照如下语句创建:
drop table if exists station;
CREATE TABLE station (
station_id smallint not null primary key,
station_name text,
lat real,
long real,
dock_count smallint,
city text,
installation_date date,
zip_code text
); 其中dock_counts为站点的车位数，即站点自行车桩的数目。

In [None]:
%%sql drop table if exists station;
CREATE TABLE station (
    station_id smallint not null primary key,
    station_name text,
    lat real,
    long real,
    dock_count smallint,
    city text,
    installation_date date,
    zip_code text
);

#### 3.1.2 租车关系创建（4分）
关系模式为trip(id, duration, start_time, start_station_name, start_station_id, end_time, end_station_name, end_station_id, bike_id)， 其中，id为租车记录关系的主键，start_station_id和end_station_id为租车关系的外键。

In [None]:
%%sql 

#### 3.1.3 天气关系创建（2分）
关系模式为weather(date, max_temp, mean_temp, min_temp, max_visibility_miles, mean_visibility_miles, min_visibility_miles, max_wind_speed_mph, mean_wind_speed_mph, max_gust_speed_mph, cloud_cover, envents, wind_dir_degrees, zip_code)，其中date和zip_code为天气的主键。

In [None]:
%%sql drop table if exists weather
CREATE TABLE weather (
    max_temp real,
    mean_temp real,
    min_temp real,
    max_visibility_miles real,
    mean_visibility_miles real,
    min_visibility_miles real,
    max_wind_speed_mph real,
    mean_wind_speed_mph real,
    max_gust_speed_mph real,
    cloud_cover real,
    events text,
    wind_dir_degrees real,
    ......
);

#### 3.2 数据导入

美国Bay Area五个城市收集的自行车公共服务数据，站点、租车记录和天气数据举例如下：

<table border="1">
  <tr>
    <th>station id</th>
    <th>station name</th>
    <th>latitude</th>
    <th>longitude</th>
    <th>dock count</th>
    <th>city</th>
    <th>installation date</th>
    <th>zip code</th>
  </tr>
  <tr>
    <td>2</td>
    <td>San Jose Diridon Caltrain Station</td>
    <td>37.3297</td>
    <td>-121.902</td>
    <td>27</td>
    <td>San Jose</td>
    <td>2013-08-06</td>
    <td>95113</td>
  </tr>
</table>

<table border="1">
  <tr>
    <th>id</th>
    <th>duration (sec)</th>
    <th>start time</th>
    <th>start station name</th>
    <th>start station id</th>
    <th>end time</th>
    <th>end station name</th>
    <th>end station id</th>
    <th>bike id</th>
  </tr>
  <tr>
    <td>5088</td>
    <td>183</td>
    <td>2013-08-29 22:08:00</td>
    <td>Market at 4th</td>
    <td>76</td>
    <td>2013-08-29 22:12:00</td>
    <td>Post at Kearney</td>
    <td>47</td>
    <td>309</td>
  </tr>
</table>

<table border="1">
  <tr>
    <th>date</th>
    <th>max temp</th>
    <th>mean temp</th>
    <th>min temp</th>
    <th>max visibility miles</th>
    <th>mean visibility miles</th>
    <th>min visibility miles</th>
    <th>max wind speed mph</th>
    <th>mean wind speed mph</th>
    <th>max gust speed mph</th>
    <th>cloud cover</th>
    <th>envents</th>
    <th>wind dir degrees</th>
    <th>zip code</th>
  </tr>
  <tr>
    <td>2013-08-29</td>
    <td>74</td>
    <td>68</td>
    <td>61</td>
    <td>10</td>
    <td>10</td>
    <td>10</td>
    <td>23</td>
    <td>11</td>
    <td>28</td>
    <td>4</td>
    <td>NULL</td>
    <td>286</td>
    <td>94107</td>
  </tr>
</table>

PostgreSQL可以通过[copy语句](https://www.postgresql.org/docs/current/static/sql-copy.html)批量导入数据，命令格式如下：
    
    copy [table name] from 'absolute file path of the data file' delimiter ‘,’; (建议使用绝对路径)
    
基于copy语句将给出的3个数据文件，导入到相应的关系中，文件中每行对应关系的一个元组（一行），属性是通过分隔符’,’隔离。

#### 3.2.1 站点关系数据[station](/edit/station.txt)导入。(假设station.txt已从数据目录下拷贝到E盘）

In [None]:
%sql copy station from  'E://station.txt' delimiter ',';

#### 3.2.2 租车关系数据[trip](/edit/trip.txt)导入。(假设trip.txt已从数据目录下拷贝到E盘）

In [None]:
%sql copy trip from  'E://trip.txt' delimiter ',';

#### 3.2.3 天气关系数据[weather](/edit/weather.txt)导入，未给出的数据默认为NULL，查看copy语句的帮助文档。（1分）

In [None]:
%sql 

#### 通过select count(*) from station验证数据导入正确性（70, 669958, 3665）。

In [None]:
station_num = %sql select count(*) from station;
trip_num    = %sql select count(*) from trip;
weather_num = %sql select count(*) from weather;

print station_num[0][0], trip_num[0][0], weather_num[0][0]

#### 3.3 数据插入（4分）

假设最近一次的租车发生在2015年8月31号的23点26分，站点50，车编号为288，还车时间为2015年8月31号的23点39分，站点70，租借时长765秒。构造SQL语句将该租车记录插入到数据库中，id为trip数据库中id的最大值加1。

In [None]:
%%sql

#### 3.4 构造SQL语句实现以下数据查询与分析。

每个查询使用一个SQL语句实现，除了题目要求外，不能使用with语句和视图，不能修改数据库内容和hardcode数值。建议首先使用with语句构建临时关系，实现题目要求的查询，然后将with语句通过子查询嵌入到select/from/where子句中。

3.4.0 查询车位最多的站点。查询结果模式为(station_id, dock_count)。

In [None]:
%%sql 
select station_id, dock_count
from station
where dock_count = (select max(dock_count) from station);

In [None]:
%%sql 
select station_id, dock_count
from station
where dock_count >= all(select dock_count from station);

In [None]:
%%sql 
select station_id, dock_count
from station, (select max(dock_count) as max_dock_count from station) as mt
where dock_count = max_dock_count

3.4.1 查询每个城市的站点数量。查询结果模式为(city, number)，按站点数目降序排列，站点数目相同时，按城市名升序排列。（2分）

空间关联：站点按所在城市进行**关联**

In [None]:
%%sql 

3.4.2 查询距离最近的站点对。查询结果模式为(station_id_A, station_id_B, distance)，不能出现重复站点对，如(A, B, d)和(B, A, d)。（2分）

**空间距离计算**是地理空间数据库的重点内容，将在后续课程学习PostGIS扩展函数和具体实现。现在提供PostgreSQL的PL/pgSQL语言函数dist，输入两个点的经纬度，计算弧度距离。

In [None]:
%%sql
create or replace function dist(x1 float, y1 float, x2 float, y2 float) 
    returns float
as $$
begin
    return sqrt((x2 - x1) * (x2 - x1) + (y2 - y1) * (y2 - y1));
end;
$$ language plpgsql;

类似于PostgreSQL的其他函数，dist函数创建后，可以通过select dist(1.0, 2.0, 3.0, 4.0)使用。基于dist函数，构造SQL语句查询距离最近的站点对。

空间关联：如果将每个站点和其距离最近站点连接**关联**，我们可以通过空间距离生成一个**静态**的站点网络

In [None]:
%%sql 

3.4.3 查询2013年10月份每天的租车数量。查询结果模式为(date, number)，按时间排序。从timestamp数据类型提取日期，查看[timestamp](https://www.postgresql.org/docs/current/static/datatype-datetime.html)和[时间函数](https://www.postgresql.org/docs/9.1/static/functions-datetime.html)。（4分）

In [None]:
%%sql 

从查询结果中，你发现了什么规律？为了更有效地分析查询结果，可以通过直方图可视化查询结果，进行分析。

In [None]:
query = """
copy your sql here
"""
result = %sql $query
%matplotlib inline
result.bar()

3.4.4 查询租车记录最多的前20个站点对。查询结果模式为(start_station_id, end_station_id, trip_count)，使用关键词limit获得前20个热门站点对。（4分）

In [None]:
%%sql 

基于查询结果，分析站点之间的租车行为是否具有对称性，即站点A到站点B的租车量是否与站点B到站点A的租车辆相似？如果不相似，请从地理学角度宏观分析可能的原因。

空间关联：如果某条租车记录从站点A到站点B，我们可以把站点A和站点B基于用户租车行为进行**关联**，生成一个**动态**的站点网络。

3.4.5 (练习题) 查询自行车#697的累积行驶时间。查询结果模式为(end_time, cumulative_traveling_duration)，按照累积行驶时间升序排列。

例如，如果自行车#697的租借历史如下表：
<table border="1">
  <tr>
    <th>End Time</th>
    <th>Duration</th>
  </tr>
  <tr>
    <td>2019/02/27 10:15</td>
    <td>240</td>
  </tr>
  <tr>
    <td>2019/02/28 12:15</td>
    <td>360</td>
  </tr>
  <tr>
    <td>2019/03/01 09:50</td>
    <td>200</td>
  </tr>
</table>

查询结果如下表：
<table border="1">
  <tr>
    <th>End Time</th>
    <th>Cumulative Traveling Duration</th>
  </tr>
  <tr>
    <td>2019/02/27 10:15</td>
    <td>240</td>
  </tr>
  <tr>
    <td>2019/02/28 12:15</td>
    <td>600</td>
  </tr>
  <tr>
    <td>2019/03/01 09:50</td>
    <td>800</td>
  </tr>
</table>

In [None]:
%%sql

3.4.6 查询每个城市最受欢迎的站点 (5分)

最受欢迎的站点是指用户使用次数最多的站点，一次租车记录，用户既使用了一次租车站点，又使用了一次还车站点。对于self-loop站点，用户使用了该站点两次。查询结果模式为(city, station_name, visit_count)，按城市名称字母序排列。

In [None]:
%%sql 

基于查询结果，分析这些站点使用较多的原因？

3.4.7 查询每个站点当前的自行车数目 (5分)

假设所有自行车至少被租借过一次，查询每个站点当前的自行车数目，即每个站点可借车的数目，当前可以理解为数据库中最后一次还车记录完成时。查询结果模式为(station_id, bike_count)，按bike_count降序排列，如果bike_count相同，按station_id升序排列。通常，公共自行车服务需要保证每个站点都有车可借，也有车可还。如果某个站点自行车满了，而其他站点自行车借完了，需要进行自行车服务调度。

时空查询：trip是一个**时空**关系，即保留了历史的租车记录，当查询**当前**情况时，需要使用每辆自行车时间最近的那条租车记录。

In [None]:
%%sql 

基于每个站点的车位数，分析查询结果是否存在问题？如何解释这一结果？

3.4.8 分析天气与租车之间的关联关系 (5分)

查询不同天气下总的租车数量。查询结果模式为(events, number)，events为None是指没有事件发生，events字符串需要使用[string函数](https://www.postgresql.org/docs/current/static/functions-string.html)全部转成小写，number为某一events下的总租车数量，仅考虑租车（非还车）时的天气。

In [None]:
%%sql 

从查询结果来看，是否可以得出如下结论：

    * 当天气为rain-thunderstorm时，选择租车的可能性最小？
    * 在rain时选择租车的可能性大于在fog时选择租车的可能性？
    
上述查询是否支持上述结论，请说明理由，或构造新的查询，进一步分析天气与租车之间的关联关系

In [None]:
%%sql 

3.4.9 (附加题) 查询到达过San Jose所有站点的自行车，一次租车记录，自行车既到达了租车站点，又到达了还车站点。查询返回这类自行车数目。(5分)

In [None]:
%%sql 

### 实习感想

收获:-)，疑惑:-|，吐槽:-(，...，你的反馈很重要