# 作业1 关系数据库创建和数据查询

**作业目的：**了解数据库系统的发展历史与趋势，熟悉PostgreSQL数据库管理系统，掌握关系代数和关系数据库标准语言SQL，包括关系数据库和表的创建、数据导入和插入、完整性约束、数据查询、结果分析。

**注意事项：**
* 可以创建新的Cell用于测试，但问题回答和SQL语句写在相应的Cell中，并执行（Shift+Enter）
* 看到 `In [*]:` ，意味着该Cell的SQL语句正在执行
    * **如果运行时间过长：重新连接数据库，需要重新开始整个Kernel**
    * 菜单"Kernel >> Restart", 重新执行SQL连接、数据库创建等前面的Cell 
* 注意:
    * `%sql [SQL]` 是 _single line_ SQL queries
    * `%%sql [SQL]` 是 _multi line_ SQL queries
* **Jupyter Notebook对SQL语句的错误提示较弱，可以先在pgAdmin 4上执行，查看详细的错误信息**
* 作业1总分50分，作业考察的题目后面标了具体分数，可以相互讨论思路，作业抄袭或雷同都要扣分
* 作业1\_学号\_姓名.ipynb替换其中的学号和姓名，包含执行结果，压缩后提交到学在浙大，截止日期**2021.10.17**

### 1. 阅读中国计算机学会通讯2014年第5期的[大数据存储渊源](http://www.cad.zju.edu.cn/home/ybtao/sdb/resources/CCCF2014.pdf)和2016年微信上的[诸神之战：计算机领域的固步自封与跨界战争](http://mp.weixin.qq.com/s/PSqJ_o3T_6vUww0V-bN4Gw)，根据文中内容回答以下问题。

1.1 关系型数据库公司RTI在技术创新上处于领先地位，但创业没有RSI成功，分析其主要原因有哪些？（1分）

1.2 2009年的SIGMOD会议上，SAP的董事会主席，创始人之一，已经在大学任教的Hasso Plattner教授给了一个这样的报告：A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database。分别举例说明生活中哪些应用属于OLTP和OLAP？（2分）

1.3 阅读了这两篇数据库发展历史材料，你有什么感悟或体会？可以从数据库、科技发展、创新创业等角度进行阐述。（1分）

### 2. 关系代数

选课数据库
* Student(<u>sid</u>, name, sex, age, dept)，表示学生学号，姓名，性别，年龄和院系
* Course(<u>cid</u>, name, credit)，表示课程号，课程名和学分
* SC(<u>sid</u>, <u>cid</u>, grade)，表示选课记录，sid和cid是Student和Course的外码

基于第二章所学的关系代数，构造关系代数表达式，实现以下查询。数学符号可以通过[Latex Math Symbols](https://www.jianshu.com/p/9631408a5c69)表示：

操作 | 数学符号 | Latex
-|-|-
选择 | $\sigma$ | \sigma
投影 | $\Pi$    | \Pi
笛卡尔积 | $\times$ | \times
自然连接 | $\bowtie$ | \bowtie
交集 | $\cap$   | \cap
并集 | $\cup$   | \cup
重命名| $\rho$  | \rho
下标 | $X_{A,C}$| X_{A,C}
或 | $\vee$ | \vee
与 | $\wedge$ | \wedge




2.0 查找'地理信息科学’专业学生选修过得课程名

答案：$\Pi_{cname} (\sigma_{dept='地理信息科学'} (Student) \bowtie SC \bowtie (\rho_{cid, cname, credit}(Course)))$

2.1 查找至少选修一门4学分及以上课程的学生学号（2分）

答案：$\Pi_{xxx}()$

2.2 查找学生'张三'或‘李四’选修过的课程名（2分）

答案：$\Pi_{xxx}()$

2.3 查找学生'张三'和'李四'都选修过的课程名（2分）

答案：$\Pi_{xxx}()$

2.4 查找所有学生成绩都大于等于80分的课程号，注意有的课程可能没有学生选修，如刚开设的课程 (2分)

答案：$\Pi_{xxx}()$

2.5 查找'地理空间数据库'(cid='06122870')成绩最低的学生学号，假设该课程成绩都不相同 (2分)

答案：$\Pi_{xxx}()$

### 3. 公共自行车服务

在PostgreSQL上创建站点、租车记录和天气关系数据库，导入相关数据，并构造相关数据查询语句。

<img src="Figure 3.jpg">

####  3.1 公共自行车服务数据库的关系如下图所示：

<img src="Figure 3.1.png">

基于上图创建Station、Trip和Weather关系。上图中Trip和Station之间的箭头表示外码，而Station与Weather之间的箭头并不是外码关系，而是关联关系。

####  3.1.0 连接你所创建的数据库
通过pgAdmin 4在PostgreSQL数据库中创建hw1数据库，并连接该数据库。

In [None]:
%load_ext sql

In [None]:
%%sql postgresql://postgres:postgres@localhost/hw1

SET statement_timeout = 0;
SET lock_timeout = 0;
SET client_encoding = 'utf-8';
SET standard_conforming_strings = on;
SET check_function_bodies = false;
SET client_min_messages = warning;

#### 3.1.1 站点关系创建
关系模式为station(<u>station_id</u>, station_name, lat, long, dock_count, city, installation_date, zip_code)，其中dock_counts为站点的车位数，即站点自行车桩的数目，只能在自行车桩上还车，注意与共享单车的区别。

In [None]:
%%sql drop table if exists station;
CREATE TABLE station (
    station_id smallint not null primary key,
    station_name text,
    lat real,
    long real,
    dock_count smallint,
    city text,
    installation_date date,
    zip_code text
);

#### 3.1.2 租车关系创建（2分）
关系模式为trip(<u>id</u>, duration, start_time, start_station_name, start_station_id, end_time, end_station_name, end_station_id, bike_id)， 其中，id为租车记录关系的主码，start_station_id和end_station_id为租车关系的外码。

In [None]:
%%sql 

#### 3.1.3 天气关系创建（2分）
关系模式为weather(<u>date</u>, max_temp, mean_temp, min_temp, max_visibility_miles, mean_visibility_miles, min_visibility_miles, max_wind_speed_mph, mean_wind_speed_mph, max_gust_speed_mph, cloud_cover, envents, wind_dir_degrees, <u>zip_code</u>)，其中date和zip_code为天气的主码。

In [None]:
%%sql drop table if exists weather
CREATE TABLE weather (
    max_temp real,
    mean_temp real,
    min_temp real,
    max_visibility_miles real,
    mean_visibility_miles real,
    min_visibility_miles real,
    max_wind_speed_mph real,
    mean_wind_speed_mph real,
    max_gust_speed_mph real,
    cloud_cover real,
    events text,
    wind_dir_degrees real,
    ......
);

#### 3.2 数据导入

美国Bay Area五个城市收集的自行车公共服务数据，站点、租车记录和天气数据举例如下：

<table border="1">
  <tr>
    <th>station id</th>
    <th>station name</th>
    <th>latitude</th>
    <th>longitude</th>
    <th>dock count</th>
    <th>city</th>
    <th>installation date</th>
    <th>zip code</th>
  </tr>
  <tr>
    <td>2</td>
    <td>San Jose Diridon Caltrain Station</td>
    <td>37.3297</td>
    <td>-121.902</td>
    <td>27</td>
    <td>San Jose</td>
    <td>2013-08-06</td>
    <td>95113</td>
  </tr>
</table>

<table border="1">
  <tr>
    <th>id</th>
    <th>duration (sec)</th>
    <th>start time</th>
    <th>start station name</th>
    <th>start station id</th>
    <th>end time</th>
    <th>end station name</th>
    <th>end station id</th>
    <th>bike id</th>
  </tr>
  <tr>
    <td>5088</td>
    <td>183</td>
    <td>2013-08-29 22:08:00</td>
    <td>Market at 4th</td>
    <td>76</td>
    <td>2013-08-29 22:12:00</td>
    <td>Post at Kearney</td>
    <td>47</td>
    <td>309</td>
  </tr>
</table>

<table border="1">
  <tr>
    <th>date</th>
    <th>max temp</th>
    <th>mean temp</th>
    <th>min temp</th>
    <th>max visibility miles</th>
    <th>mean visibility miles</th>
    <th>min visibility miles</th>
    <th>max wind speed mph</th>
    <th>mean wind speed mph</th>
    <th>max gust speed mph</th>
    <th>cloud cover</th>
    <th>envents</th>
    <th>wind dir degrees</th>
    <th>zip code</th>
  </tr>
  <tr>
    <td>2013-08-29</td>
    <td>74</td>
    <td>68</td>
    <td>61</td>
    <td>10</td>
    <td>10</td>
    <td>10</td>
    <td>23</td>
    <td>11</td>
    <td>28</td>
    <td>4</td>
    <td>NULL</td>
    <td>286</td>
    <td>94107</td>
  </tr>
</table>

PostgreSQL可以通过[copy语句](https://www.postgresql.org/docs/current/static/sql-copy.html)批量导入数据，命令格式如下：
    
    copy [table name] from 'absolute file path of the data file' delimiter ‘,’; (建议使用绝对路径)
    
基于copy语句将给出的3个数据文件，导入到相应的关系中，文件中每行对应关系的一个元组（一行），属性是通过分隔符’,’隔离。

#### 3.2.1 站点关系数据[station](./station.txt)导入。(假设station.txt已从数据目录下拷贝到E盘）

In [None]:
%sql copy station from  'E://station.txt' delimiter ',';

#### 3.2.2 租车关系数据[trip](./trip.txt)导入。(假设trip.txt已从数据目录下拷贝到E盘）

In [None]:
%sql copy trip from  'E://trip.txt' delimiter ',';

#### 3.2.3 天气关系数据[weather](./weather.txt)导入，未给出的数据默认为NULL，查看copy语句的帮助文档。（1分）

In [None]:
%sql 

#### 通过select count(*) from station验证数据导入正确性（70, 669958, 3665）。

In [None]:
station_num = %sql select count(*) from station;
trip_num    = %sql select count(*) from trip;
weather_num = %sql select count(*) from weather;

print(station_num[0][0], trip_num[0][0], weather_num[0][0]);

#### 3.3 租车与还车（4分）

假设最近一次的租车发生在2015年8月31号的23点26分，站点50，车编号为288，还车时间为2015年8月31号的23点39分，站点70。构造两个SQL语句模拟用户租车和还车过程，租车时插入id, start_time, start_station_name, start_station_id, bike_id属性数据，id为trip数据库中id的最大值加1，还车时，使用租车记录id，更新end_time, end_station_name, end_station_id，duration属性数据。

In [None]:
%%sql

#### 3.4 构造SQL语句实现以下数据查询与分析。

每个查询使用一个SQL语句实现，除了题目要求外，不能使用with语句和视图，不能修改数据库内容和hardcode数值。建议首先使用with语句构建临时关系，实现题目要求的查询，然后将with语句通过子查询嵌入到select/from/where子句中。

3.4.0 查询车位最多的站点。查询结果模式为(station_id, dock_count)。

In [None]:
%%sql 
select station_id, dock_count
from station
where dock_count = (select max(dock_count) from station);

In [None]:
%%sql 
select station_id, dock_count
from station
where dock_count >= all(select dock_count from station);

In [None]:
%%sql 
select station_id, dock_count
from station, (select max(dock_count) as max_dock_count from station) as mt
where dock_count = max_dock_count

3.4.1 查询每个城市的站点数量。查询结果模式为(city, number)，按站点数目降序排列，站点数目相同时，按城市名升序排列。（2分）

空间关联：站点按所在城市进行**关联**

In [None]:
%%sql 

3.4.2 查询距离最近的站点对。查询结果模式为(station_id_A, station_id_B, distance)，不能出现重复站点对，如(A, B, d)和(B, A, d)。（2分）

**空间距离计算**是地理空间数据库的重点内容，将在后续课程学习PostGIS扩展函数和具体实现。现在提供PostgreSQL的PL/pgSQL语言函数dist，输入两个点的经纬度，计算弧度距离。

In [None]:
%%sql
create or replace function dist(x1 float, y1 float, x2 float, y2 float) 
    returns float
as $$
begin
    return sqrt((x2 - x1) * (x2 - x1) + (y2 - y1) * (y2 - y1));
end;
$$ language plpgsql;

类似于PostgreSQL的其他函数，dist函数创建后，可以通过dist(S1.lat, S1.long, S2.lat, S2.long)计算站点之间的距离，例如按距离从大到小排序的前10个站点对。

In [None]:
%%sql
select S1.station_id, S2.station_id, dist(S1.lat, S1.long, S2.lat, S2.long)
from Station S1, Station S2
where S1.station_id <> S2.station_id
order by dist(S1.lat, S1.long, S2.lat, S2.long) desc
limit 10

基于dist函数，构造SQL语句查询距离最近的站点对，即所有站点对中距离最近的站点对。

空间关联：如果将每个站点和其距离最近站点连接**关联**，我们可以通过空间距离生成一个**静态**的站点网络

In [None]:
%%sql 

3.4.3 查询租车记录最多的前20个站点对。查询结果模式为(start_station_id, end_station_id, trip_count)，使用关键词limit获得前20个热门站点对。（4分）

In [None]:
%%sql 

基于查询结果，分析站点之间的租车行为是否具有对称性，即站点A到站点B的租车量是否与站点B到站点A的租车辆相似？如果不相似，请从地理学角度宏观分析可能的原因。

空间关联：如果某条租车记录从站点A到站点B，我们可以把站点A和站点B基于用户租车行为进行**关联**，生成一个**动态**的站点网络。

3.4.4 查询每个城市最受欢迎的站点 (5分)

最受欢迎的站点是指用户使用次数最多的站点，一次租车记录，用户既使用了一次租车站点，又使用了一次还车站点。对于self-loop站点，用户使用了该站点两次。查询结果模式为(city, station_name, visit_count)，按城市名称字母序排列。提示：visit_count最小为2809，最大为112271。

In [None]:
%%sql 

基于查询结果，分析这些站点使用较多的原因？

3.4.5 查询每个站点当前的自行车数目 (5分)

假设所有自行车至少被租借过一次，查询每个站点当前的自行车数目，即每个站点可借车的数目，当前可以理解为数据库中最后一次还车记录完成时。查询结果模式为(station_id, bike_count)，按bike_count降序排列，如果bike_count相同，按station_id升序排列。通常，公共自行车服务需要保证每个站点都有车可借，也有车可还。如果某个站点自行车满了，而其他站点自行车借完了，需要进行自行车服务调度。提示：查询结果第一行为(69, 50)。

时空查询：trip是一个**时空**关系，即保留了历史的租车记录，当查询**当前**情况时，需要使用每辆自行车时间最近的那条租车记录。

In [None]:
%%sql

基于每个站点的车位数，分析查询结果是否存在问题？如何解释这一结果？

3.4.6 分析气温与租车之间的关联关系 (4分)

查询2014年zip_code为94107区域内不同月份对应的气温及其日平均租车数量。查询模式为(month, temp, number)，month为月份，temp为该月对应的平均气温，number为该月日平均租车数量，仅考虑租车（非还车）时的时间和所在自行车站点的zipcode。在PostgreSQL中，可使用[extract](https://www.postgresql.org/docs/current/functions-datetime.html)函数从timestamp类型变量中提取年月日信息，如：extract(year from date)，即可得到date变量中的年份信息。提示：查询结果第一行为(1, 55.4, 709.64516)。

In [None]:
%%sql

从查询结果中，你发现了什么规律？为了更有效地分析查询结果，可以通过直方图可视化查询结果，进行分析。

In [None]:
## 绘制气温-时间变化直方图（在sql中仅需输出month与temp）
query = """
copy your sql here
"""
result = %sql $query
%matplotlib inline
result.bar()

In [None]:
## 绘制日均租车量-时间变化直方图（在sql中仅需输出month与number）
query = """
copy your sql here
"""
result = %sql $query
%matplotlib inline
result.bar()

3.4.7 分析天气与租车之间的关联关系 (5分)

查询不同天气下总的租车数量。查询结果模式为(events, number)，events为None是指没有事件发生，events字符串需要使用[string函数](https://www.postgresql.org/docs/current/static/functions-string.html)全部转成小写，number为某一events下的总租车数量，仅考虑租车（非还车）时的天气，不同区域的天气可能不同。提示：fog天气下总租车数量为43676。

In [None]:
%%sql 

从查询结果来看，是否可以得出如下结论：

    * 当天气为rain-thunderstorm时，选择租车的可能性最小？
    * 在rain时选择租车的可能性大于在fog时选择租车的可能性？
    
上述查询是否支持上述结论，请说明理由，或构造新的查询，进一步分析天气与租车之间的关联关系

In [None]:
%%sql 

### 作业感想

收获:-)，疑惑:-|，吐槽:-(，...，你的反馈很重要