# 城市气候与海洋的关系研究

导入包

In [2]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

导入数据各个海滨城市数据
- os.listdir('data')
- filter() 过滤出所有.csv文件
- df.append() 以行的方式追加

查看列数

去除没用的列

显示最高温度与离海远近的关系
- 按city分组， 计算temp和dist的最大值
- 按dist排序

画图显示关系 
- scatter() 显示距离与温度的散布图
- plot() 显示距离与温度的线形图

 练习
 
 读取某一城市 每天的温度变化和 一周的天气变化

画出 Asti 城市的每天的温度变化的线形图
- 处理 day 时间格式

观察发现，离海近的可以形成一条直线，离海远的也能形成一条直线。

分别以100公里和50公里为分界点，划分为离海近和离海远的两组数据
- city_temp['dist'] > 50  # 远距离
- city_temp['dist'] < 100 # 近距离

画出远、近的距离与温度的散布图

使用线性回归预测给定距离的温度
-  机器学习的线性回归模型 LinearRegression
-  scikit-learn 模块中线性模型
    - sklearn.linear_model
- 创建回归模型对象
    - linear = LinearRegression()
- 训练模型
    - fit(x, y) 
        - x 是实际数据的自变量, 必须是 二维数组
        - y 实际数据的因变量
- 预测模型
    - predict(x) 根据预测函数，计算x的结果
        - x 也是一个二维数组

创建线性回归模型对象

训练模型
- 一个被训练过的模型，就是一个预测函数表达式f(x) = wx+b

 预测模型  

预测100个近距离数据的温度

训练远距离和温度的模型

预测100个远距离的温度

最低湿度与海洋距离的关系
- 按城市 city 分组, 计算湿度 humidity 与距离dist的最小值
- 按距离dist排序

画散点图和线型图

最高湿度与海洋距离的关系

平均湿度与海洋距离的关系

思考：模仿最高温度，得到平均湿度与海洋距离的回归曲线

风向与风速的关系
- 查看Asti城市的风向wind_deg与风速wind_speed
- 按wind_deg风向排序
- 重新创建索引 reset_index()

画出风向与风速的线性图

在子图中，同时比较风向与湿度和风力的关系

In [85]:
asti_wind = all_[all_['city'] == 'Asti'][['wind_speed', 'wind_deg']]
asti_wind.sort_values('wind_deg', inplace=True)
asti_wind = asti_wind.groupby('wind_deg')['wind_speed'].mean()
asti_wind = DataFrame(asti_wind)   # Series -> DataFrame
asti_wind.reset_index(inplace=True)  # 将wind_deg 索引转成列
asti_wind
# 将索引值（角度）改成 弧度 
# 角度/180 = 弧度/pi,  弧度 = 角度 * pi / 180
# asti_wind.index = asti_wind.index*np.pi/180


Unnamed: 0,wind_deg,wind_speed
0,0.0,1.018667
1,10.0,3.6
2,24.0,2.06
3,30.0,2.05
4,40.0,1.5
5,42.501,2.57
6,50.0,2.075
7,70.0,2.6
8,80.0,2.1
9,90.0,1.8


角度 转成 弧度 
- 角度/180 = 弧度/pi， 弧度 = 角度 * pi / 180

asti_wind[(asti_wind['wind_deg'] >= deg) & (asti_wind['wind_deg'] < 45+deg)]['wind_deg']

由于风向是360度，我们可以考虑使用玫瑰图（极坐标条形图）

In [1]:
ax = plt.subplot(polar=True)  # 极坐标条形图

# x 坐标方向(八个方向)
degs = np.arange(0, 360, step=45)  # ［0, 45, ....315]

# y轴的数值hegiht x 坐标的个数保持一致
# y轴的数值 每个方向对应的风速有多个，则计算出它的平均风速
heights = [asti_wind['wind_speed'][(asti_wind['wind_deg'] >= deg) 
                      & (asti_wind['wind_deg'] < 45+deg)].mean() for deg in degs]

index = degs*np.pi/180  # 将八个角度转成八弧度

ax.bar(index, heights,
       color=np.random.random(size=(8, 3)),
       align='edge', width=0.7) # 起始的对齐方式

ax.set_xticklabels(['东', '东北', '北', '西北', '西', '西南', '南', '东南'])
ax.set_title('方向与风力的关系', color='r',
            position=(0.5, 1.1), fontsize=15)
plt.show()

NameError: name 'plt' is not defined

首先自定义一个画图函数

用numpy创建一个直方图，将360度划分为8个面元，将数据分类到这8个面元中

In [None]:
def drop_polar(city, compare_colname, title=None):
    # 获取指定城市的 风向与某一列比较的信息
    city_wind = all_[all_['city'] == city][['wind_deg', compare_colname]]
    city_wind.sort_values('wind_deg', inplace=True) # 按方向排序
    city_wind.reset_index(drop=True, inplace=True)
   
    # 8个方向角度
    degs = np.arange(0, 360, step=45) 
    
    #获取每个方向上的数据的平均值
    heights = [city_wind[compare_colname][(city_wind['wind_deg'] >= deg) &
                         (city_wind['wind_deg'] < 45+deg)].mean() for deg in degs]
    
    # 将角度转为弧度:  角度/360 = 弧度/2*pi
    x = [ deg*np.pi/180  for deg in degs]

    plt.figure(figsize=(6, 6))
    plt.axes(polar = True, frameon=True)

    plt.bar(x, height=heights,
        align='edge',
        bottom=0.1, color=np.random.random(size=(8,3)))
    
    plt.xticks(x, ('东', '东北', '北', '西北', '西', '西南', '南', '东南'),
              fontsize=14)
    
    if title:
        plt.title(city+'城市的'+title,fontsize=20, color='r',
                  loc='center', position=(0.5,1.1))
    plt.show()

In [None]:
drop_polar('Faenza', 'humidity', '风向与湿度的关系')

In [None]:
drop_polar('Faenza', 'wind_speed', '风向与风力的关系')

练习： 计算米兰各个方向上的风速