# Task5 seaborn可视化（二）

- 本章知识点：
    - 双变量关系图：jointplot() 
    - 变量关系组图：pairplot()
    - 直方图，质量估计图：distplot() 
    - 核函数密度估计图：kdeplot() 
    - 回归模型图：lmplot() 
    - 线性回归图：regplot() 
    - 热力图：heatmap()
- 小作业：
    - 用countplot()函数，绘制条形图，看看每年到底有多少地震发生；
    - 作热力图heatmap去看看近十年来的地震记录；

## 1. 导入相关库

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

## 2. 读取相关文件

In [2]:
#如果报错，可以去https://github.com/mwaskom/seaborn-data，将数据集下载到本地，设置cache参数为True，data_home放本地路径；
#tip = sns.load_dataset('tips')
#tip 

filepath = '/home/mw/input/data1329'
tips = sns.load_dataset("tips", cache=True, data_home=filepath)
iris = sns.load_dataset("iris", cache=True, data_home=filepath)
ans = sns.load_dataset("anscombe", cache=True, data_home=filepath)
flights = sns.load_dataset("flights", cache=True, data_home=filepath)

## 3.双变量关系图：jointplot()

- 在默认情况下双变量关系图是散点图与直方图组合的联合直方图，可以通过设置kind来改变联合直方图。

### 3.1 绘制散点图，边缘为直方图：联合直方图

In [3]:
sns.jointplot(x="total_bill", y="tip", data=tips)

<seaborn.axisgrid.JointGrid at 0x7f07e960ccc0>

### 3.2 在联合添加回归和核密度拟合

In [4]:
sns.jointplot("total_bill", "tip", data=tips, kind="reg")

<seaborn.axisgrid.JointGrid at 0x7f07d13e55c0>

### 3.3 使用六边形点代替联合直方图中的圆形散点

In [5]:
sns.jointplot("total_bill", "tip", data=tips, kind="hex")

<seaborn.axisgrid.JointGrid at 0x7f07d12b7198>

### 3.4 将散点图和直方图均替换为核密度估计

In [6]:
sns.jointplot("sepal_width", "petal_length", data=iris,
              kind="kde", space=0, color="g")

<seaborn.axisgrid.JointGrid at 0x7f079b135da0>

## 4. 变量关系组图：pairplot()

### 4.1 为联合关系绘制散点图，为单变量绘制直方图

In [7]:
sns.pairplot(iris)

#由于值为数字的字段变量有4个，故绘制的关系图为4x4

<seaborn.axisgrid.PairGrid at 0x7f079ae2ee80>

### 4.2 为联合关系绘制散点图，为单变量绘制核密度估计图

In [8]:
sns.pairplot(iris, hue="species")

<seaborn.axisgrid.PairGrid at 0x7f07985b1f60>

### 4.3 指定markers来设置散点图中的点形

In [9]:
sns.pairplot(iris, hue="species", markers=["o", "s", "D"])

<seaborn.axisgrid.PairGrid at 0x7f078dffe518>

### 4.4 指定vars=["sepal_width", "sepal_length"]显式展示指定变量名对应的数据

In [10]:
sns.pairplot(iris,vars=["sepal_width", "sepal_length"])

<seaborn.axisgrid.PairGrid at 0x7f078baac9b0>

### 4.5 通过设置diag_kind指定绘制图类型(kde核密度估计图)

In [11]:
sns.pairplot(iris, diag_kind="kde")

<seaborn.axisgrid.PairGrid at 0x7f078b79fe48>

### 4.6 设置kind=reg为散点图添加线性回归模型

In [12]:
sns.pairplot(iris, kind="reg")

<seaborn.axisgrid.PairGrid at 0x7f07891c8cf8>

## 5. 直方图：distplot()

- seaborn.distplot() 直方图，质量估计图，核密度估计图
- 该API可以绘制分别直方图和核密度估计图，也可以绘制直方图和核密度估计图的合成图 通过设置默认情况下，是绘制合成图，设置情况图下：
    - hist=True:表示要绘制直方图(默认情况为True)，若为False，则不绘制
    - kde=True:表示要绘制核密度估计图(默认情况为True),若为False,则绘制

### 5.1 绘制直方图

In [13]:
sns.set() # 设置默认灰色网格主题
x = np.random.normal(size=100) # 生成高斯数据100个
sns.distplot(x)

<matplotlib.axes._subplots.AxesSubplot at 0x7f0788b5d7f0>

### 5.2 去掉直方图中的核密度曲线

In [14]:
# 如果不想要核密度估计添加参数kde=False
sns.distplot(x, kde=False)

<matplotlib.axes._subplots.AxesSubplot at 0x7f07889ff6a0>

### 5.3 设置直方图组数为20

In [15]:
sns.distplot(x, bins=20, kde=False) # bins把数据切分成20份

<matplotlib.axes._subplots.AxesSubplot at 0x7f07889d3fd0>

## 6. 核函数密度估计图：kdeplot()

- 该图主要用来拟合并绘制单变量或双变量核密度估计值。

### 6.1 绘制基本的单变量密度曲线图

In [16]:
#构建数据
mean, cov = [0, 2], [(1, .5), (.5, 1)]
x, y = np.random.multivariate_normal(mean, cov, size=50).T

sns.kdeplot(x)

<matplotlib.axes._subplots.AxesSubplot at 0x7f07889a00b8>

### 6.2 绘制密度曲线，并在曲线下着色通过设置color来设置不同的显示颜色

In [17]:
sns.kdeplot(x, shade=True, color="g")

<matplotlib.axes._subplots.AxesSubplot at 0x7f07888c9278>

### 6.3 绘制双变量密度曲线

In [18]:
sns.kdeplot(x, y)

<matplotlib.axes._subplots.AxesSubplot at 0x7f078885cba8>

### 6.4 使用轮廓填充，并给轮廓添加颜色条

In [19]:
sns.kdeplot(x, y, shade=True, cbar=True, color='r')

<matplotlib.axes._subplots.AxesSubplot at 0x7f07887d2128>

## 6.5 绘制多个阴影双变量密度图(这里绘制两个)

In [20]:
setosa = iris.loc[iris.species == "setosa"]
virginica = iris.loc[iris.species == "virginica"]

sns.kdeplot(setosa.sepal_width, setosa.sepal_length, cmap="Reds", shade=True, shade_lowest=False)
sns.kdeplot(virginica.sepal_width, virginica.sepal_length, cmap="Blues", shade=True, shade_lowest=False)

<matplotlib.axes._subplots.AxesSubplot at 0x7f0788714908>

## 7. 回归模型图：implot()

- 回归模型图可以对数据进行回归显示。

### 7.1 绘制两变量之间的简单线性关系

In [21]:
sns.lmplot(x="total_bill", y="tip", data=tips)

<seaborn.axisgrid.FacetGrid at 0x7f07866b7780>

### 7.2 通过设置hue对数据进行第二次分组(通过对颜色进行区分)

In [22]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips)

<seaborn.axisgrid.FacetGrid at 0x7f0786603e10>

### 7.3 通过设置markers对数据点进行不同的标记

In [23]:
sns.lmplot(x="total_bill", y="tip", hue="smoker",
            data=tips,markers=["o", "x"])

<seaborn.axisgrid.FacetGrid at 0x7f078668d208>

### 7.4 通过设置col指定变量名，以该变量名的内容进行分类

- 每一个类别下的数据绘制一个图(即该变量名下有多少类值就绘制多少个图，并且排列在一行上)

In [24]:
sns.lmplot(x="total_bill", y="tip", 
           col="smoker", data=tips)

<seaborn.axisgrid.FacetGrid at 0x7f078653aa20>

## 8. 线性回归图：regplot()

- 利用线性回归模型对数据进行拟合。

### 8.1 绘制双变量的线性关系

In [25]:
sns.regplot(x="total_bill", y="tip", data=tips)

<matplotlib.axes._subplots.AxesSubplot at 0x7f078648b6d8>

### 8.2 设置ci=68:使用68%的置信区间，该区间对应于估计的标准误差

In [26]:
sns.regplot(x=x, y=y, ci=68)

<matplotlib.axes._subplots.AxesSubplot at 0x7f0786406588>

### 8.3 拟合高阶多项式回归并阶段模型预测

In [27]:
sns.regplot(x="x", y="y",
            data=ans.loc[ans.dataset == "II"],
            scatter_kws={"s": 80},
            order=2, ci=None, truncate=True)

<matplotlib.axes._subplots.AxesSubplot at 0x7f078636d2e8>

### 8.4 拟合logistic 回归(logistic=True)，对y轴数据进行抖动(y_jitter=.03)，并进行适当的迭代(n_boot=500)

In [28]:
tips["big_tip"] = (tips.tip / tips.total_bill) > .175

sns.regplot(x="total_bill", y="big_tip", 
            data=tips,logistic=True, 
            n_boot=500, y_jitter=.03)

<matplotlib.axes._subplots.AxesSubplot at 0x7f07863046d8>

## 9. 热力图：heatmap()

- 将矩形数据绘制成颜色编码矩阵

### 9.1 对10x12的数据绘制热力图

In [29]:
uniform_data = np.random.rand(10, 12)
sns.heatmap(uniform_data)

<matplotlib.axes._subplots.AxesSubplot at 0x7f0786334e80>

### 9.2 更改 colormap的限制：vmin=0, vmax=1

In [30]:
sns.heatmap(uniform_data, vmin=0, vmax=1)

<matplotlib.axes._subplots.AxesSubplot at 0x7f077027d400>

### 9.3 直接对flights数据集中数据进行热力图显示

In [31]:
flights = flights.pivot("month", "year", "passengers")
sns.heatmap(flights)

<matplotlib.axes._subplots.AxesSubplot at 0x7f0770220160>

### 9.4 对每个单元格进行数值显示

In [32]:
sns.heatmap(flights, annot=True, fmt="d")

<matplotlib.axes._subplots.AxesSubplot at 0x7f0770138eb8>

### 9.5 绘制每个单元格的边框

In [33]:
sns.heatmap(flights, linewidths=.5)

<matplotlib.axes._subplots.AxesSubplot at 0x7f076574c208>

### 9.6 使用不同的colormap进行颜色显示

In [34]:
sns.heatmap(flights, cmap="YlGnBu")

<matplotlib.axes._subplots.AxesSubplot at 0x7f07656f2cc0>

## 小作业：

### 第一题：用countplot作图，绘制条形图
- 步骤:
    - 读取1965-2016年全球重大地震数据；
    - 设置Date类型为datetime类型，并添加年份和月份两列；
    - 筛选出type为地震的数据；
    - 用countplot()函数，绘制条形图，横轴为年份，纵轴为数量，看看每年到底有多少地震发生；

In [36]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

#数据处理
data = pd.read_csv('/home/mw/input/data1625/earthquake.csv')
data['Date'] = pd.to_datetime(data['Date'], format = "%m/%d/%Y", errors = 'coerce')
data['Year'] = data['Date'].dt.year
data['Month'] = data['Date'].dt.month
data = data[data['Type'] == 'Earthquake']

#可视化处理
plt.figure(1,figsize=(12,6)) 
Year = [i for i in range(1965,2017,5)]
idx = [i for i in range(0,52,5)]
sns.countplot(data['Year'])
plt.setp(plt.xticks(idx,Year)[1],rotation=45)
plt.title('Earthquake counts in history from year 1965 to year 2016')
plt.show()


### 第二题：作热力图heatmap去看看近十年来的地震记录
- 步骤:
    - 按年份和月份列进行分组，取出年份、月份及ID列；
    - 删选出近十年的数据；
    - 将年份、月份及ID列做成数据透视表；
    - 将近十年来的地震记录数按照年份和月份做热力图
    - 设置一个标题：'近10年地震发生次数'

In [37]:
test = data.groupby([data['Year'],data['Month']],as_index=False).count()
new = test[['Year','Month','ID']]
temp = new.iloc[-120:,:]
temp = temp.pivot('Year','Month','ID')
sns.heatmap(temp)
plt.title('Earthquake happened in recent 10 years')
plt.show()