# 数据可视化实战

## 高级绘图:介绍seaborn绘图,绘制常用图形，例如直方图，关系图和分布图等


### 1. seaborn基础


* seaborn基本语法

In [None]:
# 导入相关库
import pandas as pd
import numpy as np
import os
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
os.chdir('E:\云开明培训机构\云开见明培训课件\data summary\第四章')

In [None]:
GDP = pd.read_excel('Province GDP 2017.xlsx')

In [None]:
plt.style.use('seaborn')
# 支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.bar(x=GDP.index.values,height =GDP.GDP,tick_label=GDP.Province,
        color = 'steelblue')
plt.ylabel('GDP(万亿',fontsize=12)
plt.title('2017年6个省份的GDP',fontsize =15)
plt.show()

In [None]:
# 调整seaborn的设
# style:主题样式 (darkgrid whitegrid dark white ticks)
# context:可以理解为设置输出图片元素的大小尺寸paper，notebook, talk, and poster (元素缩放)
# palette :调色板 deep, muted, pastel, bright, dark, colorblind
# font: 字体 一般用默认，不调整
# font_scale 控制坐标轴刻度大小

In [None]:
# 调用seaborn第二种方法
import seaborn as sns
sns.set(style='darkgrid',context='notebook',font_scale=1.2) # 设置背景
# 支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.bar(x=GDP.index.values,height =GDP.GDP,tick_label=GDP.Province,
        color = 'steelblue',align='center')
plt.ylabel('GDP(万亿',fontsize=20)
plt.title('2017年6个省份的GDP',fontsize = 25)
plt.show()

In [None]:
# 调用seaborn第三种方法
sns.barplot(x = 'Province',y = 'GDP',data=GDP,color='steelblue',
            orient ='vertical')
plt.ylabel('GDP(万亿',fontsize=20)
plt.xlabel('')
plt.title('2017年6个省份的GDP',fontsize = 25)
plt.ylim(0,10)
# for x,y in enumerate(GDP.GDP):
#     plt.text(x,y+0.1,'%s万亿'  %round(y,1),ha='center',fontsize =18)
plt.show()


## 2. 绘制常用统计图形


* 柱状图

In [None]:
# # #条形图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.barplot(y = 'Province',x = 'GDP',data=GDP,color='steelblue',
            orient ='horizontal')
plt.xlabel('GDP(万亿)',fontsize=20)
plt.ylabel('')
plt.title('2017年6个省份的GDP',fontsize = 25)
plt.xlim(0,10)
plt.show()

* 按照分类变量统计

In [None]:
# # #按照分类变量统计
Industry_GDP = pd.read_excel('Industry_GDP.xlsx')

In [None]:
quarter  =['第一季度','第二季度','第三季度','第四季度']

In [None]:
sns.barplot(x = 'Quarter',y = 'GDP',hue='Industry_Type',data=Industry_GDP,color='blue',palette="husl",
            orient ='vertical')
plt.ylabel('GDP(万亿)',fontsize=20)
plt.xlabel('')
plt.xticks(np.arange(4),quarter,fontsize=12)
plt.title('2017年四个季度GDP情况',fontsize = 25)
plt.legend(bbox_to_anchor=(1.01,0.85),ncol=1, frameon=False, #是否要边框
       fontsize=12)
plt.show()

*  散点图

In [None]:
iris = pd.read_csv('iris.csv')
sns.scatterplot(x = 'Petal_Width',y = 'Petal_Length',data = iris,color="red", marker='+', s=20)
plt.xlabel('花瓣宽度')
plt.ylabel('花瓣长度')
plt.title('鸢尾花花瓣宽度和长度关系图')
plt.show()

In [None]:
plt.figure(figsize=(12,9))
sns.scatterplot(x = 'Petal_Width',y = 'Petal_Length',hue='Species',data =iris,style ='Species',s=100,
                palette='muted')
plt.xlabel('花瓣宽度')
plt.ylabel('花瓣长度')
plt.title('不同种类鸢尾花花瓣宽度和长度关系图')
plt.show()

* 箱线图

In [None]:
# 绘制单个变量箱线图
Titanic = pd.read_csv('titanic_train.csv')

In [None]:
Titanic['Age'].dropna(inplace=True)
sns.boxplot( y = 'Age', data = Titanic,
             showmeans=True,color = 'steelblue',width =0.3, linewidth=2,
            flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3},
            meanprops = {'marker':'D','markerfacecolor':'indianred', 'markersize':4},
            medianprops = {'linestyle':'--','color':'orange'})
# 更改x轴和y轴标签
plt.xlabel('')
plt.ylabel('年龄')
# 添加标题
plt.title('年龄箱线分布图')
# 显示图形
plt.show()

* 基于分组变量绘制箱线图

In [None]:
sec_building = pd.read_excel('sec_buildings.xlsx')
group_region = sec_building.groupby('region')
avg_price = group_region.aggregate({'price_unit':np.mean}).sort_values('price_unit', ascending = False)
sns.boxplot(x = 'region', y = 'price_unit', data = sec_building ,
            order = avg_price.index, showmeans=True,color = 'steelblue',
            flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3},
            meanprops = {'marker':'D','markerfacecolor':'indianred', 'markersize':4},
            medianprops = {'linestyle':'--','color':'orange'})
# 更改x轴和y轴标签
plt.xlabel('')
plt.xticks(fontsize=12,rotation =45)
plt.ylabel('单价（元）')
# 添加标题
plt.title('不同行政区域的二手房单价对比')
# 显示图形
plt.show()

* 直方图

In [None]:
# # # # # # 绘制直方图
# seaborn模块绘制分组的直方图和核密度图
# 取出男性年龄
Age_Male = Titanic.Age[Titanic.Sex == 'male']
# 取出女性年龄
Age_Female = Titanic.Age[Titanic.Sex == 'female']

In [None]:


# 绘制男女乘客年龄的直方图
from scipy.stats import norm
import seaborn as sns
sns.set(style='darkgrid',context='notebook',font_scale=1.5) # 设置背景
# 支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.distplot(Age_Male, bins = 30, kde = False, hist_kws = {'color':'steelblue'}, norm_hist=True, label = '男性')
sns.distplot(Age_Male, hist = False, kde=False,fit = norm,fit_kws = {'color':'yellow', 'linestyle':'-'},
             norm_hist = True, label = '男性年龄正态分布图')
# 绘制女性年龄的直方图
sns.distplot(Age_Female, bins = 30, kde = False, hist_kws = {'color':'purple'}, label = '女性',norm_hist=True)
sns.distplot(Age_Female, hist = False, kde=False,fit=norm,fit_kws = {'color':'blue', 'linestyle':'--'},
             norm_hist = True, label = '女性年龄正态分布图')
plt.title('男女乘客的年龄直方图')
# 显示图例
plt.legend()
# 显示图形
plt.show()

sns.distplot( hist = False,norm_hist=True, norm_hist,fit_kws,)
* hist 代表是否绘制成直方图形式(有柱状形式)
* norm_hist 是否绘制成概率密度形式(频率形式)
* 控制直方图的参数，以字典形式传递
* fit_kws: 传递概率密度曲线相关参数
* fit: 是否绘制概率密度曲线图

3. 其他参数和图形

* 折线图

In [None]:
income_data = pd.read_csv('income_data.csv')

In [None]:
income_data

In [None]:
# 增加一列
income_data['year'] = range(1994,2014,1)

In [None]:
sns.set(style='ticks',context='notebook') # 设置背景
# 支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.lineplot(x="year", y="y",data =income_data,lw=2,color="red")
# 添加y轴标签
plt.ylabel('财政收入')
plt.xlabel('年份')
plt.xticks(range(1994,2014,1),range(1994,2014,1),rotation=45,fontsize=12)
# 添加图形标题
plt.title('财政收入变化趋势')
# 显示图形
plt.show()

In [None]:
# 支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.lineplot(x="x3", y="y",data = income_data,lw=1.5,color="blue")
#  添加y轴标签
plt.ylabel('财政收入')
plt.xlabel('社会零售商品总额')
#  添加图形标题
plt.title('财政收入和社会零售商品总额变化趋势')
#  显示图形
plt.show()

* 回归图

In [None]:
sns.lmplot(x = 'x3',y = 'y',data =income_data,legend_out=False,\
           markers='o',fit_reg= True,aspect=1.3,height=8,\
            scatter_kws={'s':20,'facecolor':'red'})
plt.xlabel('社会零售商品总额')
plt.ylabel('财政收入')
plt.title('财政收入和社会零售商品总额变化趋势')
plt.show()

* countplot()
* 主要用于绘制数据中，每个类别出现的数量
* 只能计数

In [None]:
Prod_Trade = pd.read_excel('Prod_Trade.xlsx')

In [None]:
# 绘制不同区域订单数量
sns.countplot(x ='Region',data = Prod_Trade)
plt.xlabel('不同区域')
plt.ylabel('订单数量')
plt.title('不同区域下的订单数量')
plt.show()

In [None]:
# 绘制不同区域订单数量
sns.countplot(x ='Region',data = Prod_Trade,hue ='Transport')
plt.xlabel('不同区域')
plt.ylabel('订单数量')
plt.title('不同区域下的订单数量')
plt.show()

* 绘图风格

sns.set(style,context,palette)
* style:主题样式 (darkgrid(灰白背景+网格) whitegrid(白白背景+灰网格) dark white ticks9带坐标轴刻度)
* context:可以理解为设置输出图片元素的大小尺寸paper，notebook, talk, and poster (元素缩放)
* palette :调色板 deep, muted, pastel, bright, dark, colorblind
* palette 一般可以用默认值

In [None]:
# 以订单数据为例
sns.set(style='darkgrid',context='notebook',font_scale=1.2,palette='colorblind') 
# 支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.countplot(x ='Region',data = Prod_Trade,hue ='Transport')
plt.xlabel('不同区域')
plt.ylabel('订单数量')
plt.title('不同区域下的订单数量')
plt.show()