# 《数据可视化》—— 基于Python的应用

## 第5章  数据的直观分析及可视化

### 第5章思维导图 
<img src="./Fig/Mind5.png" width="1000">

## 5.1 特殊统计图的绘制

In [None]:
#基本设置
import numpy as np                             #加载numpy包
np.set_printoptions(precision=4)               #设置numpy输出为4位有效数

### 5.1.1 函数图

In [None]:
from math import pi                 #调用math中的圆周率参数
x=np.linspace(0,4*pi,60);x          #生成[0,2*pi]上30个等差数列

In [None]:
from numpy import sin,cos,log,exp   #调用numpy中的初等函数
import matplotlib.pyplot as plt     #加载matplotlib包的绘图函数
plt.plot(x,sin(x));                 #正弦函数 y=sin(x)

In [None]:
plt.plot(x,cos(x));                 #余弦函数 y=cos(x)

In [None]:
plt.plot(x,log(x+1));               #对数函数 y=log(x+1)

In [None]:
plt.plot(x,exp(x));                 #指数函数 y=exp(x)

In [None]:
t=np.linspace(0,2*pi);
x=2*sin(t);y=3*cos(t);

In [None]:
plt.plot(x,y,c='red'); 
plt.axvline(x=0); plt.axhline(y=0);
plt.text(0.2,1,r'$\frac{x^2}{a^2}+\frac{y^2}{b^2}=1$',fontsize=15);

#### 5.1.2 气泡图

In [None]:
x=np.linspace(-4,4,20); 
y=x**2;                         # y=x^2 抛物线
plt.scatter(x,y);               #二维散点图

In [None]:
plt.scatter(x,y,s=8*y);         #二维气泡图,s=8y

### 5.1.3 三维散点图

In [None]:
X, Y = np.meshgrid(x, x)                #从坐标向量x,y中返回坐标矩阵
Z = np.sin(np.sqrt(X**2 + Y**2))        #Z=sin(sqrt(X^2+Y^2)) 
from mpl_toolkits.mplot3d import Axes3D 
fig = plt.figure() 
Axes3D(fig).scatter(X, Y, Z);

### 5.1.4 三维曲面图

In [None]:
from mpl_toolkits.mplot3d import Axes3D 
fig = plt.figure() 
Axes3D(fig).plot_surface(X, Y, Z);

### 5.2 Seaborn 统计绘图

In [None]:
#!pip install seaborn

In [None]:
import seaborn as sns  #加载seaborn包

## 5.2.1  seaborn绘图特点

### 5.2.1.1  统计图的绘制

### 5.2.1.2  分组图的绘制

### 5.2.1.3  分面图的绘制

## 5.2.2 seaborn中的统计图

In [None]:
#（1）读取绘图用数据
import pandas as pd
BSdata=pd.read_excel('DaPy_data.xlsx','BSdata');BSdata.head()

In [None]:
#（2）中文字体段时需设置字体
import matplotlib.pyplot as plt             
plt.rcParams['font.sans-serif']=['SimHei']; #设置中文字体为'黑体'

In [None]:
sns.boxplot(x=BSdata['身高']);

In [None]:
sns.boxplot(y=BSdata['身高']); #竖着放的箱线图，也就是将x换成y

In [None]:
# 分组绘制箱线图，分组因子是“性别”，在x轴不同位置绘制。
sns.boxplot(x='性别',y='身高',data=BSdata);

In [None]:
sns.violinplot(x='开设', y='支出', hue='性别', data=BSdata);

In [None]:
sns.stripplot(x='性别', y='身高', data=BSdata, jitter=True); 

In [None]:
sns.stripplot(x='性别', y='身高', data=BSdata, jitter=False); 

In [None]:
sns.barplot(x='性别', y='身高', data=BSdata); #不同性别身高均值标准差图

In [None]:
sns.countplot(x='开设', hue="课程", data=BSdata);

In [None]:
sns.factorplot(x='性别',col="开设",col_wrap=1,data=BSdata,kind="count",size=2,aspect=1.5);

In [None]:
BSdata['身高'].hist(); 

In [None]:
sns.distplot(BSdata['身高'], kde=True, bins=10); 

In [None]:
#针对双变量，可使用Seaborn中的jointplot()函数。
sns.jointplot(x='身高', y='体重', data=BSdata); 

In [None]:
sns.pairplot(BSdata[['身高','体重','支出']]); #配对散点图

## 5.3 ggplot 绘图系统

### 5.3.1 ggplot与plotnine包

#### 5.3.1.1 包的安装

In [None]:
#!pip install ggplote    #在系统上安装ggplot包
#!pip install plotnine    #在系统上安装plotnine包

#### 5.3.1.2 包的加载与设置

In [None]:
from plotnine import *    #加载和调用ggplot所有方法
theme_set(theme_bw(base_family='SimHei')); 
#设置图形主题背景为白色bw、中文字体为黑体SimHei

### 5.3.2 ggplot 基本绘图 

#### 5.3.2.1  基本定义

#### 5.3.2.2 ggplot中的图层 

In [None]:
GP=ggplot(BSdata,aes(x='身高',y='体重')); GP #绘制直角坐标系

In [None]:
GP + geom_point()  #增加点图

In [None]:
GP + geom_line()   #增加线图

In [None]:
GP + geom_point() + geom_line()  #增加点和线图

#### 5.3.3 常见统计图绘制

In [None]:
ggplot(BSdata,aes(x='身高')) + geom_histogram()

In [None]:
ggplot(BSdata,aes(x='身高',y='体重',shape='性别')) + geom_point() 

In [None]:
ggplot(BSdata,aes(x='身高',y='体重',color='性别')) + geom_point()

In [None]:
ggplot(BSdata,aes(x='支出',y='身高')) + geom_line() 

In [None]:
#共用一个坐标，绘制不同的y值
ggplot(BSdata,aes(x='支出'))+geom_line(aes(y='身高')) + geom_line(aes(y='体重'))

In [None]:
#在plotnine中可使用facet_wrap参数可以按类型绘制分面图。
ggplot(BSdata,aes('身高','体重')) + geom_point() + facet_wrap('性别',nrow=2) 

In [None]:
ggplot(BSdata,aes('身高','体重')) + geom_point() + facet_wrap('性别',nrow=1)

In [None]:
ggplot(BSdata,aes('身高','体重')) + geom_line() + geom_point() + facet_wrap('开设',nrow=1)

In [None]:
(ggplot(BSdata,aes('身高','体重')) + geom_point() 
       + facet_wrap('~性别+开设',nrow=3))

## 5.4  pyecharts动态绘图

### 5.4.1  pyecharts简介

#### 5.4.1.1 关于pyecharts

#### 5.4.1.2 pyecharts安装与设置

In [None]:
#!pip install pyecharts      

In [1]:
#加载 Jupyter lab中设置 pyecharts 全局显示参数
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB     
import pyecharts.options as opts                                     #并加载pyecharts选项
figsize=opts.InitOpts(width='560px',height='380px',bg_color='white') #设置图形大小和背景色

### 5.4.2  pyeharts基本绘图

In [2]:
from pyecharts.charts import Gauge
Gauge().load_javascript() #在Jupyterlab中制图前需加载一次JavaScript函数！！

<pyecharts.render.display.Javascript at 0x208f3c917f0>

In [4]:
#Gauge().add("",[("完成率", 66.6)]).render_notebook()
Gauge(figsize).add("",[("完成率", 90)]).render_notebook()

In [5]:
#基本的pyecharts绘图是基于列表数据的
X=['A','B','C','D','E','F','G']
Y=[1,4,7,3,2,5,6]
Z=[6,5,3,2,7,4,1]

In [6]:
from pyecharts.charts import Bar          #加载pyecharts绘制条图(Bar)函数
bar1=Bar(figsize)                         #初始化条图
bar1.add_xaxis(X).add_yaxis("垂直条图",Y)   
bar1.render_notebook()  

In [None]:
Bar(figsize).add_xaxis(X).add_yaxis("",Y).render_notebook()  #链式写法

In [None]:
bar2=Bar(figsize) 
bar2.add_xaxis(X).add_yaxis("水平条图",Y).reversal_axis()     
bar2.render_notebook()  

In [7]:
bar3=Bar(figsize)
bar3.add_xaxis(X).add_yaxis("条1",Y).add_yaxis("条2",Z) #复试条图
bar3.render_notebook()  

In [None]:
bar4=Bar(figsize)
bar4.add_xaxis(X)           #分段条图
bar4.add_yaxis("条1",Y,stack="stack1")
bar4.add_yaxis("条2",Z,stack="stack1")
bar4.render_notebook()  

In [None]:
XY = [list(z) for z in zip(X,Y)];XY    #形成饼图数据列表格式 
#XY.sort(key=lambda x: x[1]);XY         #数据从小到大排序  

In [None]:
from pyecharts.charts import Pie      #加载pyecharts绘制饼图(Pie)函数
Pie(figsize).add("饼图",XY).render_notebook()      

In [None]:
(Pie(figsize)
     .add("",XY)
     .set_series_opts(opts.LabelOpts(formatter="{b}:{c}")) #加标签饼图 
     .render_notebook() 
)

In [None]:
Pie(figsize).add("玫瑰饼图",XY,rosetype="radius").render_notebook()

In [None]:
Pie(figsize).add('圆圈图',XY,radius=['10%','75%']).render_notebook()

In [None]:
from pyecharts.charts import Funnel
fun1=Funnel(figsize)
fun1.add("漏斗图", XY)
fun1.render_notebook()
#Funnel(figsize).add("漏斗图", XY).render_notebook()

In [None]:
fun2=Funnel(figsize)
fun2.add("漏斗图", XY,label_opts=opts.LabelOpts(position="inside"))     
fun2.render_notebook()

In [None]:
from pyecharts.charts import Line  #加载pyecharts绘制线图（Line）函数
Line(figsize).add_xaxis(X).add_yaxis('线图',Y).render_notebook()

In [None]:
line2=Line(figsize)
line2.add_xaxis(X).add_yaxis("线1",Y).add_yaxis("线2",Z)
line2.render_notebook()

### 5.4.3  基于数据框的绘图

In [None]:
import pandas as pd
BS=pd.read_excel('DaPy_data.xlsx','BSdata');  #继续使用BSdata数据
BS.head()

#### 5.4.3.1 原始数据散点图

In [None]:
from pyecharts.charts import Scatter
scatter1=Scatter(figsize)
scatter1.add_xaxis(BS.身高).add_yaxis("",BS.体重)
scatter1.render_notebook()    #默认散点图的x轴和y轴从0开始

In [None]:
#修改x轴和y轴的刻度
scatter2=(Scatter(figsize)
   .add_xaxis(BS.身高) 
   .add_yaxis("散点图",BS.体重,label_opts=opts.LabelOpts(is_show=False))  
   .set_global_opts(
       xaxis_opts=opts.AxisOpts(min_=150), #x轴最小150
       yaxis_opts=opts.AxisOpts(min_=40)   #y轴最小40 
   )
)
scatter2.render_notebook()

### 5.4.3.2 统计数据的条图

In [None]:
#基本的pyecharts绘图是基于列表数据的, 通常需将数据框转换成列表
pt1=BS.pivot_table(index=['性别'],values=['学号'],aggfunc=len); pt1

In [None]:
from pyecharts.charts import Bar  
(Bar(figsize)
     .add_xaxis(list(pt1.index))
     .add_yaxis("性别统计图",list(pt1.学号))
     .render_notebook()
)

In [None]:
pt2=BS.pivot_table(['学号'],['开设'],['性别'],aggfunc=len); pt2

In [None]:
(Bar(figsize)
     .add_xaxis(list(pt2.index))
     .add_yaxis("女",list(pt2.学号.女))
     .add_yaxis("男",list(pt2.学号.男))
     .render_notebook()
)

In [None]:
import numpy as np
pt3=BS.pivot_table(["支出"],['开设'],aggfunc={np.mean,np.std});
pt3=pt3.round(2); pt3   #pt3['支出']['mean']

In [None]:
(Bar(figsize)
      .add_xaxis(list(pt3.index))
      .add_yaxis("均值",list(pt3['支出']['mean']))  #list(pt3.iloc[:,0])
      .add_yaxis("标准差",list(pt3['支出']['std']))
      .render_notebook()
)

## 习题5

In [None]:
#!pip install pydataset           #安装python数据包

In [None]:
from pydataset import data        #加载数据包
data()                            #查看可用数据表  

In [None]:
data('JohnsonJohnson')

In [None]:
economics = data('economics')     #调用数据表
data('economics',show_doc=True)   #显示数据表的属性