# 第15章 图形与可视化的编程基础
* Python中提供了很多绘图和可视化库来实现数据及其信息的图形与可视化：matplotlib、plotly、seaborn、ggplot、Bokeh、pygal等。
    * 15.1 matplotlib基本绘图
    * 15.2 pandas基本绘图
    * 15.3 基本统计图形

## 15.1 matplotlib基本绘图
* 在Notebook中，可使用如下命令将matplotlib调入当前工作环境中：

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt  #更常用，因为大部分常用绘图函数都在matplotlib.pyplot中

* 在绘图结构中，figure创建窗口，subplot创建子图。所有的绘画只能在子图上进行。plt表示当前子图，若没有就创建一个子图。所有你会看到一些教程中使用plt进行设置，一些教程使用子图属性进行设置。他们往往存在对应功能函数。
    * Figure：面板(图)，matplotlib中的所有图像都是位于figure对象中，一个图像只能有一个figure对象。
    * Subplot：子图，figure对象下创建一个或多个subplot对象(即axes)用于绘制图像。

### 15.1.1 函数绘图
* matplotlib.pyplot中包含了简单的函数绘图功能。

|函数|功能|备注|
|--|--|--|
|plot|根据指定的坐标绘制折线图||
|title|设置图形标题||
|xlabel|设置x轴标签||
|ylabel|设置y轴标签||
|savefig|保存绘制的图形||
|show|显示图像||
|legend|设置图例|需结合label参数使用|
|xticks|设置x轴的刻度||
|yticks|设置y轴的刻度||

#### （1）绘制过两点的直线

In [None]:
plt.plot([0,1],[0,1])  #绘制一条从(0,0)到(1,1)的直线
plt.title("Plot a line through two points")
plt.xlabel("x value")
plt.ylabel("y value")

plt.show()

#### （2）绘制多项式曲线
* 理论上，任意曲线都可以利用**多项式**来进行拟合。
    * 可以利用numpy中的**poly1d函数**来表示多项式函数。

In [None]:
import numpy as np
p=np.poly1d(np.array([2,-3.5,1.6,-2,9]))  #设置多项式函数（系数）
print(p)
x=np.linspace(-10,10,30)
y=p(x)
print(x)
print(y)

In [None]:
plt.plot(x,y)
plt.xlabel("X")
plt.ylabel("Y")
plt.show()

#### （3）图形叠加
* 在同一段matplotlib绘图语句中，可以将不同plot语句绘制的图形叠加在一个图形中。

In [None]:
p1=p.deriv(m=1)  #deriv方法：求导
y1=p1(x)
print(p1)
print(y1)

In [None]:
plt.plot(x,y,x,y1)  #图形叠加：绘制两条多项式曲线
plt.xlabel("X")
plt.ylabel("Y")
plt.show()

In [None]:
fig,a=plt.subplots()
a.plot(x,y,label='y=p(x)')
a.plot(x,y1,label='y1=p1(x)')
a.set_xlabel('x label')
a.set_ylabel('y label')
a.set_title('simple plot')
a.legend()  #需要结合label参数
plt.show()

### 15.1.2 图形基本设置
|设置|matplotlib实现|
|--|--|
|创建图例|label参数 + legend函数|
|刻度设置|xticks函数|
||yticks函数|
|图像注解|annotate函数|
|图像大小|gcf函数 + 图像对象的set_size_inches方法|
|创建子图|subplot函数|

## 15.2 pandas基本绘图
* matplotlib实际上是一种低级或底层的绘图工具，其核心库可提供其他包调用。
* 对于一些其他其他绘图工具，如pandas、seaborn等包也可以对数据进行绘图，并且也会用到数据、图例、标题、刻度、标签等各种绘图组件。
* pandas主要使用**plot方法**绘制图形，其主要语法为：

In [None]:
import pandas as pd
?pd.DataFrame.plot

#### 表：pandas对象的plot方法中的kind参数
|kind参数值|功能|描述|备注|
|--|--|--|--|
|‘line’|line plot (default)|折线图||
|‘bar’|vertical bar plot|条形图||
|‘barh’|horizontal bar plot|横向条形图||
|‘hist’|histogram|柱状图||
|‘box’|boxplot|箱线图||
|‘kde’|Kernel Density Estimation plot|Kernel的密度估计图，主要对柱状图添加Kernel概率密度线||
|‘density’|same as ‘kde’|||
|‘area’|area plot|面积图||
|‘pie’|pie plot|饼图||
|‘scatter’|scatter plot|散点图|需要传入columns方向的索引
|‘hexbin’|hexbin plot|蜂窝图||

## 15.3 基本统计图形
|基本统计图形|描述|matplotlib函数|pandas函数或pandas对象的方法|
|--|--|--|--|
|折线图||plot函数|plot方法|
|面积图|||plot.area方法|
|直方图||hist函数|hist方法|
|条形图||bar或barh函数|plot.bar或plot.barh方法|
|龙卷风图|两个数据值方向相反的条形图进行叠加|||
|饼图||pie函数|plot(kind='pie')或plot.pie方法|
|阶梯图||hist(histtype='step')函数|plot.hist(histtype='step')方法|
|盒须图|箱线图|boxplot函数||
|小提琴图||violinplot函数||
|散点图||scatter函数|scatter方法|
|气泡图|散点图的延伸，即：利用气泡来表示散点图中的数据点|scatter(s=data)函数|scatter(s=data)方法|
|六边形箱图|蜂窝图||hexbin方法|
|雷达坐标图|||pandas.plotting.radviz函数|
|轮廓图|||pandas.plotting.parallel_coordinates函数|
|调和曲线图|||pandas.plotting.andrews_curves函数|
|等高线图||contour或contourf函数||
|极坐标图||subplot(projection='polar')函数||

### 其他图形：
|基本统计图形|描述|实现|
|--|--|--|
|三维图||matplotlib的mplot3d工具包|
|词云图|读入文本信息、分词、词频统计、用词云生成器绘图|Python常用中文分词包：jieba、Yaha等|
|||Python常用的词云生成器：WorldCloud、pytagcloud等|
|数据地图||plotly包、basemap模块等|

### 15.3.1 折线图

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data=pd.DataFrame({"opening_price":pd.Series(np.random.randn(100),index=np.arange(100)).cumsum(),
                   "closing_price":pd.Series(np.random.randn(100),index=np.arange(100)).cumsum()})
print(data.shape)

plt.subplot(121);data["opening_price"].plot()
plt.subplot(122);plt.plot(data["closing_price"])

data[["opening_price","closing_price"]].plot()

plt.show()

In [None]:
plt.subplot(131);data["opening_price"].plot()
plt.subplot(132);plt.plot(data["closing_price"])
plt.subplot(133);data[["opening_price","closing_price"]].plot()
plt.show()

### 15.3.2 面积图
* **面积图**：将折线图下方用不同颜色填充并堆积在一起，**往往用来显示数据的构成和结构**。

In [None]:
data[["opening_price","closing_price"]].plot.area(stacked=False)  #数据有正有负，不能直接堆叠，此处stacked必须设置为False
plt.show()

In [None]:
data1=data+10
data1[["opening_price","closing_price"]].plot.area(stacked=True)  #堆叠面积图
plt.show()

### 15.3.3 直方图
* **直方图**：根据变量的取值来显示其频数分布的图形。

#### （1）普通直方图

In [None]:
plt.subplot(131);plt.hist(data["opening_price"],bins=6)  #bins设置区间个数
plt.subplot(132);data["opening_price"].hist(bins=5)
plt.subplot(133);data["opening_price"].plot(kind='hist',bins=4)
plt.show()

#### （2）堆叠直方图：plot(kind='hist')方法

In [None]:
data[["opening_price","closing_price"]].plot(kind='hist',bins=6)  #堆叠直方图
plt.show()

In [None]:
data[["opening_price","closing_price"]].hist(bins=6)  #子图直方图，而非堆叠直方图
plt.show()

#### （3）分组直方图：hist方法+by参数

In [None]:
data["Market"]=np.random.choice(["Bad","Good"],data.shape[0])  #有放回抽样
print(data)
data["opening_price"].hist(by=data["Market"],bins=6)  #分组直方图
plt.show()

### 15.3.4 条形图
* **直方图**：根据变量的取值来显示其频数分布的图形。
* **条形图**：描述**分类变量**本身的分布状况，以及**按照分类变量分组的其他变量的情况**。
    * **竖直方向**的条形图：**bar函数**和**plot.bar方法**
    * **水平方向**的条形图：**barh函数**和**plot.barh方法**

|区别角度|直方图|条形图|
|--|--|--|
|条与条之间是否有间隔|无|有|
|横轴上的数据|连续的，是一个范围|孤立的，是一个具体的数据|
|频数大小的表示工具|长方形的面积|条形的高度|
||（只有当长方形的宽都相等时，才可以用长方形的高表示频数的大小）||

In [None]:
N=5  #事先定义条形的数目
menMeans=(20,35,30,35,27)
womenMeans=(25,32,34,20,25)
ind=np.arange(N)  #每个条形的编号
plt.subplot(131);plt.bar(ind,menMeans)  #竖直方向的条形图
plt.subplot(132);plt.barh(ind,menMeans)  #水平方向的条形图
plt.subplot(133);plt.bar(ind,menMeans,bottom=womenMeans,width=0.45)  #堆叠条形图
plt.show()

### 15.3.5 龙卷风图
* **龙卷风图**：实质上就是两个数据值方向相反的条形图进行叠加。

In [None]:
n = 12
X = np.arange(n)
Y1 = (1-X/float(n)) * np.random.uniform(0.5,1.0,n)
Y2 = (1-X/float(n)) * np.random.uniform(0.5,1.0,n)

plt.bar(X, +Y1, facecolor='blue', edgecolor='white', label="Y1")
plt.bar(X, -Y2, facecolor='red', edgecolor='white', label="Y2")

for x,y1,y2 in zip(X,Y1,Y2):
    plt.text(x+0.01, y1+0.02, '%.2f' %y1, ha='center', va= 'bottom')
    plt.text(x+0.01, -(y2+0.15), '%.2f' %y2, ha='center', va= 'bottom')

plt.legend()  #需搭配label参数使用

plt.ylim(-1.2,+1.25)

plt.show()

### 15.3.6 饼图

In [None]:
n = 20
Z = np.random.uniform(0,1,n)
plt.pie(Z)
plt.show()

In [None]:
X=pd.Series([222,42,455,664,454,334],index=['China','Swiss','USA','UK','Laos','Spain'])

fig = plt.figure()
plt.pie(X,labels=X.index,autopct='%1.2f%%') #画饼图（数据，数据对应的标签，百分数保留两位小数点）
plt.title("Pie chart")

plt.show()  

### 15.3.7 阶梯图

### 15.3.8 盒须图（箱线图）https://blog.csdn.net/qq_41080850/article/details/83829045
* **盒须图**：基于五数概括法的图形汇总；
    * 最小值(Q1-1.5IQR)
    * 第一四分位数(Q1)
    * 中位数(Q2)
    * 第三四分位数(Q3)
    * 最大值(Q3+1.5IQR)
* **箱形图的应用**：
    * （1）可以作为一种检测异常值的方法；
    * （2）用于多组数据的图形汇总，便于对各组数据进行直观比较分析。
* **箱形图的绘制方法主要有：**
    * 方法1：利用pandas包中的Series.plot()、DataFrame.plot()或DataFrame.boxplot()方法；
    * 方法2：利用seaborn包中的cataplot()或者boxplot()，其中seaborn.boxplot()是seaborn.cataplot()的参数kind='box'时的一种情况；
    * 方法3：利用matplotlib包中axes对象的boxplot()方法。

In [None]:
plt.subplot(121)
x=[1,2,3,4]
plt.boxplot(x)

plt.subplot(122)
dataset=[113,115,119,121,124,124,125,126,126,127,127,128,129,130,130,131,132,133,136]
plt.boxplot(dataset,vert=False)  #水平盒须图

show()

In [None]:
data=pd.DataFrame({'China': [1000, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2500],
                   'America': [1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100],
                   'Britain': [1000, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000],
                   "Russia": [800, 1000, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900]})

df.plot.box(title="Consumer spending in each country")
#df.plot.box(title="Consumer spending in each country", vert=False)  #水平盒须图

plt.show()

In [None]:
# 用Seaborn画箱线图
import seaborn as sns
data=np.random.normal(size=(10,4)) 
lables = ['A','B','C','D']
df=pd.DataFrame(data, columns=lables)
sns.boxplot(data=df)
plt.show()

### 15.3.9 小提琴图：matplotlib.violinplot函数

### 15.3.10 散点图

In [None]:
n = 1024
X = np.random.normal(0,1,n)
Y = np.random.normal(0,1,n)

plt.subplot(121);plt.scatter(X,Y)
plt.subplot(122);plt.scatter(X,Y,marker='X')
plt.show()

In [None]:
import seaborn as sns
df = pd.DataFrame({'x': X, 'y': Y})
sns.jointplot(x="x", y="y", data=df, kind='scatter');
plt.show()

### 15.3.11 气泡图：散点图+s参数

### 15.3.12 六边形箱图：pandas对象.plot.hexbin方法
* 六边形箱图：蜂窝图，利用二元直方图对大样本数据结构进行可视化。

#### 例：六边形图将空间中的点聚合成六边形，然后根据六边形内部的值为这些六边形上色。

In [None]:
df=pd.DataFrame(np.random.randn(1000,2), columns=['a','b'])
df['b']=df['b'] + np.arange(1000)

df.plot.hexbin(x='a', y='b', gridsize=25)  #gridsize控制x方向上的六边形数量，默认为100

plt.show()

### 15.3.13 雷达坐标图

### 15.3.14 轮廓图

### 15.3.15 调和曲线图

### 15.3.16 等高线图：
* 等高线图：contour([X, Y,] Z, [levels], ** kwargs)

|参数|参数值|描述|
|--|--|--|
|X，Y|array-like|可选值Z的坐标|
|Z|array-like（N，M）|绘制轮廓的高度值|
|levels|int或类似数组，可选|确定轮廓线/区域的数量和位置|
||如果int Ñ，使用Ñ数据间隔; 即绘制n + 1个等高线|水平高度自动选择。|
||如果是数组，则在指定的级别绘制轮廓线|值必须按递增顺序排列|

* 若X和Y都是2-D，则其形状必须与Z相同；
* 若X和Y都是1-D，则len(X)==M是Z中的列数，len(Y)==N是Z中的行数。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

delta = 0.25  #网格间距，控制等高线的平滑程度
x = np.arange(-3.0, 3.0, delta)
y = np.arange(-3.0, 3.0, delta)
X, Y = np.meshgrid(x, y)  #生成网格
#print(X,Y)
Z1 = np.exp(-X**2 - Y**2)
Z2 = np.exp(-(X - 1)**2 - (Y - 1)**2)
Z = (Z1 - Z2) * 2

CS = plt.contour(X, Y, Z)  #绘制等高线图
plt.clabel(CS, inline=1, fontsize=10)  #标出等高值
plt.show()

### 15.3.17 极坐标图

#### （1）极坐标散点图

In [None]:
N = 150
r = 2 * np.random.rand(N)
theta = 2 * np.pi * np.random.rand(N)
area = 200 * r**2
colors = theta
 
ax = plt.subplot(111, projection='polar')
c = ax.scatter(theta, r, c=colors, s=area, cmap='hsv', alpha=0.75)
 
plt.show()

#### （2）极坐标饼状图

In [None]:
import numpy as np
import matplotlib.pyplot as plt

N = 20
theta = np.linspace(0.0,2*np.pi,N,endpoint=False)
radii = 10*np.random.rand(N)
width = np.pi/4*np.random.rand(N)

ax = plt.subplot(111,projection='polar')
bars = ax.bar(theta,radii,width=width,bottom=0.0)

for r,bar in zip(radii,bars):
    bar.set_facecolor(plt.cm.viridis(r/10.))
    bar.set_alpha(0.5)

plt.show()

### 15.3.18 词云图

* **注意**：需要提前安装所需模块或包。

In [None]:
#pip install jieba
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

In [None]:
pip install wordcloud -i https://mirrors.aliyun.com/pypi/simple/

In [None]:
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud

text="Today is not easy. Tomorrow is more difficult. But the day after tomorrow will be fantastic."
wc=WordCloud(background_color='white', width=500, height=300)  #实例化词云图对象

wc.generate(text)  #根据文本生成词云图

plt.imshow(wc)  #显示词云图
#plt.axis('off')  #不显示坐标轴
plt.show()

### 15.3.19 数据地图：plotly包、basemap模块

In [None]:
pip install plotly

### 补充：绘图保存
* 当使用plt.savefig保存生成的图片时，有时打开生成的图片却是一片空白。

In [None]:
plt.plot(range(1,10))
plt.show()
plt.savefig("chap15_save1.png")  #格式可以为jpg、png等

#### 空白原因：在 plt.show() 后调用了 plt.savefig()
* 在 plt.show() 后实际上已经创建了一个新的空白的图片（坐标轴），这时候你再 plt.savefig() 就会保存这个新生成的空白图片。

#### 解决方法：
* （1）在 plt.show()之前调用plt.savefig()

In [None]:
plt.plot(range(1,10))
plt.savefig("chap15_save2.png")
plt.show()

* （2）画图的时候获取当前图像

In [None]:
fig = plt.figure()

plt.plot(range(1,10))
plt.show()

fig.savefig('chap15_save3.png', dpi=100)

#### 学习参考资料：
* 中国慕课
* 狗熊会
* 菜鸟教程-Python3教程：https://www.runoob.com/python3/python3-tutorial.html
    * Matplotlib 教程：https://www.runoob.com/w3cnote/matplotlib-tutorial.html
* 80个Python练手项目列表：https://www.lanqiao.cn/questions/102676/?utm_source=baidu&utm_medium=cpc&utm_campaign=python&utm_term=keywords
* python数据分析常用图大集合：https://www.cnblogs.com/chenqionghe/p/12254085.html#%E5%85%AB%E3%80%81%E6%95%A3%E7%82%B9%E5%9B%BE
* python可视化入门plotly：https://blog.csdn.net/weixin_43347550/article/details/106163458