# 绘图和可视化

在Jupyter notebook进行交互式绘图需要执行下面的语句。

In [1]:
matplotlib notebook

C:\code\Anaconda\lib\site-packages\numpy\.libs\libopenblas.CSRRD7HKRKC3T3YXA7VY7TAZGLSWDKW6.gfortran-win_amd64.dll
C:\code\Anaconda\lib\site-packages\numpy\.libs\libopenblas.IPBC74C7KURV7CB2PKT5Z5FNR3SIBV4J.gfortran-win_amd64.dll
  stacklevel=1)


## matplotlib API入门

In [2]:
import matplotlib.pyplot as plt

matplotlib的图像都位于Figure对象中。你可以用plt.figure创建一个新的Figure：

In [3]:
fig = plt.figure()

<IPython.core.display.Javascript object>

### Figure和Subplot

不能通过空Figure绘图。必须用add_subplot创建一个或多个subplot才行：

In [5]:
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

<IPython.core.display.Javascript object>

>提示：使用Jupyter notebook有一点不同，即每个小窗重新执行后，图形会被重置。因此，对于复杂的图形，你必须将所有的绘图命令存在一个小窗里。

如果这时执行一条绘图命令（如plt.plot([1.5, 3.5, -2, 1.6])），matplotlib就会在最后一个用过的subplot（如果没有则创建一个）上进行绘制，隐藏创建figure和subplot的过程。

In [6]:
import numpy as np

In [8]:
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)
plt.plot(np.random.randn(50).cumsum(), 'k--')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2b9f9a08588>]

>"k--"是一个线型选项，用于告诉matplotlib绘制黑色虚线图。


fig.add_subplot所返回的对象是AxesSubplot对象，直接调用它们的实例方法就可以在其它空着的格子里面画图了

In [10]:
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x2b9f98c3390>

创建包含subplot网格的figure是一个非常常见的任务

matplotlib有一个更为方便的方法plt.subplots，它可以创建一个新的Figure，并返回一个含有已创建的subplot对象的NumPy数组

In [11]:
fig, axes = plt.subplots(2, 3)

<IPython.core.display.Javascript object>

In [12]:
axes

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000002B9F994F6A0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000002B9F98BB780>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000002B9F95AC9B0>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000002B9F957EBE0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000002B9F94D5E10>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000002B9F9531080>]],
      dtype=object)

>这是非常实用的，因为可以轻松地对axes数组进行索引，就好像是一个二维数组一样，例如axes[0,1]。
>可以通过sharex和sharey指定subplot应该具有相同的X轴或Y轴。在比较相同范围的数据时，这也是非常实用的，否则，matplotlib会自动缩放各图表的界限。

![](subplot-parameters.jpg)

### 调整subplot周围的间距

利用Figure的subplots_adjust方法可以轻而易举地修改间距，此外，它也是个顶级函数：

`subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=None, hspace=None)`

    wspace和hspace用于控制宽度和高度的百分比，可以用作subplot之间的间距。

In [13]:
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)
for i in range(2):
    for j in range(2):
        axes[i, j].hist(np.random.randn(500), bins=50, color='k', alpha=0.5)
        
plt.subplots_adjust(wspace=0, hspace=0)

<IPython.core.display.Javascript object>

>其中的轴标签重叠了。matplotlib不会检查标签是否重叠，所以对于这种情况，你只能自己设定刻度位置和刻度标签。

### 颜色、标记和线型

matplotlib的plot函数可以接受一个表示颜色和线型的字符串缩写，也可以显示地去指定。

```python
ax.plot(x, y, 'g--')

ax.plot(x, y, color='g', linestyle='--)
```

>常用的颜色可以使用颜色缩写，你也可以指定颜色码（例如，'#CECECE'）。你可以通过查看plot的文档字符串查看所有线型的合集（在IPython和Jupyter中使用plot?）。

可以使用标记强调数据点。

In [19]:
fig = plt.figure()
plt.plot(np.random.randn(30).cumsum(), 'ko--')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2b9fae8c780>]

In [20]:
fig = plt.figure()
plt.plot(np.random.randn(30).cumsum(), color='k', linestyle='dashed', marker='o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2b9faebe048>]

在线型图中，非实际数据点默认是按线性方式插值的。可以通过drawstyle选项修改

>必须调用plt.legend（或使用ax.legend，如果引用了轴的话）来创建图例，无论你绘图时是否传递label标签选项。

In [21]:
data = np.random.randn(30).cumsum()

In [23]:
fig = plt.figure()
plt.plot(data, 'k--', label='Default')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2b9faefca90>]

In [27]:
fig = plt.figure()
plt.plot(data, 'k--', label='Default')
plt.plot(data, 'k--', drawstyle='steps-post', label='steps-post')
plt.legend(loc='best')

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x2b9fa5ccc50>

### 刻度、标签和图例

对于大多数的图表装饰项，其主要实现方式有二：
- 使用过程型的pyplot接口（例如，matplotlib.pyplot）
- 更为面向对象的原生matplotlib API。

pyplot接口的设计目的就是交互式使用,其使用方式有以下两种：
- 调用时不带参数，则返回当前的参数值（例如，plt.xlim()返回当前的X轴绘图范围）。
- 调用时带参数，则设置参数值（例如，plt.xlim([0,10])会将X轴的范围设置为0到10）。

所有这些方法都是对当前或最近创建的AxesSubplot起作用的。

它们各自对应subplot对象上的两个方法，以xlim为例，就是ax.get_xlim和ax.set_xlim。

### 设置标题、轴标签、刻度以及刻度标签

要改变x轴刻度，最简单的办法是使用set_xticks和set_xticklabels。
- 前者告诉matplotlib要将刻度放在数据范围中的哪些位置，默认情况下，这些位置也就是刻度标签。
- 还可以通过set_xticklabels将任何其他的值用作标签

In [28]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.plot(np.random.randn(1000).cumsum())

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2b9fa5d5588>]

In [29]:
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'], rotation=30, fontsize='small')

In [30]:
ticks = ax.set_xticks([0, 250, 500, 750, 1000])

In [31]:
ax.set_title("My first matplotlib plot")

Text(0.5, 1.0, 'My first matplotlib plot')

In [32]:
ax.set_xlabel("Stages")

Text(0.5, 15.528422124795624, 'Stages')

轴的类有集合方法，可以批量设定绘图选项。前面的例子，也可以写为：

In [34]:
props = {
'title': 'My first matplotlib plot',
'xlabel': 'Stages'
} 
ax.set(**props)

[Text(0.5, 15.528422124795624, 'Stages'),
 Text(0.5, 1.0, 'My first matplotlib plot')]

### 添加图例

- 最简单的是在添加subplot的时候传入label参数：
- 在此之后，你可以调用ax.legend()或plt.legend()来自动创建图例
  - loc告诉matplotlib要将图例放在哪。"best"会选择最不碍事的位置。
  - 要从图例中去除一个或多个元素，不传入label或传入label='nolegend'即可。

In [35]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.plot(np.random.randn(1000).cumsum(), 'k', label='one')
ax.plot(np.random.randn(1000).cumsum(), 'k--', label='two')
ax.plot(np.random.randn(1000).cumsum(), 'k.', label='three')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2b9fe177c88>]

In [37]:
ax.legend(loc='best')

<matplotlib.legend.Legend at 0x2b9fe0380f0>

### 注解以及在Subplot上绘图

注解和文字可以通过text、arrow和annotate函数进行添加。

- text可以将文本绘制在图表的指定坐标(x,y)，还可以加上一些自定义格式
- annotate方法可以在指定的x和y坐标轴绘制标签。

图形的绘制要麻烦一些。matplotlib有一些表示常见图形的对象。这些对象被称为块（patch）。

其中有些（如Rectangle和Circle），可以在matplotlib.pyplot中找到，但完整集合位于matplotlib.patches。

要在图表中添加一个图形，你需要创建一个块对象shp，然后通过ax.add_patch(shp)将其添加到subplot中

In [39]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)

ax.add_patch(rect)

<IPython.core.display.Javascript object>

<matplotlib.patches.Rectangle at 0x2b9fe0cee48>

### 将图表保存到文件

利用plt.savefig可以将当前图表保存到文件。

![](savefig-parameter.jpg)

- 文件类型是通过文件扩展名推断出来的。因此，如果你使用的是.pdf，就会得到一个PDF文件
- savefig并非一定要写入磁盘，也可以写入任何文件型的对象，比如BytesIO

### matplotlib配置

matplotlib自带一些配色方案，以及为生成出版质量的图片而设定的默认配置信息。
    
    图像大小、subplot边距、配色方案、字体大小、网格类型等。

一种Python编程方式配置系统的方法是使用rc方法。
- rc的第一个参数是希望自定义的对象
- 其后可以跟上一系列的关键字参数。一个简单的办法是将这些选项写成一个字典

```python
font_options = {'family' : 'monospace',
'weight' : 'bold',
'size' : 'small'}
plt.rc('font', **font_options)
```

## 使用pandas和seaborn绘图

### 线型图

Series和DataFrame都有一个用于生成各类图表的plot方法。默认情况下，它们所生成的是线型图

#### Series

In [41]:
import pandas as pd

In [42]:
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))

In [44]:
fig = plt.figure()
s.plot()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b9ff6eb908>

- 该Series对象的索引会被传给matplotlib，并用以绘制X轴。可以通过use_index=False禁用该功能
- X轴的刻度和界限可以通过xticks和xlim选项进行调节，Y轴就用yticks和ylim

![](plot-parameter-1.jpg)
![](plot-parameter-2.jpg)

#### Pandas

DataFrame的plot方法会在一个subplot中为各**列**绘制一条线，并自动创建图例

In [46]:
df = pd.DataFrame(np.random.randn(10, 4).cumsum(0), columns=['a', 'b', 'c', 'd'], index=np.arange(0, 100, 10))

In [47]:
df.plot()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b9809a5a58>

pandas的大部分绘图方法都有一个可选的ax参数，它可以是一个matplotlib的subplot对象。这使你能够在网格布局中更为灵活地处理subplot的位置。

![](plot-dataframe-parameter.jpg)

### 柱状图

#### Pandas

plot.bar()和plot.barh()分别绘制水平和垂直的柱状图。
    
    Series和DataFrame的索引将会被用作X（bar）或Y（barh）刻度

In [48]:
df = pd.DataFrame(np.random.randn(6, 4), index=['one', 'two', 'three', 'four', 'five', 'six'], 
                 columns=pd.Index(['a', 'b', 'c', 'd'], name='Genus'))

In [49]:
df

Genus,a,b,c,d
one,-0.172203,-0.399464,2.224327,-0.084449
two,0.334207,-0.785652,-0.287732,-1.183986
three,0.810597,-1.774303,-0.384078,1.041193
four,0.598881,-0.554643,0.016823,-0.73264
five,1.765487,-0.137504,-0.777755,-0.622065
six,-0.527568,0.924396,0.40729,0.281951


In [50]:
df.plot.bar()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b980bc46d8>

In [52]:
df.plot.barh(stacked=True, alpha=0.5)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b981afdcf8>

>笔记：柱状图有一个非常不错的用法：利用value_counts图形化显示Series中各值的出现频率，比如s.value_counts().plot.bar()

#### Seaborn

In [53]:
tips = pd.read_csv("tips.csv")

In [54]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


In [62]:
party_counts = pd.crosstab(tips['day'], tips['size'])

In [63]:
party_counts

size,1,2,3,4,5,6
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Fri,1,16,1,1,0,0
Sat,2,53,18,13,1,0
Sun,0,39,15,18,3,1
Thur,1,48,4,5,1,3


In [64]:
party_counts = party_counts.loc[:, 2:5]

In [72]:
party_pcts = party_counts.div(party_counts.sum(1), axis=0)

In [73]:
party_pcts

size,2,3,4,5
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,0.888889,0.055556,0.055556,0.0
Sat,0.623529,0.211765,0.152941,0.011765
Sun,0.52,0.2,0.24,0.04
Thur,0.827586,0.068966,0.086207,0.017241


In [75]:
party_pcts.plot.bar()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b9843c4898>

In [76]:
import seaborn as sns

In [77]:
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])

In [78]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
0,16.99,1.01,No,Sun,Dinner,2,0.063204
1,10.34,1.66,No,Sun,Dinner,3,0.191244
2,21.01,3.5,No,Sun,Dinner,3,0.199886
3,23.68,3.31,No,Sun,Dinner,2,0.162494
4,24.59,3.61,No,Sun,Dinner,4,0.172069


In [80]:
fig = plt.figure()
sns.barplot(x='tip_pct', y='day', data=tips, orient='h')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b986848e48>

### 直方图和密度图

直方图（histogram）是一种可以对值频率进行离散化显示的柱状图。数据点被拆分到离散的、间隔均匀的面元中，绘制的是各面元中数据点的数量。

密度图，它是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的。一般的过程是将该分布近似为一组核（即诸如正态分布之类的较为简单的分布）。因此，密度图也被称作KDE（Kernel Density Estimate，核密度估计）图。

seaborn的distplot方法绘制直方图和密度图更加简单，还可以同时画出直方图和连续密度估计图

In [81]:
comp1 = np.random.normal(0, 1, size=200)

In [82]:
comp2 = np.random.normal(10, 2, size=200)

In [83]:
values = pd.Series(np.concatenate([comp1, comp2]))

In [85]:
fig = plt.figure()
sns.distplot(values)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b987364438>

### 散布图或点图

点图或散布图是观察两个一维数据序列之间的关系的有效手段。

In [86]:
macro = pd.read_csv("macrodata.csv")

In [87]:
macro.head()

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959.0,1.0,2710.349,1707.4,286.898,470.045,1886.9,28.98,139.7,2.82,5.8,177.146,0.0,0.0
1,1959.0,2.0,2778.801,1733.7,310.859,481.301,1919.7,29.15,141.7,3.08,5.1,177.83,2.34,0.74
2,1959.0,3.0,2775.488,1751.8,289.226,491.26,1916.4,29.35,140.5,3.82,5.3,178.657,2.74,1.09
3,1959.0,4.0,2785.204,1753.7,299.356,484.052,1931.3,29.37,140.0,4.33,5.6,179.386,0.27,4.06
4,1960.0,1.0,2847.699,1770.5,331.722,462.199,1955.5,29.54,139.6,3.5,5.2,180.007,2.31,1.19


In [88]:
data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]

In [96]:
trans_data = np.log(data).diff().dropna()

In [98]:
trans_data.head()

Unnamed: 0,cpi,m1,tbilrate,unemp
1,0.005849,0.014215,0.088193,-0.128617
2,0.006838,-0.008505,0.215321,0.038466
3,0.000681,-0.003565,0.125317,0.05506
4,0.005772,-0.002861,-0.212805,-0.074108
5,0.000338,0.004289,-0.266946,0.0


In [100]:
fig = plt.figure()
sns.regplot('m1', 'unemp', data=trans_data)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2b987af6ef0>

在探索式数据分析工作中，同时观察一组变量的散布图是很有意义的，这也被称为散布图矩阵（scatter plot matrix）。

seaborn提供了一个便捷的pairplot函数，它支持在对角线上放置每个变量的直方图或密度估计

In [105]:
sns.pairplot(trans_data, diag_kind='kde', plot_kws={'alpha':0.2})

<IPython.core.display.Javascript object>

<seaborn.axisgrid.PairGrid at 0x2b98bcade10>

有多个分类变量的数据可视化的一种方法是使用小面网格。

seaborn有一个有用的内置函数factorplot，可以简化制作多种分面图

In [106]:
sns.factorplot(x='day', y='tip_pct', hue='time', col='smoker', kind='bar', data=tips[tips.tip_pct < 1])



<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x2b98d531470>

factorplot支持其它的绘图类型，你可能会用到。例如，盒图（它可以显示中位数，四分位数，和异常值）就是一个有用的可视化类型

In [111]:
sns.factorplot(x='tip_pct', y='day', kind='box', row='time', col='smoker', data=tips[tips.tip_pct < 1])



<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x2b98e80bda0>