## 第9章 绘图和可视化
重要关注于matplotlib（http://matplotlib.org/）和基于它的库
<br/>matplotlib是一个用于创建出版质量图表的桌面绘图包（主要是2D方<br/>面）
<br/>随着时间的发展，matplotlib衍生出了多个数据可视化的工具集，它<br/>们使
<br/>用matplotlib作为底层。其中之一是<br/>seaborn（http://seaborn.pydata.org/），本章后面会学习它

In [2]:
%matplotlib notebook
import numpy as np
import pandas as pd

### 9.1 matplotlib API入门

In [6]:
import matplotlib.pyplot as plt

In [3]:
import numpy as np

data = np.arange(10)

print(data)

plt.plot(data)
#虽然seaborn这样的库和pandas的内置绘图函数能够处理许多普通的绘
#图任务，但如果需要自定义一些高级功能的话就必须学习matplotlib API

[0 1 2 3 4 5 6 7 8 9]


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x106b18c50>]

#### Figure和Subplot

In [4]:
#matplotlib的图像都位于Figure对象中。你可以用plt.figure创建一个新的Figure

fig = plt.figure()

#如果用的是IPython，这时会弹出一个空窗口，但在Jupyter中，必须再输入更多命令才能
#看到。plt.figure有一些选项，特别是figsize，它用于确保当图片保存到磁盘时具有一
#定的大小和纵横比。

<IPython.core.display.Javascript object>

In [5]:
#不能通过空Figure绘图。必须用add_subplot创建一个或多个subplot才行
ax1 = fig.add_subplot(2, 2, 1)

In [6]:
#这条代码的意思是：图像应该是2×2的（即最多4张图），且当前选中的是4个subplot中
#的第一个（编号从1开始）。如果再把后面两个subplot也创建出来
ax2 = fig.add_subplot(2, 2, 2)

ax3 = fig.add_subplot(2, 2, 3)

In [7]:
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

<IPython.core.display.Javascript object>

In [8]:
#如果这时执行一条绘图命令（如plt.plot([1.5, 3.5, -2, 1.6])），matplotlib就
#会在最后一个用过的subplot（如果没有则创建一个）上进行绘制，隐藏创建figure和
#subplot的过程。
plt.plot(np.random.randn(50).cumsum(), 'k--')
#"k--"是一个线型选项，用于告诉matplotlib绘制黑色虚线图。
#上面那些由fig.add_subplot所返回的对象是AxesSubplot对象，
#直接调用它们的实例方法就可以在其它空着的格子里面画图了

[<matplotlib.lines.Line2D at 0x1066e8978>]

In [9]:
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

<matplotlib.collections.PathCollection at 0x1069c94e0>

In [10]:
fig, axes = plt.subplots(2, 3)

axes
#创建包含subplot网格的figure是一个非常常见的任务，
#matplotlib有一个更为方便的方法plt.subplots，它可以创建一个
#新的Figure，并返回一个含有已创建的subplot对象的NumPy数组
#这是非常实用的，因为可以轻松地对axes数组进行索引，就好像是一个二维数组
#一样，例如axes[0,1]。你还可以通过sharex和sharey指定subplot应该具有相
#同的X轴或Y轴。在比较相同范围的数据时，这也是非常实用的，否则，matplotlib
#会自动缩放各图表的界限。

<IPython.core.display.Javascript object>

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x1065a7a90>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x1068a3dd8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x1069587f0>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x102eca128>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x10c4ab0f0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x10c4cc7f0>]], dtype=object)

#### 调整subplot周围的间距

In [13]:
#默认情况下，matplotlib会在subplot外围留下一定的边距，并在subplot之间
#留下一定的间距。间距跟图像的高度和宽度有关，因此，如果你调整了图像大小（
#不管是编程还是手工），间距也会自动调整。利用Figure的subplots_adjust方
#法可以轻而易举地修改间距，此外，它也是个顶级函数
plt.subplots_adjust(left=None, bottom=None, right=None, top=None,
                wspace=None, hspace=None)

In [26]:
#wspace和hspace用于控制宽度和高度的百分比，可以用作subplot之间的间距。
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)
for i in range(2):
    for j in range(2):
        axes[i, j].hist(np.random.randn(500), bins=50, color='k', alpha=0.5)
plt.subplots_adjust(wspace=0, hspace=0)
#不难看出，其中的轴标签重叠了。matplotlib不会检查标签是否重叠，所以对于这种情况，
#你只能自己设定刻度位置和刻度标签。

<IPython.core.display.Javascript object>

#### 颜色、标记和线型

In [19]:
#matplotlib的plot函数接受一组X和Y坐标，还可以接受一个表示颜色和线型的字符串缩写。
#例如，要根据x和y绘制绿色虚线，你可以执行如下代码
# ax.plot(x,y,'g--')

In [24]:
#这种在一个字符串中指定颜色和线型的方式非常方便。在实际中，
#如果你是用代码绘图，你可能不想通过处理字符串来获得想要的格式。
#通过下面这种更为明确的方式也能得到同样的效果
#ax.plot(x,y,linesytle='--',color='g')
#常用的颜色可以使用颜色缩写，你也可以指定颜色码（例如，'#CECECE'）。
#你可以通过查看plot的文档字符串查看所有线型的合集
#（在IPython和Jupyter中使用plot?）

In [30]:
from numpy.random import randn
fig = plt.figure()
plt.plot(randn(30).cumsum(),'ko--')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x112478ef0>]

In [31]:
#还可以将其写成更为明确的形式
fig = plt.figure()
plt.plot(randn(30).cumsum(), color='k', linestyle='dashed', marker='o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x113576ef0>]

In [34]:
#在线型图中，非实际数据点默认是按线性方式插值的。
#可以通过drawstyle选项修改

fig = plt.figure()
data = np.random.randn(30).cumsum()
plt.plot(data,'k--',label='Default')

plt.plot(data,'k-',drawstyle='steps-post',label='steps-post')

plt.legend(loc='best')
#你可能注意到运行上面代码时有输出。matplotlib会返回引用了新添加的子组件
#的对象。大多数时候，你可以放心地忽略这些输出。这里，因为我们传递了label
#参数到plot，我们可以创建一个plot图例，指明每条使用plt.legend的线

#笔记：你必须调用plt.legend（或使用ax.legend，如果引用了轴的话）来创
#建图例，无论你绘图时是否传递label标签选项。

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x11138e630>

#### 刻度、标签和图例

In [None]:
#对于大多数的图表装饰项，其主要实现方式有二：使用过程型的pyplot接口
#（例如，matplotlib.pyplot）以及更为面向对象的原生matplotlib API
#pyplot接口的设计目的就是交互式使用，含有诸如xlim、xticks和
#xticklabels之类的方法。它们分别控制图表的范围、刻度位置、刻度标签等。
#其使用方式有以下两种：
#调用时不带参数，则返回当前的参数值（例如，plt.xlim()返回当前的X轴绘图范围）。
#调用时带参数，则设置参数值（例如，plt.xlim([0,10])会将X轴的范围设置为0到10）。
#所有这些方法都是对当前或最近创建的AxesSubplot起作用的。它们各自对应subplot对
#象上的两个方法，以xlim为例，就是ax.get_xlim和ax.set_xlim。我更喜欢使用
#subplot的实例方法（因为我喜欢明确的事情，而且在处理多个subplot时这样也更清楚一些）。
#当然你完全可以选择自己觉得方便的那个。

#### 设置标题、轴标签、刻度以及刻度标签

In [38]:
#为了说明自定义轴，我将创建一个简单的图像并绘制一段随机漫步
fig = plt.figure()

ax = fig.add_subplot(1, 1, 1)

# print(np.random.randn(1000).cumsum())
ax.plot(np.random.randn(1000).cumsum())

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x113ff0b38>]

In [39]:
#要改变x轴刻度，最简单的办法是使用set_xticks和set_xticklabels。
#前者告诉matplotlib要将刻度放在数据范围中的哪些位置，默认情况下，
#这些位置也就是刻度标签。但我们可以通过set_xticklabels将任何其他的
#值用作标签
ticks = ax.set_xticks([0, 250, 500, 750, 1000])

labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
                            rotation=30, fontsize='small')
#otation选项设定x刻度标签倾斜30度。最后，再用set_xlabel为X轴设置
#一个名称，并用set_title设置一个标题

In [41]:
print(ax.set_title('My first matplotlib plot'))
ax.set_xlabel('Stages')

Text(0.5,1,'My first matplotlib plot')


Text(0.5,-5.07164,'Stages')

In [42]:
#Y轴的修改方式与此类似，只需将上述代码中的x替换为y即可。
#轴的类有集合方法，可以批量设定绘图选项。前面的例子，也可以写为
props = {
    'title': 'My first matplotlib plot',
    'xlabel': 'Stages'
}
ax.set(**props)

[Text(0.5,-5.07164,'Stages'), Text(0.5,1,'My first matplotlib plot')]

#### 添加图例

In [43]:
#图例（legend）是另一种用于标识图表元素的重要工具。
#添加图例的方式有多种。最简单的是在添加subplot的时候传入label参数
from numpy.random import randn

fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)

ax.plot(randn(1000).cumsum(), 'k', label='one')

ax.plot(randn(1000).cumsum(), 'k--', label='two')

ax.plot(randn(1000).cumsum(), 'k.', label='three')


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x113453f60>]

In [44]:
#在此之后，你可以调用ax.legend()或plt.legend()来自动创建图例
ax.legend(loc='best')
#legend方法有几个其它的loc位置参数选项。
#请查看文档字符串（使用ax.legend?）
#loc告诉matplotlib要将图例放在哪。如果你不是吹毛求疵的话，
#"best"是不错的选择，因为它会选择最不碍事的位置。要从图例中
#去除一个或多个元素，不传入label或传入label='nolegend'即可。

<matplotlib.legend.Legend at 0x1133e6c50>

#### 注解以及在Subplot上绘图

In [46]:
#除标准的绘图类型，你可能还希望绘制一些子集的注解，可能是文本、
#箭头或其他图形等。注解和文字可以通过text、arrow和annotate函数
#进行添加。text可以将文本绘制在图表的指定坐标(x,y)，还可以加上一些
#自定义格式
ax.text(x, y, 'Hello world!',
        family='monospace', fontsize=10)

In [63]:
#注解中可以既含有文本也含有箭头。例如，我们根据最近的标准普尔500指数
#价格（来自Yahoo!Finance）绘制一张曲线图，并标出2008年到2009年金
#融危机期间的一些重要日期。
from datetime import datetime
import pandas as pd
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

data = pd.read_csv('examples/spx.csv', index_col=0, parse_dates=True)
spx = data['SPX']

spx.plot(ax=ax, style='k-')

crisis_data = [
    (datetime(2007, 10, 11), 'Peak of bull market'),
    (datetime(2008, 3, 12), 'Bear Stearns Fails'),
    (datetime(2008, 9, 15), 'Lehman Bankruptcy')
]

for date, label in crisis_data:
    ax.annotate(label, xy=(date, spx.asof(date) + 75),
                xytext=(date, spx.asof(date) + 225),
                arrowprops=dict(facecolor='black', headwidth=4, width=2,
                                headlength=4),
                horizontalalignment='left', verticalalignment='top')

# Zoom in on 2007-2010
ax.set_xlim(['1/1/2007', '1/1/2011'])
ax.set_ylim([600, 1800])

ax.set_title('Important dates in the 2008-2009 financial crisis')

#ax.annotate方法可以在指定的x和y坐标轴绘制标签。
#我们使用set_xlim和set_ylim人工设定起始和结束边界，
#而不使用matplotlib的默认方法。最后，用ax.set_title添加图标标题。

<IPython.core.display.Javascript object>

Text(0.5,1,'Important dates in the 2008-2009 financial crisis')

In [64]:
#图形的绘制要麻烦一些。matplotlib有一些表示常见图形的对象。
#这些对象被称为块（patch）。其中有些（如Rectangle和Circle），
#可以在matplotlib.pyplot中找到，但完整集合位于
#matplotlib.patches。
#要在图表中添加一个图形，你需要创建一个块对象shp，
#然后通过ax.add_patch(shp)将其添加到subplot中
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color='g', alpha=0.5)

ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

<IPython.core.display.Javascript object>

<matplotlib.patches.Polygon at 0x12465c7f0>

#### 将图表保存到文件

In [65]:
#利用plt.savefig可以将当前图表保存到文件。该方法相当于Figure对象的实例方法savefig。
#例如，要将图表保存为SVG文件，你只需输入
plt.savefig('figpath.svg')

In [66]:
#文件类型是通过文件扩展名推断出来的。因此，如果你使用的是.pdf，
#就会得到一个PDF文件。我在发布图片时最常用到两个重要的选项是dpi（
#控制“每英寸点数”分辨率）和bbox_inches（可以剪除当前图表周围的空白
#部分）。要得到一张带有最小白边且分辨率为400DPI的PNG图片，你可以

plt.savefig('figpath.png', dpi=400, bbox_inches='tight')

In [None]:
#savefig并非一定要写入磁盘，也可以写入任何文件型的对象，比如BytesIO
from io import BytesIO
buffer = BytesIO()
plt.savefig(buffer)
plot_data = buffer.getvalue()

#### matplotlib配置

In [44]:
#matplotlib自带一些配色方案，以及为生成出版质量的图片而设定的默认
#配置信息。幸运的是，几乎所有默认行为都能通过一组全局参数进行自定义，
#它们可以管理图像大小、subplot边距、配色方案、字体大小、网格类型等。
#一种Python编程方式配置系统的方法是使用rc方法。例如，要将全局的图
#像默认大小设置为10×10，你可以执行
plt.rc('figure', figsize=(4.5, 3))
#rc的第一个参数是希望自定义的对象，如'figure'、'axes'、'xtick'、
#'ytick'、'grid'、'legend'等。其后可以跟上一系列的关键字参数。
#一个简单的办法是将这些选项写成一个字典

In [69]:
# font_options = {'family' : 'monospace',
#                 'weight' : 'bold',
#                 'size'   : 'small'}
# plt.rc('font', **font_options)
#要了解全部的自定义选项，请查阅matplotlib的配置文件matplotlibrc
#（位于matplotlib/mpl-data目录中）。如果对该文件进行了自定义，
#并将其放在你自己的.matplotlibrc目录中，则每次使用matplotlib时
#就会加载该文件

### 9.2 使用pandas和seaborn绘图

#### 线型图

In [85]:
#Series和DataFrame都有一个用于生成各类图表的plot方法。
#默认情况下，它们所生成的是线型图
fig = plt.figure()
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
print(s)
s.plot()
#该Series对象的索引会被传给matplotlib，并用以绘制X轴。
#可以通过use_index=False禁用该功能。X轴的刻度和界限可以
#通过xticks和xlim选项进行调节，Y轴就用yticks和ylim。

<IPython.core.display.Javascript object>

0     0.687406
10    2.296595
20    2.406864
30    1.802329
40    1.249174
50    0.665764
60    0.201007
70    0.564888
80    1.298426
90    1.198075
dtype: float64


<matplotlib.axes._subplots.AxesSubplot at 0x12db79048>

In [89]:
fig = plt.figure()
df = pd.DataFrame(np.random.randn(10, 4).cumsum(0),
                  columns=['A', 'B', 'C', 'D'],
                  index=np.arange(0, 100, 10))

df.plot()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x12d89b630>

In [86]:
t = np.random.randn(10)
print(t,t.cumsum())

[ 0.66912416  1.62261788 -0.43302937 -1.19535365  0.41768714 -0.74674604
  1.78081414  0.09561908 -0.5863524   0.11747573] [ 0.66912416  2.29174204  1.85871267  0.66335902  1.08104616  0.33430012
  2.11511426  2.21073334  1.62438094  1.74185667]


#### 柱状图

In [98]:
#plot.bar()和plot.barh()分别绘制水平和垂直的柱状图。
#这时，Series和DataFrame的索引将会被用作X（bar）或Y（barh）
#刻度fig, axes = plt.subplots(2, 1)

fig, axes = plt.subplots(2, 1)
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop'))

data.plot.bar(ax=axes[0], color='k', alpha=0.7)

data.plot.barh(ax=axes[1], color='k', alpha=0.7)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x129fa5320>

In [8]:
df = pd.DataFrame(np.random.rand(6, 4),
                  index=['one','two','three','four','five','six'],
                  columns=pd.Index(['A','B','C','D'], name='Genus'))
print(df)

df.plot.bar()
#设置stacked=True即可为DataFrame生成堆积柱状图，这样每行的值就会
#被堆积在一起（

Genus         A         B         C         D
one    0.101678  0.109639  0.756084  0.829233
two    0.989848  0.374107  0.725267  0.931532
three  0.867803  0.595780  0.748305  0.001053
four   0.173656  0.998140  0.904286  0.767659
five   0.285834  0.872317  0.630371  0.409238
six    0.626187  0.418388  0.635731  0.395837


<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1121f2240>

In [9]:
df.plot.barh(stacked=True, alpha=0.5)
#柱状图有一个非常不错的用法：利用value_counts图形化显示Series中各
#值的出现频率，比如s.value_counts().plot.bar()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x113af5860>

In [10]:
#再以本书前面用过的那个有关小费的数据集为例，假设我们想要做一张堆
#积柱状图以展示每天各种聚会规模的数据点的百分比。我用read_csv将数
#据加载进来，然后根据日期和聚会规模创建一张交叉表
tips = pd.read_csv('examples/tips.csv')

party_counts = pd.crosstab(tips['day'], tips['size'])

print(party_counts)

party_counts = party_counts.loc[:, 2:5]

size  1   2   3   4  5  6
day                      
Fri   1  16   1   1  0  0
Sat   2  53  18  13  1  0
Sun   0  39  15  18  3  1
Thur  1  48   4   5  1  3


In [14]:
party_pcts = party_counts.div(party_counts.sum(1), axis=0)

print(party_pcts)

party_pcts.plot.bar()
#于是，通过该数据集就可以看出，聚会规模在周末会变大。

size         2         3         4         5
day                                         
Fri   0.888889  0.055556  0.055556  0.000000
Sat   0.623529  0.211765  0.152941  0.011765
Sun   0.520000  0.200000  0.240000  0.040000
Thur  0.827586  0.068966  0.086207  0.017241


<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1145f5358>

In [18]:
#对于在绘制一个图形之前，需要进行合计的数据，使用seaborn可以减少
#工作量。用seaborn来看每天的小费比例（
import seaborn as sns

fig = plt.figure()

tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])

print(tips.head())

sns.barplot(x='tip_pct', y='day', data=tips, orient='h')
#seaborn的绘制函数使用data参数，它可能是pandas的DataFrame。
#其它的参数是关于列的名字。因为一天的每个值有多次观察，柱状图的值
#是tip_pct的平均值。绘制在柱状图上的黑线代表95%置信区间

<IPython.core.display.Javascript object>

   total_bill   tip smoker  day    time  size   tip_pct
0       16.99  1.01     No  Sun  Dinner     2  0.063204
1       10.34  1.66     No  Sun  Dinner     3  0.191244
2       21.01  3.50     No  Sun  Dinner     3  0.199886
3       23.68  3.31     No  Sun  Dinner     2  0.162494
4       24.59  3.61     No  Sun  Dinner     4  0.172069


<matplotlib.axes._subplots.AxesSubplot at 0x1a1a8f45c0>

In [22]:
#eaborn.barplot有颜色选项，使我们能够通过一个额外的值设置
fig = plt.figure()
sns.barplot(x='tip_pct', y='day', hue='time', data=tips, orient='h')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1a1affda58>

In [20]:
sns.set(style="whitegrid")
#注意，seaborn已经自动修改了图形的美观度：默认调色板，图形背景和网
#格线的颜色。你可以用seaborn.set在不同的图形外观之间切换

#### 直方图和密度图

In [23]:
#直方图（histogram）是一种可以对值频率进行离散化显示的柱状图。
#数据点被拆分到离散的、间隔均匀的面元中，绘制的是各面元中数据点的数
#量。再以前面那个小费数据为例，通过在Series使用plot.hist方法，
#我们可以生成一张“小费占消费总额百分比”的直方图
fig = plt.figure()
tips['tip_pct'].plot.hist(bins=50)


<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1a1ae7d978>

In [24]:
fig = plt.figure()
tips['tip_pct'].plot.density()
#与此相关的一种图表类型是密度图，它是通过计算“可能会产生观测数据的
#连续概率分布的估计”而产生的。一般的过程是将该分布近似为一组核
#（即诸如正态分布之类的较为简单的分布）。因此，密度图也被称作KDE
#（Kernel Density Estimate，核密度估计）图。使用plot.kde和
#标准混合正态分布估计即可生成一张密度图

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1a1a411ba8>

In [39]:
#seaborn的distplot方法绘制直方图和密度图更加简单，还
#可以同时画出直方图和连续密度估计图。作为例子，考虑一个双峰分布，
#由两个不同的标准正态分布组成
fig = plt.figure()
comp1 = np.random.normal(0, 1, size=200)
comp2 = np.random.normal(10, 2, size=200)

values = pd.Series(np.concatenate([comp1, comp2]))

sns.distplot(values, bins=100, color='k')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1a1ae48da0>

#### 散布图或点图

In [37]:
#点图或散布图是观察两个一维数据序列之间的关系的有效手段。
#在下面这个例子中，我加载了来自statsmodels项目的macrodata数据集，
#选择了几个变量，然后计算对数差
macro = pd.read_csv('examples/macrodata.csv')

data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]

trans_data = np.log(data).diff().dropna()
#diff函数是用来将数据进行某种移动之后与原数据进行比较得出的差异数据
trans_data[-5:]

Unnamed: 0,cpi,m1,tbilrate,unemp
198,-0.007904,0.045361,-0.396881,0.105361
199,-0.021979,0.066753,-2.277267,0.139762
200,0.00234,0.010286,0.606136,0.160343
201,0.008419,0.037461,-0.200671,0.127339
202,0.008894,0.012202,-0.405465,0.04256


In [40]:
#然后可以使用seaborn的regplot方法，它可以做一个散布图，
#并加上一条线性回归的线
fig = plt.figure()
print(sns.regplot('m1', 'unemp', data=trans_data))

plt.title('Changes in log %s versus log %s' %('m1', 'unemp'))

<IPython.core.display.Javascript object>

AxesSubplot(0.125,0.11;0.775x0.77)


Text(0.5,1,'Changes in log m1 versus log unemp')

In [45]:
#在探索式数据分析工作中，同时观察一组变量的散布图是很有意义的，
#这也被称为散布图矩阵（scatter plot matrix）。纯手工创建这样的
#图表很费工夫，所以seaborn提供了一个便捷的pairplot函数，它支持在
#对角线上放置每个变量的直方图或密度估计
# fig = plt.figure()
sns.pairplot(trans_data, diag_kind='kde', plot_kws={'alpha': 0.2})

<IPython.core.display.Javascript object>

<seaborn.axisgrid.PairGrid at 0x1a25b3f2b0>

#### 分面网格（facet grid）和类型数据

In [43]:
#要是数据集有额外的分组维度呢？有多个分类变量的数据可视化的一种方法是使用小面网格。
#seaborn有一个有用的内置函数factorplot，可以简化制作多种分面图
# fig = plt.figure()
sns.factorplot(x='day', y='tip_pct', hue='time', col='smoker',
               kind='bar', data=tips[tips.tip_pct < 1])

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x1a1eb40048>

In [47]:
#除了在分面中用不同的颜色按时间分组，
#我们还可以通过给每个时间值添加一行来扩展分面网格
# fig = plt.figure()
sns.factorplot(x='day', y='tip_pct', row='time',
               col='smoker',
               kind='bar', data=tips[tips.tip_pct < 1])

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x1a290d8438>

In [48]:
#factorplot支持其它的绘图类型，你可能会用到。例如，盒图
#（它可以显示中位数，四分位数，和异常值）就是一个有用的可视化类型
# fig = plt.figure()
sns.factorplot(x='tip_pct', y='day', kind='box',
               data=tips[tips.tip_pct < 0.5])

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x1a236e4710>

### 9.3 其他的Python可视化工具

### 9.4 总结