# 数据可视化
数据可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。<br>
包：
* matplotlib
* seaborn

In [1]:
%matplotlib notebook
import matplotlib.pyplot as plt
import tushare as ts

# 测试

In [2]:
xa=ts.get_k_data('000001','2018-04-01')
xa.head()

Unnamed: 0,date,open,close,high,low,volume,code
0,2018-01-02,13.35,13.7,13.93,13.32,2081592.0,1
1,2018-01-03,13.73,13.33,13.86,13.2,2962498.0,1
2,2018-01-04,13.32,13.25,13.37,13.13,1854509.0,1
3,2018-01-05,13.21,13.3,13.35,13.15,1210312.0,1
4,2018-01-08,13.25,12.96,13.29,12.86,2158620.0,1


In [3]:
plt.plot(xa.open)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1f50901dcc0>]

# Figure和Subplot

In [4]:
fig=plt.figure()

<IPython.core.display.Javascript object>

In [5]:
ax1 = fig.add_subplot(2, 2, 1)

In [6]:
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)
ax4 = fig.add_subplot(2, 2, 4)

In [7]:
plt.plot(range(11))

[<matplotlib.lines.Line2D at 0x1f50905f710>]

In [8]:
plt.plot(range(22))

[<matplotlib.lines.Line2D at 0x1f5090ea0f0>]

In [9]:
ax1.plot(range(11))

[<matplotlib.lines.Line2D at 0x1f5090ea630>]

In [10]:
fig

<IPython.core.display.Javascript object>

创建包含subplot网格的figure是一个非常常见的任务，matplotlib有一个更为方便的方法plt.subplots，它可以创建一个新的Figure，并返回一个含有已创建的subplot对象的NumPy数组

In [11]:
fig,axes=plt.subplots(2,3)
axes

<IPython.core.display.Javascript object>

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000001F5090F2BE0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001F5091210B8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001F509147748>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000001F50916FDD8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001F5091A14E0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001F5091C7B38>]],
      dtype=object)

plt.subplots的参数
![image.png](attachment:image.png)

# 调整subplot周围的间距
默认情况下，matplotlib会在subplot外围留下一定的边距，并在subplot之间留下一定的间距。

In [12]:
import numpy as np

In [13]:
fig,axes=plt.subplots(2,2,sharex=True,sharey=True)
for i in range(2):
    for j in range(2):
        axes[i,j].hist(np.random.randn(500),bins=50,color='k',alpha=0.5)
plt.subplots_adjust(wspace=0,hspace=0)

<IPython.core.display.Javascript object>

In [14]:
plt.subplots_adjust(left=0,right=1,top=1,bottom=0)

# 颜色、标记和线型
matplotlib的plot函数接受一组X和Y坐标，还可以接受一个表示颜色和线型的字符串缩写。

In [15]:
xa.head()

Unnamed: 0,date,open,close,high,low,volume,code
0,2018-01-02,13.35,13.7,13.93,13.32,2081592.0,1
1,2018-01-03,13.73,13.33,13.86,13.2,2962498.0,1
2,2018-01-04,13.32,13.25,13.37,13.13,1854509.0,1
3,2018-01-05,13.21,13.3,13.35,13.15,1210312.0,1
4,2018-01-08,13.25,12.96,13.29,12.86,2158620.0,1


In [16]:
plt.figure()
plt.plot(xa.date,xa.close,'go--')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1f50946d898>]

In [17]:
plt.plot(xa.date,xa.close,color='#000000',linestyle='--',marker='x')

[<matplotlib.lines.Line2D at 0x1f509498748>]

在线型图中，非实际数据点默认是按线性方式插值的。可以通过drawstyle选项修改

In [18]:
plt.figure()
data=np.random.randn(30).cumsum()
plt.plot(data,color='green',marker='.',label='default')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1f5094c8f28>]

In [19]:
plt.plot(data,'k-',drawstyle='steps-post',label='steps-post')

[<matplotlib.lines.Line2D at 0x1f509498cc0>]

In [20]:
plt.legend(loc='best')

<matplotlib.legend.Legend at 0x1f5094d1748>

# 刻度、标签和图例

In [21]:
fig=plt.figure()

<IPython.core.display.Javascript object>

In [22]:
ax=fig.add_subplot(1,1,1)

In [23]:
ax.plot(np.random.randn(200).cumsum())

[<matplotlib.lines.Line2D at 0x1f50950eb38>]

要改变x轴刻度，最简单的办法是使用set_xticks和set_xticklabels。前者告诉matplotlib要将刻度放在数据范围中的哪些位置，默认情况下，这些位置也就是刻度标签。但我们可以通过set_xticklabels将任何其他的值用作标签

In [24]:
ticks=ax.set_xticks(range(0,200,30))

In [25]:
labels=ax.set_xticklabels(list('abcdefg'),rotation=30,fontsize=8)

In [26]:
ax.set_xlabel('date')

Text(0.5,0,'date')

In [27]:
ax.set_title('first picture')

Text(0.5,1,'first picture')

In [28]:
fig

<IPython.core.display.Javascript object>

# 添加图例
图例（legend）是另一种用于标识图表元素的重要工具。添加图例的方式有多种。最简单的是在添加subplot的时候传入label参数：

In [29]:
fig=plt.figure()
ax=fig.add_subplot(1,1,1)

<IPython.core.display.Javascript object>

In [30]:
ax.plot(np.random.randn(1000).cumsum(),'k',label='one')

[<matplotlib.lines.Line2D at 0x1f5094e1518>]

In [31]:
ax.plot(np.random.randn(1000).cumsum(),'k--',label='two')
ax.plot(np.random.randn(1000).cumsum(),'k.',label='three')

[<matplotlib.lines.Line2D at 0x1f5095605f8>]

In [32]:
ax.legend()

<matplotlib.legend.Legend at 0x1f509521b00>

# 注解以及在Subplot上绘图
除标准的绘图类型，你可能还希望绘制一些子集的注解，可能是文本、箭头或其他图形等。注解和文字可以通过text、arrow和annotate函数进行添加。text可以将文本绘制在图表的指定坐标(x,y)，还可以加上一些自定义格式

In [33]:
ax=plt.figure().add_subplot(1,1,1)

<IPython.core.display.Javascript object>

In [34]:
ax.plot(xa.close,'k-')

[<matplotlib.lines.Line2D at 0x1f5095a6160>]

In [35]:
cc=[(20,'i am here'),(60,'this is 60'),(120,'the end')]
for pos,label in cc:
    ax.annotate(label,xy=(pos,xa.close[pos]))

In [36]:
ax.set_title('pictrur')

Text(0.5,1,'pictrur')

# 绘制形状
图形的绘制要麻烦一些。matplotlib有一些表示常见图形的对象。这些对象被称为块（patch）。其中有些（如Rectangle和Circle），可以在matplotlib.pyplot中找到，但完整集合位于matplotlib.patches。

In [39]:
ax=plt.figure().add_subplot(1,1,1)
rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color='g', alpha=0.5)

ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

<IPython.core.display.Javascript object>

<matplotlib.patches.Polygon at 0x1f50c4ed400>