# Plotting and Visualization

In [45]:
import numpy as np
import pandas as pd
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
import matplotlib

matplotlib.rc('figure', figsize=(8, 6))
np.set_printoptions(precision=4, suppress=True)

# 设置中文字体  fc-list:lang=zh
matplotlib.rcParams['font.family'] = 'Noto Sans CJK JP'

In [46]:
%matplotlib notebook

%matplotlib notebook

## A Brief matplotlib API Primer

In [None]:
import matplotlib.pyplot as plt

In [3]:
import numpy as np
data = np.arange(10)
data
plt.plot(data)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f1642befe50>]

### Figures and Subplots

In [4]:
fig = plt.figure()  # matplotlib的图像都位于Figure对象中

<IPython.core.display.Javascript object>

In [5]:
ax1 = fig.add_subplot(2, 2, 1)

In [6]:
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

In [7]:
plt.plot(np.random.randn(50).cumsum(), 'k--')  # k:black  --:虚线
# matplotlib就会在最后一个用过的subplot（如果没有则创建一个）上进行绘制

[<matplotlib.lines.Line2D at 0x7f16425fc850>]

In [8]:
_ = ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

<matplotlib.collections.PathCollection at 0x7f16425ba640>

In [9]:
plt.close('all')

In [10]:
# subplots可以创建一个新的Figure，并返回一个含有已创建的subplot对象的NumPy数组
fig, axes = plt.subplots(2, 3)

<IPython.core.display.Javascript object>

#### 调整subplot周围的间距 
subplots_adjust(left=None, bottom=None, right=None, top=None,
                wspace=None, hspace=None)

wspace和hspace用于控制宽度和高度的百分比，可以用作subplot之间的间距

In [11]:
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)
for i in range(2):
    for j in range(2):
        axes[i, j].hist(np.random.randn(500), bins=50, color='k', alpha=0.5)
plt.subplots_adjust(wspace=0, hspace=0) # 调整subplot周围的间距

<IPython.core.display.Javascript object>

### Colors, Markers, and Line Styles
线样式:
```
'-' 实线样式
'--' 短横线样式
'-.' 点划线样式
':' 虚线样式
```

标记:
```
'.' 点标记
',' 像素标记
'o' 圆标记
'v' 倒三角标记
'^' 正三角标记
'&lt;' 左三角标记
'&gt;' 右三角标记
'1' 下箭头标记
'2' 上箭头标记
'3' 左箭头标记
'4' 右箭头标记
's' 正方形标记
's' 正方形标记
'p' 五边形标记
'*' 星形标记
'h' 六边形标记 1
'H' 六边形标记 2
'+' 加号标记
'x' X 标记
'D' 菱形标记
'd' 窄菱形标记
'&#124;' 竖直线标记
'_' 水平线标记
```
颜色缩写:
```
'b' 蓝色
'g' 绿色
'r' 红色
'c' 青色
'm' 品红色
'y' 黄色
'k' 黑色
'w' 白色
```

ax.plot(x, y, 'g--')

ax.plot(x, y, linestyle='--', color='g')

In [3]:
from numpy.random import randn

plt.figure()
plt.plot(randn(30).cumsum(), 'gh--')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f38d5f20700>]

plot(randn(30).cumsum(), color='k', linestyle='dashed', marker='o')

In [4]:
plt.close('all')

In [6]:
data = np.random.randn(30).cumsum()
plt.plot(data, 'k--', label='Default')
plt.plot(data, 'k-', drawstyle='steps-post', label='steps-post')
plt.legend(loc='best')

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f38d599b310>

In [7]:
plt.plot(data, 'k-', drawstyle='steps-post', label='steps-post')

[<matplotlib.lines.Line2D at 0x7f38d59687c0>]

In [8]:
plt.legend(loc='best')  # 图例 默认使用label信息

<matplotlib.legend.Legend at 0x7f38d593ed30>

### Ticks, Labels, and Legends

#### Setting the title, axis labels, ticks, and ticklabels

#### 使用过程型的pyplot接口（例如，matplotlib.pyplot）以及更为面向对象的原生matplotlib API   
- plt.xlim([0, 10])  -- ax.set_xlim([0, 10])
- plt.xlim()  -- ax.get_xlim()

In [9]:
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.plot(np.random.randn(1000).cumsum())

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f38d593eb80>]

In [10]:
# 设置轴刻度
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
                            rotation=30, fontsize='small')  # 倾斜30度

In [11]:
ax.set_title('My first matplotlib plot')
ax.set_xlabel('Stages')

Text(0.5, 27.079917376808943, 'Stages')

In [12]:
ax.set_ylabel('值')
ax.set_yticks([-35, -25, -15, -5, 5, 15])

[<matplotlib.axis.YTick at 0x7f38d5904d60>,
 <matplotlib.axis.YTick at 0x7f38d5904940>,
 <matplotlib.axis.YTick at 0x7f38d59dac10>,
 <matplotlib.axis.YTick at 0x7f38d5927880>,
 <matplotlib.axis.YTick at 0x7f38d58bcdc0>,
 <matplotlib.axis.YTick at 0x7f38d58c33d0>]

props = {
    'title': 'My first matplotlib plot',
    'xlabel': 'Stages'
}
ax.set(**props)

#### Adding legends

In [13]:
from numpy.random import randn
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(randn(1000).cumsum(), 'k', label='one')
ax.plot(randn(1000).cumsum(), 'g--', label='two')
ax.plot(randn(1000).cumsum(), 'b.', label='three')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f38d58bcaf0>]

In [14]:
ax.legend(loc='best')  # 自动选择最佳位置

<matplotlib.legend.Legend at 0x7f38d40af940>

### axes坐标轴位置

In [22]:
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(np.random.randn(100).cumsum())
# 使用.spines设置边框  set_color 边框颜色  默认白色
ax.spines['right'].set_color('none')  # 右边框
ax.spines['top'].set_color('none')  # 上边框

<IPython.core.display.Javascript object>

In [26]:
# 调整坐标轴刻度数字或名称的位置 top，bottom，both，default，none
ax.xaxis.set_ticks_position('bottom')

In [27]:
# 边框x轴设置边框在y=0位置  outward，axes，data
ax.spines['bottom'].set_position(('data', 0))

In [29]:
# y轴的刻度名称显示在其左侧
ax.yaxis.set_ticks_position('left')

In [31]:
# 设置y轴上边框在x=0的位置
ax.spines['left'].set_position(('data', 0))

### Annotations 标注

In [38]:
x = np.linspace(-3, 3, 50)
y = 2 * x + 1
plt.figure()
plt.plot(x, y)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7f38cf1003a0>]

In [39]:
# 标注出点(x0, y0)
x0 = 1
y0 = 2 * x0 + 1
# 画一条垂直x轴经过(x0, y0)的虚线
plt.plot([x0, x0], [0, y0], '--k', linewidth=2.5)
# 标注 (x0, y0)点
plt.scatter([x0,], [y0,], s=50, color='b')

<matplotlib.collections.PathCollection at 0x7f38ce22a340>

In [40]:
# 对其添加注释 xycoords='data'基于数据的值来选位置
# xytext=(+30, -30) 和 textcoords='offset points' 对于标注位置的描述 和 xy 偏差值
# arrowprops是对图中箭头类型的一些设置
plt.annotate(
    f'$2x+1={y0}$',
    xy=(x0, y0),
    xycoords='data',
    xytext=(+30, -30),
    textcoords='offset points',
    fontsize=16,
    arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=.2'))

Text(30, -30, '$2x+1=3$')

In [41]:
# 添加注释text
plt.text(
    -2.5,
    3,
    r"$This\ is\ the\ simple\ text.\mu\ \sigma_i\ \alpha_t$",
    fontdict={
        'size': 16,
        'color': 'r'
    })

Text(-2.5, 3, '$This\\ is\\ the\\ simple\\ text.\\mu\\ \\sigma_i\\ \\alpha_t$')

### 常见图形的对象  - 块patch

In [48]:
fig = plt.figure(figsize=(8, 6)); ax = fig.add_subplot(1, 1, 1)
# 完整集合 matplotlib.patches
rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color='g', alpha=0.5)
# 添加块
ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

<IPython.core.display.Javascript object>

<matplotlib.patches.Polygon at 0x7f38ce702250>

### Saving Plots to File

plt.savefig('figpath.svg')

plt.savefig('figpath.png', dpi=400, bbox_inches='tight')  # 分辨率 剪除当前图表周围的空白

from io import BytesIO
buffer = BytesIO()
plt.savefig(buffer)
plot_data = buffer.getvalue()

### matplotlib Configuration

plt.rc('figure', figsize=(10, 10))  # 自定义设置  配置文件matplotlibrc

font_options = {'family' : 'monospace',
                'weight' : 'bold',
                'size'   : 'small'}
plt.rc('font', **font_options)

## Plotting with pandas and seaborn

### Line Plots

In [None]:
plt.close('all')

In [None]:
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s.plot()

In [None]:
df = pd.DataFrame(np.random.randn(10, 4).cumsum(0),
                  columns=['A', 'B', 'C', 'D'],
                  index=np.arange(0, 100, 10))
df.plot()
# 线性图 调用DataFrame或Series对象的plot方法 

### Bar Plots

In [None]:
fig, axes = plt.subplots(3, 1)  # 2行1列 
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop'))
data.plot.bar(ax=axes[0], color='k', alpha=0.7)  # 
data.plot.barh(ax=axes[1], color='k', alpha=0.7)  # 水平方向的柱状图
data.value_counts().plot.bar(ax=axes[2], color='g', alpha=0.5)
# Series和DataFrame的索引将会被用作X（bar）或Y（barh）刻度

In [None]:
np.random.seed(12348)

In [None]:
df = pd.DataFrame(np.random.rand(6, 4),
                  index=['one', 'two', 'three', 'four', 'five', 'six'],
                  columns=pd.Index(['A', 'B', 'C', 'D'], name='Genus'))
df
df.plot.bar()

In [None]:
# stacked 为DataFrame生成堆积柱状图 一行的值会被堆积在一起
df.plot.barh(stacked=True, alpha=0.5)

In [None]:
plt.close('all')

In [None]:
tips = pd.read_csv('examples/tips.csv')
party_counts = pd.crosstab(tips['day'], tips['size'])  # 创建一张交叉表
party_counts

In [None]:
# 归一化 令各行和值为1
party_pcts = party_counts.div(party_counts.sum(1), axis=0)
party_pcts

In [None]:
party_pcts.plot.bar()

In [None]:
plt.close('all')

In [None]:
import seaborn as sns
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips

In [None]:
# 参数是关于列的名字
# 将点估计和置信区间显示为矩形条.黑线代表95%置信区间
sns.barplot(x='tip_pct', y='day', data=tips, orient='h')  # 水平方向


In [None]:
plt.close('all')

In [None]:
sns.barplot(x='tip_pct', y='day', hue='time', data=tips, orient='h')  # 根据time列调整色调
# seaborn已经自动修改了图形的美观度：默认调色板，图形背景和网格线的颜色

In [None]:
plt.close('all')

In [None]:
sns.set(style="whitegrid")

### Histograms and Density Plots

##### 直方图（histogram）是一种可以对值频率进行离散化显示的柱状图。数据点被拆分到离散的、间隔均匀的面元中，绘制的是各面元中数据点的数量

In [None]:
tips['tip_pct'].plot.hist(bins=50)  # 水平尺寸相等的矩形对应于类间隔，称为bin

In [None]:
plt.figure()
tips['tip_pct'].plot.hist(bins=[0, 0.25, 0.5])

#### 密度图 计算“可能会产生观测数据的连续概率分布的估计”而产生的。一般的过程是将该分布近似为一组核（即诸如正态分布之类的较为简单的分布）。因此，密度图也被称作KDE（Kernel Density Estimate，核密度估计）图

In [None]:
plt.figure()
tips['tip_pct'].plot.density()

#### seaborn的distplot方法绘制直方图和密度图更加简单，还可以同时画出直方图和连续密度估计图

In [None]:
plt.figure()
comp1 = np.random.normal(0, 1, size=200)
comp2 = np.random.normal(10, 2, size=200)
values = pd.Series(np.concatenate([comp1, comp2]))
sns.distplot(values, bins=100, color='k')

### Scatter or Point Plots

In [None]:
macro = pd.read_csv('examples/macrodata.csv')
data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]
trans_data = np.log(data).diff().dropna()
trans_data[-5:]

#### seaborn的regplot方法，它可以做一个散布图，并加上一条线性回归的线

In [None]:
plt.figure()
sns.regplot('m1', 'unemp', data=trans_data)
plt.title('Changes in log %s versus log %s' % ('m1', 'unemp'))

#### 观察一组变量的散布图是很有意义的，这也被称为散布图矩阵（scatter plot matrix）pairplot函数，它支持在对角线上放置每个变量的直方图或密度估计

In [None]:
sns.pairplot(trans_data, diag_kind='kde', plot_kws={'alpha': 0.2})

### Facet Grids and Categorical Data

#### 有多个分类变量的数据可视化的一种方法是使用小面网格

In [None]:
# Figure-level interface for drawing categorical plots onto a FacetGrid(分面网络).
sns.catplot(x='day', y='tip_pct', hue='time', col='smoker',
               kind='bar', data=tips[tips.tip_pct < 1])

In [None]:
sns.catplot(x='day', y='tip_pct', row='time',  # 给每个时间值添加一行
               col='smoker',
               kind='bar', data=tips[tips.tip_pct < 1])

In [None]:
sns.catplot(x='tip_pct', y='day', kind='box',  # 选择盒图 显示中位数，四分位数，和异常值
               data=tips[tips.tip_pct < 0.5])

## Other Python Visualization Tools

In [None]:
pd.options.display.max_rows = PREVIOUS_MAX_ROWS

## Conclusion