# 绘图与可视化

In [None]:
import numpy as np
import pandas as pd
import datetime
datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

# 为什么要使用Python进行数据分析

![编程语言排行榜](./language_top.png)来源(https://www.tiobe.com/tiobe-index/)

- 商业统计语言如 SAS，Stata 和 SPSS 的软件的时代已经过去， 大学和研究机构开始采用 Python 和 R 进行统计分析。
- Python作为胶水语言
- 解决“两种语言”问题
- 数据分析重要的Python库
     - NumPy、pandas、matplotlib、IPython和Jupyter、SciPy、scikit-learn、statsmodels

# Matplotlib简介

matplotlib是Python编程语言及其数值数学扩展包 NumPy的可视化操作界面。它利用通用的图形用户界面工具包，如Tkinter, wxPython, Qt或GTK+，向应用程序嵌入式绘图提供了应用程序接口（API）。此外，matplotlib还有一个基于图像处理库（如开放图形库OpenGL）的pylab接口，其设计与MATLAB非常类似。SciPy就是用matplotlib进行图形绘制。

matplotlib最初由John D. Hunter撰写，它拥有一个活跃的开发社区，并且根据BSD样式许可证分发。 在John D. Hunter2012年去世前不久，Michael Droettboom被提名为matplotlib的主要开发者。

# 一个简单的例子

In [None]:
# 引入matplotlib库
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

In [None]:
fig, ax = plt.subplots() # 创建一个包含一个坐标系的画布
ax.plot([1, 2, 3, 4], [1, 4, 2, 3]) # 在坐标系上画出数据

# 图的组成元素

![绘图元素](./people_draw.jpg)

在matplotlib中，图由以下基本元素组成：

- Figure对象 画布
- Axes对象 坐标系 / Subplot子图
- Axis对象 坐标轴
- Artist对象 基本元素



绘图流程基本流程：

1. 创建Figure对象
2. Fgure对象创建一个或多个Axes对象
3. Axes对象的方法来创建各种简单的Artist对象

# 两种绘图方式

matplotlib绘图时，有2种常用的方式，
- 一种是显式创建画布和坐标系对象，然后调用它们方法进行画图（面向对象风格）
- 另外一种是直接使用```pyplot.plot()```函数自动的创建和管理画布、坐标系对象（```pyplot.plot()```函数风格）

## 方式一：面向对象风格，显式依次创建画布->在画布上创建坐标系->在坐标系上画图（推荐）

In [None]:
fig = plt.figure() # 创建画布
ax1 = fig.add_subplot(2,2,1) # 在画布上创建坐标系
ax2 = fig.add_subplot(2,2,2) # 在画布上创建坐标系
ax4 = fig.add_subplot(2,2,4) # 在画布上创建坐标系
ax1.plot(np.arange(10)) # 在坐标系上画图
ax4.plot(np.arange(10),np.arange(10)**2) # 在坐标系上画图
plt.show()

In [None]:
fig, ax = plt.subplots()  # 创建含有1个坐标系的画布
fig, axs = plt.subplots(2, 2)  # 创建含有2*2个坐标系的画布

## 方式二：```pyplot.plot()```函数风格，不显式创建画布、坐标系，直接画图（不推荐）

python matplotlib库是从MATLIB启发而来，所以在设计上保留了许多类似MATLIB风格的交互式接口，```pyplot.plot()```正是其中一个。

当没有显示指定坐标系，直接使用```pyplot.plot()```接口画图时，matplotlib就会在最后一个用过的坐标系画图（如果没有就自动创建一个）。

In [None]:
plt.plot([1,2,3,4],[4,2,1,3])
print('当前Figure画布对象ID:',id(plt.gcf()))
print('当前Axes坐标系对象ID:',id(plt.gca()))

In [None]:
print('当前Figure画布对象ID:',id(plt.gcf()))
print('当前Axes坐标系对象ID:',id(plt.gca()))

## 小结

- 以```pyplot.plot()```为代表的函数式操作，表达简洁，但是没有体现出真正画图的实现过程，例如甚至当没有搞清楚Figure Axes Subplot 等概念的时候，依然可以轻松的用pyplot函数画图。当子图较多的时候，对子图的操作容易陷入混乱，因为从代码上并不能直接观察出到底在操作那张子图。
- 以 ```.plot```为代表的对象式操作，表达明确，分步生成 Figure 和 Axes/Subplot，操作过程直接可以看出是在那张子图上操作。但是缺点就是，需要写的代码比较多，不够简洁。
- 还是看使用场景，假如不需要画子图的时候，用一用简单的pyplot方法也没什么不好。但是初学者最好还是能够坚持先使用Axes对象属性的方法，这样对于画图的实现过程可以加深理解。

# 后端渲染

## matplotlib绘图场景:
- python shell 处理数据
- 图形应用程序用以展示数据
- jupyter用户交互式数据分析
- Web后台服务器批量生成动态数据图片等

## matplotlib拥有多种后端，能轻松处理以上场景：

- 交付式后端：应用于PyQt/PySide, PyGObject, Tkinter, wxPython, macOS/Cocoa 等程序中
- 非交互式后端：用于生成图片文件(PNG, SVG, PDF, PS等)

## 设置matplotlib后端的三种方法：
- 在matplotlibrc文件中设置rcParams["backend"]参数
- 设置MPLBACKEND环境变量
- 使用matplotlib.use()韩式

## jupyter notebook 中使用
```
%matplotlib inline 
```
jupyter魔法函数，设置matpplotlib后端为```inline```。

jupyter中的```inline```后端支持matplotlib画图后直接自动显示图像，不用再额外执行```plt.show()```

In [None]:
%matplotlib inline

In [None]:
plt.plot(range(10))

# plot绘图函数详解

Axes对象的plot()方法比 [pyplot.plot()](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot)函数在参数上更为灵活，pyplot.plot()的调用参数用法一般也适用于 Axes对象的plot()方法。


```
fmt = '[marker][line][color]'

plot([x], y, [fmt], *, data=None, **kwargs) # 参数格式
plot([x], y, [fmt], [x2], y2, [fmt2], ..., **kwargs) # 参数格式

调用示例：
>>> plot(x, y)        # plot x and y using default line style and color
>>> plot(x, y, 'bo')  # plot x and y using blue circle markers
>>> plot(y)           # plot y using x as index array 0..N-1
>>> plot(y, 'r+')     # ditto, but with red plusses

>>> plot(x, y, 'go--', linewidth=2, markersize=12)
>>> plot(x, y, color='green', marker='o', linestyle='dashed',
...      linewidth=2, markersize=12)
```

![绘图元素](https://matplotlib.org/stable/_images/anatomy.png)

In [None]:
t = np.arange(0., 5., 0.2)
# red dashes, blue squares and green triangles
plt.plot(t, t, 'r--', t, t**2, 'bs', t, t**3, 'g^') # fmt = '[marker][line][color]'
plt.title('测试')
plt.ylabel('Y轴')
plt.text(1, 80, r'文本')
plt.grid(True)
plt.show()

# 一些入门例子

In [None]:
t = np.arange(0.0, 2.0, 0.01)
s = 1 + np.sin(2 * np.pi * t)
fig, ax = plt.subplots()
ax.plot(t, s)
ax.set(xlabel='time (s)', ylabel='voltage (mV)',
       title='曲线图')
ax.grid()
plt.show()

In [None]:
x1 = np.linspace(0.0, 5.0)
x2 = np.linspace(0.0, 2.0)

y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)
y2 = np.cos(2 * np.pi * x2)

fig, (ax1, ax2) = plt.subplots(2, 1)
fig.suptitle('2个子图')

ax1.plot(x1, y1, 'o-')
ax1.set_ylabel('Damped oscillation')

ax2.plot(x2, y2, '.-')
ax2.set_xlabel('time (s)')
ax2.set_ylabel('Undamped')

plt.show()

In [None]:
np.random.seed(19680801)
data = np.random.randn(2, 100)

fig, axs = plt.subplots(2, 2, figsize=(5, 5))
axs[0, 0].hist(data[0])
axs[1, 0].scatter(data[0], data[1])
axs[0, 1].plot(data[0], data[1])
axs[1, 1].hist2d(data[0], data[1])
fig.suptitle('4个子图')
plt.show()

In [None]:
Z = np.random.rand(6, 10)
x = np.arange(-0.5, 10, 1)  # len = 11
y = np.arange(4.5, 11, 1)  # len = 7
fig, ax = plt.subplots()
ax.pcolormesh(x, y, Z)
ax.set_title('彩色网格图')
plt.show()

In [None]:
# API doc: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html
np.random.seed(19680801)
# example data
mu = 100  # mean of distribution
sigma = 15  # standard deviation of distribution
x = mu + sigma * np.random.randn(437)
num_bins = 50
fig, ax = plt.subplots()
# the histogram of the data
n, bins, patches = ax.hist(x, num_bins, density=True)
# add a 'best fit' line
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) *
     np.exp(-0.5 * (1 / sigma * (bins - mu))**2))
ax.plot(bins, y, '--')
ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title('直方图')
ax.text(60,0.035,r'IQ: $\mu=100$, $\sigma=15$')
# Tweak spacing to prevent clipping of ylabel
fig.tight_layout()
plt.show()

![](./example.png)

# 现有工作中常用到的例子

In [None]:
pd.read_excel('./data_dict.xls')

In [None]:
data = pd.read_csv('cs-training.csv',index_col=0)

In [None]:
data.shape

In [None]:
data

In [None]:
data.SeriousDlqin2yrs.value_counts()

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve,auc
import toad

In [None]:
data.describe()

In [None]:
data.shape

In [None]:
train, test = train_test_split(data, test_size=1/3, random_state=42)
train.shape,test.shape

In [None]:
combiner = toad.transform.Combiner()
combiner.fit(train,y='SeriousDlqin2yrs',method='dt') # method: 'dt', 'chi', 'quantile', 'step', 'kmeans' 

In [None]:
transer = toad.transform.WOETransformer()
transer.fit(combiner.transform(train,y='SeriousDlqin2yrs'),y='SeriousDlqin2yrs')

In [None]:
train_woe = transer.transform(combiner.transform(train))
test_woe = transer.transform(combiner.transform(test))
train_woe.shape,test_woe.shape

In [None]:
model = LogisticRegression()
X = train_woe.drop(columns='SeriousDlqin2yrs')
y = train_woe['SeriousDlqin2yrs']
model.fit(X,y)

In [None]:
pred_y = model.predict_proba(X)[:,1]

In [None]:
fpr,tpr,_ = roc_curve(y,pred_y,pos_label=1,drop_intermediate=True)

In [None]:
max(abs(fpr-tpr))

In [None]:
max(fpr-tpr)

In [None]:
data.SeriousDlqin2yrs.value_counts()

In [None]:
#------------------------ROC with auc & ks------------------------#
# 数据准备
fpr,tpr,_ = roc_curve(y,pred_y,pos_label=1,drop_intermediate=True)
auc_score = auc(fpr,tpr)
w=tpr-fpr
ks_score=w.max()
ks_x=fpr[w.argmax()]
ks_y=tpr[w.argmax()]
# 开始绘图
fig,ax=plt.subplots()
ax.plot(fpr,tpr,'-b',label='AUC=%.3f'%auc_score)
ax.plot([0,1],[0,1],'--c')
ax.plot([ks_x,ks_x],[ks_x,ks_y],'--r')
ax.text(ks_x,(ks_x+ks_y)/2,' KS=%.3f'%ks_score)
ax.legend()
ax.set_xlabel('fpr')
ax.set_ylabel('tpr')
ax.set_title('ROC')
plt.show()

In [None]:
#------------------------KS------------------------#
# 数据准备
dt = pd.DataFrame({'tpr':tpr,'fpr':fpr})
dt['ks'] = dt['tpr']-dt['fpr']
dt.index = (dt.index+1)/len(dt)
ks_value = dt['ks'].max()
ks_idx = dt['ks'].idxmax()
tpr_value =dt['tpr'].loc[ks_idx]
fpr_value =dt['fpr'].loc[ks_idx]
# 开始绘图
ax = dt.plot(color=['red','green','blue'])
ax.set_title('KS')
ax.axvline(ks_idx,color ='r',linestyle='--')
ax.axhline(ks_value,color ='k',linestyle=':',linewidth=1)
ax.axhline(tpr_value,color='k',linestyle=':',linewidth=1)
ax.axhline(fpr_value,color ='k',linestyle=':',linewidth=1)
ax.text(ks_idx,ks_value+0.03,' KS=%.3f'%ks_value)
ax.set_xlabel('population %')
ax.set_ylabel('tpr/fpr/ks')
plt.show()