# 综合练习题

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

文件`bankpep.csv`存放着银行储户的基本信息：

| 表头 | 说明 |
| --- | --- |
| id | 编号 |
| age | 年龄 |
| sex | 性别 |
| region | 区域 |
| income | 收入 |
| married | 婚否 |
| children | 孩子数 |
| car | 有车否 |
| save_act | 存款账户 |
| current_act | 现金账户 |
| mortgage | 是否抵押 |
| pep | 接受新业务 |

通过绘图对这些客户数据进行可视化分析。

In [None]:
df = pd.read_csv('data/bankpep.csv')
df.head()

（1）客户年龄分布的直方图和密度图，如下图：

![](./img/客户年龄分布.png)

In [None]:
df['age'].plot(kind='hist', bins=10, density=True, color='lightblue', edgecolor='black')
df['age'].plot(kind='kde', color='blue', title='Customer Age')
plt.xlabel('Age')

plt.show()

（2）客户年龄和收入关系的散点图，如下图：

![](./img/按客户年龄和收入关系绘制的散点图.png)

In [None]:
plt.scatter(df['age'], df['income'], marker='.')

plt.title('Customer Age')
plt.xlabel('Age')
plt.ylabel('Income')
plt.xlim(0, 80)

plt.show()

（3）绘制散点图矩阵观察客户（年龄、收入、孩子数）之间的关系，主对角线上显示直方图，如下图：

![](./img/散点图矩阵.png)

In [None]:
data = df[['age', 'income', 'children']]
data.head()

In [None]:
pd.plotting.scatter_matrix(data, diagonal='hist')
plt.show()

（4）按区域展示客户平均收入的柱状图，并显示标准差，如下图：

![](./img/各区域客户的平均收入.png)

In [None]:
std = df.groupby(['region'])['income'].std()
std

In [None]:
mean = df.groupby(['region'])['income'].mean()
mean

In [None]:
mean.plot(kind='bar', x=df.groupby(['region']), yerr=std, title='Customer Income')

plt.xlabel('Region')
plt.ylabel('Customer Income')

plt.show()

（5）多子图绘制：按客户的性别、有车客户的性别和孩子数占比绘制的饼图，如下图：

![](./img/按客户的性别、有车客户的性别和孩子数占比绘制的饼图.png)

In [None]:
sex_count = df.groupby('sex')['sex'].count()
sex_count

In [None]:
car_sex_count = df[df['car'] == 'YES'].groupby('sex')['sex'].count()
car_sex_count

In [None]:
children_count = df.groupby('children')['children'].count()
children_count

In [None]:
fig = plt.figure()

ax1 = fig.add_subplot(2, 2, 1)
plt.pie(sex_count, labels=['FEMALE','MALE'], startangle=45, autopct='%.1f%%')
plt.title('Customer Sex')
plt.ylabel('Sex')

ax2 = fig.add_subplot(2, 2, 2)
plt.pie(car_sex_count, labels=['FEMALE','MALE'], startangle=45, autopct='%.1f%%')
plt.title('Customer Car Sex')
plt.ylabel('Sex')

ax3 = fig.add_subplot(2, 2, 3)
plt.pie(children_count, labels=[0, 1, 2, 3], startangle=45, autopct='%.1f%%')
plt.title('Customer Children')
plt.ylabel('Children')

plt.show()

（6）按客户的性别、收入绘制的箱形图，如下图：

![](./img/按客户的性别、收入绘制的箱形图.png)

In [None]:
df[['sex', 'income']].boxplot(by='sex')
plt.show()