# 图表

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

## 折线图Line Plot

折线图用于描述数据的**变化趋势**。

一周内温度变化情况：

In [None]:
days = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
temperatures = [22, 24, 19, 23, 25, 26, 21]

plt.plot(days, temperatures)

plt.title('一周温度变化')
plt.xlabel('星期')
plt.ylabel('温度（℃）')
plt.legend(['温度'], loc='upper right')

plt.show()

一张图中还可以绘制多个折线。

绘制$ y = 0.5x $、$ y = sin(x) $、$ y = e^{-x} $的函数图像：

In [None]:
x = np.linspace(0, 2 * np.pi, 50)
x

In [None]:
y1 = 0.5 * x
y1

In [None]:
y2 = np.sin(x)
y2

In [None]:
y3 = np.exp(-x)
y3

In [None]:
plt.plot(x, y1)
plt.plot(x, y2)
plt.plot(x, y3)

plt.title('函数图像')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(['0.5x', 'sin(x)', 'exp(-x)'], loc='upper left')

plt.show()

`Matplotlib`默认会用不同颜色绘制每条折线。

也可以使用`color`参数（可简写为`c`）自定义折线颜色：

`color`参数的取值为：

1. 颜色缩写：`r`/`red`, `g`/`green`, `b`/`blue`, `w`/`white`, `y`/`yellow`, `c`/`cyan`, `m`/`magenta`, `k`/`black`等

2. RGB值：`#000000` ~ `#FFFFFF`

![](./img/colors.png)

In [None]:
plt.plot(x, y1, color='red')
plt.plot(x, y2, color='c')
plt.plot(x, y3, c='#24bc39')

plt.title('函数图像')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(['0.5x', 'sin(x)', 'exp(-x)'], loc='upper left')

plt.show()

`linewidth`参数可以设置线条的宽度。

`linestyle`参数可以设置线条的类型：

- `-`：实线
- `--`：虚线
- `-.`：点线
- `:`：点状虚线

In [None]:
plt.plot(x, y1, color='red', linewidth=5, linestyle='--')
plt.plot(x, y2, color='c', linestyle='-.')
plt.plot(x, y3, c='#24bc39', linestyle=':')

plt.title('函数图像')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(['0.5x', 'sin(x)', 'exp(-x)'], loc='upper left')

plt.show()

【例】`FINAL_USO.csv`为2011-12-15至2018-12-31的黄金价格，绘制出每日**最低价**和**最高价**的走势图

【提示】`pd.to_datetime()`用于转换为日期类型

In [None]:
df = pd.read_csv('data/FINAL_USO.csv')
df.head()

In [None]:
df.info()

In [None]:
df['Date'] = pd.to_datetime(df['Date'])
df.info()

In [None]:
plt.plot(df['Date'], df['Low'], color='green')
plt.plot(df['Date'], df['High'], color='red')

plt.title('黄金价格')
plt.xlabel('日期')
plt.ylabel('价格')
plt.legend(['最低价', '最高价'], loc='upper right')

plt.show()

## 散点图Scatter Plot

散点图用于观察两个变量之间的关系。

观察学生身高和体重之间的关系：

In [None]:
df = pd.read_csv('data/students.csv', index_col='No.')
df.head(10)

In [None]:
plt.scatter(df['Height'], df['Weight'])

plt.title('学生身高体重关系')
plt.xlabel('身高（cm）')
plt.ylabel('体重（kg）')
plt.grid()

plt.show()

`marker`参数用于设置数据点的类型：

- `.`：点
- `o`：实心圈
- `v`：倒三角
- `^`：正三角
- `<`：左三角
- `>`：右三角
- `1`：下花三角
- `2`：上花三角
- `3`：左花三角
- `4`：右花三角
- `s`：实心正方形
- `p`：实心五边形
- `*`：五星形
- `h`/`H`：竖/横六边形
- `|`：垂直线
- `+`：十字
- `x`：叉
- `D`：菱形
- `d`：瘦菱形

In [None]:
plt.scatter(df['Height'], df['Weight'], marker='*')

plt.title('学生身高体重关系')
plt.xlabel('身高（cm）')
plt.ylabel('体重（kg）')
plt.grid()

plt.show()

总体来看，身高和体重具有正相关性。

为了进一步分析性别和身高体重的关系，需要将数据根据性别分类。

In [None]:
df_male = df[df['Gender'] == 'male']
df_female = df[df['Gender'] == 'female']

`label`参数用于设置数据点的标签名称。

In [None]:
plt.scatter(df_male['Height'], df_male['Weight'], c='b', marker='*', label='男')
plt.scatter(df_female['Height'], df_female['Weight'], c='r', marker='o', label='女')

plt.title('学生身高体重关系')
plt.xlabel('身高（cm）')
plt.ylabel('体重（kg）')
plt.grid()
plt.legend()

plt.show()

【例】`icecream_sales.csv`记录了不同气温下冰激凌的销售额。20℃以下用蓝点表示，20℃用红色表示

【提示】需要**数据清洗**和**修改类型**

In [None]:
df = pd.read_csv('data/icecream_sales.csv')
df

In [None]:
df['Temperature'] = df['Temperature'].str.replace('°C', '')
df['Sales'] = df['Sales'].str.replace('$', '')
df = df.astype({'Temperature': 'float', 'Sales': 'float'})
df

In [None]:
df_temperature_20_higher = df[df['Temperature'] >= 20]
df_temperature_20_lower = df[df['Temperature'] < 20]

In [None]:
plt.scatter(df_temperature_20_higher['Temperature'], df_temperature_20_higher['Sales'], c='r', marker='o', label='>=20℃')
plt.scatter(df_temperature_20_lower['Temperature'], df_temperature_20_lower['Sales'], c='b', marker='s', label='<20℃')

plt.title('冰淇淋销量与温度关系')
plt.xlabel('温度（℃）')
plt.ylabel('销量（USD）')
plt.legend()

plt.show()

## 柱状图Bar Chart

柱状图用于对不同分组进行比较。

统计学生来自的不同省份的数量：

In [None]:
df = pd.read_csv('data/students.csv')
df.head()

In [None]:
df_province = df.groupby('Province').size()
df_province

In [None]:
plt.bar(df_province.index, df_province.values)

plt.title('学生省份分布')
plt.xlabel('省份')
plt.ylabel('人数')
plt.xticks(rotation=90)
plt.yticks(np.arange(0, 6))

plt.show()

`width`参数可以设置柱的宽度：

In [None]:
plt.bar(df_province.index, df_province.values, color='hotpink', width=0.5)

plt.title('学生省份分布')
plt.xlabel('省份')
plt.ylabel('人数')
plt.xticks(rotation=90)
plt.yticks(np.arange(0, 6))

plt.show()

`plt.barh()`可生成横向的柱状图。横向柱状图的宽度使用`height`设置。

In [None]:
plt.barh(df_province.index, df_province.values, color='tomato', height=0.5)

plt.title('学生省份分布')
plt.xlabel('人数')
plt.ylabel('省份')
plt.xticks(np.arange(0, 6))

plt.show()

【例】根据`students.csv`，统计不同年龄的学生个数

In [None]:
df = pd.read_csv('data/students.csv')
df.head()

In [None]:
df_age = df.groupby('Age').size()
df_age

In [None]:
plt.bar(df_age.index, df_age.values)

plt.title('学生年龄分布')
plt.xlabel('年龄')
plt.ylabel('人数')
plt.xticks(np.arange(18, 24))

plt.show()

如果要显示每个柱的精确值，需要使用`plt.text()`自行设置位置。

In [None]:
plt.bar(df_age.index, df_age.values, width=0.5)

for age, value in zip(df_age.index, df_age.values):
    plt.text(x=age, y=value + 0.3, s=f'{value}', ha='center')
    
plt.title('学生年龄分布')
plt.xlabel('年龄')
plt.ylabel('人数')
plt.xticks(np.arange(18, 24))

plt.show()

## 直方图Histogram

直方图用于统计数据频率。

`edgecolor`参数用于设置边框颜色。

In [None]:
data = np.random.randint(0, 50, size=100)

plt.hist(data, bins=50, color='purple', edgecolor='black')

plt.title('数据出现频率')
plt.xlabel('数据')
plt.ylabel('频率')

plt.show()

【例】使用正态分布生成10000个学生的身高，均值为171.4、标准差为11.3

In [None]:
heights = np.random.normal(171.4, 11.3, size=10000)

plt.hist(heights, bins=50, color='purple', edgecolor='black')

plt.title('身高分布')
plt.xlabel('身高（cm）')
plt.ylabel('频数')

plt.show()

## 饼图Pie Chart

饼图用于描述不同类别数据的占比。

手机操作系统市场占比：

In [None]:
df = pd.DataFrame({
    'OS': ['Android', 'iOS', 'Others'],
    'Market': [69.44, 29.89, 0.67]
})

df

In [None]:
plt.pie(df['Market'], labels=df['OS'])
plt.title('手机操作系统市场份额')
plt.show()

`autopct`参数用于设置具体的百分比。

`colors`参数用于设置每个类别的颜色。

In [None]:
plt.pie(df['Market'], labels=df['OS'], autopct='%.2f%%', colors=['orange', 'lightgreen', 'red'])
plt.title('手机操作系统市场份额')
plt.show()

`startangle`参数用于设置开始角度：

In [None]:
plt.pie(df['Market'], labels=df['OS'], startangle=45, autopct='%.2f%%', colors=['orange', 'lightgreen', 'red'])
plt.title('手机操作系统市场份额')
plt.show()

`explode`参数用于设置每个部分离开中心的距离：

In [None]:
plt.pie(df['Market'], labels=df['OS'], explode=[0.2, 0.6, 0.4], startangle=45, autopct='%.2f%%', colors=['orange', 'lightgreen', 'red'])
plt.title('手机操作系统市场份额')
plt.show()

【例】根据`students.csv`，统计不同年龄学生的占比

In [None]:
df = pd.read_csv('data/students.csv')
df.head()

In [None]:
df_age = df.groupby('Age').size()
df_age

In [None]:
plt.pie(df_age.values, labels=df_age.index, autopct='%d%%')
plt.title('学生年龄分布')
plt.show()

## 箱型图Box Plot

箱型图适用于查看数据的分位数分布，可以直观地找到数据中的异常值。

它将样本居中的`50％`数据用一个长方形表示，较小和较大的四分之一值各用一根线表示，异常值用`o`表示。

In [None]:
df = pd.read_csv('data/students.csv')
df.head()

In [None]:
plt.boxplot(df['Weight'])
plt.title('学生体重分布')
plt.show()

![](./img/boxplot.png)

【例】根据`studentsInfo.csv`，查看学生月生活费的分布情况

In [None]:
df = pd.read_csv('data/studentsInfo.csv')
df.head()

In [None]:
df.isnull().any()

In [None]:
df.dropna(subset=['月生活费'], inplace=True)
df.isnull().any()

In [None]:
plt.boxplot(df['月生活费'])
plt.title('学生月生活费分布')
plt.show()