## 4. Matplotlib 快速上手：让数据说话


“一图胜千言”。在数据分析中，可视化是探索数据、发现规律、呈现结果的最直观、最有力的方式。本章，我们将学习 Python 数据可视化的基石——Matplotlib。


本章，你将学到：
- **Matplotlib 核心概念**：理解 `Figure` (画布) 和 `Axes` (坐标系) 的关系，以及两种绘图 API 的区别。
- **绘制常用图表**: 掌握折线图、柱状图（含水平）、直方图、散点图、饼图和箱形图的绘制。
- **定制图表元素**: 学会添加标题、标签、图例、网格，以及在图表上添加文本和旋转刻度。
- **多子图布局**: 使用 `subplots` 在一张画布上绘制多个图表。
- **保存图表**: 将你的可视化结果保存为图片文件。

---


### Matplotlib: 可视化的瑞士军刀


Matplotlib 是 Python 生态中最著名、最基础的可视化库。虽然现在有许多更高级、更美观的库（如 Seaborn, Plotly），但它们中的许多都是基于 Matplotlib 构建的。因此，掌握 Matplotlib 的基本原理，能让你更好地理解和控制几乎所有的 Python 可视化工具。


Matplotlib 的设计理念是让你对图表的每一个元素都有完全的控制权，从坐标轴、刻度、标签到颜色、样式，无所不包。这使得它既能快速绘制简单的图表，也能实现高度定制化的复杂可视化。


> **有用链接**:


> - [Matplotlib 官方网站](https://matplotlib.org/)


> - [Matplotlib 官方图库 (寻找灵感的好地方)](https://matplotlib.org/stable/gallery/index.html)

> 📌 **贴士**：本章所有静态配图可通过在命令行运行 `python codes/generate_matplotlib_images.py` 自动生成，图片会保存在 `images/matplotlib/` 目录中。

### 准备工作


通常，我们导入 `matplotlib.pyplot` 模块，并按惯例将其重命名为 `plt`。同时，我们也需要 NumPy 和 Pandas 来准备数据。在 Notebook 中添加 `%matplotlib inline` 魔法命令在现代环境中通常不是必需的。

In [None]:
from pathlib import Path


import matplotlib.pyplot as plt


import numpy as np


import pandas as pd




np.random.seed(42)




plt.rcParams["axes.unicode_minus"] = False

### 一、Matplotlib 的核心：`Figure` 与 `Axes`

在开始画图前，我们需要理解两个核心概念：`Figure` 是最顶层的画布容器，而 `Axes` 则是我们真正绘图的坐标系。一个 Figure 可以包含一个或多个 Axes，就像画框中可以放置多幅画。

最常用的创建方式是 `plt.subplots()`，它一次性返回 `Figure` 和 `Axes` 对象，便于进一步绘图。

| 参数 | 说明 |
| --- | --- |
| `nrows`, `ncols` | 子图的行数和列数。 |
| `figsize` | 画布尺寸（宽, 高），单位为英寸。 |
| `sharex`, `sharey` | 是否共享 X/Y 轴，使多个子图刻度一致。 |
| `constrained_layout` | 自动调整子图布局以避免重叠。 |

In [None]:
fig, ax = plt.subplots(figsize=(6, 4))

plt.show()

### 二、两种绘图接口：面向对象 vs. Pyplot


Matplotlib 同时提供面向对象 (OO) 接口和基于状态的 Pyplot 接口。本教程推荐 OO 风格，因为在复杂图表中更清晰、更可控，但了解 Pyplot 风格有助于阅读他人代码。

In [None]:
x = np.linspace(0, 10, 100)


y = np.sin(x)




fig, ax = plt.subplots()


ax.plot(x, y)


ax.set_title("面向对象 (OO) 风格")


plt.show()




plt.figure()


plt.plot(x, y)


plt.title("Pyplot 风格")


plt.show()

### 三、绘制常见的图表


Matplotlib 支持几乎所有常见的基础图表类型。下面按照场景演示折线图、柱状图、直方图、散点图、饼图和箱形图的绘制。

#### 1. 折线图 (`plot`)

折线图适合展示连续时间或顺序变量的变化趋势。

| 参数 | 说明 |
| --- | --- |
| `x`, `y` | 要绘制的数据序列。 |
| `color` | 线条颜色。 |
| `linestyle` | 线型，例如 `'-'`, `'--'`, `':'`。 |
| `linewidth` | 线宽。 |
| `marker` | 数据点标记样式。 |
| `label` | 图例标签。 |
| `alpha` | 透明度。 |

In [None]:
x_data = np.linspace(0, 10, 100)

y_data = np.sin(x_data)

fig, ax = plt.subplots(figsize=(8, 4))

ax.plot(x_data, y_data, color="steelblue", linewidth=2, marker="o", markevery=10, label="sin(x)")
ax.set_title("简单的正弦函数折线图")
ax.set_xlabel("X 值")
ax.set_ylabel("sin(X)")
ax.legend(loc="best")

plt.show()

#### 2. 柱状图 (`bar` 与 `barh`)

柱状图用于比较不同类别之间的数值差异，类别名称较长时可以考虑水平柱状图。

| 方法 | 常用参数 | 说明 |
| --- | --- | --- |
| `Axes.bar(x, height, width=0.8, color=None, label=None, alpha=None)` | `x`: 类别；`height`: 数值；`width`: 柱体宽度；`color`: 颜色；`label`: 图例标签；`alpha`: 透明度。 | 垂直柱状图。 |
| `Axes.barh(y, width, height=0.8, color=None, label=None, alpha=None)` | `y`: 类别；`width`: 数值；其余参数含义相同。 | 水平柱状图。 |

In [None]:
categories = ["第一季度", "第二季度", "第三季度", "第四季度"]
values = [150, 230, 180, 210]

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 4), constrained_layout=True)

ax1.bar(categories, values, width=0.6, color=["#ff9999", "#66b3ff", "#99ff99", "#ffcc99"], edgecolor="black", label="季度销售")
ax1.set_title("垂直柱状图 (bar)")
ax1.set_ylabel("销售额 (万元)")
ax1.legend()

ax2.barh(categories, values, height=0.6, color=["#ff9999", "#66b3ff", "#99ff99", "#ffcc99"], label="季度销售", alpha=0.8)
ax2.set_title("水平柱状图 (barh)")
ax2.set_xlabel("销售额 (万元)")
ax2.legend(loc="lower right")

fig.suptitle("年度销售额对比")

plt.show()

#### 3. 直方图 (`hist`)

直方图用于查看单个数值型变量的分布情况。

| 参数 | 说明 |
| --- | --- |
| `x` | 输入数据。 |
| `bins` | 分箱的数量或边界。 |
| `range` | 分箱范围。 |
| `density` | 是否显示概率密度。 |
| `color` | 柱体颜色。 |
| `alpha` | 透明度。 |
| `edgecolor` | 柱体边框颜色。 |

In [None]:
data = np.random.randn(1000)

fig, ax = plt.subplots(figsize=(7, 4))
ax.hist(data, bins=30, range=(-4, 4), color="#66b3ff", alpha=0.8, edgecolor="black")
ax.set_title("随机数据的分布直方图")
ax.set_xlabel("数值")
ax.set_ylabel("频数")

plt.show()

#### 4. 散点图 (`scatter`)

散点图用于观察两个数值变量之间的关系。

| 参数 | 说明 |
| --- | --- |
| `x`, `y` | 点的坐标。 |
| `s` | 点的大小。 |
| `c` | 点的颜色或数值列。 |
| `cmap` | 当 `c` 为数值时使用的颜色映射。 |
| `alpha` | 透明度。 |
| `edgecolors` | 点的边框颜色。 |
| `label` | 图例标签。 |

In [None]:
x_scatter = np.random.rand(50) * 10
y_scatter = 2 * x_scatter + 1 + np.random.randn(50) * 2
sizes = (np.random.rand(50) * 80) + 20

fig, ax = plt.subplots(figsize=(6, 4))
ax.scatter(x_scatter, y_scatter, s=sizes, c=x_scatter, cmap="viridis", alpha=0.7, edgecolors="black", label="样本点")
ax.set_title("X 和 Y 的散点关系图")
ax.set_xlabel("变量 X")
ax.set_ylabel("变量 Y")
ax.grid(True)
ax.legend(loc="upper left")

plt.show()

#### 5. 饼图 (`pie`)

饼图用于展示各部分占整体的比例，但当类别过多时可读性较差。

| 参数 | 说明 |
| --- | --- |
| `x` | 每个扇区的数值。 |
| `explode` | 突出显示某些扇区的偏移量。 |
| `labels` | 扇区标签。 |
| `autopct` | 百分比格式字符串。 |
| `startangle` | 起始角度。 |
| `shadow` | 是否添加阴影。 |
| `colors` | 自定义配色。 |
| `pctdistance` | 百分比文本距离圆心的比例。 |

In [None]:
labels = ["市场部", "研发部", "销售部", "行政部"]
sizes = [15, 30, 45, 10]
explode = (0, 0, 0.1, 0)
colors = ["#ff9999", "#66b3ff", "#ffcc99", "#99ff99"]

fig, ax = plt.subplots()
ax.pie(
    sizes,
    explode=explode,
    labels=labels,
    colors=colors,
    autopct="%1.1f%%",
    shadow=True,
    startangle=90,
    pctdistance=0.8
)
ax.axis("equal")
ax.set_title("公司各部门人数占比")

plt.show()

#### 6. 箱形图 (`boxplot`)

箱形图展示数据的中位数、四分位数以及潜在的异常值。

| 参数 | 说明 |
| --- | --- |
| `x` | 要绘制的数据序列（或序列列表）。 |
| `notch` | 是否绘制凹口以观察置信区间。 |
| `vert` | 是否垂直显示。 |
| `patch_artist` | 是否允许填充颜色。 |
| `tick_labels` | 每个箱子的标签。 |
| `showfliers` | 是否显示异常值。 |
| `widths` | 箱体宽度。 |

In [None]:
np.random.seed(10)
data1 = np.random.normal(100, 10, 200)
data2 = np.random.normal(80, 30, 200)
data3 = np.random.normal(90, 20, 200)
data_to_plot = [data1, data2, data3]

fig, ax = plt.subplots()
bp = ax.boxplot(
    data_to_plot,
    patch_artist=True,
    tick_labels=["A产品", "B产品", "C产品"],
    showfliers=True,
    widths=0.6
)

colors = ["#99ff99", "#66b3ff", "#ff9999"]
for patch, color in zip(bp["boxes"], colors):
    patch.set_facecolor(color)

ax.set_title("不同产品销售额分布对比")
ax.set_ylabel("销售额")
ax.yaxis.grid(True)

plt.show()

### 四、定制你的图表：让信息更清晰


为图表添加标题、标签、图例、网格或文本注解，可以显著提升可读性。下面通过几个示例演示常见的定制技巧。

#### 1. 添加标题、标签和图例


通过 `ax.set_title`、`ax.set_xlabel`、`ax.set_ylabel` 以及 `ax.legend()` 可以让图表表达更明确。

In [None]:
x = np.linspace(0, 2 * np.pi, 100)


y1 = np.sin(x)


y2 = np.cos(x)




fig, ax = plt.subplots()


ax.plot(x, y1, label="sin(x)")


ax.plot(x, y2, label="cos(x)", linestyle="--")


ax.set_title("正弦与余弦函数图像")


ax.set_xlabel("X 轴 (弧度)")


ax.set_ylabel("Y 轴 (值)")


ax.legend()


plt.show()

#### 2. 调整样式、颜色和网格


可以在 `plot` 中直接指定颜色、线型与标记，并通过 `ax.grid`、`ax.set_xlim` 等方法微调图表细节。

In [None]:
fig, ax = plt.subplots()


ax.plot(x, y1, label="sin(x)", color="blue", linestyle="-", marker="o", markersize=2)


ax.plot(x, y2, label="cos(x)", color="red", linestyle=":")


ax.grid(True, linestyle=":", alpha=0.6)


ax.set_xlim(0, 2 * np.pi)


ax.set_ylim(-1.5, 1.5)


ax.set_title("定制化样式的图表")


ax.legend()


plt.show()

#### 3. 添加文本注解和旋转刻度


当类别标签过长或需要突出某些点时，可以结合 `ax.tick_params` 和 `ax.text` 来标注细节。

In [None]:
categories = ["非常不满意", "不满意", "一般", "满意", "非常满意"]


values = [5, 25, 50, 120, 200]




fig, ax = plt.subplots(figsize=(8, 5))


bars = ax.bar(categories, values, color="#66b3ff")


ax.tick_params(axis="x", rotation=45)




for bar in bars:


    yval = bar.get_height()


    ax.text(bar.get_x() + bar.get_width() / 2.0, yval, int(yval), va="bottom", ha="center")




ax.set_title("客户满意度调查结果")


ax.set_ylabel("投票数")


fig.tight_layout()


plt.show()

### 五、多子图布局 (`subplots`)

当你想将多个相关的图表并排比较时，`plt.subplots()` 提供了最直接的入口，可以一次性创建带有多个坐标轴的画布。



| 参数 | 说明 |

| --- | --- |

| `nrows`, `ncols` | 子图网格的行列数。 |

| `figsize` | 整个画布的宽和高（单位英寸）。 |

| `sharex`, `sharey` | 是否在多个子图之间共享坐标轴。 |

| `squeeze` | 控制返回的 `axes` 维度；设为 `False` 时总是返回二维数组。 |

| `gridspec_kw` | 传递给底层 `GridSpec` 的字典，用于更精细地控制布局。 |



下面的例子展示了如何在一个 2×2 的子图网格中绘制四种不同类型的图表。

In [None]:
fig, axes = plt.subplots(

    nrows=2,

    ncols=2,

    figsize=(10, 8),

    constrained_layout=True,

    squeeze=True

)



# `axes` 是一个 2x2 的数组，逐个子图进行绘制

axes[0, 0].plot(np.sin(np.linspace(0, 10, 100)))

axes[0, 0].set_title("折线图")



axes[0, 1].bar(["A", "B", "C"], [3, 5, 2])

axes[0, 1].set_title("柱状图")



axes[1, 0].hist(np.random.randn(500), bins=20)

axes[1, 0].set_title("直方图")



axes[1, 1].scatter(np.random.rand(50), np.random.rand(50))

axes[1, 1].set_title("散点图")



plt.show()

### 六、保存图表

将图表保存到文件中只需要调用 `Figure.savefig()` 方法。常见的参数可以帮助你控制输出的分辨率、边距和背景色。



| 方法 | 常用参数 | 说明 |

| --- | --- | --- |

| `Figure.savefig(fname, dpi=None, bbox_inches=None, facecolor=None, transparent=False)` | `fname`: 输出路径；`dpi`: 分辨率；`bbox_inches`: 调整图像边界；`facecolor`: 背景颜色；`transparent`: 是否使用透明背景。 |



下面的示例会在 `images/matplotlib` 目录下保存一张 300 DPI 的图像。

In [None]:
output_path = Path("images/matplotlib")

output_path.mkdir(parents=True, exist_ok=True)



fig, ax = plt.subplots(figsize=(6, 4))

x = np.linspace(0, 2 * np.pi, 100)

y1 = np.sin(x)

ax.plot(x, y1, label="sin(x)")

ax.set_title("保存这张图")

ax.legend()



save_path = output_path / "figure_4_12_saved_plot.png"

fig.savefig(

    save_path,

    dpi=300,

    bbox_inches="tight",

    facecolor="white",

    transparent=False

)

plt.show()



print(f"图表已保存为 {save_path}")

---


**实践小结**：你已经学会使用 Matplotlib 绘制常见图表、定制样式以及导出结果。接下来可以尝试将这些图表与 Pandas 数据处理流程结合，构建完整的数据故事。