# Matplotlib数据可视化完全教程

本笔记本将全面介绍Matplotlib——Python中最重要的数据可视化库，包括：

- **基础绘图**: 线图、散点图、柱状图、饼图等
- **图形自定义**: 样式设置、颜色、标记、标签
- **多子图布局**: subplot、GridSpec、面向对象接口
- **高级图表**: 3D绘图、动画、交互式图表
- **数据可视化最佳实践**: 设计原则、颜色选择、可读性
- **与其他库集成**: pandas、seaborn、plotly
- **实际项目案例**: 科学数据可视化、商业报表、学术图表

Matplotlib是数据科学、机器学习和科学计算中不可或缺的工具，掌握它将大大提升你的数据分析和展示能力。

In [None]:
# 导入必要的库
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np
import pandas as pd
from datetime import datetime, timedelta
import warnings

# 设置中文字体支持
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 设置默认图形参数
plt.rcParams['figure.figsize'] = (10, 6)  # 默认图形大小
plt.rcParams['figure.dpi'] = 100           # 图形分辨率
plt.rcParams['savefig.dpi'] = 300          # 保存图形分辨率
plt.rcParams['font.size'] = 12             # 默认字体大小

# 忽略一些常见警告
warnings.filterwarnings('ignore')

print("=== Matplotlib环境配置 ===")
print(f"Matplotlib版本: {mpl.__version__}")
print(f"后端 (Backend): {mpl.get_backend()}")
print(f"默认字体: {plt.rcParams['font.family']}")
print(f"中文字体: {plt.rcParams['font.sans-serif']}")

# 验证中文显示
fig, ax = plt.subplots(figsize=(8, 4))
ax.text(0.5, 0.5, '中文测试：数据可视化', 
        ha='center', va='center', fontsize=16, 
        transform=ax.transAxes)
ax.set_title('Matplotlib中文字体测试')
ax.set_xlim(0, 1)
ax.set_ylim(0, 1)
plt.show()

print("✓ 环境配置完成！如果上图显示中文正常，则可以继续学习。")

# 基础折线图
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)

plt.figure(figsize=(10, 6))
plt.plot(x, y1, label='sin(x)', linewidth=2)
plt.plot(x, y2, label='cos(x)', linewidth=2, linestyle='--')
plt.xlabel('x值')
plt.ylabel('y值')
plt.title('三角函数图像')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## 1. Matplotlib基础概念

### 1.1 Figure和Axes的层次结构

Matplotlib采用分层的图形对象模型：

- **Figure**: 整个图形窗口，可以包含多个子图
- **Axes**: 单个子图，包含数据、坐标轴、标签等
- **Artist**: 图形中的所有可见元素（线条、文本、标记等）

### 1.2 两种编程接口

1. **pyplot接口** (类似MATLAB): 简单快速，适合交互式分析
2. **面向对象接口**: 更强大灵活，适合复杂图形和程序化应用

让我们从最基础的图表开始学习。

In [None]:
# 创建示例数据
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = np.sin(x) * np.exp(-x/10)

print("=== 第一个matplotlib图表 ===")

# 方法1: pyplot接口 (类似MATLAB)
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)  # 1行2列的第1个子图
plt.plot(x, y1, label='sin(x)', linewidth=2)
plt.plot(x, y2, label='cos(x)', linewidth=2)
plt.title('pyplot接口示例')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.grid(True, alpha=0.3)

# 方法2: 面向对象接口 (推荐)
fig, ax = plt.subplots(1, 1, figsize=(6, 4))
ax.plot(x, y1, label='sin(x)', linewidth=2, color='blue')
ax.plot(x, y3, label='sin(x)·exp(-x/10)', linewidth=2, color='red')
ax.set_title('面向对象接口示例')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("两种接口的比较:")
print("pyplot接口: 简单直观，适合快速绘图")
print("面向对象接口: 更精确的控制，适合复杂图形和函数封装")

# 演示基本图形元素
print("\n=== 图形元素解析 ===")
fig, ax = plt.subplots(figsize=(10, 6))

# 绘制数据
line = ax.plot(x, y1, 'b-', linewidth=3, label='数据线条')

# 设置标题和标签
ax.set_title('图形元素示例', fontsize=16, fontweight='bold')
ax.set_xlabel('x轴标签', fontsize=14)
ax.set_ylabel('y轴标签', fontsize=14)

# 设置坐标轴范围
ax.set_xlim(0, 10)
ax.set_ylim(-1.5, 1.5)

# 添加网格
ax.grid(True, linestyle='--', alpha=0.7)

# 添加图例
ax.legend(fontsize=12)

# 添加注释
ax.annotate('最大值', xy=(np.pi/2, 1), xytext=(2, 1.3),
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=12, color='red')

# 添加文本
ax.text(7, -1.2, '这是文本注释', fontsize=12, 
        bbox=dict(boxstyle="round,pad=0.3", facecolor="yellow", alpha=0.7))

plt.show()

print("✓ 基础概念学习完成！")

## 2. 基本图表类型

掌握各种基本图表类型是数据可视化的基础。每种图表都有其特定的用途和适用场景。

In [None]:
# 2.1 线图 (Line Plot) - 显示趋势和连续数据
print("=== 线图 (Line Plot) ===")

# 创建时间序列数据
dates = pd.date_range('2023-01-01', '2023-12-31', freq='D')
stock_price = 100 + np.cumsum(np.random.randn(len(dates)) * 0.5)
volume = np.random.randint(1000, 5000, len(dates))

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 基础线图
axes[0, 0].plot(dates[:30], stock_price[:30])
axes[0, 0].set_title('基础线图')
axes[0, 0].set_ylabel('股价')
axes[0, 0].tick_params(axis='x', rotation=45)

# 多条线图
axes[0, 1].plot(dates[:30], stock_price[:30], label='原始数据', linewidth=1)
axes[0, 1].plot(dates[:30], pd.Series(stock_price[:30]).rolling(7).mean(), 
                label='7日移动平均', linewidth=2)
axes[0, 1].set_title('多条线对比')
axes[0, 1].set_ylabel('股价')
axes[0, 1].legend()
axes[0, 1].tick_params(axis='x', rotation=45)

# 不同线型和标记
line_styles = ['-', '--', '-.', ':']
markers = ['o', 's', '^', 'D']
x_sample = np.arange(10)

for i, (style, marker) in enumerate(zip(line_styles, markers)):
    y_sample = np.random.randn(10) + i
    axes[1, 0].plot(x_sample, y_sample, linestyle=style, marker=marker, 
                    markersize=6, label=f'Style {i+1}')

axes[1, 0].set_title('线型和标记样式')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 颜色和透明度
colors = ['red', 'blue', 'green', 'orange']
alphas = [0.3, 0.5, 0.7, 1.0]

for i, (color, alpha) in enumerate(zip(colors, alphas)):
    y_sample = np.sin(x_sample + i) + i * 0.5
    axes[1, 1].plot(x_sample, y_sample, color=color, alpha=alpha, 
                    linewidth=3, label=f'Alpha {alpha}')

axes[1, 1].set_title('颜色和透明度')
axes[1, 1].legend()

plt.tight_layout()
plt.show()

print("线图适用场景:")
print("- 时间序列数据")
print("- 连续数值趋势")
print("- 多变量对比")
print("- 函数曲线")

In [None]:
# 2.2 散点图 (Scatter Plot) - 显示两个变量之间的关系
print("\n=== 散点图 (Scatter Plot) ===")

# 生成相关数据
np.random.seed(42)
n_points = 200
x_scatter = np.random.randn(n_points)
y_scatter = 2 * x_scatter + np.random.randn(n_points) * 0.5
colors = np.random.rand(n_points)
sizes = np.random.randint(20, 200, n_points)

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 基础散点图
axes[0, 0].scatter(x_scatter, y_scatter, alpha=0.6)
axes[0, 0].set_title('基础散点图')
axes[0, 0].set_xlabel('X变量')
axes[0, 0].set_ylabel('Y变量')

# 彩色散点图
scatter = axes[0, 1].scatter(x_scatter, y_scatter, c=colors, cmap='viridis', alpha=0.7)
axes[0, 1].set_title('彩色散点图')
axes[0, 1].set_xlabel('X变量')
axes[0, 1].set_ylabel('Y变量')
plt.colorbar(scatter, ax=axes[0, 1])

# 大小变化的散点图
axes[1, 0].scatter(x_scatter, y_scatter, s=sizes, alpha=0.6, c='red')
axes[1, 0].set_title('大小变化的散点图')
axes[1, 0].set_xlabel('X变量')
axes[1, 0].set_ylabel('Y变量')

# 分类散点图
categories = np.random.choice(['A', 'B', 'C'], n_points)
colors_cat = {'A': 'red', 'B': 'blue', 'C': 'green'}

for category in ['A', 'B', 'C']:
    mask = categories == category
    axes[1, 1].scatter(x_scatter[mask], y_scatter[mask], 
                      c=colors_cat[category], label=f'类别 {category}', alpha=0.7)

axes[1, 1].set_title('分类散点图')
axes[1, 1].set_xlabel('X变量')
axes[1, 1].set_ylabel('Y变量')
axes[1, 1].legend()

plt.tight_layout()
plt.show()

print("散点图适用场景:")
print("- 变量相关性分析")
print("- 聚类结果可视化")
print("- 异常值检测")
print("- 分布模式观察")

# 2.3 柱状图 (Bar Plot) - 比较分类数据
print("\n=== 柱状图 (Bar Plot) ===")

# 创建分类数据
categories = ['产品A', '产品B', '产品C', '产品D', '产品E']
sales_q1 = [150, 200, 180, 220, 170]
sales_q2 = [160, 210, 190, 200, 180]
sales_q3 = [140, 190, 200, 230, 185]
sales_q4 = [170, 220, 210, 240, 195]

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 基础柱状图
axes[0, 0].bar(categories, sales_q1, color='skyblue')
axes[0, 0].set_title('基础柱状图 - Q1销售额')
axes[0, 0].set_ylabel('销售额 (万元)')
axes[0, 0].tick_params(axis='x', rotation=45)

# 分组柱状图
x_pos = np.arange(len(categories))
width = 0.2

axes[0, 1].bar(x_pos - 1.5*width, sales_q1, width, label='Q1', alpha=0.8)
axes[0, 1].bar(x_pos - 0.5*width, sales_q2, width, label='Q2', alpha=0.8)
axes[0, 1].bar(x_pos + 0.5*width, sales_q3, width, label='Q3', alpha=0.8)
axes[0, 1].bar(x_pos + 1.5*width, sales_q4, width, label='Q4', alpha=0.8)

axes[0, 1].set_title('分组柱状图 - 季度对比')
axes[0, 1].set_ylabel('销售额 (万元)')
axes[0, 1].set_xticks(x_pos)
axes[0, 1].set_xticklabels(categories, rotation=45)
axes[0, 1].legend()

# 堆叠柱状图
axes[1, 0].bar(categories, sales_q1, label='Q1')
axes[1, 0].bar(categories, sales_q2, bottom=sales_q1, label='Q2')
axes[1, 0].bar(categories, sales_q3, 
               bottom=np.array(sales_q1) + np.array(sales_q2), label='Q3')
axes[1, 0].bar(categories, sales_q4, 
               bottom=np.array(sales_q1) + np.array(sales_q2) + np.array(sales_q3), 
               label='Q4')

axes[1, 0].set_title('堆叠柱状图 - 累计销售额')
axes[1, 0].set_ylabel('销售额 (万元)')
axes[1, 0].tick_params(axis='x', rotation=45)
axes[1, 0].legend()

# 水平柱状图
axes[1, 1].barh(categories, sales_q1, color='lightcoral')
axes[1, 1].set_title('水平柱状图 - Q1销售额')
axes[1, 1].set_xlabel('销售额 (万元)')

plt.tight_layout()
plt.show()

print("柱状图适用场景:")
print("- 分类数据比较")
print("- 排名展示")
print("- 频数分布")
print("- 时期对比")

In [None]:
# 2.4 直方图 (Histogram) - 显示数据分布
print("\n=== 直方图 (Histogram) ===")

# 生成不同分布的数据
np.random.seed(42)
normal_data = np.random.normal(100, 15, 1000)
exponential_data = np.random.exponential(2, 1000)
uniform_data = np.random.uniform(50, 150, 1000)

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 基础直方图
axes[0, 0].hist(normal_data, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
axes[0, 0].set_title('正态分布直方图')
axes[0, 0].set_xlabel('数值')
axes[0, 1].set_ylabel('频次')

# 多个分布对比
axes[0, 1].hist(normal_data, bins=30, alpha=0.5, label='正态分布', density=True)
axes[0, 1].hist(uniform_data, bins=30, alpha=0.5, label='均匀分布', density=True)
axes[0, 1].set_title('多分布对比 (密度)')
axes[0, 1].set_xlabel('数值')
axes[0, 1].set_ylabel('密度')
axes[0, 1].legend()

# 累积直方图
axes[1, 0].hist(normal_data, bins=30, cumulative=True, alpha=0.7, color='green')
axes[1, 0].set_title('累积直方图')
axes[1, 0].set_xlabel('数值')
axes[1, 0].set_ylabel('累积频次')

# 2D直方图
x_2d = np.random.randn(1000)
y_2d = x_2d + np.random.randn(1000) * 0.5
h = axes[1, 1].hist2d(x_2d, y_2d, bins=20, cmap='Blues')
axes[1, 1].set_title('2D直方图')
axes[1, 1].set_xlabel('X变量')
axes[1, 1].set_ylabel('Y变量')
plt.colorbar(h[3], ax=axes[1, 1])

plt.tight_layout()
plt.show()

# 2.5 饼图 (Pie Chart) - 显示比例关系
print("\n=== 饼图 (Pie Chart) ===")

# 创建市场份额数据
companies = ['Apple', 'Samsung', 'Huawei', 'Xiaomi', '其他']
market_share = [25, 22, 15, 12, 26]
colors = ['#ff9999', '#66b3ff', '#99ff99', '#ffcc99', '#ff99cc']

fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# 基础饼图
axes[0].pie(market_share, labels=companies, autopct='%1.1f%%', colors=colors)
axes[0].set_title('基础饼图 - 手机市场份额')

# 突出显示某个扇形
explode = (0.1, 0, 0, 0, 0)  # 突出显示Apple
axes[1].pie(market_share, labels=companies, autopct='%1.1f%%', 
           explode=explode, colors=colors, shadow=True, startangle=90)
axes[1].set_title('突出显示饼图')

# 环形图
axes[2].pie(market_share, labels=companies, autopct='%1.1f%%', 
           colors=colors, pctdistance=0.85)
centre_circle = plt.Circle((0, 0), 0.70, fc='white')
axes[2].add_artist(centre_circle)
axes[2].set_title('环形图')

plt.tight_layout()
plt.show()

# 2.6 箱线图 (Box Plot) - 显示数据分布和异常值
print("\n=== 箱线图 (Box Plot) ===")

# 创建不同组别的数据
group_a = np.random.normal(100, 10, 100)
group_b = np.random.normal(110, 15, 100)
group_c = np.random.normal(95, 8, 100)
group_d = np.random.normal(105, 12, 100)

data_groups = [group_a, group_b, group_c, group_d]
group_labels = ['组A', '组B', '组C', '组D']

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 基础箱线图
box_plot = axes[0].boxplot(data_groups, labels=group_labels, patch_artist=True)
axes[0].set_title('基础箱线图')
axes[0].set_ylabel('数值')

# 彩色箱线图
colors_box = ['lightblue', 'lightgreen', 'lightcoral', 'lightyellow']
for patch, color in zip(box_plot['boxes'], colors_box):
    patch.set_facecolor(color)

# 小提琴图 (结合箱线图和密度图)
violin_plot = axes[1].violinplot(data_groups, positions=range(1, 5), showmeans=True)
axes[1].set_title('小提琴图')
axes[1].set_ylabel('数值')
axes[1].set_xticks(range(1, 5))
axes[1].set_xticklabels(group_labels)

plt.tight_layout()
plt.show()

print("各种图表的适用场景总结:")
print("- 线图: 时间序列、趋势分析")
print("- 散点图: 相关性分析、聚类可视化")
print("- 柱状图: 分类比较、排名")
print("- 直方图: 分布分析、频次统计")
print("- 饼图: 比例关系、市场份额")
print("- 箱线图: 分布概况、异常值检测")

## 3. 图形自定义与样式设置

专业的数据可视化需要精美的外观和清晰的表达。本节将介绍如何自定义matplotlib图形的各个方面。

In [None]:
# 3.1 颜色系统
print("=== 颜色系统 ===")

# 准备数据
x = np.linspace(0, 10, 100)
y_list = [np.sin(x + i) for i in range(5)]

fig, axes = plt.subplots(2, 3, figsize=(18, 12))

# 不同的颜色指定方式
color_methods = [
    ('基础颜色名', ['red', 'blue', 'green', 'orange', 'purple']),
    ('单字母简写', ['r', 'b', 'g', 'c', 'm']),
    ('十六进制', ['#FF5733', '#33FF57', '#3357FF', '#FF33F1', '#F1FF33']),
    ('RGB元组', [(1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1)]),
    ('灰度值', ['0.2', '0.4', '0.6', '0.8', '1.0']),
]

for idx, (method_name, colors) in enumerate(color_methods):
    row, col = divmod(idx, 3)
    for i, (y, color) in enumerate(zip(y_list, colors)):
        axes[row, col].plot(x, y + i*0.5, color=color, linewidth=2, 
                           label=f'线条 {i+1}')
    axes[row, col].set_title(f'{method_name}')
    axes[row, col].legend()
    axes[row, col].grid(True, alpha=0.3)

# 颜色映射 (Colormap)
scatter_x = np.random.randn(100)
scatter_y = np.random.randn(100)
colors = np.random.rand(100)

scatter = axes[1, 2].scatter(scatter_x, scatter_y, c=colors, cmap='viridis', s=50)
axes[1, 2].set_title('颜色映射 (Colormap)')
plt.colorbar(scatter, ax=axes[1, 2])

plt.tight_layout()
plt.show()

# 3.2 字体和文本样式
print("\n=== 字体和文本样式 ===")

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 字体大小和样式
axes[0, 0].plot(x, np.sin(x))
axes[0, 0].set_title('字体样式示例', fontsize=20, fontweight='bold')
axes[0, 0].set_xlabel('X轴', fontsize=14, fontstyle='italic')
axes[0, 0].set_ylabel('Y轴', fontsize=14, fontweight='bold')
axes[0, 0].text(5, 0.5, '斜体文本', fontsize=12, fontstyle='italic')
axes[0, 0].text(5, -0.5, '粗体文本', fontsize=12, fontweight='bold')

# 文本对齐和旋转
axes[0, 1].plot(x, np.cos(x))
axes[0, 1].text(2, 0.8, '左对齐', ha='left', va='center', fontsize=12)
axes[0, 1].text(5, 0.8, '中心对齐', ha='center', va='center', fontsize=12)
axes[0, 1].text(8, 0.8, '右对齐', ha='right', va='center', fontsize=12)
axes[0, 1].text(2, -0.5, '旋转文本', rotation=45, fontsize=12)
axes[0, 1].set_title('文本对齐和旋转')

# 数学公式 (LaTeX)
axes[1, 0].plot(x, x**2)
axes[1, 0].set_title(r'数学公式: $y = x^2$', fontsize=16)
axes[1, 0].set_xlabel(r'$x$')
axes[1, 0].set_ylabel(r'$f(x) = x^2$')
axes[1, 0].text(5, 20, r'$\int_0^{10} x^2 dx = \frac{1000}{3}$', 
                fontsize=14, bbox=dict(boxstyle="round,pad=0.3", facecolor="yellow"))

# 文本框和标注
axes[1, 1].plot(x, np.sin(x))
axes[1, 1].annotate('最大值', xy=(np.pi/2, 1), xytext=(2, 1.5),
                    arrowprops=dict(arrowstyle='->', color='red', lw=2),
                    fontsize=12, 
                    bbox=dict(boxstyle="round,pad=0.3", facecolor="lightblue"))
axes[1, 1].text(7, -0.5, '带边框的文本', 
                bbox=dict(boxstyle="round,pad=0.5", facecolor="lightgreen", alpha=0.7),
                fontsize=12)
axes[1, 1].set_title('标注和文本框')

plt.tight_layout()
plt.show()

# 3.3 线条和标记样式
print("\n=== 线条和标记样式 ===")

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 线条样式
line_styles = ['-', '--', '-.', ':', (0, (3, 1, 1, 1))]
line_names = ['实线', '虚线', '点划线', '点线', '自定义']

for i, (style, name) in enumerate(zip(line_styles, line_names)):
    axes[0, 0].plot(x, np.sin(x + i*0.5), linestyle=style, linewidth=2, label=name)
axes[0, 0].set_title('线条样式')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 标记样式
markers = ['o', 's', '^', 'D', 'v', '<', '>', 'p', 'h', '*']
x_markers = np.arange(len(markers))
y_markers = np.random.randn(len(markers))

axes[0, 1].scatter(x_markers, y_markers, s=100, c=range(len(markers)), 
                  cmap='tab10', marker='o')
for i, marker in enumerate(markers):
    axes[0, 1].scatter(i, y_markers[i] + 1, s=100, marker=marker, c='red')
axes[0, 1].set_title('标记样式')
axes[0, 1].set_xticks(x_markers)
axes[0, 1].set_xticklabels(markers)

# 线宽和透明度
line_widths = [0.5, 1, 2, 3, 5]
alphas = [0.2, 0.4, 0.6, 0.8, 1.0]

for i, (lw, alpha) in enumerate(zip(line_widths, alphas)):
    axes[1, 0].plot(x, np.sin(x + i*0.5), linewidth=lw, alpha=alpha, 
                   label=f'宽度:{lw}, 透明度:{alpha}')
axes[1, 0].set_title('线宽和透明度')
axes[1, 0].legend()

# 填充区域
axes[1, 1].plot(x, np.sin(x), 'b-', linewidth=2, label='sin(x)')
axes[1, 1].fill_between(x, 0, np.sin(x), alpha=0.3, color='blue')
axes[1, 1].plot(x, np.cos(x), 'r-', linewidth=2, label='cos(x)')
axes[1, 1].fill_between(x, 0, np.cos(x), alpha=0.3, color='red')
axes[1, 1].set_title('填充区域')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("样式设置技巧:")
print("- 使用一致的颜色方案")
print("- 适当的字体大小和层次")
print("- 避免过度装饰")
print("- 考虑色盲友好的颜色")

## 4. 多子图布局

复杂的数据分析通常需要多个图表来展示不同角度的信息。掌握多子图布局是创建专业报告的关键技能。

In [None]:
# 4.1 基础子图布局
print("=== 基础子图布局 ===")

# 创建示例数据
x = np.linspace(0, 10, 100)
data_sets = [
    ('sin(x)', np.sin(x)),
    ('cos(x)', np.cos(x)),
    ('sin(x)·cos(x)', np.sin(x) * np.cos(x)),
    ('exp(-x/5)·sin(x)', np.exp(-x/5) * np.sin(x))
]

# 方法1: plt.subplot()
fig = plt.figure(figsize=(15, 10))

for i, (name, y) in enumerate(data_sets, 1):
    plt.subplot(2, 2, i)
    plt.plot(x, y, linewidth=2)
    plt.title(name)
    plt.grid(True, alpha=0.3)

plt.suptitle('plt.subplot() 方法', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# 方法2: plt.subplots() (推荐)
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
axes = axes.ravel()  # 展平为一维数组

for i, (name, y) in enumerate(data_sets):
    axes[i].plot(x, y, linewidth=2, color=f'C{i}')
    axes[i].set_title(name)
    axes[i].grid(True, alpha=0.3)
    axes[i].set_xlabel('x')
    axes[i].set_ylabel('y')

fig.suptitle('plt.subplots() 方法 (推荐)', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# 4.2 不规则布局 - GridSpec
print("\n=== 不规则布局 - GridSpec ===")

from matplotlib.gridspec import GridSpec

# 创建复杂布局
fig = plt.figure(figsize=(15, 10))
gs = GridSpec(3, 3, figure=fig)

# 大图占据左上角2x2
ax_main = fig.add_subplot(gs[0:2, 0:2])
ax_main.plot(x, np.sin(x), 'b-', linewidth=3)
ax_main.set_title('主图 - sin(x)', fontsize=14, fontweight='bold')
ax_main.grid(True, alpha=0.3)

# 右侧上方
ax_top_right = fig.add_subplot(gs[0, 2])
ax_top_right.bar(['A', 'B', 'C'], [1, 3, 2])
ax_top_right.set_title('柱状图')

# 右侧下方
ax_mid_right = fig.add_subplot(gs[1, 2])
ax_mid_right.pie([30, 40, 30], labels=['X', 'Y', 'Z'], autopct='%1.1f%%')
ax_mid_right.set_title('饼图')

# 底部横跨整行
ax_bottom = fig.add_subplot(gs[2, :])
ax_bottom.plot(x, np.cos(x), 'r-', linewidth=2)
ax_bottom.set_title('底部图 - cos(x)')
ax_bottom.set_xlabel('x')
ax_bottom.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 4.3 共享坐标轴
print("\n=== 共享坐标轴 ===")

# 时间序列数据
dates = pd.date_range('2023-01-01', '2023-12-31', freq='D')
price = 100 + np.cumsum(np.random.randn(len(dates)) * 0.1)
volume = np.random.randint(1000, 5000, len(dates))
ma_20 = pd.Series(price).rolling(20).mean()

# 共享x轴的子图
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(15, 10), sharex=True)

# 价格图
ax1.plot(dates, price, label='价格', linewidth=1)
ax1.plot(dates, ma_20, label='20日均线', linewidth=2)
ax1.set_ylabel('价格')
ax1.set_title('股价走势')
ax1.legend()
ax1.grid(True, alpha=0.3)

# 成交量图
ax2.bar(dates, volume, alpha=0.7, color='orange')
ax2.set_ylabel('成交量')
ax2.set_xlabel('日期')
ax2.set_title('成交量')
ax2.grid(True, alpha=0.3)

# 格式化x轴日期
import matplotlib.dates as mdates
ax2.xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m'))
ax2.xaxis.set_major_locator(mdates.MonthLocator(interval=2))
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# 4.4 嵌套子图
print("\n=== 嵌套子图 ===")

fig, ax_main = plt.subplots(figsize=(12, 8))

# 主图
x_main = np.linspace(-5, 5, 1000)
y_main = np.sin(x_main) * np.exp(-x_main**2/10)
ax_main.plot(x_main, y_main, 'b-', linewidth=2)
ax_main.set_title('主图 - 高斯调制的正弦波')
ax_main.grid(True, alpha=0.3)

# 嵌套的小图 (放大某个区域)
from mpl_toolkits.axes_grid1.inset_locator import inset_axes

# 创建嵌套轴
ax_inset = inset_axes(ax_main, width="40%", height="40%", loc='upper right')

# 在嵌套轴中绘制放大的区域
x_zoom = np.linspace(-1, 1, 200)
y_zoom = np.sin(x_zoom) * np.exp(-x_zoom**2/10)
ax_inset.plot(x_zoom, y_zoom, 'r-', linewidth=2)
ax_inset.set_xlim(-1, 1)
ax_inset.set_ylim(-0.5, 1)
ax_inset.grid(True, alpha=0.3)

# 添加连接线指示放大区域
from mpl_toolkits.axes_grid1.inset_locator import mark_inset
mark_inset(ax_main, ax_inset, loc1=2, loc2=4, fc="none", ec="0.5")

plt.show()

print("多子图布局技巧:")
print("- 使用subplots()而不是subplot()获得更好的控制")
print("- GridSpec适合复杂的不规则布局")
print("- 共享坐标轴可以更好地比较数据")
print("- 嵌套子图适合显示局部细节")
print("- 始终使用tight_layout()优化间距")

## 5. 高级图表类型

除了基本图表，matplotlib还支持许多高级图表类型，包括3D图形、热力图、极坐标图等。

In [None]:
# 5.1 3D图形
print("=== 3D图形 ===")

from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(18, 12))

# 3D散点图
ax1 = fig.add_subplot(2, 3, 1, projection='3d')
n = 100
x_3d = np.random.randn(n)
y_3d = np.random.randn(n)
z_3d = x_3d**2 + y_3d**2
colors_3d = z_3d

scatter = ax1.scatter(x_3d, y_3d, z_3d, c=colors_3d, cmap='viridis')
ax1.set_title('3D散点图')
ax1.set_xlabel('X')
ax1.set_ylabel('Y')
ax1.set_zlabel('Z')

# 3D曲面图
ax2 = fig.add_subplot(2, 3, 2, projection='3d')
x_surf = np.linspace(-5, 5, 30)
y_surf = np.linspace(-5, 5, 30)
X_surf, Y_surf = np.meshgrid(x_surf, y_surf)
Z_surf = np.sin(np.sqrt(X_surf**2 + Y_surf**2))

surface = ax2.plot_surface(X_surf, Y_surf, Z_surf, cmap='coolwarm', alpha=0.8)
ax2.set_title('3D曲面图')
ax2.set_xlabel('X')
ax2.set_ylabel('Y')
ax2.set_zlabel('Z')

# 3D线图
ax3 = fig.add_subplot(2, 3, 3, projection='3d')
t = np.linspace(0, 20, 100)
x_line = np.sin(t)
y_line = np.cos(t)
z_line = t

ax3.plot(x_line, y_line, z_line, 'b-', linewidth=2)
ax3.set_title('3D螺旋线')
ax3.set_xlabel('X')
ax3.set_ylabel('Y')
ax3.set_zlabel('Z')

# 5.2 热力图
print("\n=== 热力图 ===")

# 生成相关矩阵数据
np.random.seed(42)
data_matrix = np.random.randn(10, 12)
correlation_matrix = np.corrcoef(data_matrix)

ax4 = fig.add_subplot(2, 3, 4)
im = ax4.imshow(correlation_matrix, cmap='RdBu', aspect='auto')
ax4.set_title('相关矩阵热力图')
ax4.set_xlabel('变量')
ax4.set_ylabel('变量')

# 添加颜色条
cbar = plt.colorbar(im, ax=ax4)
cbar.set_label('相关系数')

# 添加数值标签
for i in range(correlation_matrix.shape[0]):
    for j in range(correlation_matrix.shape[1]):
        text = ax4.text(j, i, f'{correlation_matrix[i, j]:.2f}',
                       ha="center", va="center", color="black", fontsize=8)

# 5.3 极坐标图
ax5 = fig.add_subplot(2, 3, 5, projection='polar')

# 玫瑰图
theta = np.linspace(0, 2*np.pi, 8, endpoint=False)
radius = [3, 5, 2, 6, 4, 7, 3, 5]
width = 2*np.pi / len(theta)

bars = ax5.bar(theta, radius, width=width, alpha=0.7)

# 为每个扇形设置不同颜色
colors = plt.cm.viridis(np.linspace(0, 1, len(bars)))
for bar, color in zip(bars, colors):
    bar.set_color(color)

ax5.set_title('玫瑰图 (极坐标柱状图)')

# 极坐标散点图
ax6 = fig.add_subplot(2, 3, 6, projection='polar')
theta_scatter = np.random.uniform(0, 2*np.pi, 100)
r_scatter = np.random.uniform(0, 1, 100)
colors_polar = theta_scatter

ax6.scatter(theta_scatter, r_scatter, c=colors_polar, cmap='hsv', alpha=0.7)
ax6.set_title('极坐标散点图')

plt.tight_layout()
plt.show()

# 5.4 等高线图
print("\n=== 等高线图 ===")

fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# 创建网格数据
x_contour = np.linspace(-3, 3, 100)
y_contour = np.linspace(-3, 3, 100)
X_contour, Y_contour = np.meshgrid(x_contour, y_contour)
Z_contour = np.exp(-(X_contour**2 + Y_contour**2))

# 基础等高线图
contour1 = axes[0].contour(X_contour, Y_contour, Z_contour, levels=10)
axes[0].clabel(contour1, inline=True, fontsize=8)
axes[0].set_title('等高线图')
axes[0].set_xlabel('X')
axes[0].set_ylabel('Y')

# 填充等高线图
contourf = axes[1].contourf(X_contour, Y_contour, Z_contour, levels=20, cmap='viridis')
plt.colorbar(contourf, ax=axes[1])
axes[1].set_title('填充等高线图')
axes[1].set_xlabel('X')
axes[1].set_ylabel('Y')

# 结合等高线和填充
contourf2 = axes[2].contourf(X_contour, Y_contour, Z_contour, levels=20, cmap='viridis', alpha=0.8)
contour2 = axes[2].contour(X_contour, Y_contour, Z_contour, levels=10, colors='black', linewidths=0.5)
axes[2].clabel(contour2, inline=True, fontsize=8)
plt.colorbar(contourf2, ax=axes[2])
axes[2].set_title('组合等高线图')
axes[2].set_xlabel('X')
axes[2].set_ylabel('Y')

plt.tight_layout()
plt.show()

# 5.5 流场图
print("\n=== 流场图和向量场 ===")

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 向量场
x_vec = np.linspace(-2, 2, 20)
y_vec = np.linspace(-2, 2, 20)
X_vec, Y_vec = np.meshgrid(x_vec, y_vec)
U = -Y_vec  # x方向分量
V = X_vec   # y方向分量

# 箭头图
quiver = axes[0].quiver(X_vec, Y_vec, U, V, alpha=0.8)
axes[0].set_title('向量场图')
axes[0].set_xlabel('X')
axes[0].set_ylabel('Y')
axes[0].set_aspect('equal')

# 流线图
axes[1].streamplot(X_vec, Y_vec, U, V, color=np.sqrt(U**2 + V**2), cmap='viridis')
axes[1].set_title('流线图')
axes[1].set_xlabel('X')
axes[1].set_ylabel('Y')
axes[1].set_aspect('equal')

plt.tight_layout()
plt.show()

print("高级图表适用场景:")
print("- 3D图形: 三维数据可视化、科学计算结果")
print("- 热力图: 相关分析、矩阵数据、地理数据")
print("- 极坐标图: 周期性数据、方向数据")
print("- 等高线图: 地形图、函数可视化、优化问题")
print("- 流场图: 物理场、梯度可视化")

## 6. 数据可视化最佳实践

优秀的数据可视化不仅要技术过硬，更要遵循设计原则和用户体验规范。本节介绍专业数据可视化的最佳实践。

In [None]:
# 6.1 颜色设计原则
print("=== 颜色设计原则 ===")

# 演示好的和不好的颜色选择
fig, axes = plt.subplots(2, 3, figsize=(18, 12))

# 示例数据
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 56, 78, 32]

# 错误示例1: 颜色过于鲜艳
bad_colors1 = ['#FF0000', '#00FF00', '#0000FF', '#FFFF00', '#FF00FF']
axes[0, 0].bar(categories, values, color=bad_colors1)
axes[0, 0].set_title('❌ 错误: 颜色过于鲜艳')
axes[0, 0].set_ylabel('值')

# 错误示例2: 对比度不足
bad_colors2 = ['#FFEEEE', '#EEFFEE', '#EEEEFF', '#FFFFEE', '#FFEEFF']
axes[0, 1].bar(categories, values, color=bad_colors2)
axes[0, 1].set_title('❌ 错误: 对比度不足')
axes[0, 1].set_ylabel('值')

# 错误示例3: 彩虹色谱用于定量数据
rainbow_colors = plt.cm.rainbow(np.linspace(0, 1, len(categories)))
axes[0, 2].bar(categories, values, color=rainbow_colors)
axes[0, 2].set_title('❌ 错误: 彩虹色用于定量')
axes[0, 2].set_ylabel('值')

# 正确示例1: 单色调配色
good_colors1 = plt.cm.Blues(np.linspace(0.4, 0.8, len(categories)))
axes[1, 0].bar(categories, values, color=good_colors1)
axes[1, 0].set_title('✓ 正确: 单色调配色')
axes[1, 0].set_ylabel('值')

# 正确示例2: 色盲友好配色
colorblind_friendly = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd']
axes[1, 1].bar(categories, values, color=colorblind_friendly)
axes[1, 1].set_title('✓ 正确: 色盲友好配色')
axes[1, 1].set_ylabel('值')

# 正确示例3: 合理的对比色
professional_colors = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D', '#4A5C6A']
axes[1, 2].bar(categories, values, color=professional_colors)
axes[1, 2].set_title('✓ 正确: 专业配色方案')
axes[1, 2].set_ylabel('值')

plt.tight_layout()
plt.show()

# 6.2 图表可读性优化
print("\n=== 图表可读性优化 ===")

# 创建时间序列数据
dates = pd.date_range('2023-01-01', '2023-12-31', freq='D')
sales = 1000 + np.cumsum(np.random.randn(len(dates)) * 10)

fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 问题图表: 信息过载
axes[0, 0].plot(dates, sales, linewidth=0.5, color='red')
axes[0, 0].set_title('Sales Data Analysis Report for the Year 2023 with Daily Granularity')
axes[0, 0].set_xlabel('Date (Year-Month-Day)')
axes[0, 0].set_ylabel('Sales Amount in US Dollars ($)')
axes[0, 0].grid(True)
axes[0, 0].tick_params(axis='x', rotation=90)
# 添加过多的标注
for i in range(0, len(dates), 30):
    axes[0, 0].annotate(f'{sales[i]:.0f}', (dates[i], sales[i]), 
                       textcoords="offset points", xytext=(0,10), ha='center')

# 优化后的图表
axes[0, 1].plot(dates, sales, linewidth=2, color='#2E86AB', alpha=0.8)
axes[0, 1].set_title('2023年销售趋势', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('月份')
axes[0, 1].set_ylabel('销售额 (千元)')
axes[0, 1].grid(True, alpha=0.3)

# 简化x轴标签
import matplotlib.dates as mdates
axes[0, 1].xaxis.set_major_formatter(mdates.DateFormatter('%m月'))
axes[0, 1].xaxis.set_major_locator(mdates.MonthLocator(interval=2))

# 字体大小对比
small_font_data = [1, 3, 2, 5, 4]
labels = ['类别A', '类别B', '类别C', '类别D', '类别E']

# 字体太小
axes[1, 0].bar(labels, small_font_data)
axes[1, 0].set_title('字体过小示例', fontsize=8)
axes[1, 0].tick_params(axis='both', labelsize=6)
axes[1, 0].set_ylabel('值', fontsize=6)

# 合适的字体大小
axes[1, 1].bar(labels, small_font_data, color='#2E86AB', alpha=0.8)
axes[1, 1].set_title('合适字体大小', fontsize=14, fontweight='bold')
axes[1, 1].tick_params(axis='both', labelsize=12)
axes[1, 1].set_ylabel('数值', fontsize=12)
axes[1, 1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

# 6.3 数据诚实性原则
print("\n=== 数据诚实性原则 ===")

# 演示误导性图表 vs 诚实图表
data_honest = [50, 55, 60, 52, 58]
months = ['1月', '2月', '3月', '4月', '5月']

fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# 误导性图表1: Y轴不从0开始
axes[0].plot(months, data_honest, 'o-', linewidth=3, markersize=8)
axes[0].set_ylim(48, 62)  # 不从0开始
axes[0].set_title('❌ 误导: Y轴不从0开始')
axes[0].set_ylabel('销售额')
axes[0].grid(True, alpha=0.3)

# 误导性图表2: 3D饼图
# (由于matplotlib的3D饼图比较复杂，这里用普通饼图配夸张的阴影效果)
pie_data = [30, 25, 25, 20]
pie_labels = ['A产品', 'B产品', 'C产品', 'D产品']
wedges, texts, autotexts = axes[1].pie(pie_data, labels=pie_labels, autopct='%1.1f%%', 
                                      shadow=True, explode=(0.1, 0.1, 0.1, 0.1))
axes[1].set_title('❌ 误导: 过度装饰的饼图')

# 正确的图表: 清晰诚实
axes[2].plot(months, data_honest, 'o-', linewidth=2, markersize=6, color='#2E86AB')
axes[2].set_ylim(0, 70)  # 从0开始
axes[2].set_title('✓ 正确: 诚实的数据展示')
axes[2].set_ylabel('销售额')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 6.4 专业报告样式
print("\n=== 专业报告样式模板 ===")

# 设置专业样式
plt.style.use('seaborn-v0_8-whitegrid')  # 使用内置的专业样式

fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))

# 创建综合报告样式的数据
quarters = ['Q1', 'Q2', 'Q3', 'Q4']
revenue = [120, 135, 148, 162]
profit = [15, 18, 22, 25]
growth_rate = [8, 12, 9, 15]

# 1. 营收趋势线图
ax1.plot(quarters, revenue, 'o-', linewidth=3, markersize=8, 
         color='#1f77b4', label='营收')
ax1.fill_between(quarters, revenue, alpha=0.3, color='#1f77b4')
ax1.set_title('季度营收趋势', fontsize=14, fontweight='bold', pad=20)
ax1.set_ylabel('营收 (百万元)', fontsize=12)
ax1.grid(True, alpha=0.3)
ax1.legend()

# 2. 利润对比柱图
bars = ax2.bar(quarters, profit, color='#2ca02c', alpha=0.8, edgecolor='black', linewidth=1)
ax2.set_title('季度利润对比', fontsize=14, fontweight='bold', pad=20)
ax2.set_ylabel('利润 (百万元)', fontsize=12)
ax2.grid(True, alpha=0.3, axis='y')

# 添加数值标签
for bar in bars:
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + 0.5,
             f'{height}M', ha='center', va='bottom', fontweight='bold')

# 3. 增长率散点图
colors = ['#ff7f0e' if x > 10 else '#d62728' for x in growth_rate]
scatter = ax3.scatter(quarters, growth_rate, s=200, c=colors, alpha=0.8, edgecolors='black')
ax3.set_title('季度增长率', fontsize=14, fontweight='bold', pad=20)
ax3.set_ylabel('增长率 (%)', fontsize=12)
ax3.grid(True, alpha=0.3)

# 添加基准线
ax3.axhline(y=10, color='red', linestyle='--', alpha=0.7, label='目标增长率')
ax3.legend()

# 4. 综合仪表盘样式
categories = ['营收', '利润', '增长', '市场份额']
scores = [85, 78, 92, 68]
colors_radar = ['#1f77b4', '#2ca02c', '#ff7f0e', '#d62728']

bars_radar = ax4.barh(categories, scores, color=colors_radar, alpha=0.8)
ax4.set_title('关键指标评分', fontsize=14, fontweight='bold', pad=20)
ax4.set_xlabel('得分', fontsize=12)
ax4.set_xlim(0, 100)

# 添加分数标签
for i, (bar, score) in enumerate(zip(bars_radar, scores)):
    ax4.text(score + 2, bar.get_y() + bar.get_height()/2, 
             f'{score}分', va='center', fontweight='bold')

# 添加主标题和说明
fig.suptitle('2023年业务表现报告', fontsize=18, fontweight='bold', y=0.98)

plt.tight_layout()
plt.show()

print("\n可视化最佳实践总结:")
print("✓ 选择合适的图表类型")
print("✓ 使用一致的颜色方案")
print("✓ 保持简洁明了的设计")
print("✓ 确保可读性和对比度")
print("✓ 诚实地展示数据")
print("✓ 添加必要的标题和标签")
print("✓ 考虑目标受众的需求")
print("✓ 测试在不同设备上的显示效果")

## 7. 与其他库集成

Matplotlib与pandas、seaborn、plotly等库的集成使用，可以大大提高数据可视化的效率和效果。

In [None]:
# 7.1 与pandas集成
print("=== 与pandas集成 ===")

# 创建复杂的数据集
np.random.seed(42)
dates = pd.date_range('2020-01-01', '2023-12-31', freq='D')
companies = ['Apple', 'Google', 'Microsoft', 'Amazon']

# 生成股价数据
stock_data = {}
for company in companies:
    initial_price = np.random.uniform(50, 200)
    daily_returns = np.random.normal(0.001, 0.02, len(dates))
    prices = [initial_price]
    
    for return_rate in daily_returns[1:]:
        prices.append(prices[-1] * (1 + return_rate))
    
    stock_data[company] = prices

stock_df = pd.DataFrame(stock_data, index=dates)

# pandas内置绘图功能
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. 直接使用pandas的plot方法
stock_df.plot(ax=axes[0, 0], title='股价历史走势', linewidth=1.5)
axes[0, 0].set_ylabel('股价 ($)')
axes[0, 0].grid(True, alpha=0.3)
axes[0, 0].legend(bbox_to_anchor=(1.05, 1), loc='upper left')

# 2. 移动平均线
ma_30 = stock_df.rolling(30).mean()
ma_90 = stock_df.rolling(90).mean()

axes[0, 1].plot(stock_df.index, stock_df['Apple'], label='Apple原始价格', alpha=0.7)
axes[0, 1].plot(ma_30.index, ma_30['Apple'], label='30日均线', linewidth=2)
axes[0, 1].plot(ma_90.index, ma_90['Apple'], label='90日均线', linewidth=2)
axes[0, 1].set_title('Apple股价与移动平均线')
axes[0, 1].set_ylabel('股价 ($)')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# 3. 相关性分析
correlation_matrix = stock_df.corr()
im = axes[1, 0].imshow(correlation_matrix, cmap='RdBu', aspect='auto')
axes[1, 0].set_title('股价相关性矩阵')
axes[1, 0].set_xticks(range(len(companies)))
axes[1, 0].set_yticks(range(len(companies)))
axes[1, 0].set_xticklabels(companies)
axes[1, 0].set_yticklabels(companies)

# 添加相关系数标签
for i in range(len(companies)):
    for j in range(len(companies)):
        text = axes[1, 0].text(j, i, f'{correlation_matrix.iloc[i, j]:.2f}',
                              ha="center", va="center", color="white")

plt.colorbar(im, ax=axes[1, 0])

# 4. 箱线图分析年度表现
stock_df['Year'] = stock_df.index.year
yearly_returns = {}

for company in companies:
    yearly_data = []
    for year in range(2020, 2024):
        year_data = stock_df[stock_df['Year'] == year][company]
        if len(year_data) > 1:
            yearly_return = (year_data.iloc[-1] - year_data.iloc[0]) / year_data.iloc[0] * 100
            yearly_returns[f'{company}_{year}'] = yearly_return
            yearly_data.append(yearly_return)

# 重新组织数据用于箱线图
box_data = []
box_labels = []
for company in companies:
    company_returns = []
    for year in range(2020, 2024):
        year_data = stock_df[stock_df['Year'] == year][company]
        if len(year_data) > 1:
            yearly_return = (year_data.iloc[-1] - year_data.iloc[0]) / year_data.iloc[0] * 100
            company_returns.append(yearly_return)
    box_data.append(company_returns)
    box_labels.append(company)

box_plot = axes[1, 1].boxplot(box_data, labels=box_labels, patch_artist=True)
axes[1, 1].set_title('各公司年度收益分布')
axes[1, 1].set_ylabel('年度收益率 (%)')
axes[1, 1].grid(True, alpha=0.3)

# 为箱线图添加颜色
colors = ['lightblue', 'lightgreen', 'lightcoral', 'lightyellow']
for patch, color in zip(box_plot['boxes'], colors):
    patch.set_facecolor(color)

plt.tight_layout()
plt.show()

# 7.2 与seaborn集成 (如果可用)
print("\n=== 统计可视化进阶 ===")

try:
    import seaborn as sns
    
    # 创建用于统计分析的数据
    tips_data = pd.DataFrame({
        'total_bill': np.random.gamma(2, 10, 200),
        'tip': np.random.gamma(1, 2, 200),
        'size': np.random.choice([1, 2, 3, 4, 5, 6], 200),
        'day': np.random.choice(['Thu', 'Fri', 'Sat', 'Sun'], 200),
        'time': np.random.choice(['Lunch', 'Dinner'], 200),
        'sex': np.random.choice(['Male', 'Female'], 200)
    })
    
    # 调整tip使其与total_bill相关
    tips_data['tip'] = tips_data['total_bill'] * 0.15 + np.random.normal(0, 1, 200)
    tips_data['tip'] = np.maximum(tips_data['tip'], 0)  # 确保小费非负
    
    print("使用seaborn增强的统计图表:")
    
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. 回归图
    sns.regplot(data=tips_data, x='total_bill', y='tip', ax=axes[0, 0])
    axes[0, 0].set_title('账单与小费关系')
    
    # 2. 分类箱线图
    sns.boxplot(data=tips_data, x='day', y='total_bill', ax=axes[0, 1])
    axes[0, 1].set_title('不同日期的账单分布')
    
    # 3. 热力图
    pivot_table = tips_data.pivot_table(values='tip', index='day', columns='time', aggfunc='mean')
    sns.heatmap(pivot_table, annot=True, fmt='.2f', ax=axes[1, 0])
    axes[1, 0].set_title('不同时间段的平均小费')
    
    # 4. 分布图
    sns.histplot(data=tips_data, x='total_bill', hue='sex', ax=axes[1, 1])
    axes[1, 1].set_title('按性别分组的账单分布')
    
    plt.tight_layout()
    plt.show()
    
except ImportError:
    print("Seaborn未安装，展示matplotlib的统计图表替代方案:")
    
    # 不使用seaborn的统计图表
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 模拟数据
    x_stat = np.random.randn(100)
    y_stat = 2 * x_stat + np.random.randn(100)
    
    # 1. 回归线图
    axes[0, 0].scatter(x_stat, y_stat, alpha=0.6)
    z = np.polyfit(x_stat, y_stat, 1)
    p = np.poly1d(z)
    axes[0, 0].plot(x_stat, p(x_stat), "r--", alpha=0.8)
    axes[0, 0].set_title('回归分析')
    axes[0, 0].set_xlabel('X变量')
    axes[0, 0].set_ylabel('Y变量')
    
    # 2. 分组箱线图替代
    group_data = [np.random.normal(0, 1, 50), 
                  np.random.normal(1, 1.2, 50), 
                  np.random.normal(-0.5, 0.8, 50)]
    axes[0, 1].boxplot(group_data, labels=['组A', '组B', '组C'])
    axes[0, 1].set_title('分组数据分布')
    
    # 3. 手动创建热力图
    data_matrix = np.random.randn(5, 5)
    im = axes[1, 0].imshow(data_matrix, cmap='RdBu')
    axes[1, 0].set_title('数据矩阵热力图')
    plt.colorbar(im, ax=axes[1, 0])
    
    # 4. 分组直方图
    data_group1 = np.random.normal(100, 15, 200)
    data_group2 = np.random.normal(110, 12, 200)
    axes[1, 1].hist(data_group1, alpha=0.7, label='组1', bins=20)
    axes[1, 1].hist(data_group2, alpha=0.7, label='组2', bins=20)
    axes[1, 1].set_title('分组分布对比')
    axes[1, 1].legend()
    
    plt.tight_layout()
    plt.show()

print("\n库集成的优势:")
print("- pandas: 直接从DataFrame绘图，简化数据处理")
print("- seaborn: 提供更美观的统计图表")
print("- plotly: 交互式图表")
print("- scipy: 科学计算可视化")
print("- sklearn: 机器学习结果可视化")

## 8. 实际项目案例

通过完整的项目案例，学习如何在实际工作中应用matplotlib进行数据分析和可视化。

In [None]:
# 案例1: 电商销售数据仪表盘
print("=== 案例1: 电商销售数据仪表盘 ===")

# 生成模拟电商数据
np.random.seed(42)
months = ['1月', '2月', '3月', '4月', '5月', '6月', '7月', '8月', '9月', '10月', '11月', '12月']
categories = ['电子产品', '服装', '家居', '图书', '运动']
regions = ['华北', '华东', '华南', '西南', '东北']

# 生成销售数据
monthly_sales = np.random.randint(50, 200, 12) + np.array([20, 15, 25, 30, 35, 45, 40, 38, 42, 55, 80, 90])
category_sales = np.random.randint(100, 500, len(categories))
region_sales = np.random.randint(80, 300, len(regions))
daily_visitors = np.random.randint(1000, 5000, 30)

# 创建综合仪表盘
fig = plt.figure(figsize=(20, 15))
gs = fig.add_gridspec(4, 4, hspace=0.3, wspace=0.3)

# 1. 月度销售趋势 (占据两列)
ax1 = fig.add_subplot(gs[0, :2])
line = ax1.plot(months, monthly_sales, 'o-', linewidth=3, markersize=8, color='#1f77b4')
ax1.fill_between(months, monthly_sales, alpha=0.3, color='#1f77b4')
ax1.set_title('2023年月度销售趋势', fontsize=16, fontweight='bold', pad=20)
ax1.set_ylabel('销售额 (万元)', fontsize=12)
ax1.grid(True, alpha=0.3)
ax1.tick_params(axis='x', rotation=45)

# 添加趋势线
z = np.polyfit(range(len(months)), monthly_sales, 1)
p = np.poly1d(z)
ax1.plot(months, p(range(len(months))), "--", alpha=0.8, color='red', linewidth=2)

# 2. 关键指标卡片 (右上角)
ax2 = fig.add_subplot(gs[0, 2:])
ax2.axis('off')

# KPI指标
kpi_data = {
    '总销售额': f'{sum(monthly_sales):.0f}万元',
    '月平均': f'{np.mean(monthly_sales):.0f}万元',
    '同比增长': '+15.2%',
    '活跃用户': '156K'
}

y_positions = [0.8, 0.6, 0.4, 0.2]
colors = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D']

for i, (key, value) in enumerate(kpi_data.items()):
    ax2.text(0.1, y_positions[i], key, fontsize=14, fontweight='bold')
    ax2.text(0.6, y_positions[i], value, fontsize=18, fontweight='bold', color=colors[i])

ax2.set_title('关键业绩指标', fontsize=16, fontweight='bold')

# 3. 品类销售饼图
ax3 = fig.add_subplot(gs[1, :2])
colors_pie = plt.cm.Set3(np.linspace(0, 1, len(categories)))
wedges, texts, autotexts = ax3.pie(category_sales, labels=categories, autopct='%1.1f%%', 
                                  colors=colors_pie, startangle=90)
ax3.set_title('品类销售占比', fontsize=14, fontweight='bold')

# 美化饼图标签
for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')

# 4. 地区销售对比
ax4 = fig.add_subplot(gs[1, 2:])
bars = ax4.bar(regions, region_sales, color=colors[:len(regions)], alpha=0.8, edgecolor='black')
ax4.set_title('地区销售对比', fontsize=14, fontweight='bold')
ax4.set_ylabel('销售额 (万元)')
ax4.grid(True, alpha=0.3, axis='y')

# 添加数值标签
for bar in bars:
    height = bar.get_height()
    ax4.text(bar.get_x() + bar.get_width()/2., height + 5,
             f'{height}万', ha='center', va='bottom', fontweight='bold')

# 5. 日访客趋势 (底部左侧)
ax5 = fig.add_subplot(gs[2:, :2])
days = range(1, 31)
ax5.plot(days, daily_visitors, alpha=0.7, linewidth=1, color='green')
ax5.fill_between(days, daily_visitors, alpha=0.3, color='green')

# 添加移动平均线
ma_7 = pd.Series(daily_visitors).rolling(7).mean()
ax5.plot(days, ma_7, linewidth=2, color='darkgreen', label='7日均线')

ax5.set_title('11月日访客量趋势', fontsize=14, fontweight='bold')
ax5.set_xlabel('日期')
ax5.set_ylabel('访客数')
ax5.grid(True, alpha=0.3)
ax5.legend()

# 6. 转化漏斗图 (底部右侧)
ax6 = fig.add_subplot(gs[2:, 2:])

# 漏斗数据
funnel_stages = ['访问', '浏览商品', '加入购物车', '下单', '支付完成']
funnel_values = [10000, 6000, 2500, 1200, 1000]
funnel_colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7']

# 创建水平条形图模拟漏斗
y_pos = np.arange(len(funnel_stages))
bars_funnel = ax6.barh(y_pos, funnel_values, color=funnel_colors, alpha=0.8)

ax6.set_yticks(y_pos)
ax6.set_yticklabels(funnel_stages)
ax6.set_xlabel('用户数')
ax6.set_title('用户转化漏斗', fontsize=14, fontweight='bold')

# 添加转化率标签
for i, (bar, value) in enumerate(zip(bars_funnel, funnel_values)):
    conversion_rate = (value / funnel_values[0]) * 100
    ax6.text(value + 200, bar.get_y() + bar.get_height()/2, 
             f'{value:,}\n({conversion_rate:.1f}%)', 
             va='center', fontweight='bold')

# 添加总标题
fig.suptitle('电商销售数据仪表盘 - 2023年11月', fontsize=20, fontweight='bold', y=0.98)

plt.show()

# 案例2: 科学数据分析可视化
print("\n=== 案例2: 实验数据分析可视化 ===")

# 模拟科学实验数据
np.random.seed(123)
temperatures = np.linspace(20, 100, 50)
concentrations = [0.1, 0.5, 1.0, 2.0, 5.0]

# 生成反应速率数据 (阿伦尼乌斯方程)
reaction_data = {}
for conc in concentrations:
    # 模拟温度对反应速率的影响
    rates = conc * np.exp(-5000 / (temperatures + 273.15)) * 1e6
    # 添加实验噪声
    rates += np.random.normal(0, rates * 0.1)
    reaction_data[f'浓度 {conc} M'] = rates

reaction_df = pd.DataFrame(reaction_data, index=temperatures)

# 创建科学图表
fig, axes = plt.subplots(2, 3, figsize=(18, 12))

# 1. 主要结果图
for i, conc in enumerate(concentrations):
    axes[0, 0].plot(temperatures, reaction_data[f'浓度 {conc} M'], 
                   'o-', label=f'{conc} M', markersize=4, linewidth=2)

axes[0, 0].set_xlabel('温度 (°C)')
axes[0, 0].set_ylabel('反应速率 (mol/L·s)')
axes[0, 0].set_title('温度对反应速率的影响')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 2. 阿伦尼乌斯图 (ln(k) vs 1/T)
axes[0, 1].set_xlabel('1/T (K⁻¹)')
axes[0, 1].set_ylabel('ln(反应速率)')
axes[0, 1].set_title('阿伦尼乌斯图')

for i, conc in enumerate(concentrations):
    temp_k = temperatures + 273.15
    ln_rates = np.log(reaction_data[f'浓度 {conc} M'])
    inv_temp = 1 / temp_k
    
    axes[0, 1].plot(inv_temp, ln_rates, 'o-', label=f'{conc} M', markersize=3)
    
    # 线性拟合
    coeffs = np.polyfit(inv_temp, ln_rates, 1)
    fit_line = np.poly1d(coeffs)
    axes[0, 1].plot(inv_temp, fit_line(inv_temp), '--', alpha=0.7)

axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# 3. 浓度效应
max_rates = [max(reaction_data[f'浓度 {conc} M']) for conc in concentrations]
axes[0, 2].loglog(concentrations, max_rates, 'ro-', markersize=8, linewidth=2)
axes[0, 2].set_xlabel('浓度 (M)')
axes[0, 2].set_ylabel('最大反应速率 (mol/L·s)')
axes[0, 2].set_title('浓度对最大反应速率的影响')
axes[0, 2].grid(True, alpha=0.3)

# 4. 残差分析
residuals_temp = 50  # 选择50°C的数据
temp_index = np.argmin(np.abs(temperatures - residuals_temp))
observed = [reaction_data[f'浓度 {conc} M'][temp_index] for conc in concentrations]
# 简单的幂律拟合
coeffs_conc = np.polyfit(np.log(concentrations), np.log(observed), 1)
predicted = np.exp(coeffs_conc[1]) * np.array(concentrations)**coeffs_conc[0]
residuals = np.array(observed) - predicted

axes[1, 0].bar(range(len(concentrations)), residuals, 
               color=['red' if x < 0 else 'blue' for x in residuals], alpha=0.7)
axes[1, 0].set_xlabel('浓度索引')
axes[1, 0].set_ylabel('残差')
axes[1, 0].set_title(f'{residuals_temp}°C时的拟合残差')
axes[1, 0].set_xticks(range(len(concentrations)))
axes[1, 0].set_xticklabels([f'{c} M' for c in concentrations], rotation=45)
axes[1, 0].grid(True, alpha=0.3, axis='y')

# 5. 热力图
heatmap_data = np.array([reaction_data[f'浓度 {conc} M'] for conc in concentrations])
im = axes[1, 1].imshow(heatmap_data, aspect='auto', cmap='YlOrRd', 
                       extent=[temperatures[0], temperatures[-1], 
                              concentrations[0], concentrations[-1]])
axes[1, 1].set_xlabel('温度 (°C)')
axes[1, 1].set_ylabel('浓度 (M)')
axes[1, 1].set_title('反应速率热力图')
plt.colorbar(im, ax=axes[1, 1], label='反应速率 (mol/L·s)')

# 6. 统计摘要
axes[1, 2].axis('off')
stats_text = f"""
实验统计摘要

温度范围: {temperatures[0]:.0f} - {temperatures[-1]:.0f} °C
浓度范围: {min(concentrations)} - {max(concentrations)} M

关键发现:
• 反应速率与温度呈指数关系
• 反应速率与浓度呈幂律关系
• 活化能约为 5000 K
• R² > 0.95 (所有拟合)

数据点总数: {len(temperatures) * len(concentrations)}
实验重复次数: 3
"""

axes[1, 2].text(0.1, 0.9, stats_text, transform=axes[1, 2].transAxes, 
                fontsize=12, verticalalignment='top',
                bbox=dict(boxstyle="round,pad=0.5", facecolor="lightgray", alpha=0.8))

plt.suptitle('化学反应动力学研究 - 实验数据分析', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("项目案例要点:")
print("✓ 明确分析目标和受众")
print("✓ 选择合适的图表组合")
print("✓ 保持视觉一致性")
print("✓ 突出关键发现")
print("✓ 提供足够的上下文信息")
print("✓ 考虑交互性和可操作性")

## 9. 总结与进阶方向

### 本节学习内容回顾

✅ **基础概念**: Figure、Axes、Artist层次结构，两种编程接口  
✅ **基本图表**: 线图、散点图、柱状图、直方图、饼图、箱线图  
✅ **图形自定义**: 颜色系统、字体样式、线条标记、文本标注  
✅ **多子图布局**: subplot、subplots、GridSpec、共享坐标轴  
✅ **高级图表**: 3D图形、热力图、极坐标图、等高线图、流场图  
✅ **最佳实践**: 设计原则、颜色选择、可读性优化、数据诚实性  
✅ **库集成**: pandas绘图、seaborn统计图表、科学计算可视化  
✅ **实际案例**: 商业仪表盘、科学数据分析、完整项目流程  

### 核心技能掌握检查

**基础技能** (必须掌握)
- [ ] 创建基本图表类型 (线图、柱图、散点图等)
- [ ] 设置标题、标签、图例
- [ ] 基本样式自定义 (颜色、字体、线型)
- [ ] 保存和显示图形

**中级技能** (重要)
- [ ] 多子图布局设计
- [ ] 高级图表类型 (3D、热力图等)
- [ ] 与pandas集成使用
- [ ] 专业样式设置

**高级技能** (推荐)
- [ ] 复杂布局和嵌套图形
- [ ] 自定义颜色映射和样式
- [ ] 动画和交互功能
- [ ] 完整项目可视化方案

### 实践建议

1. **多实践**: 尝试重现各种图表类型和样式
2. **建立模板**: 为常用图表创建样式模板
3. **关注细节**: 字体、颜色、间距等细节决定专业程度
4. **用户思维**: 始终考虑图表的目标受众和使用场景

### 常见问题和解决方案

⚠️ **常见问题**:
- 中文字体显示问题 → 设置合适的字体
- 图形重叠和布局混乱 → 使用tight_layout()
- 颜色选择不当 → 使用专业配色方案
- 图表信息过载 → 简化设计，突出重点

✅ **最佳实践**:
- 始终考虑图表的目的和受众
- 使用一致的视觉风格
- 提供充分的上下文信息
- 测试在不同设备上的显示效果

### 下一步学习路径

**立即可学**:
- **Scikit-learn** (`05_sklearn.ipynb`): 机器学习结果可视化
- **PyTorch** (`06_pytorch.ipynb`): 深度学习模型和训练过程可视化

**进阶方向**:
- **Seaborn**: 统计数据可视化专业库
- **Plotly**: 交互式图表和仪表盘
- **Bokeh**: Web端交互可视化
- **Altair**: 基于语法的可视化

### 推荐资源

📚 **官方文档和教程**:
- [Matplotlib官方文档](https://matplotlib.org/stable/contents.html)
- [Matplotlib画廊](https://matplotlib.org/stable/gallery/index.html) - 大量示例
- [Matplotlib教程](https://matplotlib.org/stable/tutorials/index.html)

🎨 **设计和美学**:
- [ColorBrewer](https://colorbrewer2.org/) - 专业配色方案
- [数据可视化原则](https://serialmentor.com/dataviz/) - Claus O. Wilke著

💡 **实践平台**:
- [Kaggle数据集](https://www.kaggle.com/datasets) - 练习数据
- [Python Graph Gallery](https://python-graph-gallery.com/) - 图表示例
- [Matplotlib Challenge](https://github.com/matplotlib/AnatomyOfMatplotlib) - 挑战练习

### 进阶主题

当你熟练掌握基础matplotlib后，可以探索：

1. **动画制作**:
   - FuncAnimation - 函数动画
   - ArtistAnimation - 艺术家动画
   - 交互式图表

2. **自定义扩展**:
   - 自定义颜色映射
   - 创建新的图表类型
   - 样式表开发

3. **专业应用**:
   - 科学出版图表
   - 商业报告制作
   - Web应用集成

4. **性能优化**:
   - 大数据集可视化
   - 内存优化技巧
   - 渲染性能提升

现在你已经掌握了强大的数据可视化技能，可以创建专业级别的图表和分析报告了！记住，好的可视化不仅要技术过硬，更要能够清晰地传达信息和洞察。