# 第3课：Matplotlib 数据可视化

## 学习目标
- 掌握基本图表绑制
- 学会图表美化和定制
- 了解多子图和复杂布局
- 掌握常用图表类型

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 设置中文字体（如需要）
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False

print(f"Matplotlib 版本: {plt.matplotlib.__version__}")

## 1. 基本折线图

In [None]:
# 简单折线图
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.figure(figsize=(10, 4))
plt.plot(x, y)
plt.title('Sine Wave')
plt.xlabel('x')
plt.ylabel('sin(x)')
plt.grid(True)
plt.show()

In [None]:
# 多条线
x = np.linspace(0, 10, 100)

plt.figure(figsize=(10, 4))
plt.plot(x, np.sin(x), label='sin(x)', color='blue', linestyle='-')
plt.plot(x, np.cos(x), label='cos(x)', color='red', linestyle='--')
plt.plot(x, np.sin(x) + np.cos(x), label='sin(x)+cos(x)', color='green', linestyle=':')

plt.title('Trigonometric Functions')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## 2. 散点图

In [None]:
# 基本散点图
np.random.seed(42)
x = np.random.randn(100)
y = x + np.random.randn(100) * 0.5

plt.figure(figsize=(8, 6))
plt.scatter(x, y, alpha=0.6, edgecolors='black', linewidth=0.5)
plt.title('Scatter Plot')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# 带颜色和大小的散点图
np.random.seed(42)
n = 50
x = np.random.rand(n)
y = np.random.rand(n)
colors = np.random.rand(n)
sizes = np.random.rand(n) * 1000

plt.figure(figsize=(10, 6))
scatter = plt.scatter(x, y, c=colors, s=sizes, alpha=0.5, cmap='viridis')
plt.colorbar(scatter, label='Color Value')
plt.title('Scatter with Color and Size')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

## 3. 柱状图

In [None]:
# 基本柱状图
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 56, 78, 32]

plt.figure(figsize=(8, 5))
plt.bar(categories, values, color='steelblue', edgecolor='black')
plt.title('Bar Chart')
plt.xlabel('Category')
plt.ylabel('Value')

# 添加数值标签
for i, v in enumerate(values):
    plt.text(i, v + 1, str(v), ha='center')

plt.show()

In [None]:
# 分组柱状图
categories = ['Q1', 'Q2', 'Q3', 'Q4']
product_a = [20, 35, 30, 35]
product_b = [25, 32, 34, 20]

x = np.arange(len(categories))
width = 0.35

plt.figure(figsize=(10, 5))
plt.bar(x - width/2, product_a, width, label='Product A', color='steelblue')
plt.bar(x + width/2, product_b, width, label='Product B', color='coral')

plt.xlabel('Quarter')
plt.ylabel('Sales')
plt.title('Quarterly Sales Comparison')
plt.xticks(x, categories)
plt.legend()
plt.show()

## 4. 直方图

In [None]:
# 基本直方图
np.random.seed(42)
data = np.random.randn(1000)

plt.figure(figsize=(10, 5))
plt.hist(data, bins=30, color='steelblue', edgecolor='black', alpha=0.7)
plt.title('Histogram')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.axvline(data.mean(), color='red', linestyle='--', label=f'Mean: {data.mean():.2f}')
plt.legend()
plt.show()

## 5. 饼图

In [None]:
# 饼图
labels = ['Python', 'JavaScript', 'Java', 'C++', 'Other']
sizes = [35, 25, 20, 10, 10]
explode = (0.1, 0, 0, 0, 0)  # 突出显示第一块
colors = ['#ff9999', '#66b3ff', '#99ff99', '#ffcc99', '#ff99cc']

plt.figure(figsize=(8, 8))
plt.pie(sizes, explode=explode, labels=labels, colors=colors,
        autopct='%1.1f%%', shadow=True, startangle=90)
plt.title('Programming Language Popularity')
plt.axis('equal')
plt.show()

## 6. 子图

In [None]:
# 多子图
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 折线图
x = np.linspace(0, 10, 100)
axes[0, 0].plot(x, np.sin(x))
axes[0, 0].set_title('Line Plot')

# 散点图
np.random.seed(42)
axes[0, 1].scatter(np.random.rand(50), np.random.rand(50))
axes[0, 1].set_title('Scatter Plot')

# 柱状图
axes[1, 0].bar(['A', 'B', 'C', 'D'], [23, 45, 56, 78])
axes[1, 0].set_title('Bar Chart')

# 直方图
axes[1, 1].hist(np.random.randn(1000), bins=30)
axes[1, 1].set_title('Histogram')

plt.tight_layout()
plt.show()

## 7. 热力图

In [None]:
# 热力图
np.random.seed(42)
data = np.random.rand(10, 10)

plt.figure(figsize=(10, 8))
plt.imshow(data, cmap='hot', interpolation='nearest')
plt.colorbar(label='Value')
plt.title('Heatmap')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

## 8. 箱线图

In [None]:
# 箱线图
np.random.seed(42)
data = [np.random.normal(0, std, 100) for std in range(1, 5)]

plt.figure(figsize=(10, 6))
bp = plt.boxplot(data, labels=['Group 1', 'Group 2', 'Group 3', 'Group 4'],
                  patch_artist=True)

colors = ['lightblue', 'lightgreen', 'lightyellow', 'lightcoral']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)

plt.title('Box Plot')
plt.ylabel('Value')
plt.grid(True, alpha=0.3)
plt.show()

## 9. 保存图表

In [None]:
# 保存图表
x = np.linspace(0, 10, 100)
plt.figure(figsize=(10, 6))
plt.plot(x, np.sin(x))
plt.title('Sine Wave')

# 保存为不同格式
plt.savefig('plot.png', dpi=300, bbox_inches='tight')
print("图表已保存")

plt.show()

# 清理
import os
os.remove('plot.png')

## 10. 练习题

### 练习：创建数据可视化报告
使用随机数据创建包含多种图表类型的可视化报告

In [None]:
# 在这里编写代码


## 11. 本课小结

1. **折线图**：plt.plot() - 展示趋势
2. **散点图**：plt.scatter() - 展示分布和相关性
3. **柱状图**：plt.bar() - 比较分类数据
4. **直方图**：plt.hist() - 展示数据分布
5. **饼图**：plt.pie() - 展示占比
6. **子图**：plt.subplots() - 多图布局
7. **热力图**：plt.imshow() - 展示矩阵数据
8. **箱线图**：plt.boxplot() - 展示数据分布特征