# Matplotlib 数据可视化实践

## 实验目标

本实验将使用 **California Housing（加州房价）数据集**来练习 Matplotlib 的各种可视化技巧。

California Housing 数据集包含加州房价的中位数以及相关的地理和人口统计信息，是回归问题的经典数据集。

## 实验内容

1. **数据加载与基础统计** - 了解数据集的基本信息
2. **散点图与相关性** - 探索特征之间的关系
3. **分布可视化** - 使用直方图和箱线图分析数据分布
4. **子图布局** - 创建多图组合展示
5. **热力图** - 可视化特征相关性矩阵
6. **自定义图表** - 添加注释、图例和样式

---
## Part 1: 数据加载与基础统计

In [None]:
# ===== 预填充代码 =====
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing

# 加载 California Housing 数据集
housing = fetch_california_housing()

# 创建 DataFrame
feature_names = housing.feature_names
df = pd.DataFrame(housing.data, columns=feature_names)
df['MedHouseVal'] = housing.target  # 房价中位数（单位：10万美元）

print("数据集信息:")
print(f"样本数: {df.shape[0]}")
print(f"特征数: {df.shape[1]}")
print("\n特征名称:", feature_names.tolist())
print("\n数据描述:")
print(df.describe())

**特征说明：**
- `MedInc`: 该区域收入中位数
- `HouseAge`: 房屋年龄中位数
- `AveRooms`: 平均房间数量
- `AveBedrms`: 平均卧室数量
- `Population`: 区域人口
- `AveOccup`: 平均入住率
- `Latitude`: 纬度
- `Longitude`: 经度
- `MedHouseVal`: 房价中位数（目标变量）

---
## Part 2: 散点图 - 探索特征关系

**练习 2.1**：创建散点图分析收入与房价的关系

请创建一个散点图：
- x 轴：MedInc（收入中位数）
- y 轴：MedHouseVal（房价中位数）
- 使用 alpha 参数设置点的透明度
- 添加标题、轴标签和网格

In [None]:
# ===== 学生代码 =====
# TODO: 创建收入 vs 房价的散点图


# 预期输出: 一个清晰的散点图，显示收入和房价的正相关关系

**练习 2.2**：创建带颜色映射的散点图

创建一个地理分布散点图：
- x 轴：Longitude（经度）
- y 轴：Latitude（纬度）
- 颜色：MedHouseVal（房价）
- 使用 colormap 'coolwarm'
- 添加 colorbar

In [None]:
# ===== 学生代码 =====
# TODO: 创建地理分布图，颜色表示房价


# 预期输出: 加州地图形状的散点图，颜色从蓝（便宜）到红（昂贵）

---
## Part 3: 分布可视化

**练习 3.1**：创建直方图分析房价分布

In [None]:
# ===== 学生代码 =====
# TODO: 创建房价的直方图
# 设置 bins=50，添加边框颜色，显示网格


# 预期输出: 房价分布的直方图，呈现右偏态分布

**练习 3.2**：创建箱线图对比不同收入组的房价

将收入分为 3 组（低、中、高），创建箱线图对比各组的房价分布。

提示：使用 `pd.qcut()` 或 `pd.cut()` 进行分组

In [None]:
# ===== 学生代码 =====
# TODO: 将收入分为3组，创建箱线图对比房价

# 1. 创建收入分组（低、中、高）
# 提示: 使用 pd.qcut(df['MedInc'], 3, labels=['Low', 'Medium', 'High'])

# 2. 为每个组准备房价数据

# 3. 创建箱线图


# 预期输出: 3个箱线图，显示不同收入组的房价分布差异

---
## Part 4: 子图布局

**练习 4.1**：创建 2x2 子图布局

创建一个 2x2 的子图布局，分别显示：
- 左上：MedInc vs MedHouseVal 散点图
- 右上：HouseAge vs MedHouseVal 散点图
- 左下：AveRooms vs MedHouseVal 散点图
- 右下：AveBedrms vs MedHouseVal 散点图

In [None]:
# ===== 学生代码 =====
# TODO: 创建 2x2 子图布局
# 使用 plt.subplots() 方法


# 预期输出: 4个子图，每个图显示一个特征与房价的关系

**练习 4.2**：创建不规则子图布局

创建一个不规则的布局：
- 左侧大图：房价直方图
- 右上：收入直方图
- 右下：房屋年龄直方图

In [None]:
# ===== 学生代码 =====
# TODO: 创建不规则子图布局
# 使用 fig.add_subplot() 方法


# 预期输出: 左侧大图，右侧两个小图

---
## Part 5: 热力图 - 相关性分析

**练习 5.1**：创建相关性热力图

创建特征相关性矩阵的热力图：
- 使用 `df.corr()` 计算相关性
- 使用 `imshow()` 创建热力图
- 使用 'coolwarm' 或 'RdBu_r' colormap
- 添加 colorbar
- 在每个格子上显示相关系数数值

In [None]:
# ===== 学生代码 =====
# TODO: 创建相关性热力图

# 1. 计算相关性矩阵
correlation = None  # 替换为你的代码

# 2. 创建热力图
plt.figure(figsize=(12, 10))
# 在这里填写你的代码

# 3. 添加数值标签（提示：使用双重 for 循环和 plt.text()）


plt.title('California Housing 特征相关性热力图', fontsize=14)
plt.tight_layout()
plt.show()

# 预期输出: 9x9 的热力图，红色表示正相关，蓝色表示负相关

---
## Part 6: 自定义图表

**练习 6.1**：创建带注释的图表

创建一个展示房屋年龄与房价关系的折线图：
- 按 HouseAge 分组计算平均房价
- 绘制折线图
- 标记最高房价点
- 添加注释说明

In [None]:
# ===== 学生代码 =====
# TODO: 创建房屋年龄 vs 平均房价的折线图

# 1. 按房屋年龄分组计算平均房价
age_price = None  # 替换为你的代码

# 2. 创建折线图
plt.figure(figsize=(12, 6))
# 在这里填写你的代码

# 3. 标记最高房价点并添加注释
# 提示: 使用 plt.annotate()


plt.xlabel('房屋年龄（年）', fontsize=12)
plt.ylabel('平均房价（10万美元）', fontsize=12)
plt.title('房屋年龄与房价关系', fontsize=14)
plt.grid(True, linestyle=':', alpha=0.6)
plt.show()

# 预期输出: 显示房价随房屋年龄变化的折线图

**练习 6.2**：创建堆叠柱状图

将房屋年龄分为 3 组（新建、中等、老旧），每组显示不同收入等级的房屋数量分布。

In [None]:
# ===== 学生代码 =====
# TODO: 创建堆叠柱状图

# 1. 将房屋年龄分组（0-15年为新建，16-30年为中等，30年以上为老旧）
# 提示: 使用 pd.cut() 或布尔索引

# 2. 将收入分为3组（低、中、高）

# 3. 计算交叉统计（每个年龄组中各收入组的数量）

# 4. 创建堆叠柱状图
# 提示: 使用 plt.bar() 的 bottom 参数


plt.xlabel('房屋年龄组', fontsize=12)
plt.ylabel('房屋数量', fontsize=12)
plt.title('不同年龄组的收入分布', fontsize=14)
plt.legend(title='收入组')
plt.grid(axis='y', linestyle=':', alpha=0.5)
plt.show()

# 预期输出: 3个柱子，每个柱子堆叠显示3种收入组的数量

---
## Part 7: 挑战练习

**挑战 7.1**：综合分析报告

创建一个综合的分析图表，包含：
1. 各特征的分布直方图（3x3 子图）
2. 使用不同颜色突出显示异常值
3. 在每个子图上添加均值和标准差标注

In [None]:
# ===== 学生代码 =====
# TODO: 创建综合分析图表

# 提示: 
# 1. 使用 fig, axes = plt.subplots(3, 3, figsize=(15, 12))
# 2. 遍历所有特征创建直方图
# 3. 使用 mean ± 3*std 作为异常值判定标准
# 4. 添加文本标注显示统计信息


plt.suptitle('California Housing 数据集特征分布分析', fontsize=16)
plt.tight_layout()
plt.show()

**挑战 7.2**：地理热力图

创建一个更精细的地理分布热力图：
- 使用 2D histogram (hist2d) 或 hexbin
- 颜色表示平均房价
- 添加地理标注（如 Los Angeles, San Francisco 等城市的大致位置）

In [None]:
# ===== 学生代码 =====
# TODO: 创建地理热力图

# 提示:
# 1. 使用 plt.hist2d() 或 plt.hexbin()
# 2. Los Angeles 大约在 (Lat: 34, Lon: -118)
# 3. San Francisco 大约在 (Lat: 37.7, Lon: -122.4)


plt.colorbar(label='平均房价')
plt.xlabel('经度', fontsize=12)
plt.ylabel('纬度', fontsize=12)
plt.title('加州房价地理分布热力图', fontsize=14)
plt.show()

---
## 实验总结

恭喜你完成了 Matplotlib 数据可视化实践！通过本实验，你应该掌握了：

1. ✓ 创建散点图分析变量关系
2. ✓ 使用直方图和箱线图分析数据分布
3. ✓ 使用子图布局展示多图表
4. ✓ 创建热力图分析相关性
5. ✓ 自定义图表样式（注释、图例、颜色）
6. ✓ 创建高级可视化（堆叠图、地理图）

数据可视化是探索数据和展示结果的重要工具，在机器学习的各个环节都会用到。