# Matplotlib 数据可视化实践

## 实验目标

本实验将使用 **California Housing（加州房价）数据集**来练习 Matplotlib 的各种可视化技巧。

California Housing 数据集包含加州房价的中位数以及相关的地理和人口统计信息，是回归问题的经典数据集。

## 实验内容

1. **数据加载与基础统计** - 了解数据集的基本信息
2. **散点图与相关性** - 探索特征之间的关系
3. **分布可视化** - 使用直方图和箱线图分析数据分布
4. **子图布局** - 创建多图组合展示
5. **热力图** - 可视化特征相关性矩阵
6. **自定义图表** - 添加注释、图例和样式

---
## Part 1: 数据加载与基础统计

In [None]:
# ===== 预填充代码 =====
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing

# 加载 California Housing 数据集
housing = fetch_california_housing()

# 创建 DataFrame
feature_names = housing.feature_names
df = pd.DataFrame(housing.data, columns=feature_names)
df['MedHouseVal'] = housing.target  # 房价中位数（单位：10万美元）

print("数据集信息:")
print(f"样本数: {df.shape[0]}")
print(f"特征数: {df.shape[1]}")
print("\n特征名称:", feature_names)
print("\n数据描述:")
print(df.describe())

**特征说明：**
- `MedInc`: 该区域收入中位数
- `HouseAge`: 房屋年龄中位数
- `AveRooms`: 平均房间数量
- `AveBedrms`: 平均卧室数量
- `Population`: 区域人口
- `AveOccup`: 平均入住率
- `Latitude`: 纬度
- `Longitude`: 经度
- `MedHouseVal`: 房价中位数（目标变量）

---
## Part 2: 散点图 - 探索特征关系

**练习 2.1**：创建散点图分析收入与房价的关系

请创建一个散点图：
- x 轴：MedInc（收入中位数）
- y 轴：MedHouseVal（房价中位数）
- 使用 alpha 参数设置点的透明度
- 添加标题、轴标签和网格

In [None]:
# ===== 参考答案 =====
# 创建收入 vs 房价的散点图
plt.figure(figsize=(10, 6))

# 绘制散点图，设置透明度
plt.scatter(df['MedInc'], df['MedHouseVal'], alpha=0.5, s=10)

# 添加标题、轴标签和网格
plt.xlabel('收入中位数（万美元）', fontsize=12)
plt.ylabel('房价中位数（10万美元）', fontsize=12)
plt.title('收入与房价关系散点图', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.3)

plt.tight_layout()
plt.show()

# 预期输出: 一个清晰的散点图，显示收入和房价的正相关关系

**练习 2.2**：创建带颜色映射的散点图

创建一个地理分布散点图：
- x 轴：Longitude（经度）
- y 轴：Latitude（纬度）
- 颜色：MedHouseVal（房价）
- 使用 colormap 'coolwarm'
- 添加 colorbar

In [None]:
# ===== 参考答案 =====
# 创建地理分布散点图，颜色表示房价
plt.figure(figsize=(12, 8))

# 使用 colormap 'coolwarm'
scatter = plt.scatter(df['Longitude'], df['Latitude'], 
                     c=df['MedHouseVal'], 
                     cmap='coolwarm', 
                     alpha=0.6,
                     s=15)

# 添加 colorbar
cbar = plt.colorbar(scatter)
cbar.set_label('房价中位数（10万美元）', fontsize=12)

# 添加标题和轴标签
plt.xlabel('经度', fontsize=12)
plt.ylabel('纬度', fontsize=12)
plt.title('加州房价地理分布图', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.3)

plt.tight_layout()
plt.show()

# 预期输出: 加州地图形状的散点图，颜色从蓝（便宜）到红（昂贵）

---
## Part 3: 分布可视化

**练习 3.1**：创建直方图分析房价分布

In [None]:
# ===== 参考答案 =====
# 创建房价的直方图
plt.figure(figsize=(12, 6))

# 设置 bins=50，添加边框颜色，显示网格
plt.hist(df['MedHouseVal'], bins=50, edgecolor='black', alpha=0.7)

# 添加标题、轴标签和网格
plt.xlabel('房价中位数（10万美元）', fontsize=12)
plt.ylabel('频数', fontsize=12)
plt.title('加州房价分布直方图', fontsize=14)
plt.grid(True, linestyle=':', alpha=0.5)

plt.tight_layout()
plt.show()

# 预期输出: 房价分布的直方图，呈现右偏态分布

**练习 3.2**：创建箱线图对比不同收入组的房价

将收入分为 3 组（低、中、高），创建箱线图对比各组的房价分布。

提示：使用 `pd.qcut()` 或 `pd.cut()` 进行分组

In [None]:
# ===== 参考答案 =====
# 将收入分为3组，创建箱线图对比房价

# 1. 创建收入分组（低、中、高）
income_groups = pd.qcut(df['MedInc'], 3, labels=['Low', 'Medium', 'High'])
df['income_group'] = income_groups

# 2. 为每个组准备房价数据
low_income = df[df['income_group'] == 'Low']['MedHouseVal']
medium_income = df[df['income_group'] == 'Medium']['MedHouseVal']
high_income = df[df['income_group'] == 'High']['MedHouseVal']

# 3. 创建箱线图
plt.figure(figsize=(12, 6))

# 绘制箱线图
plt.boxplot([low_income, medium_income, high_income],
            labels=['低收入组', '中等收入组', '高收入组'],
            patch_artist=True,
            boxprops=dict(facecolor='lightblue', alpha=0.7),
            medianprops=dict(color='red', linewidth=2))

# 添加标题和轴标签
plt.xlabel('收入分组', fontsize=12)
plt.ylabel('房价中位数（10万美元）', fontsize=12)
plt.title('不同收入组的房价分布', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.3)

plt.tight_layout()
plt.show()

# 预期输出: 3个箱线图，显示不同收入组的房价分布差异

---
## Part 4: 子图布局

**练习 4.1**：创建 2x2 子图布局

创建一个 2x2 的子图布局，分别显示：
- 左上：MedInc vs MedHouseVal 散点图
- 右上：HouseAge vs MedHouseVal 散点图
- 左下：AveRooms vs MedHouseVal 散点图
- 右下：AveBedrms vs MedHouseVal 散点图

In [None]:
# ===== 参考答案 =====
# 创建 2x2 子图布局
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 左上：MedInc vs MedHouseVal 散点图
axes[0, 0].scatter(df['MedInc'], df['MedHouseVal'], alpha=0.5, s=10)
axes[0, 0].set_xlabel('收入中位数')
axes[0, 0].set_ylabel('房价中位数')
axes[0, 0].set_title('收入 vs 房价')
axes[0, 0].grid(True, linestyle='--', alpha=0.3)

# 右上：HouseAge vs MedHouseVal 散点图
axes[0, 1].scatter(df['HouseAge'], df['MedHouseVal'], alpha=0.5, s=10)
axes[0, 1].set_xlabel('房屋年龄')
axes[0, 1].set_ylabel('房价中位数')
axes[0, 1].set_title('房屋年龄 vs 房价')
axes[0, 1].grid(True, linestyle='--', alpha=0.3)

# 左下：AveRooms vs MedHouseVal 散点图
axes[1, 0].scatter(df['AveRooms'], df['MedHouseVal'], alpha=0.5, s=10)
axes[1, 0].set_xlabel('平均房间数')
axes[1, 0].set_ylabel('房价中位数')
axes[1, 0].set_title('平均房间数 vs 房价')
axes[1, 0].grid(True, linestyle='--', alpha=0.3)

# 右下：AveBedrms vs MedHouseVal 散点图
axes[1, 1].scatter(df['AveBedrms'], df['MedHouseVal'], alpha=0.5, s=10)
axes[1, 1].set_xlabel('平均卧室数')
axes[1, 1].set_ylabel('房价中位数')
axes[1, 1].set_title('平均卧室数 vs 房价')
axes[1, 1].grid(True, linestyle='--', alpha=0.3)

plt.tight_layout()
plt.show()

# 预期输出: 4个子图，每个图显示一个特征与房价的关系

**练习 4.2**：创建不规则子图布局

创建一个不规则的布局：
- 左侧大图：房价直方图
- 右上：收入直方图
- 右下：房屋年龄直方图

In [None]:
# ===== 参考答案 =====
# 创建不规则子图布局
fig = plt.figure(figsize=(15, 8))

# 左侧大图：房价直方图 (占据2行1列)
ax1 = fig.add_subplot(2, 2, (1, 3))

ax1.hist(df['MedHouseVal'], bins=50, edgecolor='black', alpha=0.7)
ax1.set_xlabel('房价中位数（10万美元）')
ax1.set_ylabel('频数')
ax1.set_title('房价分布直方图')
ax1.grid(True, linestyle=':', alpha=0.5)

# 右上：收入直方图
ax2 = fig.add_subplot(2, 2, 2)
ax2.hist(df['MedInc'], bins=50, edgecolor='black', alpha=0.7, color='orange')
ax2.set_xlabel('收入中位数')
ax2.set_ylabel('频数')
ax2.set_title('收入分布直方图')
ax2.grid(True, linestyle=':', alpha=0.5)

# 右下：房屋年龄直方图
ax3 = fig.add_subplot(2, 2, 4)
ax3.hist(df['HouseAge'], bins=30, edgecolor='black', alpha=0.7, color='green')
ax3.set_xlabel('房屋年龄（年）')
ax3.set_ylabel('频数')
ax3.set_title('房屋年龄分布直方图')
ax3.grid(True, linestyle=':', alpha=0.5)

plt.tight_layout()
plt.show()

# 预期输出: 左侧大图，右侧两个小图

---
## Part 5: 热力图 - 相关性分析

**练习 5.1**：创建相关性热力图

创建特征相关性矩阵的热力图：
- 使用 `df.corr()` 计算相关性
- 使用 `imshow()` 创建热力图
- 使用 'coolwarm' 或 'RdBu_r' colormap
- 添加 colorbar
- 在每个格子上显示相关系数数值

In [None]:
# ===== 参考答案 =====
# 创建相关性热力图

# 1. 计算相关性矩阵（只选择数值列）
numeric_df = df.select_dtypes(include=[np.number])
correlation = numeric_df.corr()

# 2. 创建热力图
plt.figure(figsize=(12, 10))
im = plt.imshow(correlation, cmap='coolwarm', vmin=-1, vmax=1)

# 添加 colorbar
cbar = plt.colorbar(im)
cbar.set_label('相关系数', fontsize=12)

# 3. 添加数值标签
for i in range(len(correlation.columns)):
    for j in range(len(correlation.columns)):
        plt.text(j, i, f'{correlation.iloc[i, j]:.2f}',
                ha='center', va='center',
                color='white' if abs(correlation.iloc[i, j]) > 0.5 else 'black')

# 设置刻度标签
plt.xticks(range(len(correlation.columns)), correlation.columns, rotation=45, ha='right')
plt.yticks(range(len(correlation.columns)), correlation.columns)

plt.title('California Housing 特征相关性热力图', fontsize=14)
plt.tight_layout()
plt.show()

# 预期输出: 9x9 的热力图，红色表示正相关，蓝色表示负相关

---
## Part 6: 自定义图表

**练习 6.1**：创建带注释的图表

创建一个展示房屋年龄与房价关系的折线图：
- 按 HouseAge 分组计算平均房价
- 绘制折线图
- 标记最高房价点
- 添加注释说明

In [None]:
# ===== 参考答案 =====
# 创建房屋年龄 vs 平均房价的折线图

# 1. 按房屋年龄分组计算平均房价
age_price = df.groupby('HouseAge')['MedHouseVal'].mean().reset_index()

# 2. 创建折线图
plt.figure(figsize=(12, 6))

# 绘制折线图
plt.plot(age_price['HouseAge'], age_price['MedHouseVal'], 
         'b-o', linewidth=2, markersize=4, alpha=0.7)

# 3. 标记最高房价点并添加注释
max_price_idx = age_price['MedHouseVal'].idxmax()
max_price = age_price.loc[max_price_idx, 'MedHouseVal']
max_age = age_price.loc[max_price_idx, 'HouseAge']

plt.scatter(max_age, max_price, color='red', s=100, zorder=5)
plt.annotate(f'最高房价\n{max_price:.2f} (10万美元)\n房屋年龄: {max_age}年',
             xy=(max_age, max_price),
             xytext=(max_age + 5, max_price - 0.5),
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='red'),
             bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.7))

plt.xlabel('房屋年龄（年）', fontsize=12)
plt.ylabel('平均房价（10万美元）', fontsize=12)
plt.title('房屋年龄与房价关系', fontsize=14)
plt.grid(True, linestyle=':', alpha=0.6)

plt.tight_layout()
plt.show()

# 预期输出: 显示房价随房屋年龄变化的折线图

**练习 6.2**：创建堆叠柱状图

将房屋年龄分为 3 组（新建、中等、老旧），每组显示不同收入等级的房屋数量分布。

In [None]:
# ===== 参考答案 =====
# 创建堆叠柱状图

# 1. 将房屋年龄分组（0-15年为新建，16-30年为中等，30年以上为老旧）
bins = [0, 15, 30, float('inf')]
labels = ['新建', '中等', '老旧']
df['age_group'] = pd.cut(df['HouseAge'], bins=bins, labels=labels)

# 2. 将收入分为3组（低、中、高）
df['income_level'] = pd.qcut(df['MedInc'], 3, labels=['低', '中', '高'])

# 3. 计算交叉统计（每个年龄组中各收入组的数量）
cross_table = pd.crosstab(df['age_group'], df['income_level'])

# 4. 创建堆叠柱状图
fig, ax = plt.subplots(figsize=(12, 6))

# 使用 bottom 参数创建堆叠效果
bottom = np.zeros(len(cross_table))
for income in ['低', '中', '高']:
    ax.bar(cross_table.index, 
           cross_table[income], 
           bottom=bottom,
           label=income,
           alpha=0.8)
    bottom += cross_table[income]

plt.xlabel('房屋年龄组', fontsize=12)
plt.ylabel('房屋数量', fontsize=12)
plt.title('不同年龄组的收入分布', fontsize=14)
plt.legend(title='收入组')
plt.grid(axis='y', linestyle=':', alpha=0.5)

# 在柱子上方添加总数标签
total = cross_table.sum(axis=1)
for i, total_val in enumerate(total):
    ax.text(i, total_val + 100, f'{total_val:,}', 
            ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# 预期输出: 3个柱子，每个柱子堆叠显示3种收入组的数量

---
## Part 7: 挑战练习

**挑战 7.1**：综合分析报告

创建一个综合的分析图表，包含：
1. 各特征的分布直方图（3x3 子图）
2. 使用不同颜色突出显示异常值
3. 在每个子图上添加均值和标准差标注

In [None]:
# ===== 参考答案 =====
# 创建综合分析图表

# 创建 3x3 子图布局
fig, axes = plt.subplots(3, 3, figsize=(15, 12))

# 设置异常值判定标准：mean ± 3*std
outlier_threshold = 3

# 遍历所有特征创建直方图
for i, feature in enumerate(feature_names):
    row = i // 3
    col = i % 3
    ax = axes[row, col]
    
    # 计算统计信息
    mean_val = df[feature].mean()
    std_val = df[feature].std()
    
    # 识别异常值
    lower_bound = mean_val - outlier_threshold * std_val
    upper_bound = mean_val + outlier_threshold * std_val
    outliers = df[(df[feature] < lower_bound) | (df[feature] > upper_bound)]
    
    # 绘制直方图
    ax.hist(df[feature], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
    
    # 高亮异常值
    if len(outliers) > 0:
        ax.hist(outliers[feature], bins=10, alpha=0.9, color='red', 
                label=f'异常值 ({len(outliers)})')
    
    # 添加均值和标准差标注
    ax.axvline(mean_val, color='green', linestyle='--', linewidth=2, 
               label=f'均值: {mean_val:.2f}')
    ax.axvline(mean_val + std_val, color='orange', linestyle=':', 
               linewidth=1, label=f'+1σ')
    ax.axvline(mean_val - std_val, color='orange', linestyle=':', 
               linewidth=1, label=f'-1σ')
    
    # 设置标题
    ax.set_title(f'{feature}', fontsize=10)
    ax.set_xlabel('值', fontsize=8)
    ax.set_ylabel('频数', fontsize=8)
    
    # 只在最后一行显示x轴标签，其他隐藏以避免拥挤
    if row == 2:
        ax.tick_params(axis='x', labelsize=7)
    else:
        ax.set_xticklabels([])
    
    ax.tick_params(axis='y', labelsize=7)
    
    # 添加统计信息文本
    stats_text = f'μ={mean_val:.1f}\nσ={std_val:.1f}'
    ax.text(0.02, 0.98, stats_text, transform=ax.transAxes, 
            verticalalignment='top', fontsize=8,
            bbox=dict(boxstyle='round,pad=0.3', facecolor='white', alpha=0.8))

# 调整布局
plt.suptitle('California Housing 数据集特征分布分析', fontsize=16)
plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

# 预期输出: 9个特征分布直方图，每个图标注统计信息并高亮异常值

**挑战 7.2**：地理热力图

创建一个更精细的地理分布热力图：
- 使用 2D histogram (hist2d) 或 hexbin
- 颜色表示平均房价
- 添加地理标注（如 Los Angeles, San Francisco 等城市的大致位置）

In [None]:
# ===== 参考答案 =====
# 创建地理热力图

# 使用 hexbin 创建地理热力图（更精细的网格）
plt.figure(figsize=(12, 10))

# 计算每个六边形单元的平均房价
hb = plt.hexbin(df['Longitude'], df['Latitude'], 
                C=df['MedHouseVal'], 
                gridsize=30,  # 网格大小
                cmap='YlOrRd',  # 黄到红渐变
                reduce_C_function=np.mean,  # 对每个六边形内的房价取平均
                mincnt=1)  # 最小计数

# 添加 colorbar
cbar = plt.colorbar(hb, label='平均房价（10万美元）')

# 添加城市标注
cities = {
    'Los Angeles': (34.0, -118.25),
    'San Francisco': (37.7, -122.4),
    'San Diego': (32.7, -117.2),
    'Sacramento': (38.6, -121.6)
}

for city, (lat, lon) in cities.items():
    plt.scatter(lon, lat, marker='*', s=200, color='red', 
                edgecolors='white', linewidths=1, zorder=10)
    plt.annotate(city, (lon, lat), xytext=(5, 5), 
                 textcoords='offset points', fontsize=10,
                 bbox=dict(boxstyle='round,pad=0.3', facecolor='white', alpha=0.8))

plt.xlabel('经度', fontsize=12)
plt.ylabel('纬度', fontsize=12)
plt.title('加州房价地理分布热力图', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.3)

plt.tight_layout()
plt.show()

# 预期输出: 加州地理热力图，使用六边形网格显示房价分布，标注主要城市位置

---
## 实验总结

恭喜你完成了 Matplotlib 数据可视化实践！通过本实验，你应该掌握了：

1. ✓ 创建散点图分析变量关系
2. ✓ 使用直方图和箱线图分析数据分布
3. ✓ 使用子图布局展示多图表
4. ✓ 创建热力图分析相关性
5. ✓ 自定义图表样式（注释、图例、颜色）
6. ✓ 创建高级可视化（堆叠图、地理图）

数据可视化是探索数据和展示结果的重要工具，在机器学习的各个环节都会用到。