# 第4课：Seaborn 高级可视化

## 学习目标
- 掌握 Seaborn 的基本使用
- 学会绑制各类统计图表
- 理解分类数据和数值数据的可视化
- 掌握多变量关系可视化

## 1. Seaborn 简介

Seaborn 是基于 Matplotlib 的统计数据可视化库，提供更美观的默认样式和更高级的绑图功能。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置样式
sns.set_theme(style="whitegrid")

# 加载示例数据集
tips = sns.load_dataset("tips")
iris = sns.load_dataset("iris")
titanic = sns.load_dataset("titanic")

print("tips 数据集:")
print(tips.head())

## 2. 分布图

In [None]:
# 直方图和核密度估计
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 直方图
sns.histplot(data=tips, x="total_bill", ax=axes[0, 0])
axes[0, 0].set_title("直方图")

# 带 KDE 的直方图
sns.histplot(data=tips, x="total_bill", kde=True, ax=axes[0, 1])
axes[0, 1].set_title("直方图 + KDE")

# 分组直方图
sns.histplot(data=tips, x="total_bill", hue="sex", ax=axes[1, 0])
axes[1, 0].set_title("分组直方图")

# KDE 图
sns.kdeplot(data=tips, x="total_bill", hue="time", fill=True, ax=axes[1, 1])
axes[1, 1].set_title("KDE 密度图")

plt.tight_layout()
plt.show()

In [None]:
# displot - 分布图的统一接口
g = sns.displot(data=tips, x="total_bill", col="time", row="sex", 
                kde=True, height=3, aspect=1.2)
plt.suptitle("按时间和性别分组的账单分布", y=1.02)
plt.show()

## 3. 分类数据可视化

In [None]:
# 条形图
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 计数条形图
sns.countplot(data=tips, x="day", ax=axes[0])
axes[0].set_title("每天的记录数")

# 分组条形图
sns.countplot(data=tips, x="day", hue="sex", ax=axes[1])
axes[1].set_title("按性别分组")

# 均值条形图
sns.barplot(data=tips, x="day", y="total_bill", ax=axes[2])
axes[2].set_title("每天平均账单")

plt.tight_layout()
plt.show()

In [None]:
# 箱线图和小提琴图
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 箱线图
sns.boxplot(data=tips, x="day", y="total_bill", ax=axes[0, 0])
axes[0, 0].set_title("箱线图")

# 分组箱线图
sns.boxplot(data=tips, x="day", y="total_bill", hue="smoker", ax=axes[0, 1])
axes[0, 1].set_title("分组箱线图")

# 小提琴图
sns.violinplot(data=tips, x="day", y="total_bill", ax=axes[1, 0])
axes[1, 0].set_title("小提琴图")

# 分割小提琴图
sns.violinplot(data=tips, x="day", y="total_bill", hue="sex", split=True, ax=axes[1, 1])
axes[1, 1].set_title("分割小提琴图")

plt.tight_layout()
plt.show()

In [None]:
# 散点分布图
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 带抖动的散点图
sns.stripplot(data=tips, x="day", y="total_bill", ax=axes[0], alpha=0.6)
axes[0].set_title("Strip Plot")

# 蜂群图
sns.swarmplot(data=tips, x="day", y="total_bill", ax=axes[1])
axes[1].set_title("Swarm Plot")

# 组合图：箱线图 + 散点
sns.boxplot(data=tips, x="day", y="total_bill", ax=axes[2], color="lightblue")
sns.stripplot(data=tips, x="day", y="total_bill", ax=axes[2], color="darkblue", alpha=0.5)
axes[2].set_title("箱线图 + 散点")

plt.tight_layout()
plt.show()

## 4. 关系图

In [None]:
# 散点图
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 基本散点图
sns.scatterplot(data=tips, x="total_bill", y="tip", ax=axes[0])
axes[0].set_title("基本散点图")

# 带颜色编码
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="time", ax=axes[1])
axes[1].set_title("按时间着色")

# 带大小和颜色
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="day", size="size", ax=axes[2])
axes[2].set_title("多维度编码")

plt.tight_layout()
plt.show()

In [None]:
# 回归图
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 线性回归
sns.regplot(data=tips, x="total_bill", y="tip", ax=axes[0])
axes[0].set_title("线性回归")

# 多项式回归
sns.regplot(data=tips, x="total_bill", y="tip", order=2, ax=axes[1])
axes[1].set_title("多项式回归 (order=2)")

# 分组回归
sns.lmplot(data=tips, x="total_bill", y="tip", hue="smoker", height=5)
plt.title("分组线性回归")

plt.tight_layout()
plt.show()

In [None]:
# relplot - 关系图的统一接口
g = sns.relplot(data=tips, x="total_bill", y="tip", 
                col="time", hue="smoker", style="sex",
                kind="scatter", height=4, aspect=1.2)
plt.suptitle("多维度关系图", y=1.02)
plt.show()

## 5. 矩阵图

In [None]:
# 热力图
# 计算相关系数矩阵
numeric_tips = tips.select_dtypes(include=[np.number])
corr = numeric_tips.corr()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 基本热力图
sns.heatmap(corr, annot=True, cmap="coolwarm", ax=axes[0])
axes[0].set_title("相关系数热力图")

# 带遮罩的热力图（只显示下三角）
mask = np.triu(np.ones_like(corr, dtype=bool))
sns.heatmap(corr, mask=mask, annot=True, cmap="RdYlBu_r", ax=axes[1])
axes[1].set_title("下三角热力图")

plt.tight_layout()
plt.show()

In [None]:
# 聚类热力图
iris_pivot = iris.drop(columns="species").T
sns.clustermap(iris_pivot, cmap="viridis", figsize=(12, 8))
plt.suptitle("聚类热力图", y=1.02)
plt.show()

## 6. 成对关系图

In [None]:
# pairplot - 成对变量关系
sns.pairplot(iris, hue="species", height=2.5)
plt.suptitle("Iris 数据集成对关系图", y=1.02)
plt.show()

In [None]:
# 自定义 pairplot
g = sns.pairplot(tips, vars=["total_bill", "tip", "size"],
                 hue="time", diag_kind="kde", 
                 plot_kws={"alpha": 0.6})
plt.suptitle("Tips 数据集成对关系图", y=1.02)
plt.show()

## 7. FacetGrid 分面图

In [None]:
# 创建分面网格
g = sns.FacetGrid(tips, col="time", row="smoker", height=4)
g.map(sns.scatterplot, "total_bill", "tip")
g.add_legend()
plt.suptitle("分面散点图", y=1.02)
plt.show()

In [None]:
# 分面直方图
g = sns.FacetGrid(tips, col="day", col_wrap=2, height=4)
g.map(sns.histplot, "total_bill", kde=True)
g.set_titles("{col_name}")
plt.suptitle("每天账单分布", y=1.02)
plt.show()

## 8. 样式和主题

In [None]:
# 不同样式对比
styles = ["white", "whitegrid", "dark", "darkgrid", "ticks"]

fig, axes = plt.subplots(1, 5, figsize=(20, 4))

for ax, style in zip(axes, styles):
    with sns.axes_style(style):
        sns.histplot(data=tips, x="total_bill", ax=ax)
        ax.set_title(f"style: {style}")

plt.tight_layout()
plt.show()

In [None]:
# 调色板
palettes = ["deep", "muted", "bright", "pastel", "dark", "colorblind"]

fig, axes = plt.subplots(2, 3, figsize=(15, 8))
axes = axes.flatten()

for ax, palette in zip(axes, palettes):
    sns.barplot(data=tips, x="day", y="total_bill", hue="sex", 
                palette=palette, ax=ax)
    ax.set_title(f"palette: {palette}")
    ax.legend(loc="upper right")

plt.tight_layout()
plt.show()

In [None]:
# 自定义调色板
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 连续色板
sns.barplot(data=tips.groupby("day")["total_bill"].mean().reset_index(),
            x="day", y="total_bill", palette="Blues_d", ax=axes[0])
axes[0].set_title("连续色板 (Blues_d)")

# 发散色板
sns.heatmap(corr, cmap="RdBu_r", center=0, ax=axes[1])
axes[1].set_title("发散色板 (RdBu_r)")

# 自定义颜色
custom_palette = ["#FF6B6B", "#4ECDC4", "#45B7D1", "#96CEB4"]
sns.barplot(data=tips, x="day", y="total_bill", palette=custom_palette, ax=axes[2])
axes[2].set_title("自定义颜色")

plt.tight_layout()
plt.show()

## 9. 实际案例：Titanic 数据可视化

In [None]:
# 查看 Titanic 数据
print(titanic.head())
print(f"\n数据形状: {titanic.shape}")

In [None]:
# 综合可视化分析
fig = plt.figure(figsize=(16, 12))

# 1. 生存率 by 性别
ax1 = fig.add_subplot(2, 3, 1)
sns.barplot(data=titanic, x="sex", y="survived", ax=ax1)
ax1.set_title("生存率 by 性别")
ax1.set_ylabel("生存率")

# 2. 生存率 by 舱位
ax2 = fig.add_subplot(2, 3, 2)
sns.barplot(data=titanic, x="class", y="survived", ax=ax2)
ax2.set_title("生存率 by 舱位")
ax2.set_ylabel("生存率")

# 3. 年龄分布 by 生存
ax3 = fig.add_subplot(2, 3, 3)
sns.histplot(data=titanic, x="age", hue="survived", kde=True, ax=ax3)
ax3.set_title("年龄分布 by 生存")

# 4. 生存率 by 性别和舱位
ax4 = fig.add_subplot(2, 3, 4)
sns.barplot(data=titanic, x="class", y="survived", hue="sex", ax=ax4)
ax4.set_title("生存率 by 性别和舱位")

# 5. 票价分布
ax5 = fig.add_subplot(2, 3, 5)
sns.boxplot(data=titanic, x="class", y="fare", hue="survived", ax=ax5)
ax5.set_title("票价分布 by 舱位和生存")

# 6. 年龄 vs 票价
ax6 = fig.add_subplot(2, 3, 6)
sns.scatterplot(data=titanic, x="age", y="fare", hue="survived", 
                style="sex", alpha=0.6, ax=ax6)
ax6.set_title("年龄 vs 票价")

plt.tight_layout()
plt.show()

## 10. 练习题

### 练习：使用 Seaborn 分析 iris 数据集
1. 绑制各特征的分布图
2. 绑制按物种分组的箱线图
3. 创建成对关系图

In [None]:
# 在这里编写代码


## 11. 本课小结

1. **分布图**：histplot、kdeplot、displot
2. **分类图**：countplot、barplot、boxplot、violinplot
3. **关系图**：scatterplot、regplot、relplot
4. **矩阵图**：heatmap、clustermap
5. **成对关系**：pairplot
6. **分面图**：FacetGrid
7. **样式主题**：set_theme、调色板