# 小提琴图

**小提琴图（Violin Plot）**是 **箱型图（Box Plot）**和**核密度图（KDE）**的结合，它不仅显示了数据的四分位数信息，还能直观地展现数据的分布情况。小提琴图适用于数据量较大，且希望观察数据分布形态的场景

**适用场景**

- **展示分布形状**：当需要展示数据的分布形状，特别是数据是否呈现多峰分布时。
- **比较组分布**：比较一个或多个分类变量的不同级别的定量数据的分布。
- **数据量巨大**：适用于数据量巨大且无法显示个别观察结果的情况。

## 小提琴图的组成部分

In [1]:
from IPython.display import Image
Image(filename='./pcitures/raw_pics/B10 python绘图——小提琴图.png', width=600, height=400) # 小提琴图展示

## sns.violinplot
- `data`: 数据源，可以是 pandas DataFrame 或类似的数据结构。
- `x`: 用于x轴的变量
- `y`: 用于y轴的变量
- `hue`: 分层变量，用于在小提琴图中创建多个子图，每个子图对应一个类别
- `split`: 布尔值，当设置为 True 时，会将由 hue 参数定义的每个类别的小提琴图分开绘制，以便更清晰地比较不同组的分布
- `palette`: 颜色方案，用于设置不同类别的颜色

## 小提琴图案例

**tips**: 餐饮小费数据集
- total_bill：账单金额
- tip：小费金额
- sex：性别（Male 或 Female）
- smoker：是否吸烟（Yes 或 No）
- day：星期几（Sun, Thu, Fri, Sat）
- time：就餐时间（Lunch 或 Dinner）
- size：就餐人数

In [2]:
import seaborn as sns
import matplotlib.pyplot as plt

# 加载数据集
tips = sns.load_dataset("tips")
tips

### 基本小提琴图

In [3]:
# 设置Seaborn的风格和颜色调色板
sns.set_style("darkgrid")

# 设置图片大小
plt.figure(figsize=(8, 6))  # 设置宽8英寸，高6英寸

# 绘制小提琴图
sns.violinplot(x='day', y='total_bill', data=tips)

# 设置标题和标签
plt.title('Total Bill Distribution by Day', fontsize=16)
plt.xlabel('Day of the Week', fontsize=14)
plt.ylabel('Total Bill (USD)', fontsize=14)

# 显示图表
plt.show()

### 分类变量hue

#### split=True：将小提琴一分为二

In [4]:
# 设置Seaborn的风格和颜色调色板
sns.set_style("darkgrid")

# 设置图片大小
plt.figure(figsize=(8, 6))  # 设置宽8英寸，高6英寸

# 绘制小提琴图
sns.violinplot(x='day', y='total_bill', hue='sex', data=tips, split=True)

# 设置标题和标签
plt.title('Total Bill Distribution by Day', fontsize=16)
plt.xlabel('Day of the Week', fontsize=14)
plt.ylabel('Total Bill (USD)', fontsize=14)

# 显示图表
plt.show()

#### split=False：不将小提琴一分为二

In [5]:
# 设置Seaborn的风格和颜色调色板
sns.set_style("darkgrid")

# 设置图片大小
plt.figure(figsize=(8, 6))  # 设置宽8英寸，高6英寸

# 绘制小提琴图
sns.violinplot(x='day', y='total_bill', hue='sex', data=tips, split=False)

# 设置标题和标签
plt.title('Total Bill Distribution by Day', fontsize=16)
plt.xlabel('Day of the Week', fontsize=14)
plt.ylabel('Total Bill (USD)', fontsize=14)

# 显示图表
plt.show()

### 颜色调色板palette

#### 常见颜色调色板palette介绍

**Qualitative Palettes**：适合离散的类别数据，颜色彼此之间没有顺序或关联。
 
- 'deep'：默认的调色板，适合大部分情况。
- 'muted'：颜色较为柔和，适合多个类别的对比。
- 'pastel'：较为柔和的颜色，视觉上不那么刺眼。
- 'dark'：较为深沉的颜色，适合正式的图表。
- 'colorblind'：设计考虑到色盲友好，适合需要考虑视觉障碍的用户。
- 'Set1', 'Set2', 'Set3'：非常适合多个类别的颜色分配。
- 'Paired'：适合两两配对的颜色。
- 'Accent'：色调较鲜艳，适合强调特定类别。

**Sequential Palettes**：适合连续数据的颜色映射，从浅色到深色表示数据的从小到大的变化。
 
- 'Blues'：从浅蓝色到深蓝色。
- 'Greens'：从浅绿色到深绿色。
- 'Reds'：从浅红色到深红色。
- 'Purples'：从浅紫色到深紫色。
- 'YlGn'、'YlGnBu' 等：从黄色到绿色或蓝色。
- 'Oranges'、'YlOrBr'：从浅橙色到深橙色。
- 'BuGn'、'BuPu'：从浅蓝色到紫色等。

**Diverging Palettes**：适合表示有中值的连续数据，颜色从两端扩展到中间。
 
- 'RdBu'：从红色到蓝色，适合表示负值和正值。
- 'RdYlBu'：从红色到黄色再到蓝色，适合显示中立值。
- 'Spectral'：从紫色到蓝色再到红色，适合强烈的对比。

**Cyclic Palettes**：适合具有周期性的数据，颜色从一个极端到另一个极端，然后回到第一个极端。
 
- 'twilight'、'twilight_shifted'：常用于时间序列数据。

#### 不同palette调色板案例

In [6]:
# 设置Seaborn的风格和颜色调色板
sns.set_style("darkgrid")

# 设置图片大小
plt.figure(figsize=(8, 6))  # 设置宽8英寸，高6英寸

# 绘制小提琴图
sns.violinplot(x='day', y='total_bill', hue='sex', data=tips, split=True, palette='Set3')

# 设置标题和标签
plt.title('Total Bill Distribution by Day', fontsize=16)
plt.xlabel('Day of the Week', fontsize=14)
plt.ylabel('Total Bill (USD)', fontsize=14)

# 显示图表
plt.show()

### 水平小提琴图

In [7]:
# 设置Seaborn的风格和颜色调色板
sns.set_style("darkgrid")

# 设置图片大小
plt.figure(figsize=(8, 6))  # 设置宽8英寸，高6英寸

# 绘制小提琴图
sns.violinplot(x='total_bill', y='day', hue='sex', data=tips, split=True, palette='Set2')

# 设置标题和标签
plt.title('Total Bill Distribution by Day', fontsize=16)
plt.xlabel('Total Bill (USD)', fontsize=14)
plt.ylabel('Day of the Week', fontsize=14)

# 显示图表
plt.show()

### 小提琴图与箱线图结合

可以结合`sns.boxplot()`和`sns.violinplot()`同时绘制小提琴图和箱线图，以获得更全面的数据可视化

In [8]:
# 设置Seaborn的风格和颜色调色板
sns.set_style("darkgrid")

# 设置图片大小
plt.figure(figsize=(8, 6))  # 设置宽8英寸，高6英寸

# 先绘制小提琴图（alpha参数控制透明度，透明度降低）
sns.violinplot(x='day', y='total_bill', data=tips, alpha=0.5)

# 再绘制箱型图（提高可读性）
sns.boxplot(x='day', y='total_bill', data=tips, width=0.3)

# 设置标题和标签
plt.title('Total Bill Distribution by Day', fontsize=16)
plt.xlabel('Day of the Week', fontsize=14)
plt.ylabel('Total Bill (USD)', fontsize=14)

# 显示图表
plt.show()