# Plotly 数据可视化学习指南

## 目录
1. [Plotly 简介与优势](#plotly-简介与优势)
2. [环境配置](#环境配置)
3. [基础图表创建](#基础图表创建)
4. [折线图 (Line Plot)](#折线图-line-plot)
5. [散点图 (Scatter Plot)](#散点图-scatter-plot)
6. [柱状图 (Bar Chart)](#柱状图-bar-chart)
7. [饼图 (Pie Chart)](#饼图-pie-chart)
8. [直方图 (Histogram)](#直方图-histogram)
9. [箱线图 (Box Plot)](#箱线图-box-plot)
10. [热力图 (Heatmap)](#热力图-heatmap)
11. [3D 图表](#3d-图表)
12. [子图布局 (Subplots)](#子图布局-subplots)
13. [实践练习](#实践练习)

---

## Plotly 简介与优势

**Plotly** 是一个强大的交互式数据可视化库，可以创建美观且功能丰富的图表。

### Plotly 优于其他可视化库的特点：

1. **交互式图表**：所有图表默认支持缩放、平移、悬停显示数据点等交互功能
2. **美观的默认样式**：无需额外配置即可生成专业级图表
3. **丰富的图表类型**：支持2D、3D、地理图表等多种类型
4. **易于导出**：可以轻松导出为HTML、PNG、SVG等格式
5. **响应式设计**：图表可以自适应不同屏幕尺寸
6. **强大的动画功能**：支持数据动画和过渡效果
7. **在线分享**：可以轻松分享到Plotly Chart Studio
8. **与Dash集成**：可以轻松构建交互式Web应用


## 环境配置

在使用 Plotly 之前，需要先安装相应的库。


In [None]:
# 安装命令（在终端中运行）
# pip install plotly

# 导入plotly库
import plotly.graph_objects as go  # 使用graph_objects创建图表（推荐方式）
import plotly.express as px  # 使用express快速创建图表（更简洁）
import numpy as np
import pandas as pd

# 查看plotly版本
import plotly
print(f"Plotly版本: {plotly.__version__}")

# 在Jupyter Notebook中显示图表
# 如果图表不显示，可以运行以下命令
# import plotly.io as pio
# pio.renderers.default = "notebook"  # 或 "browser"


## 基础图表创建

Plotly 提供了两种创建图表的方式：

1. **plotly.graph_objects (go)**：更灵活，可以精细控制图表的每个细节
2. **plotly.express (px)**：更简洁，适合快速创建常见图表

我们将从简单的示例开始，逐步学习各种图表类型。


## 折线图 (Line Plot)

**功能说明**：折线图用于展示数据随时间或其他连续变量的变化趋势，适合观察数据的连续性变化。

**必选参数**：
- `x`：x轴数据（列表、数组或Series）
- `y`：y轴数据（列表、数组或Series）


In [None]:
# 示例1：使用 plotly.express 创建简单折线图（最简单的方式）
import plotly.express as px
import numpy as np

# 创建示例数据
x = np.linspace(0, 10, 50)  # 从0到10，生成50个点
y = np.sin(x)  # 正弦函数

# 创建折线图
# x: x轴数据（必选）
# y: y轴数据（必选）
fig = px.line(x=x, y=y, title='简单的正弦函数折线图')
fig.show()


In [None]:
# 示例2：使用 graph_objects 创建折线图（更灵活的控制）
import plotly.graph_objects as go

# 创建示例数据
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [2, 4, 3, 5, 6, 7, 8, 6, 9, 10]

# 创建折线图
# go.Scatter: 创建散点或折线图
# x: x轴数据（必选）
# y: y轴数据（必选）
# mode: 显示模式，'lines'表示折线，'markers'表示点，'lines+markers'表示折线和点
trace = go.Scatter(x=x, y=y, mode='lines', name='数据线')

# 创建图形对象
fig = go.Figure(data=[trace])

# 设置标题和坐标轴标签
fig.update_layout(
    title='使用 graph_objects 创建的折线图',
    xaxis_title='X轴',
    yaxis_title='Y轴'
)

fig.show()


In [None]:
# 示例3：多条折线图（对比多个数据系列）
import plotly.graph_objects as go
import numpy as np

# 创建示例数据
x = np.linspace(0, 10, 100)

# 创建多条折线
trace1 = go.Scatter(x=x, y=np.sin(x), mode='lines', name='sin(x)')
trace2 = go.Scatter(x=x, y=np.cos(x), mode='lines', name='cos(x)')
trace3 = go.Scatter(x=x, y=np.sin(x) * np.cos(x), mode='lines', name='sin(x)*cos(x)')

# 将多条线添加到同一个图表
fig = go.Figure(data=[trace1, trace2, trace3])
fig.update_layout(
    title='多条折线对比图',
    xaxis_title='X轴',
    yaxis_title='Y轴'
)
fig.show()


## 散点图 (Scatter Plot)

**功能说明**：散点图用于展示两个变量之间的关系，适合观察数据的分布、相关性或聚类情况。

**必选参数**：
- `x`：x轴数据（列表、数组或Series）
- `y`：y轴数据（列表、数组或Series）


In [None]:
# 示例1：使用 plotly.express 创建简单散点图
import plotly.express as px
import numpy as np

# 创建示例数据（带噪声的正相关数据）
np.random.seed(42)
x = np.random.randn(100)
y = 2 * x + np.random.randn(100) * 0.5  # y与x正相关，加入一些噪声

# 创建散点图
# x: x轴数据（必选）
# y: y轴数据（必选）
fig = px.scatter(x=x, y=y, title='简单的散点图')
fig.show()


In [None]:
# 示例2：使用 DataFrame 创建带分类颜色的散点图
import plotly.express as px
import pandas as pd
import numpy as np

# 创建示例DataFrame
np.random.seed(42)
df = pd.DataFrame({
    'x': np.random.randn(100),
    'y': np.random.randn(100),
    '类别': np.random.choice(['A', 'B', 'C'], 100)  # 随机分类
})

# 创建带颜色分类的散点图
# x: x轴数据列名（必选）
# y: y轴数据列名（必选）
# color: 根据该列的值给点着色（可选，但常用）
fig = px.scatter(df, x='x', y='y', color='类别', 
                 title='带分类颜色的散点图')
fig.show()


In [None]:
# 示例3：使用 graph_objects 创建散点图，自定义样式
import plotly.graph_objects as go
import numpy as np

# 创建示例数据
np.random.seed(42)
x = np.random.randn(50)
y = np.random.randn(50)

# 创建散点图
# x: x轴数据（必选）
# y: y轴数据（必选）
# mode: 显示模式，'markers'表示只显示点（必选，用于散点图）
trace = go.Scatter(
    x=x, 
    y=y, 
    mode='markers',
    marker=dict(
        size=10,  # 点的大小
        color=y,  # 根据y值着色
        colorscale='Viridis',  # 颜色方案
        showscale=True  # 显示颜色条
    )
)

fig = go.Figure(data=[trace])
fig.update_layout(
    title='自定义样式的散点图',
    xaxis_title='X轴',
    yaxis_title='Y轴'
)
fig.show()


## 柱状图 (Bar Chart)

**功能说明**：柱状图用于比较不同类别的数据值，适合展示分类数据的对比情况。

**必选参数**：
- `x`：x轴类别数据（列表、数组或Series）
- `y`：y轴数值数据（列表、数组或Series）


In [None]:
# 示例1：使用 plotly.express 创建简单柱状图
import plotly.express as px

# 创建示例数据
categories = ['苹果', '香蕉', '橙子', '葡萄', '草莓']
values = [23, 45, 56, 78, 34]

# 创建柱状图
# x: x轴类别数据（必选）
# y: y轴数值数据（必选）
fig = px.bar(x=categories, y=values, title='水果销量柱状图')
fig.update_layout(xaxis_title='水果种类', yaxis_title='销量')
fig.show()


In [None]:
# 示例2：使用 DataFrame 创建分组柱状图
import plotly.express as px
import pandas as pd

# 创建示例DataFrame
df = pd.DataFrame({
    '月份': ['1月', '2月', '3月', '4月', '5月'] * 2,
    '产品': ['产品A'] * 5 + ['产品B'] * 5,
    '销量': [20, 35, 30, 35, 27, 25, 30, 28, 32, 29]
})

# 创建分组柱状图
# x: x轴类别数据（必选）
# y: y轴数值数据（必选）
# color: 分组依据（可选，用于创建分组柱状图）
fig = px.bar(df, x='月份', y='销量', color='产品', 
             title='产品销量对比柱状图',
             barmode='group')  # 'group'表示分组显示，'stack'表示堆叠显示
fig.show()


In [None]:
# 示例3：使用 graph_objects 创建水平柱状图
import plotly.graph_objects as go

# 创建示例数据
categories = ['产品A', '产品B', '产品C', '产品D', '产品E']
values = [120, 95, 150, 80, 110]

# 创建水平柱状图
# x: x轴数值数据（必选，水平柱状图时）
# y: y轴类别数据（必选，水平柱状图时）
# orientation: 方向，'h'表示水平（必选，用于水平柱状图）
trace = go.Bar(x=values, y=categories, orientation='h')

fig = go.Figure(data=[trace])
fig.update_layout(
    title='水平柱状图',
    xaxis_title='销量',
    yaxis_title='产品'
)
fig.show()


## 饼图 (Pie Chart)

**功能说明**：饼图用于展示各部分占整体的比例，适合展示数据的构成关系。

**必选参数**：
- `values`：各部分数值（列表、数组或Series）
- `names`：各部分名称（列表、数组或Series）


In [None]:
# 示例1：使用 plotly.express 创建简单饼图
import plotly.express as px

# 创建示例数据
names = ['产品A', '产品B', '产品C', '产品D', '其他']
values = [30, 25, 20, 15, 10]

# 创建饼图
# names: 各部分名称（必选）
# values: 各部分数值（必选）
fig = px.pie(names=names, values=values, title='产品销售占比饼图')
fig.show()


In [None]:
# 示例2：使用 graph_objects 创建饼图，自定义样式
import plotly.graph_objects as go

# 创建示例数据
labels = ['Python', 'Java', 'JavaScript', 'C++', '其他']
values = [35, 25, 20, 12, 8]

# 创建饼图
# labels: 各部分标签（必选）
# values: 各部分数值（必选）
trace = go.Pie(labels=labels, values=values, hole=0.4)  # hole参数创建环形图

fig = go.Figure(data=[trace])
fig.update_layout(title='编程语言使用占比（环形图）')
fig.show()


## 直方图 (Histogram)

**功能说明**：直方图用于展示数据的分布情况，显示数据在不同区间的频数或频率。

**必选参数**：
- `x`：数据值（列表、数组或Series）


In [None]:
# 示例1：使用 plotly.express 创建简单直方图
import plotly.express as px
import numpy as np

# 创建示例数据（正态分布）
np.random.seed(42)
data = np.random.normal(100, 15, 1000)  # 均值100，标准差15，生成1000个数据点

# 创建直方图
# x: 数据值（必选）
fig = px.histogram(x=data, title='数据分布直方图', nbins=30)
fig.update_layout(xaxis_title='数值', yaxis_title='频数')
fig.show()


In [None]:
# 示例2：使用 graph_objects 创建直方图，对比多个分布
import plotly.graph_objects as go
import numpy as np

# 创建示例数据
np.random.seed(42)
data1 = np.random.normal(50, 10, 500)
data2 = np.random.normal(70, 12, 500)

# 创建直方图
# x: 数据值（必选）
trace1 = go.Histogram(x=data1, name='分布1', opacity=0.7)
trace2 = go.Histogram(x=data2, name='分布2', opacity=0.7)

fig = go.Figure(data=[trace1, trace2])
fig.update_layout(
    title='对比两个数据分布的直方图',
    xaxis_title='数值',
    yaxis_title='频数',
    barmode='overlay'  # 叠加显示
)
fig.show()


## 箱线图 (Box Plot)

**功能说明**：箱线图用于展示数据的分布特征，包括中位数、四分位数、异常值等统计信息。

**必选参数**：
- `y`：数据值（列表、数组或Series），或
- `x` 和 `y`：x为分类，y为数值（用于分组箱线图）


In [None]:
# 示例1：使用 plotly.express 创建简单箱线图
import plotly.express as px
import numpy as np

# 创建示例数据
np.random.seed(42)
data = np.random.normal(100, 15, 200)

# 创建箱线图
# y: 数据值（必选）
fig = px.box(y=data, title='数据分布箱线图')
fig.update_layout(yaxis_title='数值')
fig.show()


In [None]:
# 示例2：使用 DataFrame 创建分组箱线图
import plotly.express as px
import pandas as pd
import numpy as np

# 创建示例DataFrame
np.random.seed(42)
df = pd.DataFrame({
    '类别': np.repeat(['A组', 'B组', 'C组'], 100),
    '数值': np.concatenate([
        np.random.normal(50, 10, 100),
        np.random.normal(70, 12, 100),
        np.random.normal(60, 15, 100)
    ])
})

# 创建分组箱线图
# x: 分类变量（必选，用于分组）
# y: 数值变量（必选）
fig = px.box(df, x='类别', y='数值', title='不同组别的数据分布箱线图')
fig.show()


## 热力图 (Heatmap)

**功能说明**：热力图用于展示二维数据的矩阵关系，通过颜色深浅表示数值大小，适合展示相关性矩阵、数据密度等。

**必选参数**：
- `z`：二维数据矩阵（二维数组或DataFrame）


In [None]:
# 示例1：使用 plotly.express 创建简单热力图
import plotly.express as px
import numpy as np

# 创建示例数据矩阵
np.random.seed(42)
data = np.random.rand(10, 10)  # 10x10的随机数据矩阵

# 创建热力图
# z: 二维数据矩阵（必选）
fig = px.imshow(data, title='简单热力图', color_continuous_scale='Viridis')
fig.show()


In [None]:
# 示例2：使用 DataFrame 创建相关性热力图
import plotly.express as px
import pandas as pd
import numpy as np

# 创建示例DataFrame
np.random.seed(42)
df = pd.DataFrame({
    '数学': np.random.randn(100),
    '物理': np.random.randn(100),
    '化学': np.random.randn(100),
    '生物': np.random.randn(100)
})

# 计算相关性矩阵
corr_matrix = df.corr()

# 创建相关性热力图
# z: 相关性矩阵（必选）
# x: x轴标签（可选，使用DataFrame时自动获取列名）
# y: y轴标签（可选，使用DataFrame时自动获取列名）
fig = px.imshow(corr_matrix, 
                title='学科成绩相关性热力图',
                color_continuous_scale='RdBu',
                aspect='auto')
fig.show()


In [None]:
# 示例3：使用 graph_objects 创建热力图，自定义标签
import plotly.graph_objects as go
import numpy as np

# 创建示例数据
np.random.seed(42)
data = np.random.rand(5, 5)

# 创建热力图
# z: 二维数据矩阵（必选）
trace = go.Heatmap(
    z=data,
    x=['周一', '周二', '周三', '周四', '周五'],
    y=['产品A', '产品B', '产品C', '产品D', '产品E'],
    colorscale='YlOrRd'
)

fig = go.Figure(data=[trace])
fig.update_layout(title='一周产品销售热力图')
fig.show()


## 3D 图表

**功能说明**：Plotly 支持创建3D图表，包括3D散点图、3D表面图等，适合展示三维数据关系。

**必选参数**：
- 3D散点图：`x`, `y`, `z`（三个坐标轴的数据）
- 3D表面图：`z`（二维数据矩阵）


In [None]:
# 示例1：使用 plotly.express 创建3D散点图
import plotly.express as px
import numpy as np

# 创建示例数据
np.random.seed(42)
n = 100
x = np.random.randn(n)
y = np.random.randn(n)
z = np.random.randn(n)

# 创建3D散点图
# x: x轴数据（必选）
# y: y轴数据（必选）
# z: z轴数据（必选）
fig = px.scatter_3d(x=x, y=y, z=z, title='3D散点图')
fig.show()


In [None]:
# 示例2：使用 graph_objects 创建3D表面图
import plotly.graph_objects as go
import numpy as np

# 创建示例数据（生成一个3D表面）
x = np.linspace(-5, 5, 50)
y = np.linspace(-5, 5, 50)
X, Y = np.meshgrid(x, y)
Z = np.sin(np.sqrt(X**2 + Y**2))  # 创建一个波浪形表面

# 创建3D表面图
# z: 二维数据矩阵（必选）
# x: x轴坐标（可选，但推荐提供）
# y: y轴坐标（可选，但推荐提供）
trace = go.Surface(z=Z, x=X, y=Y, colorscale='Viridis')

fig = go.Figure(data=[trace])
fig.update_layout(title='3D表面图', scene=dict(
    xaxis_title='X轴',
    yaxis_title='Y轴',
    zaxis_title='Z轴'
))
fig.show()


## 子图布局 (Subplots)

**功能说明**：子图布局用于在同一个图形中显示多个图表，适合对比不同数据或展示多个视角。

**必选参数**：
- `rows`：子图行数
- `cols`：子图列数


In [None]:
# 示例1：使用 plotly.subplots 创建子图
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import numpy as np

# 创建示例数据
x = np.linspace(0, 10, 100)

# 创建子图布局
# rows: 子图行数（必选）
# cols: 子图列数（必选）
# subplot_titles: 子图标题（可选）
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=('折线图', '散点图', '柱状图', '直方图')
)

# 在第一个子图添加折线图
fig.add_trace(
    go.Scatter(x=x, y=np.sin(x), mode='lines', name='sin(x)'),
    row=1, col=1
)

# 在第二个子图添加散点图
fig.add_trace(
    go.Scatter(x=x[:20], y=np.cos(x[:20]), mode='markers', name='cos(x)'),
    row=1, col=2
)

# 在第三个子图添加柱状图
fig.add_trace(
    go.Bar(x=['A', 'B', 'C', 'D'], y=[10, 20, 15, 25], name='柱状图'),
    row=2, col=1
)

# 在第四个子图添加直方图
fig.add_trace(
    go.Histogram(x=np.random.randn(100), name='直方图'),
    row=2, col=2
)

# 更新布局
fig.update_layout(height=600, title_text="多子图布局示例")
fig.show()


## 实践练习

现在让我们通过一个综合练习来巩固所学知识。我们将使用真实的数据集创建多个图表。


In [None]:
# 综合练习：分析销售数据
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd
import numpy as np

# 创建示例销售数据
np.random.seed(42)
dates = pd.date_range('2024-01-01', periods=12, freq='M')
products = ['产品A', '产品B', '产品C', '产品D', '产品E']

# 生成销售数据
sales_data = []
for date in dates:
    for product in products:
        sales_data.append({
            '日期': date,
            '产品': product,
            '销量': np.random.randint(50, 200),
            '销售额': np.random.randint(5000, 20000)
        })

df = pd.DataFrame(sales_data)

# 创建多子图展示不同角度的分析
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=('月度总销量趋势', '各产品销量对比', '产品销量分布', '销售额占比'),
    specs=[[{"secondary_y": False}, {"type": "bar"}],
           [{"type": "box"}, {"type": "pie"}]]
)

# 1. 月度总销量趋势（折线图）
monthly_sales = df.groupby('日期')['销量'].sum()
fig.add_trace(
    go.Scatter(x=monthly_sales.index, y=monthly_sales.values, 
               mode='lines+markers', name='月度销量'),
    row=1, col=1
)

# 2. 各产品销量对比（柱状图）
product_sales = df.groupby('产品')['销量'].sum()
fig.add_trace(
    go.Bar(x=product_sales.index, y=product_sales.values, name='产品销量'),
    row=1, col=2
)

# 3. 产品销量分布（箱线图）
for product in products:
    product_data = df[df['产品'] == product]['销量']
    fig.add_trace(
        go.Box(y=product_data, name=product),
        row=2, col=1
    )

# 4. 销售额占比（饼图）
sales_revenue = df.groupby('产品')['销售额'].sum()
fig.add_trace(
    go.Pie(labels=sales_revenue.index, values=sales_revenue.values, name='销售额'),
    row=2, col=2
)

# 更新布局
fig.update_layout(
    height=800,
    title_text="销售数据综合分析仪表板",
    showlegend=False
)

fig.show()


### 总结

通过本教程，我们学习了：

1. **Plotly 的优势**：交互式、美观、功能丰富
2. **两种创建方式**：plotly.express（简洁）和 plotly.graph_objects（灵活）
3. **常用图表类型**：
   - 折线图：展示趋势
   - 散点图：展示关系
   - 柱状图：对比数据
   - 饼图：展示占比
   - 直方图：展示分布
   - 箱线图：展示统计特征
   - 热力图：展示矩阵关系
   - 3D图表：展示三维数据
   - 子图布局：多图表展示

4. **关键参数**：每种图表都有其必选参数，理解这些参数是创建图表的基础

### 下一步学习建议

- 深入学习图表的样式定制（颜色、字体、布局等）
- 学习图表的交互功能（悬停、点击事件等）
- 学习如何导出和分享图表
- 学习与 Dash 集成创建 Web 应用
- 探索更多高级图表类型（如地理图表、金融图表等）
