# Perspective 示例教程

Perspective 是一个强大的交互式数据分析和可视化组件。本教程将展示如何在 Python 环境中使用 Perspective 进行数据操作和可视化。

## 安装

要使用完整的可视化功能，需要安装以下组件：

1. 安装基本包：
```bash
pip install perspective-python
```

2. 安装 JupyterLab 和扩展：
```bash
pip install jupyterlab
pip install perspective-python[jupyter]
jupyter labextension install @finos/perspective-jupyterlab
```

3. 启动 JupyterLab：
```bash
jupyter lab
```

**注意**: 可视化界面需要在 JupyterLab 环境中运行，而不是在普通的 VS Code Notebook 中。请在 JupyterLab 中打开此文件以查看交互式可视化效果。

In [31]:
import pandas as pd
import numpy as np
from datetime import date, datetime
import perspective

# 创建示例数据
data = pd.DataFrame({
    "int": np.arange(100),
    "float": [i * 1.5 for i in range(100)],
    "bool": [i % 2 == 0 for i in range(100)],
    "date": [date.today() for i in range(100)],
    "datetime": [datetime.now() for i in range(100)],
    "string": [f"item_{i}" for i in range(100)]
})

## 基本使用

### 1. 创建 Table

Perspective 的核心是 `Table` 对象，它是一个列式数据存储结构。我们可以从多种数据源创建 Table：
- pandas DataFrame
- polars DataFrame
- Apache Arrow
- CSV 字符串
- JSON 数据

下面我们使用刚刚创建的 pandas DataFrame 来创建一个 Table：

In [32]:
# 创建一个Table，使用float列作为索引
table = perspective.table(data, index="float")

# 查看表的结构
print("表的模式：")
print(table.schema())
print("\n行数：", table.size())
print("列名：", table.columns())

表的模式：
{'date': 'date', 'int': 'integer', 'index': 'integer', 'string': 'string', 'datetime': 'datetime', 'float': 'float', 'bool': 'boolean'}

行数： 100
列名： ['index', 'int', 'float', 'bool', 'date', 'datetime', 'string']


### 2. 创建和使用 View

View 是 Perspective 的查询和序列化接口。它代表了对 Table 数据集的查询，可以进行以下操作：
- 分组（group_by）
- 过滤（filter）
- 排序（sort）
- 聚合（aggregates）
- 透视（split_by）

让我们创建一个View来演示这些功能：

In [33]:
# 创建一个视图，按bool列分组，过滤int列大于50的数据
view = table.view(
    group_by=["bool"],                    # 按bool列分组
    filter=[["int", ">", 50]],           # 过滤条件
    columns=["int", "float", "string"],   # 选择显示的列
    sort=[["float", "desc"]]             # 按float列降序排序
)

# 将结果转换为pandas DataFrame并显示
records = view.to_records()  # 首先获取记录
result_df = pd.DataFrame.from_records(records)  # 然后转换为DataFrame
print("分组、过滤和排序后的结果：")
print(result_df)

# 获取视图的维度信息
dims = view.dimensions()
print("\n视图的维度信息：")
for k, v in dims.items():
    print(f"{k}: {v}")

# 清理资源
view.delete()  # 删除视图
table.delete() # 删除表

分组、过滤和排序后的结果：
  __ROW_PATH__   int   float  string
0           []  3675  5512.5      49
1      [False]  1875  2812.5      25
2       [True]  1800  2700.0      24

视图的维度信息：
num_table_rows: 100
num_table_columns: 7
num_view_rows: 3
num_view_columns: 3


### 3. 服务端使用

Perspective 支持在服务端运行，并通过 WebSocket 与前端进行交互。这对于处理大数据集特别有用，因为数据保持在服务器端，只有必要的数据才会传输到客户端。

下面是一个简单的服务端示例：

In [34]:
# 创建服务器和本地客户端
server = perspective.Server()
client = server.new_local_client()

# 创建新的示例数据
server_data = pd.DataFrame({
    "sales": np.random.randint(100, 1000, 100),
    "product": [f"product_{i%5}" for i in range(100)],
    "region": [f"region_{i%3}" for i in range(100)]
})

# 在服务器上创建表
table = client.table(server_data, name="sales_data")

# 创建视图进行数据分析
view = table.view(
    group_by=["region", "product"],
    aggregates={"sales": "sum"}
)

# 获取结果并转换为DataFrame
records = view.to_records()
result_df = pd.DataFrame.from_records(records)
print("按区域和产品分组的销售总和：")
print(result_df)

# 清理资源
view.delete()
table.delete()

按区域和产品分组的销售总和：
             __ROW_PATH__  index  sales  product  region
0                      []   4950  57854      100     100
1              [region_0]   1683  20218       34      34
2   [region_0, product_0]    315   4835        7       7
3   [region_0, product_1]    357   4381        7       7
4   [region_0, product_2]    297   3122        6       6
5   [region_0, product_3]    336   3581        7       7
6   [region_0, product_4]    378   4299        7       7
7              [region_1]   1617  19011       33      33
8   [region_1, product_0]    285   3707        6       6
9   [region_1, product_1]    322   3138        7       7
10  [region_1, product_2]    364   4213        7       7
11  [region_1, product_3]    303   3430        6       6
12  [region_1, product_4]    343   4523        7       7
13             [region_2]   1650  18625       33      33
14  [region_2, product_0]    350   3720        7       7
15  [region_2, product_1]    291   3298        6       6
16  [region_2, p

### 4. 回调和事件

Perspective 支持通过回调来监听数据变化。主要有两种类型的回调：
- `on_update`：当数据更新时触发
- `on_delete`：当表或视图被删除时触发

下面是一个使用回调的示例：

In [35]:
# 创建回调函数
def update_callback():
    print("数据已更新！")

def delete_callback():
    print("数据已删除！")

# 创建新的表和视图
table = perspective.table(pd.DataFrame({
    "value": range(5)
}))

view = table.view()

# 设置回调
on_update_id = view.on_update(update_callback)
on_delete_id = view.on_delete(delete_callback)

# 更新数据以触发 on_update 回调
table.update(pd.DataFrame({
    "value": [10, 11, 12]
}))

# 移除回调
view.remove_update(on_update_id)
view.remove_delete(on_delete_id)

# 清理资源
view.delete()
table.delete()

## 注意事项

1. **资源管理**：使用完 Table 和 View 后，记得调用 `delete()` 方法释放资源。

2. **时区处理**：
   - 当解析 datetime 字符串时，时间被假定为本地时间，除非显式指定了时区偏移。
   - 所有 datetime 列（无论输入时区如何）都会根据 Python 运行时的本地时间输出。

3. **性能优化**：
   - 使用 `index` 可以提高更新和查询性能
   - 对于大数据集，考虑使用服务端模式
   - 避免频繁创建和删除 Table 和 View

4. **类型系统**：
   Perspective 支持以下数据类型：
   - `boolean`：布尔类型
   - `date`：日期类型（年月日）
   - `datetime`：带时区的日期时间类型（精确到毫秒）
   - `float`：64位浮点数
   - `integer`：32位有符号整数
   - `string`：字符串类型（内部使用字典编码）

## 交互式数据可视化

Perspective 提供了强大的交互式数据可视化功能。使用 `PerspectiveWidget` 可以在 Jupyter Notebook 中创建交互式数据视图，支持：

- 表格视图：默认的数据网格视图
- 数据透视：类似 Excel 的数据透视表
- 各种图表：折线图、柱状图、散点图等
- 实时数据更新
- 交互式过滤和排序

下面是一个使用 PerspectiveWidget 的示例：

In [36]:
from perspective.widget import PerspectiveWidget
import numpy as np
import pandas as pd
from datetime import datetime, timedelta

# 创建示例数据
dates = [datetime.now() + timedelta(days=i) for i in range(100)]
data = pd.DataFrame({
    "date": dates,
    "sales": np.random.randint(50, 500, 100),
    "profit": np.random.uniform(10, 100, 100),
    "category": np.random.choice(["A", "B", "C"], 100),
    "region": np.random.choice(["North", "South", "East", "West"], 100)
})

# 创建交互式视图
widget = PerspectiveWidget(
    data,
    columns=["date", "sales", "profit", "category", "region"],
    aggregates={"sales": "sum", "profit": "avg"},
    group_by=["region", "category"],
    sort=[["profit", "desc"]],
    plugin="datagrid"  # 可以改为 'y_line', 'y_bar', 'y_scatter' 等
)

# 显示widget
display(widget)

PerspectiveWidget(aggregates={'sales': 'sum', 'profit': 'avg'}, binding_mode='server', columns=['date', 'sales…

### 可视化配置

PerspectiveWidget 支持多种可视化插件（plugin）：

1. 表格视图：
- `datagrid`：标准数据网格视图
- `grid`：旧版数据网格（已弃用）

2. 图表视图：
- `y_line`：折线图
- `y_scatter`：散点图
- `y_bar`：柱状图
- `x_bar`：横向柱状图
- `treemap`：树形图
- `heatmap`：热力图

让我们尝试一些不同的可视化效果：

In [37]:
# 折线图 - 显示销售趋势
line_chart = PerspectiveWidget(
    data,
    columns=["date", "sales"],
    plugin="y_line"
)
display(line_chart)

# 柱状图 - 按区域显示总销售额
bar_chart = PerspectiveWidget(
    data,
    columns=["region", "sales"],
    aggregates={"sales": "sum"},
    group_by=["region"],
    plugin="y_bar"
)
display(bar_chart)

# 散点图 - 销售额vs利润
scatter_plot = PerspectiveWidget(
    data,
    columns=["sales", "profit"],
    plugin="y_scatter"
)
display(scatter_plot)

# 热力图 - 区域和类别的销售分布
heatmap = PerspectiveWidget(
    data,
    columns=["region", "category", "sales"],
    aggregates={"sales": "sum"},
    group_by=["region", "category"],
    plugin="heatmap"
)
display(heatmap)

PerspectiveWidget(binding_mode='server', columns=['date', 'sales'], plugin='y_line', table_name='0.17491815197…

PerspectiveWidget(aggregates={'sales': 'sum'}, binding_mode='server', columns=['region', 'sales'], group_by=['…

PerspectiveWidget(binding_mode='server', columns=['sales', 'profit'], plugin='y_scatter', table_name='0.769487…

PerspectiveWidget(aggregates={'sales': 'sum'}, binding_mode='server', columns=['region', 'category', 'sales'],…

### 实时数据更新

PerspectiveWidget 支持实时数据更新，非常适合用于构建实时数据仪表板。下面是一个简单的实时更新示例：

In [38]:
import time

# 创建实时数据视图
realtime_data = pd.DataFrame({
    "timestamp": [datetime.now()],
    "value": [np.random.random() * 100]
})

widget = PerspectiveWidget(
    realtime_data,
    plugin="y_line",
    columns=["timestamp", "value"]
)
display(widget)

# 模拟实时数据更新
for i in range(10):
    new_data = pd.DataFrame({
        "timestamp": [datetime.now()],
        "value": [np.random.random() * 100]
    })
    widget.update(new_data)
    time.sleep(1)  # 每秒更新一次

PerspectiveWidget(binding_mode='server', columns=['timestamp', 'value'], plugin='y_line', table_name='0.434438…