一个围绕互联网内容平台创作者生态、推荐分发效率、异常归因和 A/B 实验评估的全链路数据分析项目。
本项目基于一份内容平台示例数据,围绕一次业务指标波动进行完整诊断:
2026-04-12 至 2026-04-25 期间,泛知识垂类推荐分发效率和消费质量下滑。分析目标是判断问题是否来自平台整体流量、垂类结构、创作者供给、推荐曝光迁移,并评估创作者激励实验是否有效。
分析链路:
数据清洗 -> 指标计算 -> 垂类诊断 -> 创作者供给分析
-> 分发漏斗下钻 -> 原因证据链 -> 策略实验 -> 看板汇报
- 平台整体 DAU 和 CTR 基本稳定,异常主要集中在泛知识垂类。
- 泛知识完播率从
0.3308降至0.2204,降幅明显大于 CTR,问题更偏向内容质量和推荐匹配。 - 泛知识腰部创作者日均投稿从
287.8降至154.7,下降46.2%。 - 推荐页泛知识腰部曝光份额从
53.4%降至32.3%,头部曝光份额从37.3%升至55.7%。 - A/B 实验显示 treatment 改善供给侧和内容质量,但未改善 CTR。
| 指标 | 数值 |
|---|---|
| 示例数据规模 | 约 321 万行 / 12 张表 |
| DuckDB 全库规模 | 约 642 万行 / 30 张表 |
| 泛知识日均曝光 | 8,501 -> 7,023 |
| 泛知识 CTR | 0.0721 -> 0.0671 |
| 泛知识完播率 | 0.3308 -> 0.2204 |
| 泛知识腰部日均投稿 | 287.8 -> 154.7 |
| 泛知识推荐页腰部曝光份额 | 53.4% -> 32.3% |
| A/B treatment 日均投稿率 lift | +5.2pp |
| A/B treatment 优质内容占比 lift | +4.6pp |
| A/B treatment CTR lift | -0.28pp |
.
├── README.md
├── docs/
│ ├── EDA异常归因与实验分析报告.md
│ ├── 全链路过程总结.md
│ ├── 指标口径字典.md
│ ├── 数据模型设计.md
│ ├── 数据文件清单.md
│ └── 看板设计需求说明.md
├── sql/
│ ├── 00_环境搭建/
│ ├── 01_数据清洗/
│ ├── 02_指标计算/
│ └── 99_数据校验/
├── data_samples/
│ └── aggregated_dashboard_csv/
├── images/
│ └── dashboard/
└── assets/
└── 项目全流程图.md
| 页面 | 说明 |
|---|---|
images/dashboard/01_overview.png |
经营总览与异常雷达 |
images/dashboard/02_category_diagnosis.png |
泛知识异常定位与垂类对比 |
images/dashboard/03_root_cause.png |
创作者供给与推荐曝光迁移归因 |
images/dashboard/04_experiment.png |
A/B 实验评估与策略建议 |
- SQL / DuckDB
- Python
- 指标体系设计
- 数据质量校验
- 异动分析
- 创作者分层分析
- 推荐分发漏斗
- A/B 实验评估
- Dashboard storytelling
- 原始明细数据
- 本地 DuckDB 数据库
- 过程草稿
- 旧版看板与过程素材
本仓库保留公开展示所需的 SQL、聚合样例数据、分析文档和看板图片;不包含原始明细数据和本地数据库文件。项目数据仅用于分析方法展示,不代表任何真实平台的经营情况。