# 模块四：AI数据分析师 (实验手册)

欢迎来到模块四的实验环节！在本笔记本中，我们将通过两个有趣的案例，亲手实践数据分析的全流程。

## 实验内容
1. **初试身手**：唤醒沉睡的“王者荣耀”英雄数据。
2. **综合项目**：化身影视投资人，挖掘电影市场的“财富密码”。

## 准备工作
确保你已经安装了 `pandas` 和 `openpyxl` 库。
如果没有安装，请运行下面的代码块：

In [None]:
import sys
import subprocess

# 使用 subprocess 确保安装到当前 Python 环境，且不依赖 Jupyter 魔术命令
print("Installing pandas and openpyxl...")
subprocess.check_call([sys.executable, '-m', 'pip', 'install', 'pandas', 'openpyxl', '--user'])
print("Installation complete.")

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 设置中文字体，防止画图乱码 (Mac/Windows通用设置)
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei'] 
plt.rcParams['axes.unicode_minus'] = False

---
## Part 1: 初试身手 —— 王者荣耀英雄数据分析

我们手里有一份 `data/honor_of_kings.xlsx`，包含了100多位英雄的详细数据。
让我们先来“体检”一下这份数据。

In [None]:
# 1. 读取数据
df_hero = pd.read_excel('data/honor_of_kings.xlsx')

# 2. 查看前5行
df_hero.head()

In [None]:
# 3. 查看数据基本信息 (行数、列数、缺失值)
df_hero.info()

In [None]:
# 4. 简单的统计描述
df_hero.describe()

### 思考：
通过 `describe()`，你能看出英雄胜率的平均值是多少吗？最高胜率又是多少？

---
## Part 2: 综合项目 —— 电影市场洞察报告

现在，我们将进入更复杂的实战。你将扮演一位**影视投资人**。
任务目标：从 `data/movies.xlsx` 中挖掘出高回报率的电影类型，并生成一份“必看清单”。

### Step 1: 读取与体检

In [None]:
# 读取电影数据
df_movie = pd.read_excel('data/movies.xlsx')

# 查看基本信息
df_movie.info()

**观察**：
注意看 `成本` 这一列，是不是有一些缺失值？
如果成本是空的，我们就没法计算投资回报率 (ROI) 了。所以下一步必须清洗数据。

### Step 2: 数据清洗与特征工程

1. **清洗**：删除 `成本` 为空的行。
2. **计算**：创建新列 `ROI` (投资回报率)。
   $$ ROI = \frac{票房 - 成本}{成本} $$

In [None]:
# 1. 删除 '成本' 缺失的行
df_clean = df_movie.dropna(subset=['成本']).copy()

# 2. 计算 ROI
df_clean['ROI'] = (df_clean['票房'] - df_clean['成本']) / df_clean['成本']

# 3. 检查一下前5行，看看 ROI 算出来了吗？
df_clean.head()

### Step 3: 统计分析 (寻找财富密码)

我们要回答一个核心问题：**哪种类型的电影回报率最高？**
这需要用到 `groupby` (分组) 功能。

In [None]:
# 按 '类型' 分组，计算 'ROI' 的平均值，并降序排列
roi_analysis = df_clean.groupby('类型')['ROI'].mean().sort_values(ascending=False)

print(roi_analysis)

### Step 4: 导出成果

最后，我们筛选出那些 **评分 > 8.0** 且 **ROI > 2** (赚了两倍以上) 的神作，保存为 Excel 文件。

In [None]:
# 筛选
must_watch = df_clean[(df_clean['评分'] > 8.0) & (df_clean['ROI'] > 2)]

# 导出 (不包含索引列)
must_watch.to_excel('must_watch.xlsx', index=False)

print(f"恭喜！已成功筛选出 {len(must_watch)} 部必看神作，并保存为 'must_watch.xlsx'。")

In [None]:
# 让我们看看是哪些电影上榜了
must_watch[['电影', '类型', '评分', 'ROI']].sort_values(by='评分', ascending=False)