# 🚀 论文级别数据分析模板 - 使用示例

## 这个notebook展示如何使用分析模板

你只需要：
1. 修改数据路径
2. 修改目标变量名
3. 运行所有单元格

就能得到完整的论文级别分析报告！

---
## 📦 方式1: 一键自动化分析（推荐）

In [None]:
# 导入自动分析器
import sys
sys.path.append('.')
from auto_analysis import AutoAnalyzer

In [None]:
# ⚙️ 配置：修改为你的数据路径和目标变量
DATA_PATH = '../train.csv'  # 👈 修改这里
TARGET = 'charges'          # 👈 修改这里
OUTPUT_DIR = 'reports/my_analysis'  # 输出目录

In [None]:
# 创建分析器
analyzer = AutoAnalyzer(
    data_path=DATA_PATH,
    target=TARGET,
    output_dir=OUTPUT_DIR
)

In [None]:
# 🎉 运行完整分析（这会生成所有图表和报告）
analyzer.run_full_analysis()

✅ **完成！** 查看 `reports/my_analysis/` 目录查看所有结果

---

## 📊 方式2: 分步骤运行（更灵活）

如果你想更细粒度地控制分析过程

In [None]:
# 1. 数据概览
analyzer.data_overview()

In [None]:
# 2. 数据质量检查
analyzer.quality_check()

In [None]:
# 3. 单变量分析（这会生成很多图表）
analyzer.univariate_analysis()

In [None]:
# 4. 双变量分析（特征 vs 目标）
analyzer.bivariate_analysis()

In [None]:
# 5. 多变量分析（相关性）
analyzer.multivariate_analysis()

In [None]:
# 6. 统计检验
analyzer.statistical_tests()

In [None]:
# 7. 生成报告
analyzer.generate_report()

---
## 🔧 方式3: 使用独立工具模块（完全自定义）

In [None]:
# 导入工具
import pandas as pd
import numpy as np
import sys
sys.path.append('src')

from utils.data_loader import DataLoader, reduce_mem_usage
from visualization.plot_templates import EDAPlotter
from utils.statistical_tests import StatisticalTester

### 3.1 数据加载

In [None]:
# 加载数据
df = pd.read_csv(DATA_PATH)
print(f"数据形状: {df.shape}")
df.head()

In [None]:
# 内存优化
df = reduce_mem_usage(df)

### 3.2 可视化分析

In [None]:
# 创建绘图器
plotter = EDAPlotter()

In [None]:
# 绘制数值型特征分布
plotter.plot_numeric_distribution(df, 'age', target=TARGET)

In [None]:
# 绘制类别型特征分布
if 'smoker' in df.columns:
    plotter.plot_categorical_distribution(df, 'smoker')

In [None]:
# 相关性热力图
plotter.plot_correlation_heatmap(df)

In [None]:
# 目标变量分析
plotter.plot_target_analysis(df, TARGET)

### 3.3 统计检验

In [None]:
# 创建统计检验器
tester = StatisticalTester(alpha=0.05)

In [None]:
# 正态性检验
if 'age' in df.columns:
    result = tester.test_normality(df['age'])
    print(result)

In [None]:
# 两组比较（例如：吸烟者vs非吸烟者的费用）
if 'smoker' in df.columns and TARGET in df.columns:
    smokers = df[df['smoker'] == 'yes'][TARGET]
    non_smokers = df[df['smoker'] == 'no'][TARGET]
    
    result = tester.test_two_groups(smokers, non_smokers)
    print("\n两组比较结果:")
    for key, value in result.items():
        print(f"{key}: {value}")

In [None]:
# 相关性检验
if 'age' in df.columns and TARGET in df.columns:
    result = tester.test_correlation(df['age'], df[TARGET], method='pearson')
    print("\nPearson相关性检验:")
    print(result['interpretation'])

In [None]:
# 综合分析（自动选择合适的检验方法）
if 'age' in df.columns:
    results = tester.comprehensive_analysis(df, 'age', TARGET)
    tester.print_test_results(results)

---
## 💡 自定义分析示例

In [None]:
# 示例：只分析特定的几个特征
features_to_analyze = ['age', 'bmi', 'children']  # 👈 修改为你想分析的特征

for feature in features_to_analyze:
    if feature in df.columns:
        print(f"\n{'='*60}")
        print(f"分析特征: {feature}")
        print('='*60)
        
        # 绘图
        plotter.plot_numeric_distribution(df, feature, target=TARGET)
        
        # 统计检验
        results = tester.comprehensive_analysis(df, feature, TARGET)
        tester.print_test_results(results)

---
## 📊 查看关键发现

In [None]:
# 数据摘要
print("数据基本信息")
print("="*60)
print(f"总行数: {len(df):,}")
print(f"总列数: {len(df.columns)}")
print(f"\n缺失值总数: {df.isnull().sum().sum()}")
print(f"重复行数: {df.duplicated().sum()}")

In [None]:
# 目标变量统计
if TARGET in df.columns:
    print(f"\n目标变量 '{TARGET}' 统计:")
    print("="*60)
    print(df[TARGET].describe())

In [None]:
# 数值型特征与目标的相关性排序
if TARGET in df.columns:
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    numeric_cols = [c for c in numeric_cols if c != TARGET]
    
    correlations = []
    for col in numeric_cols:
        corr = df[col].corr(df[TARGET])
        correlations.append({'特征': col, '相关系数': corr, '绝对值': abs(corr)})
    
    corr_df = pd.DataFrame(correlations).sort_values('绝对值', ascending=False)
    
    print(f"\n特征与 '{TARGET}' 的相关性（按重要性排序）:")
    print("="*60)
    print(corr_df.head(10).to_string(index=False))

---
## ✅ 完成！

现在你已经完成了数据分析，查看 `reports/` 目录获取所有图表和报告。

### 下一步可以做什么？

1. **特征工程**: 根据EDA发现创建新特征
2. **数据预处理**: 处理缺失值、异常值
3. **建模**: 使用这些洞察构建预测模型
4. **深入分析**: 针对有趣的发现进行更深入的探索

### 学习资源

- 查看 `README_QUICKSTART.md` 了解更多用法
- 查看 `data_analysis_pipeline.md` 了解完整方法论
- 阅读 `src/` 目录下的代码学习技术细节