# 03_eda_analysis

本笔记本用于执行电影数据的探索性数据分析(EDA)，包括数据分布、相关性分析、趋势分析等。

In [1]:
# 导入必要的库
import os
import sys

## 1. 检查项目结构

In [2]:
# 检查当前工作目录
print(f'当前工作目录: {os.getcwd()}')

# 检查项目结构
project_dir = '..'
print('项目结构:')
for root, dirs, files in os.walk(project_dir):
    level = root.replace(project_dir, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f'{indent}{os.path.basename(root)}/')
    subindent = ' ' * 2 * (level + 1)
    for file in files[:5]:  # 只显示前5个文件
        print(f'{subindent}{file}')
    if len(files) > 5:
        print(f'{subindent}... 等 {len(files) - 5} 个文件')

当前工作目录: C:\羊驼\pro\analysis\movie_box_office_analysis\notebooks
项目结构:
../
  .editorconfig
  .flake8
  .gitignore
  .markdownlint.json
  .pylintrc
  ... 等 14 个文件
  .git/
    COMMIT_EDITMSG
    config
    description
    FETCH_HEAD
    HEAD
    ... 等 1 个文件
    hooks/
      applypatch-msg.sample
      commit-msg.sample
      fsmonitor-watchman.sample
      post-update.sample
      pre-applypatch.sample
      ... 等 9 个文件
    info/
      exclude
    logs/
      HEAD
      refs/
        heads/
          master
        remotes/
          origin/
            main
    objects/
      08/
        76b538d98c829642ab67af2d090243531bb64e
        fcf46bb7405c6a5ce144cfea59a6da91334639
      10/
        1949aefabe9a83419aade8753b18af35f05ba4
      12/
        97c4c9c24467baf29d2433442222fa2d9ab5a7
      13/
        ce30a3a6848c27e6d418d5a41ffae8668b675d
      15/
        45e62bd536257879557de49217ec36f4115810
      17/
        27ce89b129480be0fd4df76c80327148ac4002
      18/
        466df860bda94f6bbd2

          aimv2/
            configuration_aimv2.data.json
            configuration_aimv2.meta.json
            modeling_aimv2.data.json
            modeling_aimv2.meta.json
            __init__.data.json
            ... 等 1 个文件
          albert/
            configuration_albert.data.json
            configuration_albert.meta.json
            modeling_albert.data.json
            modeling_albert.meta.json
            modeling_flax_albert.data.json
            ... 等 9 个文件
          align/
            configuration_align.data.json
            configuration_align.meta.json
            modeling_align.data.json
            modeling_align.meta.json
            processing_align.data.json
            ... 等 3 个文件
          altclip/
            configuration_altclip.data.json
            configuration_altclip.meta.json
            modeling_altclip.data.json
            modeling_altclip.meta.json
            processing_altclip.data.json
            ... 等 3 个文件
          arcee/
            config

## 2. 执行探索性数据分析

In [3]:
# 导入EDA分析模块
sys.path.insert(0, project_dir)
from src.eda_analysis import EDAnalysis

# 执行探索性数据分析
print('正在执行探索性数据分析...')

# 初始化EDA分析对象
eda_analyzer = EDAnalysis()

# 执行完整的EDA分析
eda_analyzer.run_complete_eda()

print('探索性数据分析完成！')

2025-12-10 16:53:41,906 - eda_analysis - INFO - 结果将保存到: ./results\result_2


2025-12-10 16:53:41,908 - eda_analysis - ERROR - 文件不存在: ./data\processed\cleaned_movie_data.csv


2025-12-10 16:53:41,911 - eda_analysis - ERROR - 请先运行数据预处理脚本: python main.py --component preprocess


正在执行探索性数据分析...
探索性数据分析完成！


## 3. 查看生成的图表

In [4]:
# 查看生成的图表文件
charts_dir = os.path.join(project_dir, 'results', 'charts')
if os.path.exists(charts_dir):
    print('生成的图表文件:')
    for file in os.listdir(charts_dir):
        print(f'  - {file}')
else:
    print('图表目录不存在')

生成的图表文件:
  - basic_budget_vs_revenue.png
  - basic_genre_distribution.png
  - basic_revenue_distribution.png
  - cnn_network_actual_vs_predicted.png
  - cnn_network_training_history.png
  - deep_model_comparison_r2.png
  - dense_network_actual_vs_predicted.png
  - dense_network_training_history.png
  - gradient_boosting_actual_vs_predicted.png
  - gradient_boosting_feature_importance.png
  - gru_network_actual_vs_predicted.png
  - gru_network_training_history.png
  - interactive_budget_vs_revenue.html
  - interactive_top_directors.html
  - interactive_yearly_trend.html
  - lightgbm_actual_vs_predicted.png
  - lightgbm_feature_importance.png
  - lstm_network_actual_vs_predicted.png
  - lstm_network_training_history.png
  - model_comparison_r2.png
  - model_comparison_rmse.png
  - movie_box_office_dashboard.py
  - random_forest_actual_vs_predicted.png
  - random_forest_feature_importance.png
  - ridge_regression_actual_vs_predicted.png
  - ridge_regression_feature_importance.png
  - xgbo

## 4. 结论

In [5]:
# 总结探索性数据分析结果
print('探索性数据分析操作完成！')
print('\n下一步操作:')
print('1. 运行04_feature_engineering.ipynb进行特征工程')
print('2. 或使用模块化的FeatureEngineering类在Python代码中调用')

探索性数据分析操作完成！

下一步操作:
1. 运行04_feature_engineering.ipynb进行特征工程
2. 或使用模块化的FeatureEngineering类在Python代码中调用
