# 02_data_preprocessing

本笔记本用于执行电影数据的预处理操作，包括数据清洗、缺失值处理和特征提取等。

In [None]:
# 导入必要的库
import os
import sys
import pandas as pd

## 1. 检查项目结构

In [None]:
# 检查当前工作目录
print(f'当前工作目录: {os.getcwd()}')

# 检查项目结构
project_dir = '..'
print('项目结构:')
for root, dirs, files in os.walk(project_dir):
    level = root.replace(project_dir, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f'{indent}{os.path.basename(root)}/')
    subindent = ' ' * 2 * (level + 1)
    for file in files[:5]:  # 只显示前5个文件
        print(f'{subindent}{file}')
    if len(files) > 5:
        print(f'{subindent}... 等 {len(files) - 5} 个文件')

## 2. 执行数据预处理

In [None]:
# 导入数据预处理模块
sys.path.insert(0, project_dir)
from src.data_preprocessing import DataPreprocessing

# 初始化数据预处理对象
preprocessor = DataPreprocessing(base_dir=os.path.join(project_dir, 'data'))

# 执行完整的数据预处理流程
print('正在执行完整的数据预处理流程...')

# 1. 加载数据
data = preprocessor.load_data()
print(f'原始数据加载完成，形状: {data.shape}')

# 2. 数据清洗
cleaned_data = preprocessor.clean_data(data)
print(f'数据清洗完成，形状: {cleaned_data.shape}')

# 3. 处理缺失值
processed_data = preprocessor.handle_missing_values(cleaned_data)
print(f'缺失值处理完成，形状: {processed_data.shape}')

# 4. 特征提取
processed_data = preprocessor.extract_features(processed_data)
print(f'特征提取完成，形状: {processed_data.shape}')

# 5. 保存处理后的数据
output_path = preprocessor.save_processed_data(processed_data)
print(f'处理后的数据已保存到: {output_path}')

## 3. 查看处理后的数据

In [None]:
# 查看processed目录下的文件
processed_dir = os.path.join(project_dir, 'data', 'processed')
print('processed目录下的文件:')
for file in os.listdir(processed_dir):
    print(f'  - {file}')

## 4. 加载并查看处理后的数据示例

In [None]:
# 加载并查看清洗后的电影数据
cleaned_movie_path = os.path.join(processed_dir, 'cleaned_movie_data.csv')
if os.path.exists(cleaned_movie_path):
    cleaned_movie_data = pd.read_csv(cleaned_movie_path)
    print(f'清洗后的电影数据形状: {cleaned_movie_data.shape}')
    print('\n清洗后的电影数据示例:')
    display(cleaned_movie_data.head())
    print('\n数据信息:')
    cleaned_movie_data.info()
else:
    print('清洗后的电影数据文件不存在')

## 5. 结论

In [None]:
# 总结数据预处理结果
print('数据预处理操作完成！')
print('\n下一步操作:')
print('1. 运行03_eda_analysis.ipynb进行探索性数据分析')
print('2. 或使用模块化的EDAnalysis类在Python代码中调用')