# 01_data_acquisition

本笔记本用于执行电影数据的获取操作，包括从Kaggle和pandas GitHub下载电影数据集。

## 项目结构说明

### 当前模块化设计
本项目采用模块化设计，将各个功能拆分为独立的模块，以便更好地管理和维护。主要结构如下：

```
src/
├── data_acquisition/         # 数据获取模块
├── data_preprocessing/       # 数据预处理模块
│   ├── data_loader.py        # 数据加载
│   ├── data_cleaner.py       # 数据清洗
│   ├── missing_value_handler.py # 缺失值处理
│   ├── feature_extractor.py  # 特征提取
│   └── outlier_detector.py   # 异常值检测
├── eda_analysis/             # 探索性数据分析模块
├── feature_engineering/      # 特征工程模块
├── modeling/                 # 传统机器学习建模模块
├── deep_learning/            # 深度学习建模模块
└── visualization/            # 可视化模块
```

### 正确使用方式

1. **直接导入模块**（推荐）：
   - 从src目录下的各个模块直接导入类和函数
   - 示例：`from src.data_acquisition import DataAcquisition`

2. **执行流程**：
   - 按照编号顺序运行notebooks（01→02→03→04→05→06→07）
   - 每个notebook都依赖于前一个notebook的输出结果

3. **避免使用subprocess调用脚本**：
   - 不再推荐使用`subprocess.run`调用独立脚本
   - 模块化设计允许直接导入和使用功能，更加高效和可控

4. **验证notebook与代码一致性**：
   - 使用`src/tools/validate_notebooks.py`脚本检查notebook是否与当前项目结构一致
   - 示例：`python src/tools/validate_notebooks.py`


In [None]:
# 导入必要的库
import os
import sys
import pandas as pd

## 1. 检查项目结构

In [None]:
# 检查当前工作目录
print(f'当前工作目录: {os.getcwd()}')

# 检查项目结构
project_dir = '..'
print('项目结构:')
for root, dirs, files in os.walk(project_dir):
    level = root.replace(project_dir, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f'{indent}{os.path.basename(root)}/')
    subindent = ' ' * 2 * (level + 1)
    for file in files[:5]:  # 只显示前5个文件
        print(f'{subindent}{file}')
    if len(files) > 5:
        print(f'{subindent}... 等 {len(files) - 5} 个文件')

## 2. 执行数据获取

In [None]:
# 导入数据获取模块
sys.path.insert(0, project_dir)
from src.data_acquisition import DataAcquisition

# 执行数据获取
print('正在执行数据获取...')

# 初始化数据获取对象
data_acquirer = DataAcquisition()

# 执行数据获取（跳过下载）
data_acquirer.run(skip_download=True)

print('数据获取操作完成！')

## 3. 查看获取的数据

In [None]:
# 查看raw目录下的文件
raw_dir = os.path.join(project_dir, 'data', 'raw')
print('raw目录下的文件:')
for file in os.listdir(raw_dir):
    print(f'  - {file}')

# 查看processed目录下的文件
processed_dir = os.path.join(project_dir, 'data', 'processed')
print('processed目录下的文件:')
for file in os.listdir(processed_dir):
    print(f'  - {file}')

## 4. 加载并查看数据示例

In [None]:
# 加载并查看TMDB电影数据
tmdb_movies_path = os.path.join(raw_dir, 'tmdb_5000_movies.csv')
if os.path.exists(tmdb_movies_path):
    tmdb_movies = pd.read_csv(tmdb_movies_path)
    print(f'TMDB电影数据形状: {tmdb_movies.shape}')
    print('\nTMDB电影数据示例:')
    display(tmdb_movies.head())
else:
    print('TMDB电影数据文件不存在')

# 加载并查看TMDB演职员数据
tmdb_credits_path = os.path.join(raw_dir, 'tmdb_5000_credits.csv')
if os.path.exists(tmdb_credits_path):
    tmdb_credits = pd.read_csv(tmdb_credits_path)
    print(f'\nTMDB演职员数据形状: {tmdb_credits.shape}')
    print('\nTMDB演职员数据示例:')
    display(tmdb_credits.head())
else:
    print('TMDB演职员数据文件不存在')

# 加载并查看pandas电影数据
pandas_movies_path = os.path.join(raw_dir, 'movies.csv')
if os.path.exists(pandas_movies_path):
    pandas_movies = pd.read_csv(pandas_movies_path)
    print(f'\npandas电影数据形状: {pandas_movies.shape}')
    print('\npandas电影数据示例:')
    display(pandas_movies.head())
else:
    print('pandas电影数据文件不存在')

## 5. 结论

In [None]:
# 总结数据获取结果
print('数据获取操作完成！')
print('\n下一步操作:')
print('1. 运行02_data_preprocessing.ipynb进行数据预处理')
print('2. 或使用模块化的DataPreprocessing类在Python代码中调用')