# 配置和初始化

本notebook用于一次性设置项目环境，包括：
- 导入所有必要的库
- 加载配置文件
- 设置显示选项
- 创建输出目录
- 设置随机种子

**注意**：这个notebook只需要运行一次，后续notebook会自动使用这些设置。


In [1]:
# 1. 导入所有必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path
import pickle

# 机器学习相关
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.feature_selection import VarianceThreshold, mutual_info_classif
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LassoCV
from sklearn.feature_selection import RFE

# 统计相关
from scipy import stats
from scipy.stats import pearsonr

# HMM相关（如果可用）
try:
    from hmmlearn import hmm
    HMM_AVAILABLE = True
except ImportError:
    HMM_AVAILABLE = False
    print("警告: hmmlearn未安装，HMM功能将不可用")

# 可视化相关
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 用于显示中文
matplotlib.rcParams['axes.unicode_minus'] = False  # 用于显示负号

print("✓ 所有库导入完成")


✓ 所有库导入完成


In [2]:
# 2. 加载配置文件
import config

print("✓ 配置文件加载完成")
print(f"项目根目录: {config.PROJECT_ROOT}")
print(f"输出目录: {config.OUTPUT_DIR}")
print(f"中间结果目录: {config.INTERMEDIATE_DIR}")


✓ 配置文件加载完成
项目根目录: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025
输出目录: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025\outputs
中间结果目录: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025\outputs\intermediate


In [3]:
# 3. 设置显示选项
pd.set_option('display.max_columns', config.DISPLAY_MAX_COLUMNS)
pd.set_option('display.max_rows', config.DISPLAY_MAX_ROWS)
pd.set_option('display.width', 200)
pd.set_option('display.precision', 4)

print("✓ 显示选项设置完成")


✓ 显示选项设置完成


In [4]:
# 4. 创建输出目录
import os

# 确保所有输出目录存在
config.OUTPUT_DIR.mkdir(exist_ok=True)
config.INTERMEDIATE_DIR.mkdir(exist_ok=True)
config.MODELS_DIR.mkdir(exist_ok=True)
config.REPORTS_DIR.mkdir(exist_ok=True)
config.VISUALIZATIONS_DIR.mkdir(exist_ok=True)

print("✓ 输出目录创建完成")
print(f"  - 中间结果: {config.INTERMEDIATE_DIR}")
print(f"  - 模型文件: {config.MODELS_DIR}")
print(f"  - 报告文件: {config.REPORTS_DIR}")
print(f"  - 可视化: {config.VISUALIZATIONS_DIR}")


✓ 输出目录创建完成
  - 中间结果: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025\outputs\intermediate
  - 模型文件: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025\outputs\models
  - 报告文件: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025\outputs\reports
  - 可视化: c:\Users\nowan\Downloads\Shared_with_EECS215_Fall2025\outputs\visualizations


In [5]:
# 5. 设置随机种子
np.random.seed(config.RANDOM_STATE)
import random
random.seed(config.RANDOM_STATE)

print(f"✓ 随机种子设置为: {config.RANDOM_STATE}")


✓ 随机种子设置为: 42


In [6]:
# 6. 设置可视化样式
plt.style.use(config.PLOT_STYLE)
sns.set_palette("husl")

print(f"✓ 可视化样式设置完成: {config.PLOT_STYLE}")


✓ 可视化样式设置完成: seaborn-v0_8


In [7]:
# 7. 导入工具函数
from utils.data_utils import save_intermediate, load_intermediate, load_all_data, check_data_quality
from utils.feature_utils import aggregate_pairwise_features, normalize_features
from utils.visualization_utils import plot_feature_importance, plot_correlation_matrix, plot_data_distribution

print("✓ 工具函数导入完成")


✓ 工具函数导入完成


## 初始化完成！

现在可以运行后续的notebook了：
1. `01_data_preparation.ipynb` - 数据准备与划分
2. `02_unsupervised_feature_selection.ipynb` - 无监督特征选择
3. ...
