# 贷款审批数据挖掘流程概览
本笔记本概述了从数据预处理到聚类、关联规则与分类建模的完整分析流程。

## 1. 数据预处理
- 载入原始 `loan_approval.csv`
- 缺失值填补、类别编码、数值标准化
- IQR 方法检测异常值

In [None]:
from data_preprocessing import preprocess_data, initial_eda
artifacts = preprocess_data('loan_approval.csv')
print('原始数据形状:', artifacts.raw_data.shape)
print('预处理后形状:', artifacts.cleaned_data.shape)
print('异常值概览:')
print(artifacts.outlier_summary.head())

## 2. 聚类分析
- 使用 K-Means 自动选择最佳簇数
- 利用 PCA 将结果降至二维并可视化

In [None]:
from clustering_analysis import run_kmeans, plot_clusters
clustering_result = run_kmeans(artifacts.cleaned_data)
print(clustering_result.metrics)
plot_clusters(clustering_result)

## 3. 关联规则分析
- 使用 FP-Growth 挖掘频繁项集
- 输出支持度、置信度、提升度较高的规则
- 网络图展示规则之间的关系

In [None]:
from association_rules import prepare_transactions, mine_association_rules, plot_rule_network
transaction_df = prepare_transactions(artifacts.cleaned_data)
association_result = mine_association_rules(transaction_df)
association_result.rules.head()

In [None]:
plot_rule_network(association_result.rules)

## 4. 分类模型
- 使用随机森林对贷款审批结果建模
- 输出分类报告

In [None]:
from main import run_classification_model
print(run_classification_model(artifacts))