<a href="https://colab.research.google.com/github/XTMay/python-data-science-course/blob/main/notebooks%20/Lec_8_Test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🏦 Home Credit Default Risk - 数据处理与EDA 测试

## 📌 数据集简介

**数据来源**：[Home Credit Default Risk (Kaggle)](https://www.kaggle.com/competitions/home-credit-default-risk/data)  
**背景**：Home Credit 公司旨在帮助那些缺乏信用记录的人获得贷款。数据集提供了客户的申请信息、信用历史、还款记录等，目的是预测客户是否会违约（TARGET=1 表示违约）。  
**数据文件**（主要使用 `application_train.csv`）：

- **`application_train.csv`**：训练数据，包含每个客户的个人信息与贷款申请特征（TARGET 是标签列）。
- **`application_test.csv`**：测试数据（无 TARGET）。
- **`bureau.csv`**：客户在其他金融机构的历史信贷记录。
- **`credit_card_balance.csv`**：信用卡账户的每月余额数据。
- **`POS_CASH_balance.csv`**：POS 和现金贷款的每月余额数据。
- **`previous_application.csv`**：客户之前申请贷款的记录。
- **`installments_payments.csv`**：分期付款的历史记录。

> 本测试主要使用 `application_train.csv`，可选扩展任务会用到其他表。

---

## 🎯 测试目标

通过本测试，你需要展示以下能力：

1. **Python 基础**：熟悉 Jupyter Notebook / Python 基本语法。
2. **Pandas 数据处理**：
   - 读取 CSV
   - 数据探索 (`.head()`, `.info()`, `.describe()` 等)
   - 缺失值处理
   - 数据类型转换
   - 分组与聚合
   - 特征衍生
3. **探索性数据分析（EDA）**：
   - 单变量分析（分布可视化）
   - 多变量分析（相关性、交叉表）
   - 可视化（Matplotlib / Seaborn）

---

## 📝 任务说明

### **任务 1：加载与初步探索**
- 读取 `application_train.csv` 数据集。
- 显示前 5 行和基本信息（行列数、数据类型、缺失值情况）。
- 统计 **TARGET**（违约=1，未违约=0）的比例，并绘制饼图/条形图。

### **任务 2：单变量分析**
- 找出缺失值比例最高的 5 个列。
- 统计 `NAME_CONTRACT_TYPE` 各类别占比。
- 绘制 `AMT_CREDIT`（贷款金额） 的直方图，并标注均值和中位数。

### **任务 3：多变量分析**
- 分组计算 **违约客户与非违约客户的贷款平均金额**。
- 按 `NAME_INCOME_TYPE` 分组，统计每组的违约比例。
- 计算 `AMT_CREDIT` 与 `AMT_ANNUITY` 的相关系数，并绘制散点图。

### **任务 4：特征工程**
- 创建一个新特征 `CREDIT_TO_INCOME_RATIO` = `AMT_CREDIT` / `AMT_INCOME_TOTAL`。
- 分析这个新特征在违约与非违约人群中的均值差异，并绘制对比箱线图。

### **任务 5（可选进阶）**：多表合并
- 读取 `bureau.csv` 数据表。
- 将 `application_train.csv` 与 `bureau.csv` 按 `SK_ID_CURR` 合并，统计每位客户在其他金融机构的贷款数量。

---

## 💡 提示

- 缺失值处理方法可包括删除列、填充（均值、中位数、众数）、特殊值替换等。
- 分析过程中请多用可视化图表（直方图、箱线图、热力图）。
- 相关性分析可使用 `df.corr()` 或 `seaborn.heatmap()`。
- 分组统计可使用 `groupby()` + `agg()`。

---

## 📤 提交内容

- **Jupyter Notebook (.ipynb)** 文件，包含完整代码、图表和分析结论。
- 每个任务请写简要结论（用 Markdown 单元格）。
- 图表需配备标题、轴标签、单位等说明。

---

## ✅ 评分标准（满分 100 分）

| 评分项                | 分值 |
|-----------------------|------|
| 数据加载与初步探索    | 20   |
| 单变量分析            | 15   |
| 多变量分析            | 20   |
| 特征工程              | 15   |
| 可视化（美观与解释）  | 15   |
| 代码可读性与注释      | 10   |
| 分析结论完整性        | 5    |

---

> 💬 **加分项**：  
> - 尝试从其他表（如 `previous_application`、`installments_payments`）引入特征并分析。  
> - 进行更深入的违约风险模式挖掘（如年龄、收入、职业类型等维度的分析）。

| 字段名 | 含义 | 说明/用途 |
|--------|------|-----------|
| SK_ID_CURR | 贷款申请唯一 ID | 用于标识每条记录、连接其他数据表 |
| TARGET | 目标标签 | 0 = 正常还款，1 = 违约 |
| NAME_CONTRACT_TYPE | 合同类型 | 贷款合同类别（如 Cash loans, Revolving loans） |
| CODE_GENDER | 性别 | M/F 表示性别 |
| FLAG_OWN_CAR | 是否有车 | 1 = 有，0 = 无 |
| FLAG_OWN_REALTY | 是否有房产 | 1 = 有，0 = 无 |
| CNT_CHILDREN | 子女数量 | 整数，表示申请人子女数量 |
| AMT_INCOME_TOTAL | 年收入 | 单位为货币金额，申请人总收入 |
| AMT_CREDIT | 申请贷款金额 | 贷款的总金额 |
| AMT_ANNUITY | 贷款年金 | 每期还款额或分期金额 |
| AMT_GOODS_PRICE | 商品价格 | 申请购买商品/服务的价格 |
| NAME_INCOME_TYPE | 收入类型 | 工资、自雇、退休金等 |
| NAME_EDUCATION_TYPE | 教育水平 | 高中、本科、硕士等 |
| NAME_FAMILY_STATUS | 婚姻状况 | 单身、已婚、离异等 |
| NAME_HOUSING_TYPE | 住房类型 | 自有、租赁、与父母同住等 |
| DAYS_BIRTH | 出生天数 | 负值，表示距离申请日的天数（用来算年龄） |
| DAYS_EMPLOYED | 就业天数 | 负值，表示当前工作持续时间，异常值可能是未就业 |
| EXT_SOURCE_1/2/3 | 外部信用评分 | 外部来源的信用分数，通常预测违约效果很好 |
| OBS_30_CNT_SOCIAL_CIRCLE | 30 天社交圈观测次数 | 申请人社交圈记录数 |
| DEF_30_CNT_SOCIAL_CIRCLE | 30 天社交圈违约次数 | 申请人社交圈内违约记录数 |
| OBS_60_CNT_SOCIAL_CIRCLE | 60 天社交圈观测次数 | 同上，但时间窗口为 60 天 |
| DEF_60_CNT_SOCIAL_CIRCLE | 60 天社交圈违约次数 | 同上，但时间窗口为 60 天 |
| DAYS_LAST_PHONE_CHANGE | 最近换手机天数 | 负值，表示距离申请日的天数 |
| FLAG_DOCUMENT_2 ~ FLAG_DOCUMENT_21 | 文档提交标志 | 是否提交了某类材料（1 = 是，0 = 否） |
| AMT_REQ_CREDIT_BUREAU_HOUR/DAY/WEEK/MON/QRT/YEAR | 信用局查询次数 | 不同时间窗口内的查询次数 |
| 各类 *_AVG / *_MEDI / *_MODE 字段 | 住房/环境统计特征 | 平均值、中位数、众数，用于反映居住条件 |

## 任务 1：加载与初步探索

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

dir = '/content/drive/MyDrive/AI_Lecture/AI_Data_Scientist/dataset/application_train.csv' # replace your dir
df = pd.read_csv(dir)

## 任务 2：单变量分析

## 任务 3：多变量分析

## 任务 4：特征工程

## 任务 5（可选进阶）：多表合并

In [None]:
dir = "/content/drive/MyDrive/AI_Lecture/AI_Data_Scientist/dataset/bureau.csv" # replace your dir
# 读取 bureau.csv
bureau = pd.read_csv(dir)
