# 机器学习入门：贷款申请预测

在这个项目中，我们将学习如何使用机器学习来预测银行是否会批准贷款申请。

我们将学习以下内容：
1. 数据探索和可视化（EDA）
2. 数据预处理
3. 训练机器学习模型
4. 评估模型性能

# 元数据
| Column | Description | Type |
|--------|-------------|------|
| person_age | Age of the person | Float |
| person_gender | Gender of the person | Categorical |
| person_education | Highest education level | Categorical |
| person_income | Annual income | Float |
| person_emp_exp | Years of employment experience | Integer |
| person_home_ownership | Home ownership status (e.g., rent, own, mortgage) | Categorical |
| loan_amnt | Loan amount requested | Float |
| loan_intent | Purpose of the loan | Categorical |
| loan_int_rate | Loan interest rate | Float |
| loan_percent_income | Loan amount as a percentage of annual income | Float |
| cb_person_cred_hist_length | Length of credit history in years | Float |
| credit_score | Credit score of the person | Integer |
| previous_loan_defaults_on_file | Indicator of previous loan defaults | Categorical |
| loan_status (target variable) | Loan approval status: 1 = approved; 0 = rejected | Integer |

# 预加载环境

In [11]:
# 导入需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, roc_curve, auc



## 1. 加载和查看数据

任务：
1. 查看数据的前几行
2. 查看数据的基本信息


In [None]:
# 读取数据
df = pd.read_csv('../../data/loan_data.csv')

## 2. 数据探索分析（EDA）

任务：
1. 查看年龄变量的分布，利用describe函数查看其统计信息
2. 用直方图查看年龄变量的分布
3. 用散点图查看收入与贷款金额的关系，并根据approval status标记为不同颜色

**所有plot的文字都使用英文**

## 3. 数据预处理

任务1: 将分类变量进行One-Hot编码，分类变量包括性别, 教育水平, 购房情况, 贷款意图, 是否曾经违约

任务2: 按照7:3分离训练集和测试机

## 4. 训练决策树模型

## 5. 评估模型性能
任务1: 在训练集上汇报分类结果报告
任务2: 在测试集上绘制ROC曲线

## 6. 总结

在这个项目中，我们：
1. 学习了如何加载和探索数据
2. 对数据进行了可视化分析
3. 处理了分类变量
4. 训练了一个决策树模型
5. 使用混淆矩阵和ROC曲线评估了模型性能

这些都是机器学习中的基本概念和技能！