# 车辆贷款违约预测学习
---


In [4]:
# 导入Pandas库（在数据处理和机器学习中，Pandas常用与数据清洗、特征工程、数据探索）
import pandas as pd

'''
车辆贷款违约预测数据特征：
    - 数据量：150000条
    - 字段数量：53
    - 为空字段：不存在
    - 字段类型：浮点数、整形
    - 占用内存：60.7 MB

 |customer_id                   | 客户标识符             
 |main_account_loan_no          | 主账户申请贷款数量         
 |main_account_active_loan_no   | 主账户申请的有效贷款数量      
 |main_account_overdue_no       | 主账号逾期数量           
 |main_account_outstanding_loan | 主账户未偿还的贷款余额       
 |main_account_sanction_loan    | 主账户所有贷款被批准的贷款金额   
 |main_account_disbursed_loan   | 主账户所有贷款已发放的贷款金额   
 |sub_account_loan_no           | 二级账户申请贷款数量        
 |sub_account_active_loan_no    | 二级账户申请的有效贷款数量     
 |sub_account_overdue_no        | 二级账户逾期数量          
 |sub_account_outstanding_loan  | 二级账户未偿还的贷款金额      
 |sub_account_sanction_loan     | 二级账户所有贷款被批准的贷款金额  
 |sub_account_disbursed_loan    | 二级账户所有贷款已发放的贷款金额  
 |disbursed_amount              | 已发放贷款金额           
 |asset_cost                    | 资产成本              
 |branch_id                     | 发放贷款的分行           
 |supplier_id                   | 发放贷款的车辆经销商        
 |manufacturer_id               | 汽车制造商             
 |year_of_birth                 | 客户出生日期            
 |disbursed_date                | 贷款日期              
 |area_id                       | 付款区域              
 |employee_code_id              | 记录付款的对接员工         
 |mobileno_flag                 | 是否填写手机号           
 |idcard_flag                   | 是否填写身份证           
 |Driving_flag                  | 是否出具驾驶证           
 |passport_flag                 | 是否填写护照            
 |credit_score                  | 信用评分              
 |main_account_monthly_payment  | 主账户月供金额           
 |sub_account_monthly_payment   | 二级账户的月供金额         
 |last_six_month_new_loan_no    | 过去六个月客户的新贷款申请数量   
 |last_six_month_defaulted_no   | 过去六个月客户的违约数量      
 |average_age                   | 平均贷款期限            
 |credit_history                | 信用记录              
 |enquirie_no                   | 客户查询贷款次数          
 |loan_to_asset_ratio           | 贷款与资产比例           
 |total_account_loan_no         | 所有账户申请的活跃贷款数量     
 |main_account_inactive_loan_no | 主账户申请的无效贷款数量      
 |sub_account_inactive_loan_no  | 二级账户申请的无效贷款数量     
 |total_inactive_loan_no        | 所有账户申请的无效贷款数量     
 |total_overdue_no              | 所有账户的逾期次数         
 |total_outstanding_loan        | 所有账户的未结余额的总额      
 |total_sanction_loan           | 来自所有账户的所有贷款被批准的贷款金
 |total_disbursed_loan          | 为所有账户的所有贷款支付的贷款金额 
 |total_monthly_payment         | 所有账户的月供金额         
 |outstanding_disburse_ratio    | 已发放贷款总额/未偿还贷款总额（两者
 |main_account_tenure           | 主账户还款期数           
 |sub_account_tenure            | 二级账户还款期数          
 |disburse_to_sactioned_ratio   | 已发放贷款/批准贷款（两者比例）  
 |active_to_inactive_act_ratio  | 有效贷款次数/无效贷款次数（两者比例
 |Credit_level                  | 信用评分              
 |employment_type               | 工作类型              
 |age                           | 年龄                
 |loan_default                  | 1表示客户逾期，0表示客户未逾期  
'''

# 1、数据加载
data = pd.read_csv('../file/车辆贷款违约预测.csv')
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 53 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   customer_id                    150000 non-null  int64  
 1   main_account_loan_no           150000 non-null  int64  
 2   main_account_active_loan_no    150000 non-null  int64  
 3   main_account_overdue_no        150000 non-null  int64  
 4   main_account_outstanding_loan  150000 non-null  int64  
 5   main_account_sanction_loan     150000 non-null  int64  
 6   main_account_disbursed_loan    150000 non-null  int64  
 7   sub_account_loan_no            150000 non-null  int64  
 8   sub_account_active_loan_no     150000 non-null  int64  
 9   sub_account_overdue_no         150000 non-null  int64  
 10  sub_account_outstanding_loan   150000 non-null  int64  
 11  sub_account_sanction_loan      150000 non-null  int64  
 12  sub_account_disbursed_loan    

In [7]:
# 导入numpy库（提供了高性能的多维数组对象以及操作这些数组的工具和函数）
import numpy as np

# 2、数据基处理
# 删除贷款日期和客户ID
data = data.drop(['customer_id', 'disbursed_date'], axis = 1)

# 删除存在inf标记的数据
inf_name_arr = []
for name in data.columns:
    temp = data[name]
    if np.any(np.isinf(temp)):
        inf_name_arr.append(name)
        
for name in inf_name_arr:
    temp = data[name]
    inf_id = data[temp == np.inf].index
    print(inf_id)
    data = data.drop(inf_id)

KeyError: "['customer_id', 'disbursed_date'] not found in axis"

In [14]:
# 导入sklean库数据集划分模块(sklearn.model_selection 模块提供了数据分割、交叉验证等工具)
from sklearn.model_selection import train_test_split

# 3、获取特征值和目标值，并对数据进行分割
x = data.iloc[:, :-1].astype(np.float64)
y = data.iloc[:, -1]

# 测试集训练集划分（stratify=y使得集合中类别与原始比例一致，按照目标值在整体比例进行划分）
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, stratify = y, random_state = 22)

In [19]:
# 导入sklean的ensemble模块-随机森林分类器（ensemble：主要包括Bagging、Boosting、Stacking、Voting、Blending）
from sklearn.ensemble import RandomForestClassifier
# 导入joblib模块（序列化Python对象的工具库：适合于大数据集和模型的高效存储和加载）
import joblib
# 导入sklearn中模型指标评定库
from sklearn.metrics import classification_report

# 5、使用随机森林和存储
'''
n_estimators : 使用500棵决策树
oob_score: 开启袋外分数计算，作为模型性能的一个无偏估计
random_state：随机数种子
'''
estimator = RandomForestClassifier(n_estimators = 500, oob_score = True, random_state = 22)
print('训练数据形状:', x_train.shape)
estimator.fit(x_train, y_train)


# 6、保存模型
save_path = '../file/车辆贷款违约预测随机森林模型.pth'
joblib.dump(estimator, save_path)

# 7、模型预测
accuracy = estimator.score(x_test, y_test)
print(f'OOB:{estimator.oob_score_}')
print(f'ACC:{accuracy}')

# 8、打印精准度和召回率、f1-score、accuracy
report = classification_report(y_true = y_test, y_pred = estimator.predict(x_test))
print(f'性能指标：{report}')

训练数据形状: (119990, 50)
OOB:0.8215434619551629
ACC:0.8209547303153544
性能指标：              precision    recall  f1-score   support

           0       0.82      0.99      0.90     24689
           1       0.37      0.02      0.03      5309

    accuracy                           0.82     29998
   macro avg       0.60      0.51      0.47     29998
weighted avg       0.74      0.82      0.75     29998



In [None]:
# 导入sklean的ensemble模块-随机森林分类器（ensemble：主要包括Bagging、Boosting、Stacking、Voting、Blending）
from sklearn.ensemble import AdaBoostClassifier
# 导入joblib模块（序列化Python对象的工具库：适合于大数据集和模型对西那个的高效存储和加载）
import joblib
# 导入sklearn中模型指标评定库
from sklearn.metrics import classification_report

# 5、使用AdaBoost训练和存储
'''
n_estimators : 使用500棵决策树
oob_score: 开启袋外分数计算，作为模型性能的一个无偏估计
random_state：随机数种子
'''
estimator = AdaBoostClassifier(n_estimators = 500, random_state = 22)
print('训练数据形状:', x_train.shape)
estimator.fit(x_train, y_train)

# 6、保存模型
save_path = '../file/车辆贷款违约预测AdaBoost模型.pth'
joblib.dump(estimator, save_path)

# 7、模型预测
accuracy = estimator.score(x_test, y_test)
print(f'OOB:{estimator.oob_score_}')
print(f'ACC:{accuracy}')

# 8、打印精准度和召回率、f1-score、accuracy
report = classification_report(y_true = y_test, y_pred = estimator.predict(x_test))
print(f'性能指标：{report}')

训练数据形状: (119990, 50)
