In [87]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

数据集结构
- Feature 1: 年龄 - 申请人的年龄（18-65岁）
- Feature 2: 年收入 - 申请人的年收入（单位：万元）
- Feature 3: 信用评分 - 申请人的信用评分（300-850，分数越高信用越好）
- Feature 4: 不良信用记录 - 申请人是否有不良信用记录（1表示有，0表示没有）
- Label: 信用卡审批结果 - 是否批准信用卡申请（1表示批准，0表示拒绝）

In [88]:
# 加载数据
data = pd.read_csv('./信用卡审批.csv')

# 提取特征和标签
X = data.iloc[:, :-1].values  # 提取前4列作为特征
y = data.iloc[:, -1].values    # 提取最后一列作为标签

# 输出结果
print("特征数组 X:\n", X[-6:])
print("\n标签数组 y:\n", y[-6:])

特征数组 X:
 [[24 27 88  0]
 [39 56 58  1]
 [32 30 82  0]
 [29 33 73  0]
 [42 66 89  1]
 [34 36 80  0]]

标签数组 y:
 [1 0 1 0 1 0]


In [89]:
# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 归一化数据（分类任务不对y进行归一化）
scaler_X = StandardScaler()
X_normalized = scaler_X.fit_transform(X_train)

In [90]:
# 定义逻辑回归
def logist_regression(X, w):
    z = X @ w
    y = 1 / (1 + np.exp(-z))
    return y

# 定义交叉熵损失的导函数
def dCrossEntropy(X_train, y_train, w):
    n = len(X_train)
    return (1/n) * X_train.T @ (1 / (1+np.exp(-X_train@w)) - y_train)

### 不使用归一化

In [91]:
# 初始化参数
w = np.array([0, 0, 0, 0])

# 梯度下降更新
alpha = 0.1
for i in range(1000):
    df = dCrossEntropy(X_train, y_train, w)
    w = w - alpha * df

print(w)

# 预测
y_pred = logist_regression(X_test, w)
y_pred[y_pred >= 0.5] = 1
y_pred[y_pred < 0.5] = 0

print('准确率:', round(accuracy_score(y_test, y_pred), 2))

# 测试示例数据
X_exam = np.array([
    [32, 30, 80, 0],
    [40, 63, 86, 1]
])

print('示例数据结果:', logist_regression(X_exam, w))

[-18.08868556   2.73454024   7.79812708  -4.13143624]
准确率: 0.72
示例数据结果: [1. 1.]


### 使用归一化

In [94]:
# 初始化参数
w = np.array([0, 0, 0, 0])

# 梯度下降更新
alpha = 0.1
for i in range(1000):
    df = dCrossEntropy(X_normalized, y_train, w)
    w = w - alpha * df

print(w)

# 预测
y_pred = logist_regression(scaler_X.transform(X_test), w)
y_pred[y_pred >= 0.5] = 1
y_pred[y_pred < 0.5] = 0

print('准确率:', round(accuracy_score(y_test, y_pred), 2))

# 测试示例数据
X_exam = np.array([
    [32, 30, 80, 0],
    [40, 63, 86, 1]
])

print('示例数据结果:', logist_regression(scaler_X.transform(X_exam), w))

[-1.13424594  0.80213428  2.55627524 -0.4769424 ]
准确率: 0.94
示例数据结果: [0.66740043 0.77898745]
