逻辑回归:
- 逻辑回归是一种二分类算法
- 逻辑回归的假设函数是sigmoid函数

In [146]:

# 作业:
# 使用 sklearn 数据集训练逻辑逻辑回归模型  
# 用datasets中的 iris(鸢尾花) 数据集合 使用numpy进行模型运算

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np

# 第一步: 数据生成
# X 的含义是: 花萼长度 花萼宽度 花瓣长度 花瓣宽度
# y 的含义是: 花的种类, 取值 0 1 2 分别代表 山鸢尾 变色鸢尾 维吉尼亚鸢尾
# 数据集中有 150 个样本, 每个样本有 4 个特征(X), 共 150 个标签
X,y = load_iris(return_X_y = True) # return_X_y = True时，直接返回特征矩阵X和标签向量y的元组（均为numpy数组）

# 方便查看: 把X的行和y的列合并成一个矩阵打印出来, 前50行是山鸢尾, 50-100行是变色鸢尾, 100-150行是维吉尼亚鸢尾
print(np.column_stack((X,y)))

# 只取前100个样本, 因为只有前100个样本的标签是 山鸢尾 变色鸢尾. 这样就变成了一个二分类问题
X = X[:100]
y = y[:100]
# 将数据集按 7:3 的比例划分为 训练集和测试集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.3)


[[5.1 3.5 1.4 0.2 0. ]
 [4.9 3.  1.4 0.2 0. ]
 [4.7 3.2 1.3 0.2 0. ]
 [4.6 3.1 1.5 0.2 0. ]
 [5.  3.6 1.4 0.2 0. ]
 [5.4 3.9 1.7 0.4 0. ]
 [4.6 3.4 1.4 0.3 0. ]
 [5.  3.4 1.5 0.2 0. ]
 [4.4 2.9 1.4 0.2 0. ]
 [4.9 3.1 1.5 0.1 0. ]
 [5.4 3.7 1.5 0.2 0. ]
 [4.8 3.4 1.6 0.2 0. ]
 [4.8 3.  1.4 0.1 0. ]
 [4.3 3.  1.1 0.1 0. ]
 [5.8 4.  1.2 0.2 0. ]
 [5.7 4.4 1.5 0.4 0. ]
 [5.4 3.9 1.3 0.4 0. ]
 [5.1 3.5 1.4 0.3 0. ]
 [5.7 3.8 1.7 0.3 0. ]
 [5.1 3.8 1.5 0.3 0. ]
 [5.4 3.4 1.7 0.2 0. ]
 [5.1 3.7 1.5 0.4 0. ]
 [4.6 3.6 1.  0.2 0. ]
 [5.1 3.3 1.7 0.5 0. ]
 [4.8 3.4 1.9 0.2 0. ]
 [5.  3.  1.6 0.2 0. ]
 [5.  3.4 1.6 0.4 0. ]
 [5.2 3.5 1.5 0.2 0. ]
 [5.2 3.4 1.4 0.2 0. ]
 [4.7 3.2 1.6 0.2 0. ]
 [4.8 3.1 1.6 0.2 0. ]
 [5.4 3.4 1.5 0.4 0. ]
 [5.2 4.1 1.5 0.1 0. ]
 [5.5 4.2 1.4 0.2 0. ]
 [4.9 3.1 1.5 0.2 0. ]
 [5.  3.2 1.2 0.2 0. ]
 [5.5 3.5 1.3 0.2 0. ]
 [4.9 3.6 1.4 0.1 0. ]
 [4.4 3.  1.3 0.2 0. ]
 [5.1 3.4 1.5 0.2 0. ]
 [5.  3.5 1.3 0.3 0. ]
 [4.5 2.3 1.3 0.3 0. ]
 [4.4 3.2 1.3 0.2 0. ]
 [5.  3.5 1

In [147]:

#第二步: 模型参数设定

# 逻辑回归模型的权重初始化操作
# 权重参数: 随机初始化 4个特征 4个权重
theta = np.random.randn(1,4) 
print(theta)

# 偏差参数: 初始化为0
bias = 0
# 超参数 
# 学习率: 控制模型参数更新的步长
learn_rate = 1e-2 
# 训练轮数: 控制模型训练的次数
epochs = 3000

[[ 1.47356101 -0.07828081  0.14770477  1.50071132]]


In [148]:

# 第三步: 模型的运算 逻辑回归模型的运算 两步得到预测值y_hat

# 前向传播: 计算预测值y_hat
# X是输入的特征矩阵, theta是权重向量, bias是偏置
def forward(X,theta,bias):
    # 计算线性组合, 作为sigmoid函数的z值
    # z = torch.matmul(theta,X.T) + bias
    z = np.dot(theta,X.T) + bias 
    
    # 用sigmoid函数转换为概率
    # y_hat 是预测值
    y_hat = 1 / (1 + np.exp(-z))
    return y_hat


In [149]:

# 第四步: loss 函数
# 损失函数的作用: 用于评估模型的预测能力, 损失函数的值越小 模型的预测能力越好
# 损失函数: 预测值和真实值的差距越大 损失函数的值越大 
def loss(y_hat,y): 
    #y_hat是预测值 y是真实值
    #y_hat和y都是向量 对应元素相乘
    
    # 防止log(0)
    e = 1e-8 
    
    # 计算损失: 
    # 这里使用交叉熵损失函数(Cross Entropy Loss)作为逻辑回归的损失函数 (最小化交叉熵等价于最大化对数似然函数)
    return -y * np.log(y_hat + e) - (1-y) * np.log(1 - y_hat + e)

# 第五步: 梯度下降
def compute_gradients(X,y,y_hat):
    # X是训练数据 y是真实标签 y_hat是预测标签
    # y_hat 和 y 都是向量 对应元素相乘
    
    # 样本数量: 70 组数据
    m = X.shape[0] 
    # 计算梯度:
    # 70组数据同时求出梯度
    delta_theta = np.dot((y_hat - y), X) / m 
    # 70组数据同时求出偏置项梯度
    delta_bias = np.mean(y_hat - y) 
    
    return delta_theta,delta_bias #返回梯度

# 第六步: 模型训练
for i in range(epochs):
    #前向传播
    y_hat = forward(X_train,theta,bias) 
    #计算损失
    loss_val = loss(y_hat,y_train) 
    #计算梯度
    delta_theta,delta_bias = compute_gradients(X_train,y_train,y_hat) 
    
    
    # 更新theta
    theta = theta - learn_rate * delta_theta 
    # 更新偏置项
    bias = bias - learn_rate * delta_bias 
    # 每100次迭代打印一次损失
    if i % 100 == 0:
        # 计算准确率
        acc = np.mean([np.round(y_hat) == y_train])
        # 打印损失: 损失是一个向量 取平均值
        print(f"epoch:{i}, loss:{np.mean(loss_val)}， acc:{acc}")

# 模型训练完毕
#保存 模型训练好的模型参数 到文件中, 方便后续使用
print("模型训练完毕: ",theta,bias)
np.savez('logistic_regression_model.npz',theta,bias) #


epoch:0, loss:3.939567606389347， acc:0.4857142857142857
epoch:100, loss:0.2651995931993564， acc:1.0
epoch:200, loss:0.1961759457180512， acc:1.0
epoch:300, loss:0.15475586067638344， acc:1.0
epoch:400, loss:0.12747229677217214， acc:1.0
epoch:500, loss:0.10825944197720956， acc:1.0
epoch:600, loss:0.09404431863474316， acc:1.0
epoch:700, loss:0.08312201762375289， acc:1.0
epoch:800, loss:0.07447703138787294， acc:1.0
epoch:900, loss:0.06746931689037737， acc:1.0
epoch:1000, loss:0.061676554333899236， acc:1.0
epoch:1100, loss:0.05680934324753699， acc:1.0
epoch:1200, loss:0.05266298355988233， acc:1.0
epoch:1300, loss:0.04908873812114755， acc:1.0
epoch:1400, loss:0.04597600698880324， acc:1.0
epoch:1500, loss:0.043240883515267454， acc:1.0
epoch:1600, loss:0.04081858490956803， acc:1.0
epoch:1700, loss:0.03865831291692113， acc:1.0
epoch:1800, loss:0.0367196829809176， acc:1.0
epoch:1900, loss:0.03497019177080126， acc:1.0
epoch:2000, loss:0.03338338785570653， acc:1.0
epoch:2100, loss:0.031937528290483

In [150]:
# 测试上面训练的模型
#模型推理

# 修改后的测试代码
# 重新加载原始数据（确保数据维度正确）
X, y = load_iris(return_X_y=True)
X = X[:100]  # 保持二维结构 (100,4)
y = y[:100]   # 保持一维结构 (100,)

# 重新划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3, random_state=42)

# 加载模型参数
weights = np.load('logistic_regression_model.npz')

# 测试单个样本时需要保持二维结构
idx = np.random.randint(len(X_test))
x = X_test[idx:idx+1] 
y_true = y_test[idx:idx+1]

# weights['arr_0'] 是 theta, weights['arr_1'] 是 bias
theta, bias = weights['arr_0'], weights['arr_1']
predict = np.round(forward(x, theta, bias)) 

print(f'idx:{idx}, x:{x}, y_true:{y_true[0]}, predict:{predict[0][0]}')

# 测试多个样本时
x = X_test[idx:idx+2] 
y_true = y_test[idx:idx+2]
theta, bias = weights['arr_0'], weights['arr_1']
predict = np.round(forward(x, theta, bias)) 
print(f'idx:{idx}, x:{x}, y_true:{y_true}, predict:{predict}')


idx:5, x:[[5.1 3.4 1.5 0.2]], y_true:0, predict:0.0
idx:5, x:[[5.1 3.4 1.5 0.2]
 [4.6 3.6 1.  0.2]], y_true:[0 0], predict:[[0. 0.]]
