In [64]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
import numpy as np

# 提取样本数据集  n_samples 样本数量默认100 ； n_features 特征数量 默认为20  这里我们取10个
X , y = make_classification(n_features = 10 )
# 选取训练数据集以及测试训练集
# test_size 设置多少比例为测试集，0.3 为百分之三十 ；  shuffle = True 打乱顺序 ；random_state 随机种子 用于可重复性
train_x , test_x , train_y , test_y = train_test_split(X , y , test_size = 0.3 , shuffle = True , random_state = 123)

# 设置权重参数  一行十列的随机数组 服从正态分布
theta = np.random.randn(1,10)  # 随机向量
bias = 0   # 设置偏置

# 设置超参数  超参数需要手动设置，根据经验，试验设置
lr = 1e-3   # 学习率
epoch = 5000 # 测试时循环的次数

# 前向传播 将自变量x和权重参数theta、偏置bias代入模型 计算出激活函数y_hat
def forward(x , theta , bias):
    # 求线性函数的因变量值
    z = np.dot(theta,x.T) + bias
    # 求预测概率值用Sigmoid激活函数  (0,1)区间
    y_hat = 1 / (1 + np.exp(-z))
    return y_hat

# 求损失函数  将y和y的预测概率值导入计算
def loss_function(y , y_hat):
    e = 1e-8 # 防止y_hat为0
    return -y * np.log(y_hat + e) - (1 - y) * np.log(1 - y_hat + e)

# 计算梯度 将x、y、y的预测概率值代入
def calc_gradient(x,y,y_hat):
    # m取x的最后一维的数量
    m = x.shape[-1]
    # 求平均梯度
    delta_w  = np.dot(y_hat-y,x) / m
    # 计算误差的均值作为偏置的梯度
    delta_b = np.mean(y_hat - y)
    return delta_w , delta_b

# 循环
for i in range(epoch):
    # 正向传播 求预测值
    y_hat = forward(train_x , theta , bias)

    # 计算损失
    loss = np.mean(loss_function(train_y , y_hat))
    #
    # if i % 100 == 0 :
    #     print('step:',i,'loss:',loss)

    #计算梯度下降
    dw , db = calc_gradient(train_x , train_y , y_hat)
    theta = theta - lr * dw
    bias = bias - lr * db

# 模型测试
# 用test_x 的长度生成数组
idx = np.random.randint(len(test_x))
x = test_x[idx]
y = test_y[idx]

# def predict(x):
#     # 【0】是获取forward函数返回的第一个值
#     pred = forward(x , theta , bias)[0]
#     if pred >0.5:
#         return 1
#     else:
#         return 0
#
# pred = predict(x)
# print(f'预测值: {pred} 真实值：{y}')

# 测试模型准确率
def predict(x , theta , bias):
    pred = forward(x , theta , bias)[0]
    return 1 if pred > 0.5 else 0

count = 0
total = len(test_x)

for i in range (total):
    x = test_x[i]
    y_true = test_y[i]
    y_pred = predict(x , theta , bias)
    if y_pred == y_true :
        count += 1
accuracy = count / total
print(f'该模型的准确率：{accuracy:1%}')




该模型的准确率：83.333333%
