In [3]:
import numpy as np
from sklearn.linear_model import LogisticRegression

# 1. 准备我们的迷你数据集
# 特征矩阵 X (注意：scikit-learn 期望每行是一个样本)
X = np.array([
    [1, 1],   # 样本1
    [2, -1],  # 样本2
    [-1, -2]  # 样本3
])

# 标签向量 y
y = np.array([1, 1, 0]) # 对应样本1, 2, 3的标签

In [4]:
# 2. 创建并训练逻辑回归模型
# 我们创建一个模型的实例
# solver='lbfgs' 是一个默认的、性能很好的优化算法，它在背后做的就是类似梯度下降的事情
model = LogisticRegression(solver='lbfgs')

# 训练模型！scikit-learn中最核心的一步
# .fit() 会自动完成我们讨论过的所有迭代优化过程
model.fit(X, y)

print("--- 训练完成！让我们看看模型学到了什么 ---")

--- 训练完成！让我们看看模型学到了什么 ---


In [5]:
# 3. 查看模型学到的参数
# 这就是模型找到的最优 w (权重)
# model.coef_ 的形状是 (1, n_features)，所以我们用 [0] 来提取
w = model.coef_[0]
# 这就是模型找到的最优 b (偏置)
b = model.intercept_[0]

print(f"学到的权重 w: {w}")
print(f"学到的偏置 b: {b}")

学到的权重 w: [0.70962145 0.51477579]
学到的偏置 b: 0.7760752069972491


In [6]:
# 4. 用训练好的模型进行预测
# 看看模型对自己训练过的数据，预测结果是什么
predictions = model.predict(X)
print(f"\n模型对原始数据的预测结果: {predictions}")
print(f"真实标签:                  {y}")

# 我们还可以看看模型预测的“概率”是多少（也就是最终的ŷ）
probabilities = model.predict_proba(X)
print(f"\n模型预测的概率 (类别0的概率, 类别1的概率):\n{probabilities}")


模型对原始数据的预测结果: [1 1 0]
真实标签:                  [1 1 0]

模型预测的概率 (类别0的概率, 类别1的概率):
[[0.11915333 0.88084667]
 [0.15702367 0.84297633]
 [0.72374161 0.27625839]]


In [None]:
# 5. 在一个全新的未知数据点上进行测试
x_new = np.array([[1, -2]]) # 比如一个新的点
new_prediction = model.predict(x_new)
new_prob = model.predict_proba(x_new) # 输出每个样本属于各类别的概率

print(f"\n--- 对一个新数据点 {x_new[0]} 进行预测 ---")
print(f"预测类别是: {new_prediction[0]}")
print(f"预测概率是 (类别0, 类别1): {new_prob[0]}")


--- 对一个新数据点 [ 1 -2] 进行预测 ---
预测类别是: 1
预测概率是 (类别0, 类别1): [0.38790072 0.61209928]
