# 基础练习1：从零实现逻辑回归

## 练习目标

不使用任何机器学习库（如scikit-learn），从零实现逻辑回归算法，包括：
1. Sigmoid函数
2. 交叉熵损失函数
3. 梯度计算
4. 梯度下降优化
5. 预测功能

## 练习要求

### 1. 实现LogisticRegression类

创建一个`LogisticRegression`类，包含以下方法：
- `__init__(self, learning_rate=0.01, max_iter=1000, tol=1e-6)`
- `sigmoid(self, z)` - 实现Sigmoid函数
- `compute_cost(self, X, y)` - 计算交叉熵损失
- `compute_gradient(self, X, y)` - 计算梯度
- `fit(self, X, y)` - 训练模型，使用梯度下降优化参数
- `predict_proba(self, X)` - 预测概率
- `predict(self, X, threshold=0.5)` - 预测类别

### 2. 核心算法

**Sigmoid函数**：$\sigma(z) = \frac{1}{1 + e^{-z}}$

**交叉熵损失**：$J(\theta) = -\frac{1}{m}\sum_{i=1}^{m} [y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log(1 - h_\theta(x^{(i)}))]$

**梯度**：$\frac{\partial J}{\partial \theta_j} = \frac{1}{m}\sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)}$

**参数更新**：$\theta_j := \theta_j - \alpha \frac{\partial J}{\partial \theta_j}$


## 第一步：导入库


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子
np.random.seed(42)

# 设置matplotlib在notebook中内联显示
%matplotlib inline

print("环境准备完成！")


## 第二步：实现LogisticRegression类

**你的任务**：实现LogisticRegression类，使用梯度下降优化参数。

**提示**：
1. Sigmoid函数需要处理数值溢出（使用np.clip限制z的范围）
2. 计算损失时避免log(0)，添加小常数（如1e-15）
3. 在fit方法中实现梯度下降迭代
4. 记录损失函数历史，用于可视化
5. 添加偏置项：在特征矩阵前加一列1


In [None]:
class LogisticRegression:
    """从零实现的逻辑回归类"""
    
    def __init__(self, learning_rate=0.01, max_iter=1000, tol=1e-6):
        """
        初始化模型
        
        参数:
        - learning_rate: 学习率，控制每次更新的步长
        - max_iter: 最大迭代次数
        - tol: 收敛容差，当损失变化小于此值时停止
        """
        # TODO: 初始化参数
        # 提示：保存learning_rate、max_iter、tol
        # 初始化theta（参数）、cost_history（损失历史）
        
        # 你的代码：
        pass
    
    def sigmoid(self, z):
        """
        Sigmoid函数：将任意实数映射到(0, 1)区间
        
        参数:
        - z: 输入值
        
        返回:
        - Sigmoid函数值
        """
        # TODO: 实现Sigmoid函数
        # 提示：使用np.clip防止数值溢出（限制z在-500到500之间）
        
        # 你的代码：
        pass
    
    def compute_cost(self, X, y):
        """
        计算交叉熵损失函数
        
        参数:
        - X: 特征矩阵，形状为(m, n+1)，已包含偏置项
        - y: 标签向量，形状为(m,)
        
        返回:
        - 损失值（标量）
        """
        # TODO: 计算交叉熵损失
        # 提示：
        # 1. 计算预测概率 h = sigmoid(X @ theta)
        # 2. 计算损失：-(1/m) * sum(y*log(h) + (1-y)*log(1-h))
        # 3. 添加小常数（1e-15）避免log(0)
        
        # 你的代码：
        pass
    
    def compute_gradient(self, X, y):
        """
        计算梯度
        
        参数:
        - X: 特征矩阵，形状为(m, n+1)
        - y: 标签向量，形状为(m,)
        
        返回:
        - 梯度向量，形状为(n+1,)
        """
        # TODO: 计算梯度
        # 提示：gradient = (1/m) * X.T @ (h - y)
        
        # 你的代码：
        pass
    
    def fit(self, X, y):
        """
        训练模型，使用梯度下降优化参数
        
        参数:
        - X: 特征矩阵，形状为(m, n)
        - y: 标签向量，形状为(m,)
        
        返回:
        - self: 返回自身，支持链式调用
        """
        # TODO: 实现训练过程
        # 提示：
        # 1. 添加偏置项：X_with_bias = np.hstack([np.ones((m, 1)), X])
        # 2. 初始化参数：theta = np.zeros(n + 1)
        # 3. 梯度下降迭代：
        #    - 计算损失和梯度
        #    - 更新参数：theta -= learning_rate * gradient
        #    - 检查收敛
        
        # 你的代码：
        pass
    
    def predict_proba(self, X):
        """
        预测概率：返回每个样本属于正类的概率
        
        参数:
        - X: 特征矩阵，形状为(m, n)
        
        返回:
        - 概率向量，形状为(m,)
        """
        # TODO: 实现概率预测
        # 提示：
        # 1. 添加偏置项
        # 2. 计算 sigmoid(X @ theta)
        
        # 你的代码：
        pass
    
    def predict(self, X, threshold=0.5):
        """
        预测类别：根据概率和阈值预测类别
        
        参数:
        - X: 特征矩阵，形状为(m, n)
        - threshold: 决策阈值（默认0.5）
        
        返回:
        - 预测标签，形状为(m,)，值为0或1
        """
        # TODO: 实现类别预测
        # 提示：如果概率 >= threshold，预测为1，否则为0
        
        # 你的代码：
        pass

print("LogisticRegression类框架已创建，请填写TODO部分！")


## 第三步：测试你的实现

使用以下代码测试你的实现。如果实现正确，应该能够：
1. 成功训练模型
2. 在测试集上获得较高的准确率（>0.8）
3. 看到损失函数收敛曲线


In [None]:
# 生成测试数据
X, y = make_classification(n_samples=1000, n_features=2, n_redundant=0, 
                           n_informative=2, n_clusters_per_class=1, 
                           random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"训练集大小: {X_train.shape[0]}")
print(f"测试集大小: {X_test.shape[0]}")

# 创建和训练模型
model = LogisticRegression(learning_rate=0.1, max_iter=1000)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"\n测试集准确率: {accuracy:.4f}")

# 绘制损失函数收敛曲线
if len(model.cost_history) > 0:
    plt.figure(figsize=(10, 6))
    plt.plot(model.cost_history)
    plt.xlabel('迭代次数')
    plt.ylabel('损失值')
    plt.title('损失函数收敛曲线')
    plt.grid(True, alpha=0.3)
    plt.show()
else:
    print("警告：cost_history为空，请检查fit方法的实现！")


## 第四步：可视化决策边界（可选）

如果你完成了前面的步骤，可以尝试可视化决策边界。


In [None]:
# TODO: 可视化决策边界
# 提示：
# 1. 创建网格点
# 2. 预测网格点的概率
# 3. 使用contourf绘制决策边界
# 4. 使用scatter绘制数据点

# 你的代码：


## 总结

完成本练习后，你应该：
- ✅ 理解Sigmoid函数的作用和实现
- ✅ 理解交叉熵损失函数的计算
- ✅ 掌握梯度下降优化过程
- ✅ 能够从零实现逻辑回归算法

### 思考问题

1. 为什么Sigmoid函数需要处理数值溢出？
2. 交叉熵损失函数与均方误差损失有什么区别？
3. 学习率对训练过程有什么影响？尝试不同的学习率观察效果。
