# 机器学习第一次实验

## 任务一：理解对数几率回归（Logistic Regression）算法原理

### 对数几率回归的核心

- **概率模型**：对数几率回归的目标是预测给定输入数据点属于某一类的概率。它通过将数据特征的线性组合输入到逻辑函数（通常是Sigmoid函数）中，后将输出转换为概率值。

- **Sigmoid函数**：
  $$
  \sigma(z) = \frac{1}{1 + e^{-z}}
  $$
  其中，$z$是特征与权重的线性组合。Sigmoid函数的输出范围是$(0,1)$，非常适合表示概率。对于给定的输入特征$x$，$z$可以表示为$z = w^T x + b$，其中$w$是权重向量，$b$是偏置项。

- **决策边界**：对数几率回归模型通过预测概率来做出分类决策。通常情况下，如果预测概率大于或等于$0.5$，模型会将数据点分类为正类（标签为$1$）；否则，分类为负类（标签为$0$）。

### 损失函数与参数优化

- **损失函数（对数损失）**：在对数几率回归中，使用对数损失函数来度量模型预测值与实际标签之间的差异。对于单个数据点，损失函数定义为：
  $$
  L(y, \hat{y}) = -[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})]
  $$
  其中，$y$是真实标签，$\hat{y}$是预测概率。对于整个数据集，损失是所有单个损失的平均值。

- **参数优化（梯度下降）**：对数几率回归使用梯度下降算法来优化模型参数（权重$w$和偏置$b$），以最小化损失函数。梯度下降是一种迭代优化算法，通过不断更新参数来逐步减少损失函数的值。

## 任务二：编程实现对数几率回归算法

以下是对数几率回归算法设计

In [1]:
import numpy as np

class LogisticRegression:
    def __init__(self, learning_rate=0.01, num_iterations=1000):
        self.learning_rate = learning_rate
        self.num_iterations = num_iterations
        self.weights = None
        self.bias = None
    
    def _sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    
    def fit(self, X, y):
        num_samples, num_features = X.shape
        self.weights = np.zeros(num_features)
        self.bias = 0
        
        # 梯度下降
        for _ in range(self.num_iterations):
            # 计算模型预测值
            model = np.dot(X, self.weights) + self.bias
            predictions = self._sigmoid(model)
            
            # 计算梯度
            dw = (1 / num_samples) * np.dot(X.T, (predictions - y))
            db = (1 / num_samples) * np.sum(predictions - y)
            
            # 更新参数
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db
    
    def predict(self, X):
        model = np.dot(X, self.weights) + self.bias
        predictions = self._sigmoid(model)
        prediction_class = [1 if i > 0.5 else 0 for i in predictions]
        return prediction_class

## 任务三：将算法应用于具体数据集来完成分类问题

### 首先研究鸢尾花数据集分类问题