# Pytorch 线性分类

在使用 PyTorch 进行二分类任务时，可以利用线性模型（例如 逻辑回归 或 线性分类器）进行训练。

这种模型在简单的分类任务中非常有效，尤其适用于线性可分的任务。

下面是一个使用 PyTorch 实现简单线性分类模型的示例。

## 使用 PyTorch 实现线性分类器

假设我们有一个简单的二分类任务，输入特征为 X，标签为 y（例如，0 或 1）。

### 导入必要的库

In [1]:
# 导入库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

### 定义线性模型

我们可以使用 nn.Linear 来定义一个线性分类模型。对于二分类问题，我们只需要一个线性层和一个 sigmoid 激活函数。

In [2]:
class LinearClassifier(nn.Module):
    def __init__(self, input_dim):
        super(LinearClassifier, self).__init__()
        # 输入层 -> 线性层
        self.linear = nn.Linear(input_dim, 1)  # 输出一个值（0 或 1）

    def forward(self, x):
        # 计算线性层输出，然后通过 Sigmoid 激活函数
        return torch.sigmoid(self.linear(x))

### 创建数据

假设我们有一些简单的随机数据，特征为二维，标签为二分类（0 或 1）。

In [3]:
# 生成一些示例数据
X = torch.randn(100, 2)  # 100个样本，每个样本2个特征
y = (X[:, 0] + X[:, 1] > 0).float().view(-1, 1)  # 生成标签，简单地根据两个特征的和来划分

### 数据加载

将数据包装成 DataLoader 以便进行批量训练。

In [4]:
# 创建数据集和数据加载器
dataset = TensorDataset(X, y)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)


### 实例化

In [5]:

# 实例化模型
model = LinearClassifier(input_dim=2)  # 输入特征维度为2

# 损失函数：二元交叉熵损失
criterion = nn.BCELoss()

# 优化器：使用 Adam
optimizer = optim.Adam(model.parameters(), lr=0.01)

### 训练模型

进行训练，迭代数据集进行优化。

In [6]:
# 训练模型
epochs = 100
for epoch in range(epochs):
    model.train()  # 设置模型为训练模式
    running_loss = 0.0
    
    for inputs, labels in dataloader:
        # 前向传播
        outputs = model(inputs)  # 输出概率
        loss = criterion(outputs, labels)  # 计算损失
        
        # 反向传播和优化
        optimizer.zero_grad()  # 清零梯度
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        
        running_loss += loss.item()
    
    # 每10个epoch输出一次损失值
    if (epoch+1) % 10 == 0:
        print(f"Epoch [{epoch+1}/{epochs}], Loss: {running_loss/len(dataloader)}")

Epoch [10/100], Loss: 0.586089164018631
Epoch [20/100], Loss: 0.47466258704662323
Epoch [30/100], Loss: 0.3786937817931175
Epoch [40/100], Loss: 0.34872084856033325
Epoch [50/100], Loss: 0.3288753107190132
Epoch [60/100], Loss: 0.2915054261684418
Epoch [70/100], Loss: 0.28621645644307137
Epoch [80/100], Loss: 0.307458009570837
Epoch [90/100], Loss: 0.25155021995306015
Epoch [100/100], Loss: 0.2418215423822403


### 评估模型

在训练完成后，我们可以在测试集或验证集上评估模型的表现。

由于是二分类问题，我们通常会使用准确率作为评估指标。

In [7]:
# 测试模型
model.eval()  # 设置模型为评估模式
with torch.no_grad():  # 在评估时不需要计算梯度
    predicted = (model(X) > 0.5).float()  # 根据 sigmoid 输出进行阈值分类
    accuracy = (predicted == y).float().mean()
    print(f"Accuracy: {accuracy:.4f}")

Accuracy: 0.9900


## 代码总结

上述代码展示了如何使用 PyTorch 实现一个简单的 线性分类模型：
1. 线性分类器：通过 nn.Linear 定义了一个简单的线性分类器，输出一个单一值，通过 sigmoid 激活转换为概率。
2.	损失函数：使用了二元交叉熵损失 (BCELoss)，适用于二分类问题。
3.	优化器：使用了 Adam 优化器来更新模型参数。
4.	训练过程：通过循环训练数据集，更新模型参数以最小化损失函数。
5.	评估：根据预测的标签与真实标签比较，计算准确率。

解释：
1. 线性模型：即 y = wx + b，其中 w 是权重，x 是输入特征，b 是偏置。该模型学习线性边界，适用于线性可分问题。
2. sigmoid 激活：用于将线性模型的输出映射到 0 和 1 之间，表示分类的概率。
3. BCELoss：二元交叉熵损失，适用于二分类问题。

扩展：

如果是多分类问题，可以使用 Softmax 激活函数和 交叉熵损失，并且需要修改模型的输出层，使其输出多个类别的概率。

结论：
1. 线性模型是分类问题中一个简单但强大的工具，尤其适用于线性可分的任务。
2. 使用 PyTorch 实现线性模型时，核心步骤包括：定义模型、选择损失函数、选择优化器、训练模型和评估模型。