题目一：线性回归模型实现
问题：实现一个简单的单变量线性回归模型，用于预测城市人口与食品卡车利润之间的关系。数据集包含城市人口（x）和对应的利润（y）。请实现模型训练、可视化和预测功能。

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import pandas as pd

# 加载数据集，假设数据存储在ex1data1.txt文件中
# 第一列是城市人口，第二列是利润
data = pd.read_csv('ex1data1.txt', header=None)  # 读取无标题的CSV数据文件
X = data.iloc[:, 0].values.reshape(-1, 1)  # 提取第一列作为特征X，并重塑为(n_samples, 1)的形状
y = data.iloc[:, 1].values  # 提取第二列作为目标变量y

# 数据可视化
plt.figure(figsize=(10, 6))  # 创建一个10x6英寸的图形
plt.scatter(X, y, color='red', marker='x', label='训练数据')  # 绘制散点图
plt.xlabel('城市人口（万人）')  # 设置x轴标签
plt.ylabel('利润（万元）')  # 设置y轴标签
plt.title('城市人口与食品卡车利润关系')  # 设置图表标题
plt.legend()  # 显示图例
plt.grid(True)  # 显示网格线

# 创建并训练线性回归模型
model = LinearRegression()  # 初始化线性回归模型
model.fit(X, y)  # 使用训练数据拟合模型

# 获取模型参数
w = model.coef_[0]  # 获取权重系数
b = model.intercept_  # 获取截距
print(f"模型参数: w = {w:.4f}, b = {b:.4f}")  # 打印模型参数

# 在图上绘制拟合线
X_plot = np.array([min(X), max(X)])  # 创建用于绘图的X值范围
y_plot = model.predict(X_plot.reshape(-1, 1))  # 计算对应的预测y值
plt.plot(X_plot, y_plot, color='blue', label='拟合线')  # 绘制拟合线
plt.legend()  # 更新图例
plt.show()  # 显示图表

# 使用模型进行预测
population = 7.0  # 设定要预测的城市人口（万人）
predicted_profit = model.predict([[population]])[0]  # 使用模型预测利润
print(f"人口为{population}万的城市预计利润为: {predicted_profit:.2f}万元")  # 打印预测结果


AttributeError: partially initialized module 'pandas' has no attribute 'core' (most likely due to a circular import)

题目二：决策树模型实现与信息熵计算
问题：实现一个决策树分类器，用于鸢尾花分类问题。首先实现信息熵的计算函数，然后使用决策树模型训练并评估准确率。

In [None]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from math import log

# 函数：计算数据集的信息熵
def calc_info_entropy(data_labels):
    """
    计算数据集的信息熵
    参数:
        data_labels: 数据集的标签
    返回:
        info_entropy: 信息熵值
    """
    num_entries = len(data_labels)  # 获取数据集样本数量
    label_counts = {}  # 创建字典，用于存储每个类别的样本数量
    
    # 统计每个类别的样本数量
    for label in data_labels:
        if label not in label_counts:  # 如果该类别还未在字典中
            label_counts[label] = 0  # 初始化为0
        label_counts[label] += 1  # 该类别的计数加1
    
    # 计算信息熵
    info_entropy = 0.0  # 初始化信息熵为0
    for label in label_counts:
        prob = float(label_counts[label]) / num_entries  # 计算该类别的概率
        info_entropy -= prob * log(prob, 2)  # 应用信息熵公式：-p*log2(p)
    
    return info_entropy  # 返回计算得到的信息熵

# 主程序
# 1. 加载鸢尾花数据集
iris = datasets.load_iris()  # 加载sklearn内置的鸢尾花数据集
X = iris.data  # 获取特征数据
y = iris.target  # 获取标签数据

# 2. 计算原始数据集的信息熵
original_entropy = calc_info_entropy(y)  # 使用我们实现的函数计算信息熵
print(f"原始数据集的信息熵: {original_entropy:.4f}")  # 打印信息熵结果

# 3. 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42  # 划分训练集和测试集，测试集占30%
)

# 4. 创建决策树模型
tree_depth = 3  # 设置决策树最大深度为3
dtc = DecisionTreeClassifier(max_depth=tree_depth)  # 创建决策树分类器实例

# 5. 训练模型
dtc.fit(X_train, y_train)  # 使用训练集训练决策树模型

# 6. 在测试集上进行预测
y_pred = dtc.predict(X_test)  # 使用训练好的模型对测试集进行预测

# 7. 计算准确率
accuracy = accuracy_score(y_test, y_pred)  # 计算预测的准确率
print(f"决策树(深度={tree_depth})模型的测试准确率: {accuracy:.4f}")  # 打印准确率

# 8. 查看决策树的一些属性
print(f"决策树的特征重要性: {dtc.feature_importances_}")  # 打印特征重要性
print(f"决策树的叶节点数量: {dtc.get_n_leaves()}")  # 打印叶节点数量


题目三：多层感知机实现手写数字识别
问题：使用PyTorch框架实现一个多层感知机(MLP)神经网络，用于MNIST手写数字识别任务。网络应包含输入层、隐藏层和输出层，并使用反向传播算法进行训练。

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# 设置随机种子以确保结果可重现
torch.manual_seed(42)  # 设置随机数生成器的种子为42

# 定义超参数
input_size = 784  # 输入特征的维度：28x28=784
hidden_size = 128  # 隐藏层神经元数量
output_size = 10  # 输出类别数量（0-9数字）
batch_size = 100  # 每批处理的样本数
learning_rate = 0.001  # 学习率
num_epochs = 5  # 训练轮数

# 准备MNIST数据集
transform = transforms.Compose([
    transforms.ToTensor(),  # 将图像转换为PyTorch张量
    transforms.Normalize((0.1307,), (0.3081,))  # 使用MNIST的均值和标准差进行标准化
])

# 下载并加载训练集
train_dataset = torchvision.datasets.MNIST(
    root='./data',  # 数据存储路径
    train=True,  # 使用训练集
    transform=transform,  # 应用上面定义的变换
    download=True  # 如果数据不存在，则下载
)

# 下载并加载测试集
test_dataset = torchvision.datasets.MNIST(
    root='./data',  
    train=False,  # 使用测试集
    transform=transform  
)

# 创建数据加载器
train_loader = DataLoader(
    dataset=train_dataset,  
    batch_size=batch_size,  
    shuffle=True  # 打乱数据顺序
)

test_loader = DataLoader(
    dataset=test_dataset,
    batch_size=batch_size,
    shuffle=False  # 测试集不需要打乱
)

# 定义多层感知机模型
class MLP(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(MLP, self).__init__()  # 调用父类构造函数
        
        # 定义网络层
        self.fc1 = nn.Linear(input_size, hidden_size)  # 第一个全连接层
        self.relu = nn.ReLU()  # ReLU激活函数
        self.fc2 = nn.Linear(hidden_size, output_size)  # 第二个全连接层
    
    def forward(self, x):
        """前向传播函数"""
        x = x.view(-1, input_size)  # 将输入展平为(batch_size, 784)
        x = self.fc1(x)  # 第一层线性变换
        x = self.relu(x)  # 应用ReLU激活函数
        x = self.fc2(x)  # 第二层线性变换
        return x  # 返回输出

# 实例化模型、损失函数和优化器
model = MLP(input_size, hidden_size, output_size)  # 创建MLP模型实例
criterion = nn.CrossEntropyLoss()  # 使用交叉熵损失函数
optimizer = optim.Adam(model.parameters(), lr=learning_rate)  # 使用Adam优化器

# 训练模型
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # 前向传播
        outputs = model(images)  # 获取模型预测输出
        loss = criterion(outputs, labels)  # 计算损失
        
        # 反向传播和优化
        optimizer.zero_grad()  # 清空之前的梯度
        loss.backward()  # 反向传播计算梯度
        optimizer.step()  # 更新模型参数
        
        # 打印训练信息
        if (i+1) % 100 == 0:
            print(f'Epoch [{epoch+1}/{num_epochs}], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')

# 测试模型
model.eval()  # 将模型设置为评估模式
with torch.no_grad():  # 在评估时不需要计算梯度
    correct = 0
    total = 0
    for images, labels in test_loader:
        outputs = model(images)  # 获取模型输出
        _, predicted = torch.max(outputs.data, 1)  # 获取最高概率的类别索引
        total += labels.size(0)  # 计算总样本数
        correct += (predicted == labels).sum().item()  # 计算正确预测的样本数
    
    print(f'测试集准确率: {100 * correct / total:.2f}%')  # 打印测试准确率


题目四：卷积神经网络实现MNIST图像分类
问题：实现一个卷积神经网络(CNN)用于MNIST手写数字识别。网络应包含卷积层、池化层和全连接层，并使用dropout防止过拟合。

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import numpy as np

# 设置超参数
learning_rate = 1e-3  # 学习率
keep_prob_rate = 0.5  # dropout保留率
num_epochs = 3  # 训练轮数
batch_size = 64  # 每批处理的样本数

# 数据准备
transform = transforms.Compose([
    transforms.ToTensor(),  # 将图像转换为张量
    transforms.Normalize((0.1307,), (0.3081,))  # 标准化
])

# 加载训练集
train_dataset = torchvision.datasets.MNIST(
    root='./data',  # 数据存储路径
    train=True,  # 使用训练集
    transform=transform,  # 应用变换
    download=True  # 如果不存在则下载
)

# 加载测试集
test_dataset = torchvision.datasets.MNIST(
    root='./data',
    train=False,
    transform=transform
)

# 创建数据加载器
train_loader = DataLoader(
    dataset=train_dataset,
    batch_size=batch_size,
    shuffle=True  # 打乱数据
)

test_loader = DataLoader(
    dataset=test_dataset,
    batch_size=batch_size,
    shuffle=False
)

# 定义CNN模型
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()  # 调用父类构造函数
        
        # 第一个卷积块：卷积->激活->池化
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=32, kernel_size=5, stride=1, padding=2),  # 输入1通道，输出32通道，5x5卷积核
            nn.ReLU(),  # ReLU激活函数
            nn.MaxPool2d(kernel_size=2)  # 2x2最大池化
        )
        
        # 第二个卷积块：卷积->激活->池化
        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),  # 输入32通道，输出64通道，3x3卷积核
            nn.ReLU(),  # ReLU激活函数
            nn.MaxPool2d(kernel_size=2)  # 2x2最大池化
        )
        
        # 全连接层
        self.fc1 = nn.Linear(64 * 7 * 7, 1024)  # 全连接层，输入维度是64*7*7，输出维度是1024
        self.dropout = nn.Dropout(p=1-keep_prob_rate)  # Dropout层，防止过拟合
        self.fc2 = nn.Linear(1024, 10)  # 输出层，10个类别
    
    def forward(self, x):
        """前向传播函数"""
        x = self.conv1(x)  # 第一个卷积块
        x = self.conv2(x)  # 第二个卷积块
        x = x.view(x.size(0), -1)  # 展平特征图
        x = self.fc1(x)  # 第一个全连接层
        x = torch.relu(x)  # ReLU激活
        x = self.dropout(x)  # 应用dropout
        x = self.fc2(x)  # 第二个全连接层
        return x  # 返回输出

# 实例化模型、损失函数和优化器
model = CNN()  # 创建CNN模型实例
criterion = nn.CrossEntropyLoss()  # 使用交叉熵损失
optimizer = optim.Adam(model.parameters(), lr=learning_rate)  # 使用Adam优化器

# 训练模型
for epoch in range(num_epochs):
    model.train()  # 设置为训练模式
    running_loss = 0.0
    for i, (images, labels) in enumerate(train_loader):
        # 前向传播
        outputs = model(images)  # 获取模型输出
        loss = criterion(outputs, labels)  # 计算损失
        
        # 反向传播和优化
        optimizer.zero_grad()  # 清空梯度
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        
        running_loss += loss.item()  # 累加损失
        
        # 打印训练信息
        if (i+1) % 100 == 0:
            print(f'Epoch [{epoch+1}/{num_epochs}], Step [{i+1}/{len(train_loader)}], Loss: {running_loss/100:.4f}')
            running_loss = 0.0

# 测试模型
model.eval()  # 设置为评估模式
with torch.no_grad():  # 不计算梯度
    correct = 0
    total = 0
    for images, labels in test_loader:
        outputs = model(images)  # 获取输出
        _, predicted = torch.max(outputs.data, 1)  # 获取预测类别
        total += labels.size(0)  # 计算样本总数
        correct += (predicted == labels).sum().item()  # 计算正确预测数
    
    print(f'测试集准确率: {100 * correct / total:.2f}%')  # 输出测试准确率

# 保存模型
torch.save(model.state_dict(), 'cnn_model.pth')  # 保存模型参数
print("模型已保存")  # 输出保存成功提示


题目六：LSTM实现时间序列预测
问题：使用LSTM（长短期记忆网络）创建一个时间序列预测模型，预测未来的股票价格。请实现数据准备、模型构建、训练和预测功能。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
import torch
import torch.nn as nn
import torch.optim as optim

# 设置随机种子以确保结果可重现
torch.manual_seed(42)  # 设置PyTorch的随机种子
np.random.seed(42)  # 设置NumPy的随机种子

# 数据准备函数
def prepare_data(data, look_back=60):
    """
    准备LSTM模型的训练和测试数据
    """
    # 数据归一化
    scaler = MinMaxScaler(feature_range=(0, 1))  # 创建归一化器，将数据缩放到0-1范围
    scaled_data = scaler.fit_transform(data.reshape(-1, 1))  # 将数据转换为2D并归一化
    
    # 创建时间序列数据集
    x, y = [], []  # 初始化特征和目标列表
    for i in range(len(scaled_data) - look_back):
        x.append(scaled_data[i:i + look_back, 0])  # 添加look_back天的数据作为特征
        y.append(scaled_data[i + look_back, 0])  # 添加第look_back+1天的数据作为目标
    
    # 转换为numpy数组
    x = np.array(x)  # 将特征列表转换为NumPy数组
    y = np.array(y)  # 将目标列表转换为NumPy数组
    
    # 调整数据形状为LSTM输入格式: [samples, time steps, features]
    x = np.reshape(x, (x.shape[0], x.shape[1], 1))  # 重塑为LSTM所需的3D输入
    
    # 划分训练集和测试集
    train_size = int(len(x) * 0.8)  # 80%的数据用于训练
    x_train, x_test = x[:train_size], x[train_size:]  # 划分特征训练集和测试集
    y_train, y_test = y[:train_size], y[train_size:]  # 划分目标训练集和测试集
    
    # 转换为PyTorch张量
    x_train = torch.FloatTensor(x_train)  # 转换为PyTorch浮点张量
    y_train = torch.FloatTensor(y_train)  # 转换为PyTorch浮点张量
    x_test = torch.FloatTensor(x_test)  # 转换为PyTorch浮点张量
    y_test = torch.FloatTensor(y_test)  # 转换为PyTorch浮点张量
    
    return x_train, y_train, x_test, y_test, scaler  # 返回处理后的数据和归一化器

# 定义LSTM模型
class LSTM(nn.Module):
    def __init__(self, input_size=1, hidden_layer_size=100, output_size=1):
        super(LSTM, self).__init__()  # 调用父类构造函数
        self.hidden_layer_size = hidden_layer_size  # 设置隐藏层大小
        
        # 定义LSTM层
        self.lstm = nn.LSTM(input_size, hidden_layer_size)  # LSTM层，输入大小和隐藏层大小
        
        # 定义全连接层
        self.linear


题目六：LSTM实现时间序列预测
问题：使用LSTM（长短期记忆网络）创建一个时间序列预测模型，预测未来的股票价格。请实现数据准备、模型构建、训练和预测功能。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
import torch
import torch.nn as nn
import torch.optim as optim

# 设置随机种子以确保结果可重现
torch.manual_seed(42)  # 设置PyTorch的随机种子
np.random.seed(42)  # 设置NumPy的随机种子

# 数据准备函数
def prepare_data(data, look_back=60):
    """
    准备LSTM模型的训练和测试数据
    """
    # 数据归一化
    scaler = MinMaxScaler(feature_range=(0, 1))  # 创建归一化器，将数据缩放到0-1范围
    scaled_data = scaler.fit_transform(data.reshape(-1, 1))  # 将数据转换为2D并归一化
    
    # 创建时间序列数据集
    x, y = [], []  # 初始化特征和目标列表
    for i in range(len(scaled_data) - look_back):
        x.append(scaled_data[i:i + look_back, 0])  # 添加look_back天的数据作为特征
        y.append(scaled_data[i + look_back, 0])  # 添加第look_back+1天的数据作为目标
    
    # 转换为numpy数组
    x = np.array(x)  # 将特征列表转换为NumPy数组
    y = np.array(y)  # 将目标列表转换为NumPy数组
    
    # 调整数据形状为LSTM输入格式: [samples, time steps, features]
    x = np.reshape(x, (x.shape[0], x.shape[1], 1))  # 重塑为LSTM所需的3D输入
    
    # 划分训练集和测试集
    train_size = int(len(x) * 0.8)  # 80%的数据用于训练
    x_train, x_test = x[:train_size], x[train_size:]  # 划分特征训练集和测试集
    y_train, y_test = y[:train_size], y[train_size:]  # 划分目标训练集和测试集
    
    # 转换为PyTorch张量
    x_train = torch.FloatTensor(x_train)  # 转换为PyTorch浮点张量
    y_train = torch.FloatTensor(y_train)  # 转换为PyTorch浮点张量
    x_test = torch.FloatTensor(x_test)  # 转换为PyTorch浮点张量
    y_test = torch.FloatTensor(y_test)  # 转换为PyTorch浮点张量
    
    return x_train, y_train, x_test, y_test, scaler  # 返回处理后的数据和归一化器

# 定义LSTM模型
class LSTM(nn.Module):
    def __init__(self, input_size=1, hidden_layer_size=100, output_size=1):
        super(LSTM, self).__init__()  # 调用父类构造函数
        self.hidden_layer_size = hidden_layer_size  # 设置隐藏层大小
        
        # 定义LSTM层
        self.lstm = nn.LSTM(input_size, hidden_layer_size)  # LSTM层，输入大小和隐藏层大小
        
        # 定义全连接层
        self.linear = nn.Linear(hidden_layer_size, output_size)  # 线性层，隐藏层大小到输出大小
        
        # 初始化隐藏状态和细胞状态
        self.hidden_cell = (torch.zeros(1, 1, self.hidden_layer_size),
                            torch.zeros(1, 1, self.hidden_layer_size))  # 初始化为零张量
    
    def forward(self, input_seq):
        """前向传播函数"""
        lstm_out, self.hidden_cell = self.lstm(input_seq.view(len(input_seq), 1, -1), self.hidden_cell)  # LSTM前向传播
        predictions = self.linear(lstm_out.view(len(input_seq), -1))  # 通过线性层
        return predictions[-1]  # 返回最后一个时间步的预测

# 训练模型函数
def train_model(model, x_train, y_train, epochs=100, lr=0.001):
    """训练LSTM模型"""
    loss_function = nn.MSELoss()  # 使用均方误差损失函数
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)  # 使用Adam优化器
    
    epochs_losses = []  # 存储每个epoch的损失
    for i in range(epochs):
        model.hidden_cell = (torch.zeros(1, 1, model.hidden_layer_size),
                            torch.zeros(1, 1, model.hidden_layer_size))  # 在每个epoch开始前重置隐藏状态
        
        y_pred = model(x_train)  # 获取模型预测
        
        loss = loss_function(y_pred, y_train)  # 计算损失
        
        optimizer.zero_grad()  # 清空梯度
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        
        epochs_losses.append(loss.item())  # 添加当前epoch的损失
        
        if i % 10 == 0:  # 每10个epoch打印一次损失
            print(f'Epoch: {i}, Loss: {loss.item():.6f}')
    
    return epochs_losses  # 返回训练过程中的损失

# 预测函数
def predict(model, x_test, scaler):
    """使用训练好的模型进行预测"""
    model.eval()  # 设置为评估模式
    predictions = []  # 存储预测结果
    
    with torch.no_grad():  # 不计算梯度
        for i in range(len(x_test)):
            model.hidden_cell = (torch.zeros(1, 1, model.hidden_layer_size),
                                torch.zeros(1, 1, model.hidden_layer_size))  # 重置隐藏状态
            pred = model(x_test[i].unsqueeze(0))  # 获取预测值，增加批次维度
            predictions.append(pred.item())  # 添加到预测列表
    
    # 反归一化
    predictions = np.array(predictions).reshape(-1, 1)  # 将预测列表转换为NumPy数组
    predictions = scaler.inverse_transform(predictions)  # 反归一化
    
    return predictions  # 返回预测结果

# 主函数
def main():
    # 生成模拟股票数据
    days = 1000  # 天数
    np.random.seed(42)  # 确保可重现性
    price = 100 + np.cumsum(np.random.normal(0, 1, days))  # 模拟股票价格
    
    # 数据准备
    look_back = 60  # 使用过去60天的数据预测下一天
    x_train, y_train, x_test, y_test, scaler = prepare_data(price, look_back)  # 准备数据
    
    # 创建并训练模型
    model = LSTM()  # 创建LSTM模型
    losses = train_model(model, x_train, y_train, epochs=100)  # 训练模型
    
    # 绘制损失曲线
    plt.figure(figsize=(10, 6))  # 创建图形
    plt.plot(losses)  # 绘制损失曲线
    plt.title('LSTM Training Loss')  # 设置标题
    plt.xlabel('Epochs')  # 设置x轴标签
    plt.ylabel('Loss')  # 设置y轴标签
    plt.show()  # 显示图形
    
    # 预测并可视化结果
    predictions = predict(model, x_test, scaler)  # 获取预测结果
    
    # 获取实际值
    y_test_actual = scaler.inverse_transform(y_test.reshape(-1, 1))  # 反归一化测试目标
    
    # 绘制预测结果
    plt.figure(figsize=(12, 6))  # 创建图形
    plt.plot(y_test_actual, label='Actual Price')  # 绘制实际价格
    plt.plot(predictions, label='Predicted Price')  # 绘制预测价格
    plt.title('Stock Price Prediction using LSTM')  # 设置标题
    plt.xlabel('Time')  # 设置x轴标签
    plt.ylabel('Stock Price')  # 设置y轴标签
    plt.legend()  # 显示图例
    plt.show()  # 显示图形

if __name__ == "__main__":
    main()  # 执行主函数


题目七：GAN实现手写数字生成
问题：实现一个生成对抗网络(GAN)，用于生成MNIST手写数字图像。请实现生成器、判别器、训练过程和结果可视化。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# 设置随机种子以确保结果可重现
torch.manual_seed(42)  # 设置PyTorch的随机种子
np.random.seed(42)  # 设置NumPy的随机种子

# 超参数设置
latent_dim = 100  # 潜在空间维度
img_shape = (1, 28, 28)  # 图像形状：通道x高度x宽度
batch_size = 64  # 批量大小
lr = 0.0002  # 学习率
betas = (0.5, 0.999)  # Adam优化器的beta参数
n_epochs = 200  # 训练轮数

# 准备MNIST数据集
transform = transforms.Compose([
    transforms.ToTensor(),  # 将图像转换为PyTorch张量
    transforms.Normalize([0.5], [0.5])  # 标准化到[-1, 1]
])

# 加载训练集
mnist_dataset = torchvision.datasets.MNIST(
    root='./data',  # 数据存储路径
    train=True,  # 使用训练集
    transform=transform,  # 应用变换
    download=True  # 如果不存在则下载
)

# 创建数据加载器
dataloader = DataLoader(
    mnist_dataset,
    batch_size=batch_size,
    shuffle=True  # 打乱数据
)

# 判断是否有可用的GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # 确定使用GPU还是CPU
print(f"Using device: {device}")  # 打印使用的设备

# 定义生成器网络
class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()  # 调用父类构造函数
        
        # 定义生成器网络结构
        self.model = nn.Sequential(
            # 输入是潜在向量，维度为latent_dim
            nn.Linear(latent_dim, 128),  # 全连接层，将潜在向量映射到128维
            nn.LeakyReLU(0.2, inplace=True),  # LeakyReLU激活函数
            nn.Linear(128, 256),  # 全连接层，128->256
            nn.BatchNorm1d(256),  # 批归一化，提高训练稳定性
            nn.LeakyReLU(0.2, inplace=True),  # LeakyReLU激活函数
            nn.Linear(256, 512),  # 全连接层，256->512
            nn.BatchNorm1d(512),  # 批归一化
            nn.LeakyReLU(0.2, inplace=True),  # LeakyReLU激活函数
            nn.Linear(512, 1024),  # 全连接层，512->1024
            nn.BatchNorm1d(1024),  # 批归一化
            nn.LeakyReLU(0.2, inplace=True),  # LeakyReLU激活函数
            nn.Linear(1024, int(np.prod(img_shape))),  # 全连接层，1024->图像大小(784)
            nn.Tanh()  # Tanh激活函数，输出范围为[-1, 1]
        )
    
    def forward(self, z):
        """前向传播函数"""
        img = self.model(z)  # 通过模型生成图像
        img = img.view(img.size(0), *img_shape)  # 重塑为(batch_size, 1, 28, 28)
        return img  # 返回生成的图像

# 定义判别器网络
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()  # 调用父类构造函数
        
        # 定义判别器网络结构
        self.model = nn.Sequential(
            nn.Linear(int(np.prod(img_shape)), 512),  # 全连接层，图像大小(784)->512
            nn.LeakyReLU(0.2, inplace=True),  # LeakyReLU激活函数
            nn.Linear(512, 256),  # 全连接层，512->256
            nn.LeakyReLU(0.2, inplace=True),  # LeakyReLU激活函数
            nn.Linear(256, 1),  # 全连接层，256->1
            nn.Sigmoid()  # Sigmoid激活函数，输出为真实概率(0-1)
        )
    
    def forward(self, img):
        """前向传播函数"""
        img_flat = img.view(img.size(0), -1)  # 展平图像为(batch_size, 784)
        validity = self.model(img_flat)  # 通过模型计算真实概率
        return validity  # 返回真实概率

# 初始化生成器和判别器
generator = Generator().to(device)  # 创建生成器并移至设备
discriminator = Discriminator().to(device)  # 创建判别器并移至设备

# 损失函数
adversarial_loss = nn.BCELoss()  # 二分类交叉熵损失函数

# 优化器
optimizer_G = optim.Adam(generator.parameters(), lr=lr, betas=betas)  # 生成器优化器
optimizer_D = optim.Adam(discriminator.parameters(), lr=lr, betas=betas)  # 判别器优化器

# 生成固定噪声用于可视化
fixed_noise = torch.randn(25, latent_dim, device=device)  # 生成25个随机潜在向量

# 保存生成图像的列表
generated_images = []  # 用于存储每个epoch生成的图像

# 训练循环
for epoch in range(n_epochs):
    for i, (real_imgs, _) in enumerate(dataloader):
        # 配置真实图像和标签
        real_imgs = real_imgs.to(device)  # 将真实图像移至设备
        valid = torch.ones(real_imgs.size(0), 1, device=device)  # 真实标签为1
        fake = torch.zeros(real_imgs.size(0), 1, device=device)  # 生成标签为0
        
        # -----------------
        # 训练生成器
        # -----------------
        optimizer_G.zero_grad()  # 清空生成器梯度
        
        # 生成随机噪声
        z = torch.randn(real_imgs.size(0), latent_dim, device=device)  # 生成随机潜在向量
        
        # 生成假图像
        gen_imgs = generator(z)  # 使用生成器生成图像
        
        # 计算生成器损失：希望判别器将生成的图像视为真实图像
        g_loss = adversarial_loss(discriminator(gen_imgs), valid)  # 计算生成器损失
        
        # 反向传播和优化
        g_loss.backward()  # 反向传播
        optimizer_G.step()  # 更新生成器参数
        
        # -----------------
        # 训练判别器
        # -----------------
        optimizer_D.zero_grad()  # 清空判别器梯度
        
        # 计算真实图像的判别器损失
        real_loss = adversarial_loss(discriminator(real_imgs), valid)  # 真实图像应被判为真
        
        # 计算生成图像的判别器损失
        fake_loss = adversarial_loss(discriminator(gen_imgs.detach()), fake)  # 生成图像应被判为假
        
        # 总判别器损失
        d_loss = (real_loss + fake_loss) / 2  # 取平均值
        
        # 反向传播和优化
        d_loss.backward()  # 反向传播
        optimizer_D.step()  # 更新判别器参数
        
        # 打印进度
        if i % 100 == 0:
            print(
                f"[Epoch {epoch}/{n_epochs}] [Batch {i}/{len(dataloader)}] "
                f"[D loss: {d_loss.item():.4f}] [G loss: {g_loss.item():.4f}]"
            )
    
    # 保存生成的图像
    with torch.no_grad():  # 不计算梯度
        gen_imgs = generator(fixed_noise).detach().cpu()  # 生成图像并移至CPU
        generated_images.append(gen_imgs)  # 添加到列表中
    
    # 每10个epoch保存和可视化生成的图像
    if epoch % 10 == 0:
        # 保存模型参数
        torch.save(generator.state_dict(), f"generator_epoch_{epoch}.pth")
        
        # 可视化生成的图像
        plt.figure(figsize=(5, 5))  # 创建图形
        for j in range(25):  # 显示25张图像
            plt.subplot(5, 5, j+1)  # 创建子图
            plt.imshow(gen_imgs[j, 0, :, :].numpy(), cmap='gray')  # 显示图像
            plt.axis('off')  # 关闭坐标轴
        plt.savefig(f"epoch_{epoch}.png")  # 保存图像
        plt.close()  # 关闭图形

# 创建GIF动画
import imageio

# 保存最终训练后的图像
plt.figure(figsize=(10, 10))  # 创建图形
final_imgs = generated_images[-1]  # 获取最后一个epoch的图像
for i in range(25):
    plt.subplot(5, 5, i+1)
    plt.imshow(final_imgs[i, 0, :, :].numpy(), cmap='gray')  # 显示图像
    plt.axis('off')  # 关闭坐标轴
plt.savefig("final_generated_digits.png")  # 保存图像
plt.close()  # 关闭图形

# 保存训练过程中的图像变化为GIF
frames = []  # 用于存储GIF帧
for epoch in range(0, n_epochs, 10):  # 每10个epoch选一次
    epoch_imgs = generated_images[epoch]  # 获取该epoch的图像
    
    # 创建图像网格
    fig = plt.figure(figsize=(5, 5))  # 创建图形
    for i in range(25):
        plt.subplot(5, 5, i+1)
        plt.imshow(epoch_imgs[i, 0, :, :].numpy(), cmap='gray')  # 显示图像
        plt.axis('off')  # 关闭坐标轴
    
    # 保存图像到内存buffer
    from io import BytesIO
    buf = BytesIO()
    plt.savefig(buf, format='png')
    buf.seek(0)
    
    # 读取图像并添加到帧
    img = imageio.imread(buf)
    frames.append(img)
    plt.close()  # 关闭图形

# 将帧保存为GIF
imageio.mimsave('training_progress.gif', frames, fps=2)  # 保存GIF，fps为每秒帧数

print("训练完成，生成的图像已保存")  # 打印完成信息
