In [None]:
"""
加载csv文件中的数据:
    1. 读取csv文件为DataFrame
    2. 删除不需要的列
    3. 提取特征和标签
    4. 将特征和标签转换为张量
    5. 把特征和标签封装为一个数据集
"""

import torch
from torch import nn
from torch.utils.data import TensorDataset, DataLoader
import pandas as pd


# 读取csv文件，返回处理好的特征和标签张量
def read_csv_data():
    df = pd.read_csv(".\图片资料\大数据答辩成绩表.csv")      # 读取csv文件为DataFrame
    df.drop(["学号", "姓名"], axis=1, inplace=True)         # 删除不需要的列
    
    samples = df.iloc[:, :-1].values        # 提取特征
    labels = df.iloc[:, -1].values          # 提取标签

    samples = torch.tensor(samples, dtype=torch.float32)    # 转换为张量
    labels = torch.tensor(labels, dtype=torch.float32)

    return samples, labels


# 创建数据集，返回数据加载器
def create_dataLoader(samples, labels, /) -> DataLoader:

    dataset = TensorDataset(samples, labels)                        # 创建数据集
    data_loader = DataLoader(dataset, batch_size=16, shuffle=True)  # 创建数据加载器

    return data_loader


samples, labels = read_csv_data()
dataLoader = create_dataLoader(samples, labels)

for samples, labels in dataLoader:
    print(samples.shape, labels.shape)

torch.Size([16, 4]) torch.Size([16])
torch.Size([16, 4]) torch.Size([16])
torch.Size([13, 4]) torch.Size([13])


In [None]:
"""
加载图片数据，使用 torchvision.datasets.ImageFolder 加载图片数据集

文件结构需满足：
root/
    class1/
        img1.jpg
        img2.jpg
        ...
    class2/
        img1.jpg
        img2.jpg
        ...
    ...
"""

from torch.utils.data import DataLoader
from torchvision import datasets, transforms

# 定义数据转换(对图片进行的预处理操作)
transform = transforms.Compose([
    transforms.Resize((224, 224)),  # 缩放图片为相同大小
    transforms.ToTensor()           # 转为张量
])

dataset = datasets.ImageFolder(
    root='./图片资料/animals',      # 图片所在的root目录
    transform=transform,           # 定义图片转换(对图片的预处理)
    target_transform=None,         # 定义标签转换
    is_valid_file=None             # 验证文件的函数，只有返回 True 的文件才会被加载
    )

print('图片总数：', len(dataset))
dataLoader = DataLoader(dataset, batch_size=32, shuffle=True)

for data in dataLoader:
    images, labels = data
    print(images.shape, labels.shape)



图片总数： 600
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([32, 3, 224, 224]) torch.Size([32])
torch.Size([24, 3, 224, 224]) torch.Size([24])


在 PyTorch 中官方提供了一些经典的数据集，如 CIFAR-10、MNIST、ImageNet 等，可以直接使用这些数据集进行训练和测试。

数据集：https://pytorch.org/vision/stable/datasets.html

常见数据集：

- MNIST: 手写数字数据集，包含 60,000 张训练图像和 10,000 张测试图像。
- CIFAR10: 包含 10 个类别的 60,000 张 32x32 彩色图像，每个类别 6,000 张图像。
- CIFAR100: 包含 100 个类别的 60,000 张 32x32 彩色图像，每个类别 600 张图像。
- COCO: 通用对象识别数据集，包含超过 330,000 张图像，涵盖 80 个对象类别。

torchvision.transforms 和 torchvision.datasets 是 PyTorch 中处理计算机视觉任务的两个核心模块，它们为图像数据的预处理和标准数据集的加载提供了强大支持。

transforms 模块提供了一系列用于图像预处理的工具，可以将多个变换组合成处理流水线。

datasets 模块提供了多种常用计算机视觉数据集的接口，可以方便地下载和加载。


In [1]:
"""
这里以MNIST数据集为例
"""

from torch.utils.data import DataLoader
from torchvision import transforms, datasets

dataset = datasets.MNIST(
    root='./图片资料',                   # 数据集的存储根目录路径（字符串或 Path 对象）
    train=True,                         # 选择加载训练集(True)还是测试集(False)
    transform=transforms.ToTensor(),    # 图像预处理
    target_transform=None,              # 标签预处理函数
    download=True                  # 是否自动下载数据集。download=False: 仅加载本地数据（不存在时报错）
)


dataLoader = DataLoader(dataset, batch_size=10000, shuffle=True)

for data in dataLoader:    
    x, y = data
    print(x.shape, y.shape)

torch.Size([10000, 1, 28, 28]) torch.Size([10000])
torch.Size([10000, 1, 28, 28]) torch.Size([10000])
torch.Size([10000, 1, 28, 28]) torch.Size([10000])
torch.Size([10000, 1, 28, 28]) torch.Size([10000])
torch.Size([10000, 1, 28, 28]) torch.Size([10000])
torch.Size([10000, 1, 28, 28]) torch.Size([10000])
