本小节将聚焦于数据预处理。

在模型建立初期，往往采用开源数据集的一小部分来验证模型的收敛性，常见的开源数据集如下表所示

| 数据集名称 | 数据集内容 | 数据集大小 |
| --- | --- | --- |
| MNIST | 手写数字识别数据集，10个类别 | 60 000 个训练样本和 10 000 个测试样本 |
| CIFAR10/CIFAR100 | 10 类和 100 类的 32×32 彩色图像数据集 | 60 000 个样本 |
| ImageNet | 大规模图像识别数据集，超过1000个类别 | 1 281 167 个训练样本，50 000 个验证样本，100 000 个测试样本 |
| COCO | 用于图像识别、分割和对象检测的大型数据集 | 328K 个样本 |
| 20 Newsgroups | 新闻组文章的文本数据集 | 20 000 篇新闻文章，分为 20 个类别 |
| IMDb Movie Reviews | 电影评论的情感分析数据集 | 50 000 条影评，分为正面和负面两类 |
| Wikipedia Corpus | 用于自然语言处理的大型文本语料库 | 不断更新和增长，可达数 TB |
| Google Open Images Dataset | 大规模图像数据集 | 约 900 万张图像，带有 6000 万个对象的标注 | 


# 1.数据集的加载和使用

Pytorch 框架提供了Datasets和DataLoaders两个类，用于方便地加载和处理数据集。
Datasets 输出的是单个样本，DataLoaders 输出的是一批样本。

他们的作用在于：

- **Datasets**：用于加载数据集，将数据集转换为PyTorch可以处理的形式。
- **DataLoaders**：用于批量加载数据，将数据集分成多个小批次，并打乱顺序，以增加模型的泛化能力。

## 1.1 Datasets
PyTorch 提供了多种内置数据集，以文本数据集为例，我们以20 Newsgroups数据集为例，介绍如何使用PyTorch的datasets模块加载文本数据集

In [4]:
from datasets import load_dataset

imdb = load_dataset("imdb")
print(imdb)
print(imdb["train"][0])
print(imdb["test"][0])


Generating train split: 100%|██████████| 25000/25000 [00:00<00:00, 180885.33 examples/s]
Generating test split: 100%|██████████| 25000/25000 [00:00<00:00, 190041.70 examples/s]
Generating unsupervised split: 100%|██████████| 50000/50000 [00:00<00:00, 176410.64 examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})
{'text': 'I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and




## 1.2 自定义 DataSets

自定义 DataSets，需要继承 PyTorch 的 Dataset 类，并实现 `__len__` 和 `__getitem__` 方法。

In [6]:
# 自定义数据集
from torch.utils.data import Dataset

oraw_sents =["I love you", 
            "I hate you",
            "I like you",
            "I don't like you",
            "I don't love you"]
class FGPTDataset(Dataset):
                
    
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]
# 使用自定义数据集
dataset = FGPTDataset(oraw_sents)
print(dataset[0])


I love you
