# 第8章PyTorch生态简介

PyTorch不仅自身的易用性，更在于围绕PyTorch产生的一系列实用的工具包和程序，主要有：

- torchvision  （图片）
- pytorchvido  （视频）
- torchtext   （文本）

## 8.1 torchvision
**torchvision的主要作用是**：提供主流的model，和常用数据集，以及提供transforms；

**torchvision的主要的库是**：
- torchvision.datasets*
- torchvision.models*
- torchvision.transforms*
- torchvision.io
- torchvision.ops
- torchvision.utils

### 8.1.1 torchvision.datasets
torchvsion.datasets是用来进行数据加载的，PyTorch团队在这个包中帮我们提前处理好了很多很多图片数据集，有以下数据集：
- MNISTCOCO
- Captions
- Detection
- LSUN
- ImageFolder
- Imagenet-12
- CIFAR
- STL10
- SVHN
- PhotoTour
......

###  torchvision.datasets案例


In [1]:
import torchvision.datasets as datasets

In [2]:
# MNIST数据集
# 下载训练数据 train=False
data_train = datasets.MNIST(
    root = './data',# 表示MNIST数据加载的目录
    train = True, # 表示是否加载数据库的训练集
    download = True, # 表示如果root路径中无MNIST数据集，则将自动下载MNIST数据集
    transform=None # 表示是否对数据进行预处理，None表示不进行预处理
)
# 下载测试数据 train=False
data_test = datasets.MNIST(
    root = './data',# 表示MNIST数据加载的目录
    train = False, # 表示是否加载数据库的训练集
    download = True, # 表示如果root路径中无MNIST数据集，则将自动下载MNIST数据集
    transform=None # 表示是否对数据进行预处理，None表示不进行预处理
)

### 8.1.4 torchvision.models
`torchvision.models` 中为我们提供了已经训练好的模型，让我们可以加载之后，直接使用。

In [3]:
import torchvision.models as models
# 快速创建一个权重随机初始化的模型
resnet18 = models.resnet18()
alexnet = models.alexnet()
# 通过pretrained=True来加载一个别人预训练好的模型
resnet18_pr = models.resnet18(pretrained=True)
alexnet_pr = models.alexnet(pretrained=True)

### 8.1.3 torchvision.transforms
`torchvision.transforms`对获取的数据进行归一化、大小缩放、数据增强操作。

In [4]:
import torchvision
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
# 将MNIST中28*28图片变成56*56的torch.tensor的格式，并归一化
# 图像处理步骤
transform = transforms.Compose([
    transforms.Resize(56), # 缩放到56*56
    transforms.ToTensor(), # 数据转换成tensor格式
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 归一化处理
])
# transforms.Normalize解释
# 前面的（0.5，0.5，0.5） 是 R G B 三个通道上的均值，
# 后面(0.5, 0.5, 0.5)是三个通道的标准差，
# Normalize对每个通道执行以下操作：image =（图像-平均值）/ std在您的情况下，参数mean，std分别以0.5和0.5的形式传递
train_dataset = datasets.MNIST(
    root='./data/', 
    train=True, 
    transform=transform, 
    download=True)
 
train_loader = DataLoader(dataset=train_dataset,
                          batch_size=16,
                          shuffle=True)
print(len(train_dataset))
print(len(train_loader))

60000
3750


### 8.1.4  torchvision.io
`torchvision.io`提高了读取视频、图片和文件的IO操作，包括读取、写入、编解码处理等效率。
### 8.1.5 torchvision.ops
`torchvision.ops`计算机视觉的特定操作，包括但不仅限于NMS，RoIAlign（MASK R-CNN中应用的一种方法），RoIPool（Fast R-CNN中用到的一种方法）。
[详细内容看这](https://pytorch.org/vision/stable/ops.html)
### 8.1.6 torchvision.utils
`torchvision.utils` 为我们提供了一些可视化的方法，可以帮助我们将若干张图片拼接在一起、可视化检测和分割的效果。
[详细内容看这](https://pytorch.org/vision/stable/utils.html)

## 8.2 PyTorchVideo
- 简介：`PyTorchVideo` 是一个专注于视频理解工作的深度学习库，提供加速视频理解研究所需的可重用、模块化和高效的组件，使用PyTorch开发，支持不同的深度学习视频组件，如视频模型、视频数据集和视频特定转换。

## 8.3 torchtext
`torchtext`是PyTorch的自然语言处理（NLP）的工具包，可对文本进行预处理，例如截断补长、构建词表等操作。

`torchtext`主要包含以下组成部分：
- 数据管理工具：torchtext.data.functional、torchtext.data.utils
- 数据集：torchtext.data.datasets
- 词表工具：torchtext.vocab
- 评测工作：torchtext.metrics

**NLP常见的数据预处理工作**：
1. `Load File`: 数据文件加载
2. `Tokenization`：分词
3. `Create Vocabulary`：创建字典
4. `Indexify`: 将词与索引进行映射
5. `Word Vectors`：创建或加载词向量
6. `Padding or Fix Length`：按长度对文本进行补齐或截取
7. `Dataset Splits`：划分数据集（如将数据集划分为训练集、验证集、测试集)
8. `Batching and Iterators`：将数据集按固定大小划分成Batch

**torchtext完成以上工作**：
1. 使用 `torchtext.legacy.data.Field` 定义样本各个字段的处理流程（分词、数据预处理等）；
2. 使用 `torchtext.legacy.data.Example` 将 `torchtext.legacy.data.Field` 处理成一条样本；
3. 使用 `torchtext.utils.data.Dataset` 将 `torchtext.legacy.data.Example` 处理成数据集，也可对数据集进行划分等工作；
4. 使用 `torchtext.legacy.data.Iterators` 将 `torchtext.legacy.data.Dataset` 按照 batch_size 组装成 Batch 供模型训练使用；
5. 使用 `torchtext.vocab` 和 `torchtext.vocab.Vectors` 创建词典、词和索引的一一对应、下载或使用预训练的词向量等；

### 8.3.1 torchtext.legacy.data.Field
- Field 包含一写文本处理的通用参数的设置，同时还包含一个词典对象，可以把文本数据表示成数字类型，进而可以把文本表示成需要的tensor类型。

- 参数：

- `sequential`: 是否把数据表示成序列，如果是False, 不能使用分词 默认值: True；
- `use_vocab`: 是否使用词典对象. 如果是False 数据的类型必须已经是数值类型. 默认值: True；
- `fix_length`: 修改每条数据的长度为该值，不够的用pad_token补全. 默认值: None；
- `tokenize`: 分词函数.是一个 function 类型的对象（如 string.cut 、jieba.cut 等），用于对字符串进行分词；
- `batch_first`: 如果该属性的值取 True，则该字段返回的 Tensor 对象的第一维度是 batch 的大小；默认值: False；


- init_token: 每一条数据的起始字符 默认值: None；
- eos_token: 每条数据的结尾字符 默认值: None；
- tensor_type: 把数据转换成的tensor类型 默认值: torch.LongTensor；
- preprocessing:在分词之后和数值化之前使用的管道 默认值: None；
- postprocessing: 数值化之后和转化成tensor之前使用的管道默认值: None；
- lower: 是否把数据转化为小写 默认值: False；
- include_lengths: 是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False；
- pad_token: 用于补全的字符. 默认值: “”；
- unk_token: 不存在词典里的字符. 默认值: “”；
- pad_first: 是否补全第一个字符. 默认值: False；

In [5]:
from torchtext.data import Field,Example,TabularDataset,Iterator,BucketIterator
from torch.utils.data import Dataset, DataLoader
from torchtext.vocab import Vectors
from torch.nn import init
from tqdm import tqdm

In [6]:
# 1.数据
corpus = ["D'aww! He matches this background colour",
         "Yo bitch Ja Rule is more succesful then",
         "If you have a look back at the source",
         "You will become successful"]
labels = [0,1,0,1]
# 2.定义不同的Field
TEXT = Field(sequential=True, lower=True, fix_length=10,tokenize=str.split,batch_first=True)
LABEL = Field(sequential=False, use_vocab=False)
# 创建Fiedld的List
fields = [("comment", TEXT),("label",LABEL)]
# 3.将数据转换为Example对象的列表
examples = []
for text,label in zip(corpus,labels):
    example = Example.fromlist([text,label],fields=fields)
    examples.append(example)
print(type(examples[0]))
print(examples[0].comment)
print(examples[0].label)
# 4.构建词表
new_corpus = [example.comment for example in examples]
TEXT.build_vocab(new_corpus)
print(TEXT.process(new_corpus))


<class 'torchtext.data.example.Example'>
["d'aww!", 'he', 'matches', 'this', 'background', 'colour']
0
tensor([[10, 12, 17, 25,  6,  9,  1,  1,  1,  1],
        [27,  8, 15, 19, 14, 18, 21, 24,  1,  1],
        [13,  2, 11,  3, 16,  5,  4, 23, 20,  1],
        [ 2, 26,  7, 22,  1,  1,  1,  1,  1,  1]])


### 8.3.2 构建词向量

- 最简单的方法，bulid_vocab()方法中传入用于构建词表的数据集

- TEXT.build_vocab(train)



- Vocab的API
```python
class torchtext.vocab.Vocab(
    counter, max_size=None, min_freq=1, specials=['<pad>'], 
    vectors=None, unk_init=None, vectors_cache=None, specials_first=True
)
# 为TEXT字段创建词向量TEXT.build_vocab(data_set)
```
- 重要参数：
1. `counter`：collections.Counter 类型的对象，用于保存数据（如：单词）的频率；
2. `vectors`：预训练的词向量，可以是torch.vocab.Vectors类型，也可以是其他类型；
3. `min_freq`: 最低频率限制，如果某个词频率比min_freq低，则不记录到词典；

```python
# 为 TEXT 字段创建词向量
TEXT.build_vocab(data_set)
# 加载数据后可以建立词典，建立词典的时候可以使用与训练的word vector
# 使用的词向量是glove.6B.100d的词向量
TEXT.build_vocab(train, vectors="glove.6B.100d")

```


**使用训练好的词向量**
- Vocab.Vectors API
```python
class torchtext.vocab.Vectors(name, cache=None, url=None, unk_init=None, max_vectors=None)
```
- 重要参数：
1. `name`：保存word vectors的文件；
2. `catch`：word vectors文件的缓存目录，默认是.vector_cache；
3. `url`： 如果缓存文件夹中不存在 word vectors文件，则去该url下载；
4. `unk_init`：是一个function 类型的对象，用来初始化词典中不存在的词向量；默认是Tensor.zero_；
5. `max_vecotrs`：int类型的数据，限制词典的大小；


In [None]:
from torchtext.vocab import Vectors
import torch.nn as nn
# 使用预训练词向量
# 下词向量下载地址: 链接：https://pan.baidu.com/s/113N_OBF3jluDPP_lKGzaKQ 提取码：surf 
word_vectors = Vectors('sgns.target.word-word.dynwin5.thr10.neg5.dim300.iter5', cache='./vectors')
TEXT.build_vocab(train,vectors=Vectors)

**在模型中指定Embedding层的权重**

在使用预训练好的词向量时，我们需要在神经网络模型的Embedding层中明确地传递嵌入矩阵的初始权重。权重包含在词汇表的vectors属性中。以Pytorch搭建的Embedding层为例：

In [None]:
# 通过pytorch创建的Embedding层

embedding = nn.Embedding(2000, 256)
# 指定嵌入矩阵的初始权重
weight_matrix = TEXT.vocab.vectors
embedding.weight.data.copy_(weight_matrix)
# 指定预训练权重的同时设定requires_grad=True
# embeddings.weight = nn.Parameter(embeddings, requires_grad=True)


# 加载预训练词向量
# freeze：该参数是指预训练词向量是否参与继续训练，True表示不继续参与训练；
embedding_layer = nn.Embedding.from_pretrained(word_vectors.vectors, freeze=True)

### torchtext.metrics
- NLP中部分任务的评测不是通过准确率等指标完成的，比如机器翻译任务常用BLEU (bilingual
evaluation understudy) score来评价预测文本和标签文本之间的相似程度。torchtext中可以直接调用
torchtext.data.metrics.bleu_score来快速实现BLEU，下面是一个官方文档中的一个例子：


In [12]:
from torchtext.data.metrics import bleu_score
candidate_corpus = [['My', 'full', 'pytorch', 'test'], ['Another', 'Sentence']]
references_corpus = [[['My', 'full', 'pytorch', 'test'], ['Completely',
'Different']], [['No', 'Match']]]
bleu_score(candidate_corpus, references_corpus)

0.8408964276313782

# 总结：
- 本次任务，主要介绍了PyTorch生态在图像、视频、文本等领域中的发展，并介绍了相关工具包的使用。

1. `torchvision`（图像）：`torchvision`主要提供在计算机视觉中常常用到的数据集、模型和图像处理操作。
2. `PyTorchVideo`(视频）：`PyTorchVideo`主要基于PyTorch，提供Model Zoo，支持数据预处理和常见数据，采用模块化设计，支持多模态，优化移动端部署。
3. t`orchtext`(文本)：`torchtext`是PyTorch的自然语言处理（NLP）的工具包，可对文本进行预处理，例如截断补长、构建词表等操作。

## 参考
https://relph1119.github.io/my-team-learning/#/pytorch_learning35/task07

https://blog.csdn.net/qq_33590958/article/details/102602029

https://blog.csdn.net/xingghaoyuxitong/article/details/113177968

https://blog.csdn.net/xjm850552586/article/details/109137914

https://blog.csdn.net/dendi_hust/article/details/101221922?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0.pc_relevant_paycolumn_v3&spm=1001.2101.3001.4242.1&utm_relevant_index=3

https://blog.csdn.net/u014514939/article/details/88834123?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1.pc_relevant_default&utm_relevant_index=2

https://blog.csdn.net/bqw18744018044/article/details/109150802

https://blog.csdn.net/nlpuser/article/details/83627709