# Introduction to PyTorch

这是关于pytorch官方教程的自学笔记，主要整理了有关pytorch基础的必备的知识，方便在未来更好的使用pytorch进行深度学习模型的训练。

首先将分为以下几个部分介绍下pytorch：
- pytorch简介
- pytorch的核心模块结构
- pytorch的发展趋势
- pytorch构建训练模型完整流程

## 一. Pytorch简介

### 1.1 Pytorch官方
"An open source machine learning framework that accelerates the path from research prototyping to production deployment"

PyTorch 是一个开源机器学习框架，帮助用户加速从算法模型研究到产品部署的过程。

官方网站为(https://pytorch.org/)

<img src="../../../Data/resource/pytorch官方网站.jpg" alt="替代文字" width="1000"/>

官网包含权威的PyTorch介绍、PyTorch官方文档、生态资源等信息。
- Learn板块包括：
    - Get Started中，可以获取权威的安装信息，包括本地、云端安装、Pytotch2.0版本介绍、[过往版本](https://pytorch.org/get-started/previous-versions/)等。例如，特定版本下，windows系统，所支持的CUDA版本是多少，这点非常关键，往往GPU用不起来，就是CUDA版本不匹配。
    - Tutorials中，包含各类文字教程、Youtube教程等。
    
- Ecosystem板块：
    - Tools中，包含了基于Pytorch开发的各类库，比如[Colossal-LLaMA-2](https://github.com/hpcaitech/ColossalAI/tree/main/applications/Colossal-LLaMA-2) ，[Raster Vision](https://docs.rastervision.io/en/stable/#)是一个开源库和框架，供 Python 开发人员在卫星、航空和其他大型图像集（包括倾斜无人机图像）上构建计算机视觉模型。内置支持使用 PyTorch 进行芯片分类、对象检测和语义分割.
    - 社区、论坛、开发资源等
    
- Edge模块：
    - PyTorch Edge是 PyTorch 生态系统的一部分，专门为边缘计算（Edge Computing）设计的工具和技术。边缘计算指的是在接近数据源的设备（如智能手机、嵌入式设备、物联网设备等）上执行计算任务，而不是将所有数据传输到中心化的数据中心或云端进行处理。PyTorch Edge 的目标是将 PyTorch 的深度学习能力扩展到这些边缘设备上，使得机器学习模型可以直接在设备上运行，从而提高响应速度、降低延迟、减少带宽消耗，并增强隐私保护。

- Docs模块：PyTorch API官方文档

- Blogs & News：博客和新闻

- 当然，还有很多资源值得探索


### 1.2 PyTorch历史

FAIR（ Facebook AI Research，Facebook人工智能研究院 ）于2017年初发布PyTorch，PyTorch 的命名由 Py（代表 Python）和 Torch 组成。Py就是python语言，Torch是一款早期的深度学习框架，所以PyTorch是在Torch基础上用python语言重新打造的一款深度学习框架。

那么什么是Torch呢？Torch是纽约大学在2002年开发的深度学习框架。Torch虽然很好用，但是它采用了一门较为小众的语言——Lua语言作为接口。这明显地增高了Torch的使用门槛，想要使用Torch必须学习一门新的编程语言，这让大家都望而却步。

好在Torch的幕后团队也意识到这一点，于是团队采用python语言作为接口对Torch进行了重构，于是就有了PyTorch。

PyTorch代码最早公开版本可追溯至2016年8月24日的v0.1.1（https://github.com/pytorch/pytorch/tags?after=v0.1.4）

## 二. Pytorch的核心模块结构

PyTorch是一个庞大的python库，其中包含几十个模块，这一小节就来了解模块的构成，模块代码的位置，对应文档的位置。从而帮助读者具象化PyTorch，清楚地知道所用的PyTorch函数、模块都在哪里，是如何调用的。

### anaconda环境和包安装目录
针对利用jupyter学习深度学习，创建了`jupyter`这个环境，环境安装在`anaconda`的安装目录下`D:\Software\anaconda3\envs\jupyter`中，然后下面的`D:\Software\anaconda3\envs\jupyter\Lib\site-packages\ `是 Python 环境中管理第三方库和模块的核心目录，pytorch就安装在这个目录下，安装包括`torch`,`torchaudio`,`torchvision`等几个，其中最核心的还是`D:\Software\anaconda3\envs\jupyter\Lib\site-packages\torch`这个目录下的库。
<img src="./resource/pytorch安装目录.jpg" alt="替代文字" width="800"/>

### _pycache_
该文件夹存放python解释器生成的字节码，后缀通常为pyc/pyo。其目的是通过牺牲一定的存储空间来提高加载速度，对应的模块直接读取pyc文件，而不需再次将.py语言转换为字节码的过程，从此节省了时间。

从文件夹名称可知，它是一个缓存，如果需要，我们当然可以删掉它。更多关于pycache的内容，建议额外阅读：https://www.python.org/dev/peps/pep-3147/#proposal

### _C
从文件夹名称就知道它和C语言有关，其实它是辅助C语言代码调用的一个模块，该文件夹里存放了一系列pyi文件，pyi文件是python用来校验数据类型的，如果调用数据类型不规范，会报错。更多pyi知识，请查阅PEP 8 -->.pyi files that are read by the type checker in preference of the corresponding .py files.

PyTorch的底层计算代码采用的是C++语言编写，并封装成库，供pytorch的python语言进行调用。这一点非常重要，后续我们会发现一些pytorch函数无法跳转到具体实现，这是因为具体的实现通过C++语言，我们无法在Pycharm中跳转查看。

### include
上面讲到pytorch许多底层运算用的是C++代码，那么C++代码在哪里呢？ 它们在[这里](https://github.com/pytorch/pytorch/tree/master/torch/csrc),在torch/csrc文件夹下可以看到各个.h/.hpp文件，而在python库中，只包含头文件，这些头文件就在include文件夹下。

### lib
torch文件夹中最重要的一个模块，torch文件夹占3.2GB的空间，98%的内容都在lib中，占了3.16GB空间。pytorch的内容几乎都在lib里面，让我们看看里面是什么。

lib文件夹下包含大量的.lib .dll文件（分别是静态链接库和动态链接库），例如大名鼎鼎的cudnn64_7.dll（占435MB）， torch_cuda.dll（940MB）。这些底层库都会被各类顶层python api调用。这里推荐大家自行了解什么是静态链接库和动态链接库。

### autograd
该模块是pytorch的核心模块与概念，它实现了梯度的自动求导，极大地简化了深度学习研究者开发的工作量，开发人员只需编写前向传播代码，反向传播部分由autograd自动实现，再也不用手动去推导数学公式，然后编写代码了（很多朋友可能不知道，在早期的深度学习框架中是没有这个功能的，例如caffe，它需要手动编写反向传播的公式代码）

### nn
相信这个模块是99%pytorch开发者使用频率最高的模块，搭建网络的网络层就在nn.modules里边。nn.modules也将作为一章独立展开。我们可以到D:\Anaconda_data\envs\pytorch_1.10_gpu\Lib\site-packages\torch\nn\modules里面看看是否有你熟悉的网络层？

### onnx
pytorch模型转换到onnx模型表示的核心模块，进入文件夹可以看到大量的opset**.py， 这里留下一个问题，各版本opset是什么意思？有什么区别？

### optim
优化模块，深度学习的学习过程，就是不断的优化，而优化使用的方法函数，都暗藏在了optim文件夹中，进入该文件夹，可以看到熟悉的优化方法：“Adam”、“SGD”、“ASGD”等。以及非常重要的学习率调整模块，lr_scheduler.py。该模块也将采用独立一章进行详细剖析。

### utils
utils是各种软件工程中常见的文件夹，其中包含了各类常用工具，其中比较关键的是data文件夹，tensorboard文件夹，这些工具都将在后续章节详细展开。第三章将展开data里的dataloader与dataset等数据读取相关的模块。

其他文件夹不再逐一介绍，读者可以到官方文档查看。

以上是torch库，针对不同的应用方向，pytorch还提供了torchvision\torchtext\torchaudio等模块，本书重点对torchvision进行剖析，其它两个模块类似。

### torchvision
类似地，我们来到D:\Anaconda_data\envs\pytorch_1.10_gpu\Lib\site-packages\torchvision文件夹下看看有什么模块。

### datasets
这里是官方为常用的数据集写的数据读取函数，例如常见的cifar, coco, mnist,svhn,voc都是有对应的函数支持，可以方便地使用轮子，同时也可以学习大牛们是如何写dataset的。

### models
这里是宝藏库，里边存放了经典的、可复现的、有训练权重参数可下载的视觉模型，例如分类的alexnet、densenet、efficientnet、mobilenet-v1/2/3、resnet等，分割模型、检测模型、视频任务模型、量化模型。这个库中的模型实现，也是大家可以借鉴学习的好资料，可以模仿它们的代码结构、函数、类的组织。

### ops
视觉任务特殊的功能函数，例如检测中用到的 roi_align, roi_pool，boxes的生成，以及focal_loss实现，都在这里边有实现。

### transforms
数据增强库，相信99%的初学者用到的第一个视觉数据增强库就是transforms了，transforms是pytorch自带的图像预处理、增强、转换工具，可以满足日常的需求。但无法满足各类复杂场景，因此后续会介绍更强大的、更通用的、使用人数更多的数据增强库——Albumentations。

## 三. Pytorch的发展趋势

为什么要学PyTorch？ 因为PyTorch发展迅猛，已经在多方面荣登深度学习框架第一的宝座，学术界绝大多数论文都有PyTorch实现，想要紧跟技术，利用新模型进行科学研究，进行项目开发的，不得不跟随学术界的趋势，所以可以看到PyTorch席卷各界。

PyTorch称王，TensorFlow答应么？一起来看看几个数据。

图1： 各大顶会期刊中，使用PyTorch的论文数量占PyTorch+TensorFlow的百分比。其实就是 p / (p+t)，这里有一个分界点就是50%，当达到50%时，说明PyTorch与TensorFlow平分秋色，当大于50%时说明PyTorch已经超过TF，而当数据超过75%，表明PyTorch已经是TF的两倍。从这个趋势可以发现转折点在2018-2019年之间发生，现在已经2021年末了，哪个框架是学术界的带头大哥？

![pytroch学术界使用趋势](https://tingsongyu.github.io/PyTorch-Tutorial-2nd/chapter-1/imgs/pytorch-papers-of-total.jpeg)
图2：这幅图对比的是PyTorch与TF的决定数量，可以看到TF的份额被PyTorch一步步蚕食，实线代表的PyTorch持续上扬，TF的虚线不断下探。
![pytroch学术界使用趋势](https://tingsongyu.github.io/PyTorch-Tutorial-2nd/chapter-1/imgs/pytorch-solid-vs-tensorf.jpeg)
图片出自：https://horace.io/pytorch-vs-tensorflow/

通过学术界的论文情况就可以说明PyTorch是未来的大势所趋，虽然说早期PyTorch在工业部署上并不如TensorFlow，但是如今PyTorch推出了libtorch，TorchServe，以及各类优秀的，适配性良好的部署框架层出不穷，如TensorRT、OpenVINO、ONNX等，都可以帮助PyTorch进行快速部署

感觉PyTorch是在学术界占据主导地位，让科研工作者感到满意，新模型都是PyTorch实现的，工业界的开发者总不能不用最新的算法、模型，只能纷纷转向PyTorch了。因此，相信大家选择使用PyTorch进行深度学习、机器学习模型开发，一定能加速大家的算法模型开发，也印证了PyTorch的主旨——An open source machine learning framework that accelerates the path from research prototyping to production deployment.”

## 四. 利用Pytorch训练的整体流程

pytorch主要包括以下几个训练流程：
- 数据准备：利用pytorh中的Dataset和Dataloader实现数据集的构建和分批分发
- 模型构建：主要利用torch.nn模块实现各个层的构建，然后利用已有或者自定义的loss实现模型
- 训练优化：设定训练的轮数epoch和选择优化器optimizer进行训练
- 评估保存：对已经训练好的模型进行评估，比如设置验证集，之后对训练好的模型保存