### 6.1 编程实战：猫和狗二分类

深度学习中一般需要实现的功能有以下几个：
- 模型定义
- 数据处理与加载
- 训练模型(Train&Validate)
- 训练过程的可视化
- 测试(Test/Inference)

另外，程序还应该满足以下几个要求：
- 模型具有高度可配置性
- 代码应具有良好的组织结构，使人一目了然
- 代码应具有良好的说明，使其他人能够理解

#### 6.1.1比赛介绍

Dog vs Cats是一个传统的二分类问题，其训练集包含了25000张图片。这些图片都放在同一个文件夹下，命名格式为<category>.<num>.jpg,例如cat.10000.jpg and dog.100.jpg,测试集包含12500张图片，命名为<num>.jpg,例如，1000.jpg.参赛者需根据训练集的图片训练模型，并在测试集上进行预测，输出它是狗的概率。最后提交csv文件如下，第一列是图片的num,第二列是狗的概率

#### 6.1.2文件组织架构
前面提到过程序的主要功能，其中最重要的是三个功能如下：
- 模型定义
- 数据加载
- 训练和测试

首先来看文件的组织架构：
![image.png](attachment:image.png)

其中各个文件的主要内容和作用如下：

- checkpoints/: 用于保存训练好的模型，可使程序在异常退出后仍然能重新载入模型，恢复训练。
- data/: 数据相关操作，包括数据预处理、dataset实现等。
- models/: 模型定义，可以有多个模型，例如上面的AlexNet和ResNet34，一个模型对应一个文件。
- utils/: 可能用到的工具函数，本次实现中主要封装了可视化工具。
- config.py: 配置文件，所有可配置的变量都集中在此，并提供默认值。
- main.py: 主文件，训练和测试程序的入口，可通过不同的命令来指定不同的操作和参数。
- requirements.txt: 程序依赖的第三方库。
- README.md: 提供程序的必要说明。

#### 6.1.3 关于__init__.py

可以看到，几乎每个文件夹下都有init.py，一个目录如果包含了`__init__.__py`文件，那么它就变成了一个包(package)。init.py可以为空，也可以定义包的属性和方法，但其必须存在，其他程序才能从这个目录中导入相应的模块或函数。例如在data/文件夹下有init.py，则在main.py中就可以`from data.dataset import DogCat`。如果在init.py中写入`from .dataset import DogCat`,则在main.py中就可以直接写为：`from data import DogCat`,或者 `import data`

#### 6.1.4 数据加载

数据的相关操作主要保存在data/dataset.py中，关于数据的加载的相关操作在第5章中我们已经提到过，其基本原理就是使用Dataset封装数据集，再使用DataLoader实现数据的加载，Kaggle提供的数据包括训练集和测试集，而我们在实际使用中，还需要专门从训练集中取出一部分作为验证集。对于这三类数据集，其相应操作也不太一样，而如果专门写三个Dataset，则稍显冗杂，因此这里通过加一些判断来区分。我们希望对训练集做一些数据增强处理，如随机裁剪，随机翻转，加噪声等，而验证集和测试集则都不需要。

代码操作已在`dataset.py`中实现了

有关数据使用的注意事项在第五章中已经提到，将文件读取等费时操作放在`__getitem__`函数中，利用多线程加速。一次性将所有图片都读进内存,不仅费时还会占用较大内存，而且不易进行数据增强等操作。我们将训练集中的30%作为验证集，可以用来检查模型训练效果，避免过拟合。在使用时，我们可以通过dataloader加载数据。

#### 6.1.5 模型定义

模型的定义主要保存在models/目录下，其中BasicModule是对nn.Module的建议封装，提供快速加载和保存模型的接口。

`basic_module`已经在model文件夹下面实现了。

在实际使用中，直接调用model.save()及model.load(opt.load_path)即可

其他自定义模型一般继承BasicModule，然后实现自己的模型。其中AlexNet.py实现了AlexNet,ResNet34实现了ResNet34。在`models/__init__py`中，代码如下：
```python 
from .AlexNet import AlexNet
from .ResNet import ResNet34

```

这样在主函数中就可以写成：
```python

from models import AlexNet

or 

import models
model=models.AlexNet()


or

import models
model=getattr(models,"AlexNet()")()
```

其中最后一种写法最为关键，这意味着我们可以通过字符串直接指定使用的模型，而不必使用判断语句，也不必每次新增加模型后都修改代码。新增模型后只需要在`models/__init__.py`中加上
```python

from .new_module import NewModule
```

即可。

其他关于模型定义的注意事项，在上一章中已经详细讲解。这里就不再赘述，总结起来就是：

- 尽量使用nn.Sequential(比如AlexNet)
- 将经常使用的结构封装成子Module(比如GoogLeNet的Inception结构，ResNet的ResidualBlock结构)
- 将重复且有规律性的结构，用函数生成(比如VGG的多种变体，ResNet多种变体都是由多个重复卷积层组成)

感兴趣的读者可以看看`models/resnet34.py`如何用不到80行的代码(包括空行和注释)实现resnet34.当然这些模型在torchvision中有实现，而且还提供了预训练的权重，读者可以很方便的使用：

```python
import torchvision as tv
resnet34=tv.models.resnet34(pretained=True)
```

#### 6.1.6 工具函数

在项目中，我们可能会用到一些helper方法，这些方法可以统一放在`utils/`文件夹下，需要使用时再引入。本例中主要是封装了可视化工具visdom的一些操作，其代码如下，在本次实现中只会用到plot方法，用来统计损失信息。

#### 6.1.7 配置文件

在模型定义、数据处理和训练等过程中有很多变量，这些变量应提供默认值，并统一存放在配置文件中，这样在后期调试，修改代码或迁移程序时会比较方便，在这里我们将所有可配置项放在config.py中

可配置的参数主要包括：
- 数据集参数(文件路径、batch_size等)
- 训练参数(学习率、训练epoch等)
- 模型参数

这样我们就可以在程序中这样使用：
```python
import models
from config import DefaultConfig

opt=DefaultConfig()
lr=opt.lr
model=getattr(models,opt.model)
dataset=DogCat(opt.train_data_root)

```

这些都是默认参数，在这里还提供了更新参数，根据字典更新配置的参数

这样我们在实际使用中，并不需要每次都修改config.py,只需要通过命令行传入所需的参数，覆盖默认配置即可。

例如：
```python
opt=DefaultConfig()
new_config={"lr":0.1,"use_gpu":True}
opt._parse(new_config)
opt.lr==0.1

```

#### 6.1.8 main.py

在讲解主程序main.py之前，我们先来看看2017年3月谷歌开源的一个命令工具fire，通过pip install fire即可安装。下面看看fire的基础用法，假设example.py文件内容为如下：
```python
import fire
def add(x,y):
    return x+y

def mul(**kwargs):
    a=kwargs["a"]
    b=kwargs["b"]
    return a*b
if __name__=="__main__":
    fire.Fire()

```
那么我们可以使用：
```python
python example.py add 1 2 #执行add(1,2)
python example.py mul --a=1 --b=2 #执行mul(a=1,b=2),kwargs={"a":1,"b":2}
python example.py add --x=1 --y=2 #执行add(x=1,y=2)
```
可见只要在程序中运行fire.Fire(),即可使用命令行参数`python file<function>[args,]{--kwargs,}`。fire还支持更多的高级功能，具体请参考官方指南。

在主程序`main.py`中，主要包含四个函数，其中三个需要命令行执行，`main.py`的代码组织结构如下：
```python
def train(**kwargs):
    '''
   训练 
    '''
    pass
def val(model,dataloader):
    '''
   计算模型在验证集上的准确率等信息，用以辅助训练 
    '''
    pass

def test(**kwargs):
    '''
    测试
    '''
    pass

def help():
    '''
    打印帮助的信息
    '''
    print("help")
    
if __name__=="__main__":
    import fire 
    fire.Fire()
         
```

根据fire的使用方法，可通过`python main.py<function> --args=xx`的方式来执行训练或者测试。

##### 6.1.8.1

训练的主要步骤如下：
- 定义网络
- 定义数据
- 定义损失函数和优化器
- 计算重要指标
- 开始训练
    - 训练网络
    - 可视化各种指标
    - 计算在验证集上的指标

![image.png](attachment:image.png)

上述代码在`main.py`中已经实现，这里用到了pytorchnet里的一个工具：meter，用于帮助用户快速统计训练过程中的一些指标。`AverageValueMeter`能够计算所有数的平均值和标准差，可以用来统计一个epoch中损失的平均值。`confusionmeter`用来统计分类问题中的分类情况，是一个比准确率更详细的统计指标。

验证相对来说比较简单，但要注意需将模型置于验证模式(`model.eval()`)，验证完成后还需要将其置回为训练模式(`model.train()`),这两句代码会影响BatchNorm和Dropout等层的运行模式。



##### 测试

测试时，需要计算每个样本属于狗的概率，并将结果保存成csv文件。测试的代码与验证比较相似，但需要自己加载模型和数据

#### 帮助函数

程序的命令行接口中有众多参数，如果手动用字符串表示不仅复杂，后勤修改config文件时还需要修改对应的帮助信息，十分不方便。这里使用的是Python你中的inspect方法，可以自动获取config代码。已在main.py的help函数中实现。



#### 6.1.10 争议

以上的设计仅是提供一个参考，其中的很多偏好都是可以调整的。可以尝试模仿sklearn接口的设计。

### 6.2 PyTorch Debug 指南
#### 6.2.1 ipdb介绍

pdb是一个交互式的调试工具，集成于Python标准库之中，由于其强大的功能，能被广泛应用于python环境中。Pdb能让你根据需求跳转到任意的python代码断点、查看任意变量、单步执行代码，甚至还能修改变量的值，而不必重启程序。ipdb可通过`pip install ipdb`安装。 ipdb提供了调试模式下的代码自动补全，还具有很好的语法高亮和代码溯源，以及更好的内省功能，更关键的是，它与pdb接口完全兼容。

首先来看一个例子，要使用ipdb,只需要在想要进行调试的地方插入`ipdb.set trace()`,当代码运行到此处时，就会自动进入交互式调试模式。

假如有以下代码：

```python
try:
    import ipdb
except:
    import pdb as ipdb
    
def sum(x):
    r=0
    for ii in x:
        r += ii
     
    return r

def mul(x):
    r=1
    
    for ii in x:
        r *=ii
    
    return r

ipdb.set_trace()

x=[1,2,3,4,5]
r=sum(x)
r=mul(x)

```

当程序运行至`ipdb.set trace()`,会自动进入debug模式，在该模式中，我们可以使用调试命令，如next或缩写n单步执行，也可以查看python变量，或是运行python代码。如果python变量名和调试命令冲突，需要变量名之前加入！，这样ipdb会执行对应的Python命令，而不是调试命令。下面举例说明ipdb的调试，这里重点讲解ipdb的两大功能。

- 查看： 在函数调用堆栈中自由跳动，并查看函数的局部变量。
- 修改： 修改程序中的变量，并能以此影响程序的运行结果。

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

![image-5.png](attachment:image-5.png)

各种缩写的代表含义：
- n 是next的缩写，表示下一步
- s 进入函数体内部
- l 1,18 #list 1,18的缩写，查看第1行到第18行的代码
- u 跳回上一层的调用
- d 跳到调用的下一层
- ！r 查看变量r的值
- return 继续运行直到函数返回
- x 查看变量x
- x[0]=10000 修改变量x
- b 10 在第10行设置断点
- c 继续运行，直到遇到断点
- q 退出debug 


关于ipdb的使用技巧：
- `<tab>`键能够自动补齐，补齐用法与IPython中的类似。
- j(ump) `<lineno>`能够跳过中间某些行代码的执行。
- 可以直接在ipdb中修改变量的值。
- h(elp)能够查看调试命令的用法，比如h h可以查看h(elp)命令的用法。

#### 6.2.2 在PyTorch中Debug

PyTorch作为一个动态图框架，与ipdb结合使用能调试过程带来便捷。PyTorch可以在执行计算的同时定义计算图，这些计算定义过程是使用python完成的。

- 如何在PyTorch中查看神经网络各层的输出
- 如何在PyTorch中分析各个参数的梯度
- 如何动态修改PyTorch的训练流程

首先，运行6.2.1节所给的示例流程：