# Lab1:认识pytorch包的文件结构

### 基础知识：
需要知道python的简单语法，包的概念，不太了解也问题不大

### 目标

简单了解pytorch的目录结构，了解如何构建简化版pytorch的目录结构，知道如何进行单元测试

### 如何学习

问题：是否需要看懂每一行代码，学懂每一个语法

答案：完全不需要，因为大厂实习、工作、大型项目都是做填空/改错的活，小公司、小作业才需要从头写。所以只需要关注要点即可。

### 任务：构建一个自己的小型pip包

问题: 假设要构建一个简化版pytorch，首先要写的代码是什么

【答案：包的结构代码，把各个模块分类区分开】

问题：如何自定义一个pip包？

【答案：首先定义自己的包名例如my_package, 内部定义以后要import xxx导入的包(文件夹)，定义一个setup.py文件】

TODO：填写example\my_package\setup.py配置包的结构

自定义的pip包结构如下:

```
├─my_package
|  ├─setup.py
│  ├─my_package.egg-info (构建包时生成, 包含描述信息)
│  └─packageA
│      ├─packageB
|      |  ├─file2.py (当中有hello, bye函数)
|      |  ├─__init__.py
│      │  └─__pycache__ (编译后缓存的字节码，避免每次导入时重新编译源码)
|      ├─file1.py (当中有greet函数)
|      ├─__init__.py
│      └─__pycache__
```

每一个包都有一个__init__.py文件。包A的__init__.py引入了file1.py当中的函数，包B的__init__.py引入了file2.py当中的函数。当一个包的__init__.py引入了某个函数，这个函数就可以被外部用包名.函数访问

TODO：填写`example\my_package\packageA\__init__.py`，使得packageA可以直接使用hello

TODO : `example\my_package\packageA\packageB\__init__.py`使得import *可以生效

问题：为什么`example\my_package\packageA\__init__.py`当中是from .file1 import greet，这里的小数点是什么意思？能否去掉？

【表示当前目录的意思，..是上级目录，...是上上级目录，在python包内部去掉会报错】


问题：如何安装包，以可编辑模式安装（就是编辑之后可以立即生效，不需要重新安装）

【答案：进入到setup同级目录，pip install -e .或者任意位置pip install -e 文件路径】

![](../.assets/pip_install_uninstall_my_package.png)


问题：此时应该可以去到`example\test_my_package.py`当中使用安装好的包, 如果vscode编辑器显示报错，如何解决

【答案：pylance插件，设置，Analysis: Extra Paths, 把setup所在文件夹的路径加入进去】

![](../.assets/import_packageA.png)


问题：example\test_my_package.py当中为什么不能使用packageA.bye()，如果想要用怎么办

【答案：因为packageA当中__init__.py没有引入这个函数，如果想用，引入即可】


问题：import *引入什么通过什么决定

【答案：通过__all__ = []决定】


问题：想要from packageA import *引入三个函数，需要怎么修改

【答案：packageA当中__init__.py引入三个函数，__all__当中指明这三个函数】

In [None]:
# 展示一下pytorch的包结构
import torch
from torch import nn

nn.Linear(10, 5)
nn.ReLU()

print(torch.__version__) # 2.5.1
print(torch.__file__) # d:\conda_env\pytorch-cuda\Lib\site-packages\torch\__init__.py
print(torch.utils.__file__) # d:\conda_env\pytorch-cuda\Lib\site-packages\torch\utils\__init__.py



2.5.1
d:\conda_env\pytorch-cuda\Lib\site-packages\torch\__init__.py
d:\conda_env\pytorch-cuda\Lib\site-packages\torch\utils\__init__.py


### 任务：简单了解pytorch的文件结构

问题：`print(包.__file__)`打开的是什么文件？

【答案：安装后，这个包下面的`__init__.py`文件】

问题：通过pip install安装的pytorch和pip install -e安装的mytorch有什么区别

【答案：没有加e的话，pytorch包代码会被拷贝到Python环境（我使用了conda所以是conda中的python环境）的site-packages目录下，而加了e不拷贝，直接链接到原代码位置】

问题：mytorch安装的时候为什么要加e

【答案：因为修改可以立即生效，否则写一次代码要安装一次包太麻烦了】

问题：`torch.__version__`来自于哪里？

【答案：来自于torch\version.py。`torch\__init__.py`当中引入了__version__,就可以用"包.属性"打印】

### 任务：理解MyTorch这个项目

```
├── exercise/
│   ├── mytorch/    # 在这里写TODO实现算子
│   ├── test/       # 在这里写TODO实现测试
│   ├── Lab1.ipynb  # 在这里找到TODO位置/回答问题
|   └──example      # 在这里写TODO理解项目结构
│   ...
└── solution/       # 标准答案
    ...
```

问题：MyTorch中的包结构是什么样的？为什么这么设计？

【答案：setup安装了同级的mytorch包，其中有mynn, myutils子包。因为仿照了pytorch，并进行了简化】


问题：MyTorch当中如果要进行单独测试，应该怎么做？

【答案：进入到某个测试文件所在文件夹(同理，不要在其他路径运行)，单独运行这个测试文件即可】


TODO：去到test\mytorch\test_mytorch_info.py打印mytorch的版本号


问题：如果想要修改mytorch的版本号，需要去哪里修改? 修改之之后为什么能立即生效?

【答案：mytorch的__init__.py文件，因为一个包的__init__.py文件中可以获取的东西，就可以用这个"包.这个东西"来获取】


问题：test\mlp\test_linear.py当中为什么可以from mytorch.mynn import CustomLinear

【答案：因为mytorch当中有一个子包mynn，所以可以用mytorch.mynn, 因为mynn的__init__.py文件引入了CustomLinear所以可以从mynn import CustomLinear】


问题：为什么mynn的__init__.py当中可以用from .mlp import CustomLinear

【答案：同理，因为.mlp是和__init__.py的同级文件，所以可以用.获取，而可以从mlp import什么取决于其中的__init__.py文件，由于其中有from .linear import CustomLinear，所以可以从.mlp import CustomLinear】


总结：pytorch还有很多内容无法全部概览

### 任务：了解python测试框架unittest

目标:填写TODO之后，需要通过4个测试

文件结构

```
unittest
├─math_tests
│  └─__pycache__
└─string_tests
    └─__pycache__
```

简而言之就是定义了数学和字符串的两种测试，在根目录的test_runner.py当中调用

问题: example\unittest\test_runner.py代码当中测试了哪些文件，有多少个测试

【答案：两个文件夹下的3个文件，总共有4个测试，每个测试中可以有多个assert】

现在测试没有通过：

![](../.assets/example_unittest_fail.png)


TODO：修改example\unittest\string_tests\test_length.py中的TODO，使得assert断言通过


通过之后应该是这样

![](../.assets/example_unittest.png)


问题：unittest当中的verbosity是什么意思

【答案：打印内容有多详细的意思，数字大就详细，可以是0，1，2】