# nn.Conv2d
nn.Conv2d 的构造函数定义如下：


In [None]:
torch.nn.Conv2d(
    in_channels,
    out_channels,
    kernel_size,
    stride=1,
    padding=0,
    dilation=1,
    groups=1,
    bias=True,
    padding_mode='zeros'
)

### 1. in_channels (整数)
含义：输入特征图的`通道数`（或`深度`）。

- 如何设置：

    - `对于模型的第一层`，如果输入是`灰度图`，`in_channels`=1。
    
    - 如果输入是`RGB`彩色图，`in_channels`=3。
    
    - 对于模型中间的卷积层，`in_channels` 必须等于`前一个卷积层输出`的 `out_channels`。

### 2. out_channels (整数)
含义：卷积层中`滤波器（卷积核）的数量`。

- 如何设置：

    - 这是你作为模型设计者需要定义的超参数。它`决定了该层输出特征图的通道数`。
    
    - `out_channels` 越大，意味着该层试图`学习和提取的特征种类就越多`，模型的学习能力也越强，但同时参数量和计算量也会增加。

常见的做法是随着网络深度的增加而增加 `out_channels` 的数量（例如 `3 -> 32 -> 64 -> 128`）。

### 3. kernel_size (整数 或 元组)
含义：`卷积核（滤波器）的尺寸`。

- 如何设置：

    - `kernel_size`=3 表示使用 3x3 大小的卷积核。
    
    - `kernel_size`=(3, 5) 表示使用 3x5 大小的卷积核（`高度为3，宽度为5`）。

3x3 是最常用的大小，因为它是在捕捉像素邻域信息和保持较小计算量之间的最佳平衡点。

### 4. stride (整数 或 元组)
含义：卷积核在图像上每次`滑动的步长`。

- 如何设置：

    - `stride`=1 (默认值) 表示卷积核每次移动一个像素。这会产生尺寸较大的特征图。
    
    - `stride`=2 表示卷积核每次移动两个像素。这`会使输出的特征图尺寸大约减半`，起到`下采样` (`Downsampling`) 的作用，类似于 `MaxPooling`。

### 5. padding (整数 或 元组)
含义：在输入特征图的边界周围`填充的层数`。

- 如何设置：

- padding=0 (默认值)：不进行填充。每次卷积后，特征图的尺寸会缩小。

- padding=1：在图像边界周围填充一圈0。

一个关键技巧：当 `kernel_size=3` 且 `stride=1` 时，设置 `padding=1` 可以使输出特征图的尺寸与输入特征图保持不变。这在构建深层网络时非常有用，可以避免特征图尺寸过快缩小。

---

### 输入与输出的形状 (Shape)
理解数据在经过 `nn.Conv2d` 层后形状如何变化至关重要。

- 输入形状: 一个4D张量 (Tensor) (N, C_in, H_in, W_in)

    - N: 批次大小 (Batch Size)
    - C_in: 输入通道数 (in_channels)
    - H_in: 输入图像高度
    - W_in: 输入图像宽度


- 输出形状: 同样是一个4D张量 (N, C_out, H_out, W_out)

    - N: 批次大小（保持不变）
    - C_out: 输出通道数 (out_channels)
    - H_out: 输出图像高度（需要计算）
    - W_out: 输出图像宽度（需要计算）

---

#### 下面是一个在简单网络中使用 nn.Conv2d 的例子：

In [None]:
import torch
import torch.nn as nn

# 定义一个简单的卷积网络
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        # 第一个卷积层：输入3通道 (RGB)，输出32通道，卷积核3x3，padding为1
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, stride=1, padding=1)
        self.relu1 = nn.ReLU()
        self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2) # 池化层，尺寸减半

        # 第二个卷积层：输入32通道 (来自conv1)，输出64通道，卷积核3x3，padding为1
        self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.relu2 = nn.ReLU()
        self.pool2 = nn.MaxPool2d(kernel_size=2, stride=2) # 池化层，尺寸再次减半

    def forward(self, x):
        # x的形状: (N, 3, 32, 32)
        x = self.conv1(x)    # -> (N, 32, 32, 32)
        x = self.relu1(x)
        x = self.pool1(x)    # -> (N, 32, 16, 16)

        x = self.conv2(x)    # -> (N, 64, 16, 16)
        x = self.relu2(x)
        x = self.pool2(x)    # -> (N, 64, 8, 8)
        return x

# 创建一个模型实例
model = SimpleCNN()

# 创建一个假的输入数据 (批次大小为8)
# (N, C_in, H, W)
dummy_input = torch.randn(8, 3, 32, 32)

# 前向传播
output = model(dummy_input)

# 打印输出形状
print("输入形状:", dummy_input.shape)
print("输出形状:", output.shape)

# 输出:
# 输入形状: torch.Size([8, 3, 32, 32])
# 输出形状: torch.Size([8, 64, 8, 8])