<a href="https://colab.research.google.com/github/YinGuoX/Deep_Learning_Pytorch_WithDeeplizard/blob/master/11_CNN_Flatten_Operation_Visualized_Tensor_Batch_Processing_For_Deep_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Flatten Operation For A Batch Of Image Inputs To A CNN

在本文中，我们将可视化单个灰度图像的张量展平操作，并且我们将展示如何展平特定的张量轴，这是CNN经常需要的，因为我们处理的是与单个输入相对的成批输入。

## 1.Flattening 整个Tensor
张量展平运算是卷积神经网络中的一种常见运算。这是因为传递到完全连接层的卷积层输出必须在完全连接层接受输入之前平坦化。

在过去的文章中，我们学习了张量的形状，然后学习了重塑操作。展平操作是一种特定类型的整形操作，其中所有轴被挤压或挤压在一起。

要展平张量，我们至少要有两个轴。这使得我们从一个还没有平坦的东西开始。现在让我们看一下MNIST数据集中一个8的手写图像。这张图片有两个不同的尺寸，高度和宽度。

高度和宽度分别为18 x 18。 这些尺寸告诉我们这是裁剪的图像，因为MNIST数据集包含28 x 28图像。 现在让我们看看如何将这两个高度和宽度轴展平为长度为324的单个轴.

[上图](https://deeplizard.com/learn/video/mFAIBMbACMA)显示了我们的平坦输出，其单轴长度为324。边缘上的白色对应于图像顶部和底部的白色。

在此示例中，我们将展平整个张量图像，但是如果我们只想展平张量内的特定轴怎么办？ 使用CNN时通常需要这样做。

让我们看看如何使用PyTorch展平代码中的张量的特定轴。

## 2. Flattening Tensor特殊的轴



In [None]:
import torch

In [None]:
t1 = torch.tensor([
    [1,1,1,1],
    [1,1,1,1],
    [1,1,1,1],
    [1,1,1,1]
])

t2 = torch.tensor([
    [2,2,2,2],
    [2,2,2,2],
    [2,2,2,2],
    [2,2,2,2]
])

t3 = torch.tensor([
    [3,3,3,3],
    [3,3,3,3],
    [3,3,3,3],
    [3,3,3,3]
])

我们使用stack（）方法将三个张量的序列沿着新轴连接起来。 由于我们沿新轴有三个张量，因此我们知道该轴的长度应为3，实际上，我们可以在形状中看到具有3个高度和宽度为4的张量。

In [None]:
t = torch.stack((t1,t2,t3))
t.shape

torch.Size([3, 4, 4])

长度为3的轴表示批次大小，长度为4的轴分别表示高度和宽度。 这是此张量的批处理表示的输出结果。

In [None]:
t

tensor([[[1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1]],

        [[2, 2, 2, 2],
         [2, 2, 2, 2],
         [2, 2, 2, 2],
         [2, 2, 2, 2]],

        [[3, 3, 3, 3],
         [3, 3, 3, 3],
         [3, 3, 3, 3],
         [3, 3, 3, 3]]])

在这一点上，我们有一个rank-3张量，其中包含一批三个4 x 4图像。 现在要做的就是使该张量成为CNN期望的形式，就是为颜色通道添加一个轴。 对于这些图像张量，我们基本上都有一个隐式的单色通道，因此在实践中，它们将是灰度图像。

CNN期望看到一个显式的颜色通道轴，因此让我们通过重塑该张量来添加一个。

In [None]:
t = t.reshape(3,1,4,4)
t

tensor([[[[1, 1, 1, 1],
          [1, 1, 1, 1],
          [1, 1, 1, 1],
          [1, 1, 1, 1]]],


        [[[2, 2, 2, 2],
          [2, 2, 2, 2],
          [2, 2, 2, 2],
          [2, 2, 2, 2]]],


        [[[3, 3, 3, 3],
          [3, 3, 3, 3],
          [3, 3, 3, 3],
          [3, 3, 3, 3]]]])

注意我们是如何在批量大小轴后面指定长度为1的轴的。然后，我们跟随的高度和宽度轴长度4。另外，注意长度为1的附加轴如何不改变张量中的元素数。这是因为当我们乘以1时，组件值的乘积不会改变。

第一个轴有3个元素。第一个轴的每个元素代表一个图像。对于每个图像，我们在通道轴上有一个单一的颜色通道。每个通道包含4个数组或标量组件。

让我们通过对这个张量进行索引来查看代码。

我们有了第一张图片。

In [None]:
t[0]

tensor([[[1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1]]])

In [None]:
# 我们在第一个图像中有第一个颜色通道
t[0][0]

tensor([[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]])

In [None]:
# 我们在第一张图片的第一色通道中拥有第一行像素。
t[0][0][0]

tensor([1, 1, 1, 1])

In [None]:
# 我们在第一个图像的第一个颜色通道的第一行中拥有第一个像素值。
t[0][0][0][0]

tensor(1)

## 3.Flattening一批Tensor

好吧。 让我们看看如何平整这批图像。 请记住，整个批次都是单个张量，该张量将传递给CNN，因此我们不想弄平整个事情。 我们只想在批处理张量内展平图像张量。

让我们首先将整个过程弄平，只是看看它会是什么样子。 

In [None]:
t.reshape(1,-1).shape
t.reshape(1,-1)[0]

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [None]:
t.reshape(-1)

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [None]:
t.view(t.numel())

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [None]:
t.flatten()

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

在底部，您会注意到另一种内置的方法，它是张量对象的方法，您猜到了，叫做flatten（）。此方法产生的输出与其他替代方法完全相同。

我想让你们注意到的是，我们已经把整批图像展平了，把所有的图像都粉碎成一个轴。记住1代表第一个图像的像素，2代表第二个图像的像素，3代表第三个图像的像素。

这个扁平化的批处理在我们的CNN中不能很好地工作，因为我们需要对批处理张量中的每个图像进行单独的预测，现在我们有了一个扁平化的混乱。

这里的解决方案是在保持批处理轴的同时展平每个图像。这意味着我们只想展平张量的一部分。我们要用高度和宽度轴展平颜色通道轴:也即是：
* These axes need to be flattened: (C,H,W)
* This can be done with PyTorch's built-in flatten() method.

## 4.Flattening Tensor特殊的轴



In [None]:
t.flatten(start_dim=1).shape

torch.Size([3, 16])

In [None]:
t.flatten(start_dim=1)

tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
        [3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]])

请注意在调用中如何指定 start _ dim 参数。这告诉 flatten ()方法应该启动哪个轴的 flatten 操作。这里的是一个索引，所以它是第二个轴，也就是颜色通道轴。可以说，我们跳过了批处理轴，使它保持完整。

检查形状，我们可以看到，我们有一个秩 -2张量与三个单色通道图像，已被压平为16个像素。

## Flattening RGB图片

如果我们将RGB图像展平，那么颜色会怎样？

颜色通道会怎样？

每个颜色通道将首先被展平。 然后，扁平通道将在张量的单个轴上并排排列。 让我们来看一个代码示例。

我们将构建一个示例RGB图像张量，高度为2，宽度为2。

In [None]:
r = torch.ones(1,2,2)
g = torch.ones(1,2,2)+1
b = torch.ones(1,2,2)+2

In [None]:
img = torch.cat((r,g,b),dim=0)

In [None]:
img.size()

torch.Size([3, 2, 2])

In [None]:
img

tensor([[[1., 1.],
         [1., 1.]],

        [[2., 2.],
         [2., 2.]],

        [[3., 3.],
         [3., 3.]]])

现在，我们可以通过展平像张量看到它的样子。

In [None]:
img.flatten(start_dim=0)

tensor([1., 1., 1., 1., 2., 2., 2., 2., 3., 3., 3., 3.])

请注意，此处的start_dim参数告诉flatten（）方法从何处开始展平。 在这种情况下，我们将使整个图像变平。 但是，我们也可以像这样只展平通道：

In [None]:
img.flatten(start_dim=1)

tensor([[1., 1., 1., 1.],
        [2., 2., 2., 2.],
        [3., 3., 3., 3.]])

现在，我们应该对张量的展平操作有了一个很好的了解。 我们知道如何展平整个张量，我们知道如何展平特定的张量尺寸/轴。 我们将在构建CNN时看到将其投入使用。