## 关键设计asymmetric encoder-decoder architecture
* 虽然 MAE 说自己是 masked autoencoder
* 任何一个模型都有一个编码器解码器
    * BERT 预测相对简单， 解码器：最后的一个全连接输出层
    * MAE 预测一个块里面的所有像素
* MAE 的编码器 只关注 可见的 patches，节省计算时间
* 如果 一个 patch 被丢掉了，编码器不会对它进行编码

遮住大量的块 (i.e., 75%) 重构像素是一个非显然 nontrivial and meaningful 有意义的 self-supervisory task 自监督任务

如果只遮住几块的话，插值法就可以得到缺失的像素，trivial 
遮住一大半的块，迫使模型学习更好的表征

## 模型架构
预训练流程：input --> patches --> masked --> unmasked patches in encoder --> unmasked + masked 按位置排列 进 decoder --> decoder 重构 masked patches 的像素

* patches + masked：一张红色鸟图片进来，切成 patches，masked 块 (3/4) 是 灰色的。
* unmasked patches，encoder：没有 masked (1 / 4) 的块 进入 encoder (ViT)，得到每一块的特征（蓝色）。
* encoder 的输出 和 masked tokens 按照在图片中的原始位置排列成一长条向量 （包含位置信息）。
* 长条向量 进入 decoder，解码器尝试重构缺失的像素信息，还原原始图片

![image.png](attachment:image.png)

encoder 比 decoder 高：计算量主要来自于 encoder，对图片的像素进行编码


优化 encoder by 编码器只用处理 unmasked patches，i.e., 一张图里 1/4 的像素，--> 计算量降低

Transformer 模型计算量特别大，几倍加速也很重要。

同时作者也尝试了normalization的方式，即计算一个patch内像素值的均值和标准差，然后对patch执行normalization，此时encoder的重构任务发生了一些变化，需要重构normalized pixel values，实验表明这种方式效果更好一点

### 什么情况不需要解码器？

用 MAE 做一个 CV 的任务，只需要用编码器。一张图片进来，不需要做掩码，直接切成 patches 格子块，然后得到所有 patches 的特征表示，当成是这张图片的特征表达，用来做 CV 的任务。

### 什么使得 带掩码的自编码器模型在 CV 和 NLP 处理上的不一样呢？
1）CV 使用 CNN，卷积窗口不好将 mask 放进去

archtectural gap has been addressed by ViT

* CNN 在一张图片上，使用一个卷积窗口、不断地平滑，来汇聚一些像素上面的信息 + 模式识别
* Transformer 的一个 mask 对应的是一个特定的词，会一直保留，和别的词区分开来
* 卷积上做掩码？
    * 图片的一块盖住 by 像素替换成一个特定的值，
     * 卷积窗口扫过来、扫过去时，无法区分边界，无法保持 mask 的特殊性，无法拎出来 mask；最后从掩码信息很难还原出来
* 卷积不好加入位置编码？ 不那么充分
    * Transformer 需要位置编码：attention 机制没有位置信息
    * 卷积自带位置信息，不断平移时，不需要加入位置信息


2）语言和图片的信息密度不同

NLP 的一个词是一个语义的实体，一个词在字典里有很长的解释；一句话去掉几个词，任务很难，i.e., 完形填空 --> BERT 的 mask 比例不能过高



CV 的图片去掉一个块，通过对邻居的像素值进行插值还原。怎么让任务不那么 trivial 呢？

* 随机去掉很高比例的块，极大降低图片的冗余性
    * 这一块的周边块都被去掉了，这一块和很远的块的关系不那么冗余
* nontrivial 任务，使 模型去看 一张图片的 holistic 全局信息，而不仅关注局部



3）The autoencoder‘s decoder

CV 还原图片的原始像素：低层次的表示

NLP 还原句子里的词：语义层次更高，i.e., BERT 的一个全连接层还原词



图片分类、目标检测的 decoder：一个全连接层

语义分割（像素级别的输出）：一个全连接层不够，很有可能使用一个转置的卷积神经网络、来做一个比较大解码器。

## 怎么样重构出原始的像素？
解码器的最后一层： a linear projection 

* 一个 patch 是 16 * 16 像素的话，线性层会投影到长为 256 的维度
* 再 reshape(16, 16), 还原原始像素信息
* 损失函数： MSE，像素值相减，再平方和
    * 只作用于非可见块的损失，和 BERT 一样
    * 可见块的图片编码器已经看到了，看到答案就不算正确率了

## Simple implementation 
* 对每一个输入 patch 生成 a token：一个一个 patch 的线性投影 + 位置信息
* 随机采样：randomly shuffle 随机打断序列，把最后一块拿掉。
    * 从 头部均匀的、没有重置的 样本 采样
    * 25% 意味着 随机 shuffle， 只保留前 25% 
* after encoding 解码时：append 跟以前长度一样的这些掩码的一些词源 mask tokens （一个可以学习的向量 + 位置信息），重新 unshuffle 还原到原来的顺序
    * MSE 算误差时，跟原始图的 patches 对应

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

![image-5.png](attachment:image-5.png)

https://note.youdao.com/web/#/file/0A2EB3111D174BA39135129EAFBC6702/mindmap/563DE37A0AE04CA28CDC0D82351EE0F3/