## 12.1 CLIP简介
CLIP是一种联合训练图像和文本表示的预训练模型。作为多模态架构，CLIP通过在相同的潜在空间中学习语言和视觉表现，在二者之间建立了桥梁。因此，CLIP允许我们利用其他架构，使用它的“语言-图像表示”进行下游任务。它基于一个超4 亿张图像及描述的数据集的预训练模型，目前最流程的DalleE-2，Stable-Diffusion中，都把CLIP作为打通文本和图像关联的核心模块，因此了解CLIP是深入了解后续扩散模型非常重要的一环。
图12-1 为CLIP的架构图：
![image.png](attachment:image.png)
<center>图12-1    CLIP架构图</center>  
由图12-1可知，CLIP架构由两个主要组件组成:图像编码器和文本编码器。每个编码器都能够分别理解来自图像或文本的信息，并将这些信息嵌入到向量中。CLIP的思想是在图像-文本对的大型数据集中训练这些编码器，并使嵌入变得相似。

### 12.1.1 CLIP如何对图像及图像描述进行对齐
CLIP是一种基于对比文本-图像对的预训练方法或者模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。如图12-2所示，CLIP包括两个模型：文本编码器和图像编码器，其中文本编码器用来提取文本的特征，可以采用NLP中常用的文本 transformer模型；而图像编码器用来提取图像的特征，可以采用常用CNN模型或者vision transformer。
![image.png](attachment:image.png)
<center>图12-2    CLIP基于对比文本-图像对的预训练方法示意图</center>  
这里对提取的文本特征和图像特征进行对比学习。对于一个包含N个文本-图像对的训练批次，将N个文本特征和N个图像特征两两组合，CLIP模型会预测出N^2个可能的文本-图像对的相似度，这里的相似度直接计算文本特征和图像特征的余弦相似性，即上图所示的矩阵。这里共有N个正样本，即真正属于一对的文本和图像（矩阵中的对角线元素），而剩余的N^2-N个文本-图像对为负样本，那么CLIP的训练目标就是最大N个正样本的相似度，同时最小化N^2-N个负样本的相似度。
假设获得的图像嵌入和文本嵌入批次大小为64，那么这个[64, 64]矩阵中的第一行，代表第1个图片与64个文本的相似程度，其中第1个文本是正样本，我们将这一行的标签设置为1，那么我们就可以使用交叉熵进行训练，尽量把第1个图片和第一个文本的内积变得更大，那么它们就越相似。
每一行都做同样的工作，那么[64, 64]的矩阵，它的标签就是[1,2,3,4,5,6……,64]，在计算机中，标签从0开始，所以实际标签为[0,1,2,3,4,5……,63]。
提示词（Prompt）文本利用文本模型转换成嵌入表示，作为U-Net网络的条件。语义信息和图片信息属于两种模态，CLIP模型如何找到两种之间的关系呢？ CLIP语言模型是如何训练出来的？
首先，要有一个具有文本串和计算机视觉配对的数据集。
CLIP模型所使用的训练集达到了4亿张，通过从网络上爬取图片及相应的标签或者注释。CLIP模型的输入数据如图12-3所示：
![image-2.png](attachment:image-2.png)
<center>图12-3   CLIP模型训练用到的图像和对应描述示例</center>  
CLIP模型结构包含一个图像编码器和一个文本编码器，如图12-4所示。如果更新CLIP模型？
![image-3.png](attachment:image-3.png)
<center>图12-4  CLIP模型结构示意图</center> 

### 12.1.2 CLIP如何实现零样本分类
与CV中常用的先预训练然后微调不同，CLIP可以直接实现零样本学习（zero-shot）的图像分类，即不需要任何训练数据，就能在某个具体下游任务上实现分类，这也是CLIP亮点和强大之处。用CLIP实现零样本学习分类很简单，如图12-5所示，只需要简单的两步：
1）根据任务的分类标签构建每个类别的描述文本：A photo of {label}，然后将这些文本送入文本编码器得到对应的文本特征，如果类别数目为N，那么将得到N个文本特征；
2）将要预测的图像送入图像编码器得到图像特征，然后与N个文本特征计算缩放的余弦相似度（和训练过程一致），然后选择相似度最大的文本对应的类别作为图像分类预测结果，进一步地，可以将这些相似度看成logits，送入softmax后可以到每个类别的预测概率。
![image.png](attachment:image.png)
<center>图12-5  CLIP 实现零样本学习分类示意图</center>  

### 12.1.3 CLIP原理
CLIP的原理是通过对比学习训练图像和文本嵌入到同一个语义空间中，以实现图像和文本的关联。损失函数是用来衡量嵌入向量之间的相似度的度量，包括图像和文本预测的相似性损失和文本和图像预测的相似性损失。因此，CLIP的损失函数是其原理的核心内容。
CLIP的损失函数：

In [None]:
# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter

# 分别提取图像特征和文本特征
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]

# 对两个特征进行线性投射，得到相同维度的特征，并进行l2归一化
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)

# 计算缩放的余弦相似度：[n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)

# 对称的对比学习损失：等价于N个类别的cross_entropy_loss
labels = np.arange(n) # 对角线元素的labels
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2