# VLM 基础概念

本笔记本介绍 Vision Language Model (VLM) 的基本概念和架构。

## 1. 什么是 VLM？

Vision Language Model (VLM) 是一种能够同时理解图像和文本的多模态模型。它能够执行以下任务：

- **图像描述** (Image Captioning): 为图像生成文本描述
- **视觉问答** (VQA): 根据图像回答问题
- **图像检索**: 根据文本搜索相关图像
- **文本检索**: 根据图像搜索相关文本
- **视觉推理**: 理解图像内容并进行推理

## 2. 典型架构

大多数 VLM 采用以下架构：

```
图像 → 图像编码器 → 特征 → 跨模态融合 → 文本解码器 → 文本
          (ViT/CNN)    (视觉)    (交叉注意力)    (LLM)
```

### 2.1 图像编码器
- **Vision Transformer (ViT)**: 将图像分割成 patch，用 Transformer 编码
- **CNN**: 传统的卷积神经网络如 ResNet

### 2.2 文本解码器
- **LLM**: 大语言模型如 LLaMA、Bloom 等

### 2.3 跨模态融合
- **交叉注意力**: 让文本和图像特征相互 attention
- **对比学习**: 如 CLIP 使用的对比预训练

## 3. 主要 VLM 模型

### 3.1 CLIP (Contrastive Language-Image Pre-training)

CLIP 是 OpenAI 提出的对比学习模型，包含两个编码器：

- **Image Encoder**: ViT 或 ResNet
- **Text Encoder**: Transformer

训练目标：让匹配的图像-文本对在嵌入空间中更接近

```python
from transformers import CLIPProcessor, CLIPModel

# 加载预训练模型
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
```

### 3.2 BLIP (Bootstrapped Language-Image Pre-training)

BLIP 是 Salesforce 提出的多模态模型，支持多种任务：

- **ITM (Image-Text Matching)**: 判断图像和文本是否匹配
- **ITC (Image-Text Contrastive)**: 类似 CLIP 的对比学习
- **ENC (Encoder-only)**: 视觉特征编码
- **DEC (Decoder-only)**: 图像描述生成

```python
from transformers import BlipProcessor, BlipForConditionalGeneration

model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
```

### 3.3 LLaVA (Large Language and Vision Assistant)

LLaVA 将 LLM (LLaMA) 与 ViT 结合，通过投影层连接两个模态：

```python
from transformers import LlavaProcessor, LlavaForConditionalGeneration

model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf")
processor = LlavaProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")
```

## 4. 实践：使用 CLIP 进行零样本分类

In [None]:
# TODO: 实践代码将在此处添加
print("VLM 基础学习完成！")