# CLIP

<img src="https://d.pr/i/zcPHYr+" width=500/>

https://huggingface.co/openai/models?search=clip-vit

https://huggingface.co/openai/clip-vit-base-patch32

CLIP 모델은 **OpenAI**에서 개발한 **멀티모달 AI 모델**로, **이미지와 텍스트를 동시에 이해**하고 연결하는 능력을 갖춘 모델이다. CLIP의 이름은 "Contrastive Language-Image Pre-training"의 약자이다.

- **구성**  CLIP은 두 개의 신경망으로 구성된다.  
  - **Vision Encoder(이미지 인코더)**: 이미지 데이터를 벡터로 변환. Vision Transformer(ViT) 구조를 사용한다. (초기에는 ResNet CNN 사용)
  - **Text Encoder(텍스트 인코더)**: 텍스트 데이터를 벡터로 변환. Transformer 기반의 언어 모델
  이 두 인코더는 각각의 입력(이미지, 텍스트)을 **같은 차원의 임베딩 공간**에 매핑한다.

- **학습 방식**  
  
  <img src="https://viso.ai/wp-content/uploads/2024/04/vision-language-models-clip-1280x845.jpg" width=500/>
  
  CLIP은 **이미지-텍스트 쌍** 데이터(예: 사진과 그 설명)를 대규모로 수집하여, 같은 쌍의 임베딩은 **가깝게**, 다른 쌍은 **멀게** 학습하는 **대조적 학습(Contrastive Learning)** 방식을 사용한다. 배치 내 모든 이미지-텍스트 쌍에 대해 코사인 유사도를 계산하고, 올바른 쌍의 유사도를 최대화, 잘못된 쌍의 유사도를 최소화하는 **loss**를 사용한다.

- **주요 장점**  
  - **Zero-shot 학습**: 별도의 추가 학습 없이도, 텍스트 설명만으로 다양한 이미지 분류나 검색이 가능하다. 예를 들어, "A photo of a cat"과 같은 문장을 입력하면, 해당 설명에 가장 잘 맞는 이미지를 찾을 수 있다.
  - **범용성**: 이미지 분류, 검색, 생성 등 다양한 태스크에 적용할 수 있다.
  - **대규모 데이터 활용**: 웹에서 수집한 4억 쌍의 이미지-텍스트 데이터를 사용해 사전학습함으로써, 기존 모델보다 일반화 성능이 뛰어나다.

- **활용 예시**  
  - 이미지 검색: "노을지는 바다"라는 텍스트로 관련 이미지를 찾기  
  - 이미지 분류: 텍스트 라벨로 다양한 이미지를 분류  
  - 생성 AI의 멀티모달 입력 처리 등

CLIP의 핵심 아이디어는 **이미지와 텍스트를 같은 임베딩 공간에 위치시키는 것**이며, 이를 통해 두 다른 형태의 데이터를 효과적으로 연결할 수 있다.  
이런 구조 덕분에 CLIP은 **특정 태스크에 맞춰 추가로 학습하지 않아도 다양한 문제를 해결**할 수 있다.

수식 예시(코사인 유사도):

$
\text{similarity}(v_{\text{image}}, v_{\text{text}}) = \frac{v_{\text{image}} \cdot v_{\text{text}}}{\|v_{\text{image}}\| \|v_{\text{text}}\|}
$

여기서 $v_{\text{image}}$와 $v_{\text{text}}$는 각각 이미지와 텍스트의 임베딩 벡터이다.

정리하면, **CLIP은 이미지와 텍스트를 동시에 이해하고 연결하는 범용 멀티모달 AI 모델**로, 다양한 분야에서 강력한 zero-shot 성능과 범용성을 보여주고 있다.

In [1]:
%pip install -Uq transformers pillow

Note: you may need to restart the kernel to use updated packages.


In [2]:
from transformers import CLIPTokenizerFast, CLIPImageProcessorFast, CLIPProcessor, CLIPModel

model_name = 'openai/clip-vit-base-patch32'

image_processor = CLIPImageProcessorFast.from_pretrained(model_name)    # 이미지 전처리기(리사이즈/정규화 등)
tokenizer = CLIPTokenizerFast.from_pretrained(model_name)               # 텍스트 토크나이저
model = CLIPModel.from_pretrained(model_name, use_safetensors=True)     # 모델 가중치를 safetensor로 로드

print(image_processor)
print(tokenizer)
print(model)

Loading weights:   0%|          | 0/398 [00:00<?, ?it/s]

[1mCLIPModel LOAD REPORT[0m from: openai/clip-vit-base-patch32
Key                                  | Status     |  | 
-------------------------------------+------------+--+-
text_model.embeddings.position_ids   | UNEXPECTED |  | 
vision_model.embeddings.position_ids | UNEXPECTED |  | 

[3mNotes:
- UNEXPECTED[3m	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.[0m


CLIPImageProcessorFast {
  "crop_size": {
    "height": 224,
    "width": 224
  },
  "data_format": "channels_first",
  "do_center_crop": true,
  "do_convert_rgb": true,
  "do_normalize": true,
  "do_rescale": true,
  "do_resize": true,
  "image_mean": [
    0.48145466,
    0.4578275,
    0.40821073
  ],
  "image_processor_type": "CLIPImageProcessorFast",
  "image_std": [
    0.26862954,
    0.26130258,
    0.27577711
  ],
  "resample": 3,
  "rescale_factor": 0.00392156862745098,
  "size": {
    "shortest_edge": 224
  }
}

CLIPTokenizer(name_or_path='openai/clip-vit-base-patch32', vocab_size=49408, model_max_length=77, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<|startoftext|>', 'eos_token': '<|endoftext|>', 'unk_token': '<|endoftext|>', 'pad_token': '<|endoftext|>'}, added_tokens_decoder={
	49406: AddedToken("<|startoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	49407: AddedToken("<|endoftext|>", rstrip=Fals

In [3]:
texts = [
    'a photo of a cat',
    'a photo of a dog',
    'a landscape with mountains'
]

text_inputs = tokenizer(
    texts,
    return_tensors = "pt",
    padding = True
)

input_ids = text_inputs['input_ids']
attention_mask = text_inputs['attention_mask']

In [4]:
# 이미지 전처리
from PIL import Image

image_path = 'Golden-Retriever.jpg'
image = Image.open(image_path).convert('RGB')

image_inputs = image_processor(
    images = image,
    return_tensors='pt'
)
print(image_inputs)

pixel_values = image_inputs['pixel_values']
print(pixel_values.shape)

{'pixel_values': tensor([[[[ 1.3026,  1.3172,  1.3610,  ...,  1.4632,  1.3464,  1.2880],
          [ 1.2880,  1.3026,  1.3172,  ...,  1.4924,  1.4340,  1.3902],
          [ 1.3026,  1.3318,  1.3318,  ...,  1.4924,  1.4632,  1.4048],
          ...,
          [ 0.6311,  0.6457,  0.6895,  ...,  0.5581,  0.4559,  0.7625],
          [ 0.6165,  0.6165,  0.6603,  ...,  0.5435,  0.4997,  0.6311],
          [ 0.5143,  0.4997,  0.5727,  ...,  0.5143,  0.4705,  0.5435]],

         [[ 0.4991,  0.6642,  0.7542,  ...,  1.5496,  1.3995,  1.2945],
          [ 0.4841,  0.6491,  0.7392,  ...,  1.5796,  1.5196,  1.4446],
          [ 0.4691,  0.6191,  0.6792,  ...,  1.5196,  1.5046,  1.4295],
          ...,
          [ 0.2289,  0.2289,  0.2740,  ...,  0.1539,  0.0338,  0.2890],
          [ 0.1989,  0.1839,  0.2589,  ...,  0.1389,  0.0789,  0.1539],
          [ 0.1239,  0.1089,  0.1989,  ...,  0.1539,  0.0338,  0.0789]],

         [[-0.4422, -0.3426, -0.1435,  ...,  1.5487,  1.3922,  1.2643],
          [-0

In [5]:
import torch

with torch.no_grad():
    image_embed = model.get_image_features(pixel_values = pixel_values)
    print(image_embed.pooler_output.shape)

    text_embed = model.get_text_features(input_ids = input_ids, attention_mask = attention_mask)
    print(text_embed.pooler_output.shape)

torch.Size([1, 512])
torch.Size([3, 512])


In [6]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity(image_embed.pooler_output, text_embed.pooler_output)

array([[0.19775248, 0.26828575, 0.17752251]], dtype=float32)

- CLIP의 장점
    - Zero-shot 분류 가능
    - 텍스트 기반 검색 가능 (Image ↔ Text Retrieval)
    - 데이터 라벨링 비용 감소
    - 멀티모달 통합 표현 학습

-  CLIP의 한계
    - 세밀한 객체 구분은 어려움 (fine-grained classification)
    - 프롬프트에 민감함
    - 도메인 특화 데이터에는 성능 저하 가능

- CLIP을 활용한 확장 응용
    - 이미지 검색 (Text → Image Retrieval)  
“a happy dog running on the beach” → 가장 유사한 이미지 검색
    - 이미지 설명 평가  
생성된 캡션이 이미지와 얼마나 잘 맞는지 점수화

    - Stable Diffusion 기반  
Stable Diffusion도 내부적으로 CLIP 텍스트 인코더를 사용