## Multimodal Models

Modelos multimodais são sistemas de aprendizado de máquina projetados para processar e relacionar informações de diferentes tipos de dados, como texto, imagens, áudio e outros, em conjunto. Eles capturam a rica informação disponível na interação complexa de diferentes tipos de dados, permitindo uma compreensão mais completa e profunda do conteúdo e facilitando a execução de uma variedade de tarefas complexas que envolvem múltiplos modos de entrada.

### CLIP

O CLIP, desenvolvido pela OpenAI, é um modelo multimodal que une dados visuais e linguísticos. Ele aprende a relação entre imagens e textos, permitindo realizar uma variedade de tarefas com um único modelo. Sua arquitetura inclui um codificador de imagem e um codificador de texto, treinados para produzir embeddings compartilhados. Usando um objetivo de aprendizado contrastivo e um grande conjunto de dados, o CLIP pode classificar imagens em categorias não vistas durante o treinamento e realizar outras tarefas multimodais complexas. Sua capacidade de generalização a partir de descrições em linguagem natural o torna útil em várias aplicações, desde melhorar mecanismos de busca até sistemas de interação humano-computador mais intuitivos.

In [1]:
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel

# Load the pre-trained CLIP model and processor
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Define the image and candidate class labels
image_url = "https://images.pexels.com/photos/1108099/pexels-photo-1108099.jpeg"
image = Image.open(requests.get(image_url, stream=True).raw)
candidate_labels = ["a cat", "a dog", "a horse"]

# Preprocess the image and text
inputs = processor(text=candidate_labels, images=image, return_tensors="pt", padding=True)

# Forward pass, get logits and softmax scores
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # image logits are sized [batch_size, num_candidate_labels]
probs = logits_per_image.softmax(dim=1)

# Print the classification probabilities
for label, prob in zip(candidate_labels, probs[0]):
    print(f"Label: {label}, Probability: {prob:.4f}")

config.json:   0%|          | 0.00/4.19k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


pytorch_model.bin:   0%|          | 0.00/605M [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/316 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/592 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/862k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/525k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.22M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/389 [00:00<?, ?B/s]

Unused or unrecognized kwargs: padding.


Label: a cat, Probability: 0.0030
Label: a dog, Probability: 0.9822
Label: a horse, Probability: 0.0148
