<a href="https://colab.research.google.com/github/LuisAdorno/TrabalhoRNLuis/blob/main/Luis_TrabalhoRN_2Multimodais_CLIP_GIT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Modelos Multimodais: Escolhi CLIP e GIT


In [None]:
!pip install -q transformers pillow torchvision timm


In [None]:
from transformers import CLIPProcessor, CLIPModel, AutoProcessor, AutoTokenizer, AutoModelForCausalLM
from PIL import Image
import requests
import torch
import matplotlib.pyplot as plt


#Modelo 1 — CLIP (Contrastive Language-Image Pretraining)

##O CLIP relaciona imagens e textos. Ele classifica qual legenda corresponde melhor a uma imagem.

##EXEMPLO 1:

In [None]:
# Link da imagem
url = "https://images.unsplash.com/photo-1518717758536-85ae29035b6d?auto=format&fit=crop&w=800&q=80"

# Baixar imagem
image = Image.open(requests.get(url, stream=True).raw)

# Mostrar imagem
plt.imshow(image)
plt.axis("off")
plt.title("Imagem")
plt.show()

In [None]:
# Legendas para testar
texts = ["Um gato subindo uma árvore", "Um cachorro lambendo o focinho"]

# Carregar modelo CLIP
clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Processar
inputs = clip_processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = clip_model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)

# Resultado
for i, t in enumerate(texts):
    print(f"{t} -> {probs[0][i].item():.4f}")


###**Justificativa:** O CLIP é um modelo robusto para entender similaridade entre imagens e descrições textuais, útil em tarefas como busca por imagem, legendagem e classificação sem rótulo.

#Modelo 2 — GIT (Grounded Image-Text Transformer)

###O GIT é capaz de gerar legendas a partir de imagens (Image Captioning).
###EXEMPLO 2:

In [None]:
# Nova imagem para o modelo GIT
new_url = "https://images.unsplash.com/photo-1507146426996-ef05306b995a?auto=format&fit=crop&w=800&q=80"
new_image = Image.open(requests.get(new_url, stream=True).raw)

# Mostrar a nova imagem
plt.imshow(new_image)
plt.axis("off")
plt.title("Imagem 2")
plt.show()

In [None]:
# Usar a nova imagem no modelo GIT
inputs_git = processor_git(images=new_image, return_tensors="pt")
generated_ids = model_git.generate(pixel_values=inputs_git["pixel_values"], max_length=50)
caption = processor_git.batch_decode(generated_ids, skip_special_tokens=True)[0]

print("Legenda gerada:", caption)

###**Justificativa:** O GIT é útil em sistemas de acessibilidade, descrição automática de imagens, e integração com perguntas visuais (VQA).