### Introducción al Zero-Shot Learning
Zero-Shot Learning (ZSL) es una técnica que permite a los modelos de inteligencia artificial clasificar elementos de clases que nunca han sido vistas durante el entrenamiento. En lugar de aprender directamente de ejemplos etiquetados, el modelo utiliza información semántica, como descripciones textuales, atributos o relaciones entre clases, para realizar predicciones.

Esto representa un gran avance frente al aprendizaje supervisado tradicional, ya que elimina la necesidad de recopilar y etiquetar datos específicos para cada nueva clase.

### Ejemplo Conceptual
Imagina un modelo entrenado para reconocer imágenes de perros, gatos y aves. Si le mostramos una imagen de un caballo (una clase que nunca ha visto), el modelo puede clasificarla correctamente si tiene acceso a una descripción textual como:
"Un animal con cuatro patas, crin y que suele ser usado para montar."

En este caso, el modelo utiliza la descripción como referencia para encontrar similitudes con la imagen, logrando identificar la clase desconocida.

### CLIP
Para ilustrar un ejemplo de Zero-Shot Learning, haremos uso de CLIP. CLIP (Contrastive Language-Image Pretraining) es un modelo desarrollado por OpenAI que representa un avance importante en Zero-Shot Learning. Su capacidad principal es alinear representaciones de imágenes y textos en un espacio latente compartido. Esto significa que CLIP puede entender la relación entre una descripción textual y una imagen, incluso si no ha sido entrenado directamente en la clase que se analiza.

Está compuesto por dos partes principales:

Un codificador de imágenes: Convierte una imagen en un vector numérico (embedding).
Un codificador de texto: Convierte una descripción textual en otro vector numérico.
Ambos codificadores transforman sus entradas a un espacio latente compartido, donde la similitud entre las representaciones se maximiza para pares correctos (imagen-descripción) y se minimiza para pares incorrectos. Por ejemplo:

La representación de una imagen de un "perro" estará más cerca del texto "una foto de un perro" que de "una foto de un gato".

In [None]:
# Zero-Shot Learning con CLIP

# ================================
# Paso 1: Instalación de librerías necesarias
# ================================
# Asegúrate de tener las siguientes librerías instaladas antes de comenzar.
# Ejecuta este comando si no las tienes instaladas.

%pip install transformers torch pillow

In [None]:
# ================================
# Paso 2: Importación de librerías
# ================================
# Importamos las librerías necesarias para trabajar con el modelo CLIP y procesar imágenes.

from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch


In [None]:
# ================================
# Paso 3: Cargar el modelo CLIP pre-entrenado
# ================================
# Descargamos el modelo preentrenado CLIP desde el hub de modelos de OpenAI.

modelo = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
procesador = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")


In [None]:
# ================================
# Paso 4: Cargar una imagen
# ================================
# Cargamos una imagen local para realizar la clasificación. Cambia la ruta para usar tu propia imagen.

imagen = Image.open("/content/dog.jpg")  # Reemplaza con la ruta de tu imagen
imagen.show()  # Muestra la imagen cargada


In [None]:
# ================================
# Paso 5: Definir etiquetas de clase
# ================================
# Creamos una lista de descripciones textuales que representan las clases a clasificar.

etiquetas = ["una foto de un perro", "una foto de un gato", "una foto de un coche"]


In [None]:
# ================================
# Paso 6: Preprocesar las entradas
# ================================
# Convertimos la imagen y las etiquetas en un formato que el modelo CLIP pueda procesar.

entradas = procesador(text=etiquetas, images=imagen, return_tensors="pt", padding=True)


In [None]:
# ================================
# Paso 7: Clasificación Zero-Shot
# ================================
# Realizamos la clasificación utilizando el modelo CLIP y obtenemos las puntuaciones de similitud.

salidas = modelo(**entradas)
logits_por_imagen = salidas.logits_per_image  # Puntuaciones de similitud
probabilidades = logits_por_imagen.softmax(dim=1)  # Distribución de probabilidades


In [None]:
# ================================
# Paso 8: Obtener la clase predicha
# ================================
# Identificamos la clase con mayor probabilidad.

clase_predicha = etiquetas[probabilidades.argmax()]
print(f"Clase predicha: {clase_predicha}")
