# Cajas Negras Preentrenadas

Estas cajas negras de deep learning que pueden aprender a partir de imagenes y texto han sido estudiadas y puestas en practica por miles de cientificos e ingenieros en los ultimos años. Por ello hay muchas arquitecturas diferentes y diferentes modelos.

Muchos de estos modelos han sido entrenados con imagenes y texto obtenidos de internet y puestos a disposicion de cualquier programador para que pueda descargarlos y utilizarlos sin tener que entrenarlos nuevamente. **Estas cajas negras se llaman modelos preentrenados.**

Ya que crear y entrenar un modelo desde cero lleva muchisimo trabajo, esfuerzo y tiempo de computo, en este curso nos enfocaremos en utilizar solamente modelos preentrenados y luego ajustarlos a nuestras necesidades mediante lo que se conoce como el procedimiento de finetuning.

## Librerias

Existen multiples librerias que nos permiten descargar y utilizar estos modelos preentrenados de forma sencilla y seguramente iran apareciendo mas. Aqui nos veremos solo veremos algunas de las mas usadas.

Veamos ahora como utilizar los modelos preentrenados de la libreria **Huggingface**, una de las librerias mas utilizadas mas simples de utilizar que ademas es open source:


### Huggingface

Esta libreria ordena los modelos de acuerdo a la tarea que necesitemos realizar, podemos ver todas las categorias disponibles en el siguiente link: https://huggingface.co/tasks

Veamos aqui las categorias:

### Vision

Si necesitamos trabajar con imagenes entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_vision.png" width="600"/>
</div>

Veamos como utiliza uno de estos modelos, intentemos adivinar que raza de perro es la de la siguiente imagen: https://t1.ea.ltmcdn.com/es/posts/5/6/2/10_caracteristicas_de_los_perros_24265_600_square.jpg

<div style="text-align:center">
<img src="https://t1.ea.ltmcdn.com/es/posts/5/6/2/10_caracteristicas_de_los_perros_24265_600_square.jpg" width="200"/>
</div>

In [None]:
# si no tenemos instaladas las librerias la podemos instalar usando pip
! pip install -U accelerate
! pip install -U transformers[torch]
! pip install -U diffusers[torch]

In [None]:
# importamos la libreria
from transformers import pipeline

In [None]:
# creamos la clase que nos permite descargar el modelo para 
# clasificacion de imagenes
clasificador = pipeline("image-classification", model="google/vit-base-patch16-224")

In [None]:
# utilizamos el clasificador para saber que hay en la imagen
url = 'https://t1.ea.ltmcdn.com/es/posts/5/6/2/10_caracteristicas_de_los_perros_24265_600_square.jpg'
clasificador(images=url, top_k=1)

#### Ejercicio 1:

Intentar clasificar las [imagenes de bananas maduras](https://github.com/amiune/freecodingtour/raw/main/cursos/espanol/deeplearning/data/bananas/) y frescas utilizando el modelo anterior

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 1: {display-mode:"form"}

from transformers import pipeline
clasificador = pipeline("image-classification", model="google/vit-base-patch16-224")

# Lista de nombres de las imagenes
nombres_imagenes = [f'normal{i}.jpeg' for i in range(1,6)]
nombres_imagenes.extend([f'madura{i}.jpeg' for i in range(1,6)])
PATH = 'https://github.com/amiune/freecodingtour/raw/main/cursos/espanol/deeplearning/data/bananas/'
for nombre_imagen in nombres_imagenes:
    predictions = clasificador(PATH + nombre_imagen, top_k=1)
    print(nombre_imagen, predictions)

### Procesamiento de Lenguaje Natural

Si necesitamos trabajar con texto entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_nlp.png" width="600"/>
</div>

In [None]:
from transformers import pipeline

In [None]:
summarizer = pipeline("summarization")

In [None]:
texto = """Paris is the capital and most populous city of France, 
with an estimated population of 2,175,601 residents as of 2018, 
in an area of more than 105 square kilometres (41 square miles). 
The City of Paris is the centre and seat of government of the region 
and province of Île-de-France, or Paris Region, which has an estimated 
population of 12,174,880, or about 18 percent of 
the population of France as of 2017."""

In [None]:
summarizer(texto, max_length=30, min_length=10)

#### Ejercicio 2:

Intentar clasificar las peliculas de comedia y terror utilizando un modelo de text classification.

In [1]:
# Escribir aqui la solucion




### Audio

Si necesitamos trabajar con audio entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_audio.png" width="600"/>
</div>

In [None]:
from transformers import pipeline

In [None]:
synthesizer = pipeline("text-to-speech", "suno/bark")

In [None]:
synthesizer("Look I am generating speech in three lines of code!")

### Multimodal

Si necesitamos trabajar con una conbinacion de imagenes, texto y audio entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_multimodal.png" width="600"/>
</div>

In [None]:
from transformers import pipeline

In [None]:
captioner = pipeline("image-to-text",model="Salesforce/blip-image-captioning-base")

In [None]:
captioner("https://huggingface.co/datasets/Narsil/image_dummy/resolve/main/parrots.png")

# Otras librerias open source interesantes:
- [GitHub Models: alternativa a HuggingFace](https://github.blog/news-insights/product-news/introducing-github-models/)
- [Supervision para tareas de computer vision](https://github.com/roboflow/supervision?tab=readme-ov-file)
- [YOLO](https://github.com/ultralytics/ultralytics) [tutorial](https://www.youtube.com/watch?v=hf9MaEazc9s)
- [torchchat: Chat with LLMs Everywhere](https://github.com/pytorch/torchchat)
- [Image Generation](https://blackforestlabs.ai/)
- [Stable Fast 3D](https://stability.ai/news/introducing-stable-fast-3d)

## Notebooks con ejemplos:
- [YOLOv11 examples](https://colab.research.google.com/github/ultralytics/ultralytics/blob/main/examples/tutorial.ipynb#scrollTo=WFPJIQl_L5HT)
- [Supervision examples](https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov8-object-detection-on-custom-dataset.ipynb)
- [Zero shot with dino and roboflow](https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/zero-shot-object-detection-with-grounding-dino.ipynb)
- [Count objects crossing the line](https://colab.research.google.com/github/roboflow/supervision/blob/develop/docs/notebooks/count-objects-crossing-the-line.ipynb)
- [Supervision cheatsheet](https://roboflow.github.io/cheatsheet-supervision/)

# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/deeplearning/deeplearning.html)