# Cajas Negras Preentrenadas

Estas cajas negras de deep learning que pueden aprender a partir de imagenes y texto han sido estudiadas y puestas en practica por miles de cientificos e ingenieros en los ultimos años. Por ello hay muchas arquitecturas diferentes y diferentes modelos.

Muchos de estos modelos han sido entrenados con imagenes y texto obtenidos de internet y puestos a disposicion de cualquier programador para que pueda descargarlos y utilizarlos sin tener que entrenarlos nuevamente. **Estas cajas negras se llaman modelos preentrenados.**

Ya que crear y entrenar un modelo desde cero lleva muchisimo trabajo, esfuerzo y tiempo de computo, en este curso nos enfocaremos en utilizar solamente modelos preentrenados y luego ajustarlos a nuestras necesidades mediante lo que se conoce como el procedimiento de finetuning.

## Librerias

Existen multiples librerias que nos permiten descargar y utilizar estos modelos preentrenados de forma sencilla y seguramente iran apareciendo mas. Aqui nos veremos solo veremos algunas de las mas usadas.

Veamos ahora como utilizar los modelos preentrenados de la libreria **Huggingface**, una de las librerias mas utilizadas mas simples de utilizar que ademas es open source:


### Huggingface

Esta libreria ordena los modelos de acuerdo a la tarea que necesitemos realizar, podemos ver todas las categorias disponibles en el siguiente link: https://huggingface.co/tasks

Veamos aqui las categorias:

#### Vision

Si necesitamos trabajar con imagenes entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_vision.png" width="600"/>
</div>

Veamos como utiliza uno de estos modelos, intentemos adivinar que raza de perro es la de la siguiente imagen: https://t1.ea.ltmcdn.com/es/posts/5/6/2/10_caracteristicas_de_los_perros_24265_600_square.jpg

<div style="text-align:center">
<img src="https://t1.ea.ltmcdn.com/es/posts/5/6/2/10_caracteristicas_de_los_perros_24265_600_square.jpg" width="200"/>
</div>

In [None]:
# si no tenemos instalada la libreria la podemos instalar usando pip
!pip install transformers --upgrade --quiet

In [None]:
# importamos la libreria
from transformers import pipeline

In [None]:
# creamos la clase que nos permite descargar el modelo para 
# clasificacion de imagenes
clasificador = pipeline("image-classification", model="google/vit-base-patch16-224")

In [None]:
# utilizamos el clasificador para saber que hay en la imagen
url = 'https://t1.ea.ltmcdn.com/es/posts/5/6/2/10_caracteristicas_de_los_perros_24265_600_square.jpg'
clasificador(images=url, top_k=1)

#### Procesamiento de Lenguaje Natural

Si necesitamos trabajar con texto entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_nlp.png" width="600"/>
</div>

In [None]:
from transformers import pipeline, Conversation

In [None]:
converse = pipeline("conversational", model="microsoft/DialoGPT-medium")

In [None]:
conversation_1 = Conversation("Going to the movies tonight - any suggestions?")
conversation_2 = Conversation("What's the last book you have read?")
converse([conversation_1, conversation_2])

#### Audio

Si necesitamos trabajar con audio entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_audio.png" width="600"/>
</div>

In [None]:
from transformers import pipeline

In [None]:
synthesizer = pipeline("text-to-speech", "suno/bark")

In [None]:
synthesizer("Look I am generating speech in three lines of code!")

#### Multimodal

Si necesitamos trabajar con una conbinacion de imagenes, texto y audio entonces la categoria vision nos clasifica los modelos preentrenados para realizar las siguientes tareas:

<div style="text-align:center">
<img src="img/hf_multimodal.png" width="600"/>
</div>

In [None]:
from transformers import pipeline

In [None]:
captioner = pipeline("image-to-text",model="Salesforce/blip-image-captioning-base")

In [None]:
captioner("https://huggingface.co/datasets/Narsil/image_dummy/resolve/main/parrots.png")

# Otras librerias open source interesantes:
- [Supervision para tareas de computer vision](https://github.com/roboflow/supervision?tab=readme-ov-file)

# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/deeplearning/deeplearning.html)