## Introducción

Una red neuronal artificial (RNA) preentrenada es un modelo que ha sido entrenado previamente y luego distribuído (incluyendo arquitectura y valores de pesos) para su uso posterior. De esta manera no es necesario que volver a entrenarlo, o bien, se puede utilizar parte de el ya entrenado, y entrenar otras partes, realizando un ajuste fino o fine tuning. Constituye una manera de reducir los recursos y tiempos necesarios para generar un sistema de aprendizaje automático.

Hugging Face es una plataforma de aprendizaje automático, conocida por su librería de [Transformers](https://es.wikipedia.org/wiki/Transformador(modelo_de_aprendizajeautom%C3%A1tico)) creada para aplicaciones de procesamiento de lenguaje natural y que permite a los usuarios compartir conjuntos de datos y modelos de aprendizaje automático preentrenados. Su Model Hub contiene miles de modelos previamente entrenados de código abierto que cualquiera puede descargar y usar. Además dispone de varios cursos en los que se enseñan conceptos de aprendizaje automático a la vez que como utilizar sus herramientas.

Una de las formas más básicas de usar para inferencia la librería Hugging Face Transformers es la función pipeline(), que permite conectar uno de sus modelos de con los pasos necesarios para su preprocesamiento y posprocesamiento, abstrayendo la mayor parte del código complejo de la librería y ofreciendo una API simple dedicada a varias tareas, entre ellas, audio, visión artificial, procesamiento de lenguaje natural y tareas multimodales.

In [None]:
from transformers import pipeline
import requests
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches

# Avoid some warning
%env TOKENIZERS_PARALLELISM=false

## Imagen a texto
Generar texo a partir de una imagen otra de las tareas de visión por computador, puede suponer el detectar el texto dentro de una imagen (OCR de Optical Character Recognitio), con el modelo microsoft/trocr-base-handwritten probamos a reconocer texto escrito a mano.

In [None]:
# Download an image
#url = "https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg"
url = "https://bass-tian.com/es/img/Meticulosidad.jpg"
image_data = requests.get(url, stream=True).raw
image = Image.open(image_data)

#Convert PIL Image, convert it to a format suitable for matplotlib
image_np = np.array(image)

#Create a matplotlib figure and axis
fig, ax = plt.subplots(figsize=(12, 9))  # Width, height in inches
ax.imshow(image_np)

plt.show()

In [None]:
# Allocate and execute a pipeline for ocr
ocr = pipeline(model='microsoft/trocr-base-handwritten')
ocr(image)

También se puede generar una leyenda que describa a una imagen, con el modelo nlpconnect/vit-gpt2-image-captioning probamos a reconocer el bodegón anterior.

In [None]:
# Allocate and execute a pipeline for image caption
captioner = pipeline(model='nlpconnect/vit-gpt2-image-captioning')

# Download an image
url = "https://cdn.pixabay.com/photo/2021/12/23/05/27/still-life-6888656_960_720.jpg"
image_data = requests.get(url, stream=True).raw
image_sl = Image.open(image_data)

# Convert PIL Image, convert it to a format suitable for matplotlib
image_np = np.array(image_sl)

# Create a matplotlib figure and axis
fig, ax = plt.subplots(figsize=(12, 9))  # Width, height in inches
ax.imshow(image_np)

plt.show()

In [None]:
captioner(image_sl)

In [None]:
# !nvidia-smi

# Reiniciando kernel para limpiar la memoria de la GPU
!pkill -9 -f ipykernel_launcher