# Introducción

Logo de Hugging Face
Logo de Hugging Face
Hugging Face se fundó en 2016 con el propósito inicial de desarrollar una aplicación de chabot. A partir de 2018 comenzó a abrir a la comunidad open source partes de sus modelos NLP, los cuales ganaron popularidad dentro de la comunidad IA.

A día de hoy es la plataforma por excelencia de modelos y datasets, facilitando el descubrimiento, distribución, uso y fine-tuning de modelos pre-entrenados.

Gran parte de la fama adquirida por Hugging Face se debe a sus librerías, en concreto Transformers (para trabar con textos) y Diffusers (para tareas basadas en imágenes), permitiéndonos a los desarrolladores importar y trabajar rápidamente con una gran variedad de modelos pre-entrenados como GPT2 (una versión temprana de ChatGPT), Stable Diffusion o WhisperAI.

# Hola Traductor
Vamos a comenzar con un par de ejemplos muy sencillos para hacernos una idea de lo que podemos hacer. Nuestro Hola Mundo particular va a ser cargar un modelo que traduce de inglés a castellano. Para ello, vamos a utilizar el modelo Helsinki-NLP/opus-mt-en-es que la Universidad de Helsinki ha entrenado a partir de los corpus de OpusMT, y luego ha liberado en HuggingFace.

Así pues, haciendo uso de la librería Transformers (ya la estudiaremos en profundidad tanto en el bloque de Redes Neuronales como en NLP) cargamos el modelo y creamos un pipeline donde le indicamos que el modelo es de tipo traducción. Sin entrar en muchos detalles, un pipeline es una abstracción para simplificar el código sin entrar a las particularidades de cada modelo. Posteriormente, invocamos al pipeline creado con la frase de entrada, el cual realiza la inferencia sobre el modelo indicado, y recibimos la frase de salida:

In [1]:
!pip install gradio transformers torch sentencepiece sacremoses

Collecting sacremoses
  Downloading sacremoses-0.1.1-py3-none-any.whl.metadata (8.3 kB)
Downloading sacremoses-0.1.1-py3-none-any.whl (897 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m897.5/897.5 kB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sacremoses
Successfully installed sacremoses-0.1.1


!pip install gradio: Instala la biblioteca Gradio, que es una herramienta para crear interfaces de usuario interactivas para modelos de machine learning. Con Gradio, puedes crear aplicaciones web para mostrar cómo funciona tu modelo, lo cual es especialmente útil para demos o prototipos.

!pip install transformers: Instala la biblioteca Transformers de Hugging Face, que proporciona acceso a modelos preentrenados de NLP como BERT, GPT, T5, entre otros. Es muy popular para tareas como traducción, generación de texto, análisis de sentimiento y más.

!pip install torch: Instala PyTorch, una biblioteca fundamental para deep learning. PyTorch es ampliamente utilizado para construir y entrenar redes neuronales debido a su flexibilidad y eficiencia. Transformers de Hugging Face y otros modelos de deep learning suelen requerir PyTorch o TensorFlow.

!pip install sentencepiece: Instala SentencePiece, una biblioteca de tokenización desarrollada por Google. Es especialmente útil para dividir el texto en subpalabras, una técnica común en modelos de NLP como BERT y GPT que permite manejar vocabularios más pequeños y flexibles.

!pip install sacremoses: Instala Sacremoses, que es la implementación en Python de Moses tokenizer de la Universidad de Edimburgo. Sacremoses se usa a menudo en NLP para tokenizar texto, manejar puntuaciones y normalizar datos de texto en preprocesamiento.

Así pues, haciendo uso de la librería Transformers cargamos el modelo y creamos un pipeline donde le indicamos que el modelo es de tipo traducción. Sin entrar en muchos detalles, un pipeline es una abstracción para simplificar el código sin entrar a las particularidades de cada modelo. Posteriormente, invocamos al pipeline creado con la frase de entrada, el cual realiza la inferencia sobre el modelo indicado, y recibimos la frase de salida:

In [2]:
from transformers import pipeline

frase_en = "In a village of La Mancha, the name of which I have no desire to call to mind, there lived not long since one of those gentlemen that keep a lance."

In [6]:
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")

Device set to use cpu


In [7]:
frase_es = pipe(frase_en)

In [8]:
print(frase_es[0]['translation_text'])

En un pueblo de La Mancha, cuyo nombre no tengo ganas de recordar, vivió no hace mucho tiempo uno de esos caballeros que guardan una lanza.


Ejemplo 2: Análisis de sentimiento
Si deseas analizar el sentimiento de esta frase:

In [None]:
# Cargar un pipeline de análisis de sentimiento
sentiment_analyzer = pipeline("sentiment-analysis")

# Analizar el sentimiento de la frase
sentiment = sentiment_analyzer(frase_en)
print("Sentimiento:", sentiment)

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Sentimiento: [{'label': 'POSITIVE', 'score': 0.913581132888794}]


Ejemplo 3: Generación de texto (completar la frase)

In [None]:
# Cargar un pipeline de generación de texto
text_generator = pipeline("text-generation")

# Generar una continuación de la frase
completion = text_generator(frase_en, max_length=50)
print("Generación de texto:", completion[0]['generated_text'])

No model was supplied, defaulted to openai-community/gpt2 and revision 607a30d (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Generación de texto: In a village of La Mancha, the name of which I have no desire to call to mind, there lived not long since one of those gentlemen that keep a lance.

This gentleman, a small man, had become acquainted with the


Así de simple. Con un par de líneas realmente hemos cargado un modelo de IA ya creado, y hemos realizado una inferencia sobre él.