# Introducción

¡Bienvenidos al 🤗 Curso!

[video](https://youtu.be/00GKzGyWFEs)

Este curso le enseñará sobre el procesamiento del lenguaje natural (NLP Natural Laguage Processing) utilizando bibliotecas del ecosistema Hugging Face: 🤗 [Transformers](https://github.com/huggingface/transformers), 🤗 [Datasets](https://github.com/huggingface/datasets), 🤗 [Tokenizers](https://github.com/huggingface/tokenizers) y 🤗 [Accelerate](https://github.com/huggingface/accelerate), así como [Hugging Face Hub](https://huggingface.co/models). Es completamente gratis y sin anuncios.

## ¿Que esperar?

Aquí hay una breve descripción del curso:

![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary.svg)

Los capítulos 1 a 4 brindan una introducción a los conceptos principales de la biblioteca de 🤗 Transformers. Al final de esta parte del curso, estará familiarizado con el funcionamiento de los modelos de Transformer y sabrá cómo usar un modelo de [Hugging Face Hub](https://huggingface.co/models), ajustarlo en un conjunto de datos y compartir sus resultados en el Hub.

Los capítulos 5 a 8 enseñan los conceptos básicos de 🤗 conjuntos de datos y 🤗 tokenizadores antes de sumergirse en las tareas clásicas de PNL. Al final de esta parte, podrá abordar los problemas más comunes de PNL por sí mismo.

Los capítulos 9 a 12 van más allá de la PNL y exploran cómo se pueden usar los modelos de Transformer para abordar tareas en el procesamiento del habla y la visión por computadora. En el camino, aprenderá cómo crear y compartir demostraciones de sus modelos y optimizarlos para entornos de producción. ¡Al final de esta parte, estará listo para aplicar 🤗 Transformers a (casi) cualquier problema de aprendizaje automático!

Este curso:

- Requiere un buen conocimiento de Python

- Es mejor tomarlo después de un curso introductorio de aprendizaje profundo, como [Aprendizaje profundo práctico para codificadores de fast.ai](https://course.fast.ai/) o uno de los programas desarrollados por [DeepLearning.AI](https://www.deeplearning.ai/)

- No espera un conocimiento previo de [PyTorch](https://pytorch.org/) o [TensorFlow](https://www.tensorflow.org/), aunque cierta familiaridad con cualquiera de ellos ayudará.

Una vez que haya completado este curso, le recomendamos que consulte la [especialización en procesamiento del lenguaje natural](https://www.coursera.org/specializations/natural-language-processing?utm_source=deeplearning-ai&utm_medium=institutions&utm_campaign=20211011-nlp-2-hugging_face-page-nlp-refresh) de DeepLearning.AI, que cubre una amplia gama de modelos tradicionales de PNL como naive Bayes y LSTM que vale la pena conocer.

## ¿Quienes somos?

Sobre los autores:

**Abubakar Abid** completó su doctorado en Stanford en aprendizaje automático aplicado. Durante su doctorado, fundó [Gradio](https://github.com/gradio-app/gradio), una biblioteca Python de código abierto que se ha utilizado para crear más de 600 000 demostraciones de aprendizaje automático. Gradio fue adquirido por Hugging Face, que es donde Abubakar ahora se desempeña como líder del equipo de aprendizaje automático.

**Matthew Carrigan** es ingeniero de aprendizaje automático en Hugging Face. Vive en Dublín, Irlanda, y anteriormente trabajó como ingeniero de ML en Parse.ly y antes de eso como investigador postdoctoral en Trinity College Dublin. No cree que vayamos a llegar a AGI escalando las arquitecturas existentes, pero tiene grandes esperanzas en la inmortalidad del robot de todos modos.

**Lysandre Debut** es ingeniera de aprendizaje automático en Hugging Face y ha estado trabajando en la biblioteca 🤗 Transformers desde las primeras etapas de desarrollo. Su objetivo es hacer que la PNL sea accesible para todos mediante el desarrollo de herramientas con una API muy simple.

**Sylvain Gugger** es ingeniero de investigación en Hugging Face y uno de los mantenedores principales de la biblioteca 🤗 Transformers. Anteriormente, fue científico investigador en fast.ai y coescribió [Deep Learning for Coders con fastai y PyTorch](https://www.oreilly.com/library/view/deep-learning-for/9781492045519/) con Jeremy Howard. El enfoque principal de su investigación es hacer que el aprendizaje profundo sea más accesible, mediante el diseño y la mejora de técnicas que permitan que los modelos se entrenen rápidamente con recursos limitados.

**Dawood Khan** es ingeniero de aprendizaje automático en Hugging Face. Es de Nueva York y se graduó de la Universidad de Nueva York estudiando Ciencias de la Computación. Después de trabajar como ingeniero de iOS durante algunos años, Dawood renunció para iniciar Gradio con sus compañeros cofundadores. Gradio finalmente fue adquirida por Hugging Face.

**Merve Noyan** es defensora de los desarrolladores en Hugging Face y trabaja en el desarrollo de herramientas y la creación de contenido a su alrededor para democratizar el aprendizaje automático para todos.

**Lucile Saulnier** es ingeniera de aprendizaje automático en Hugging Face y desarrolla y respalda el uso de herramientas de código abierto. También participa activamente en muchos proyectos de investigación en el campo del procesamiento del lenguaje natural, como la capacitación colaborativa y BigScience.

**Lewis Tunstall** es un ingeniero de aprendizaje automático en Hugging Face, centrado en desarrollar herramientas de código abierto y hacerlas accesibles a la comunidad en general. También es coautor del libro de O'Reilly [Procesamiento del lenguaje natural con transformadores](https://www.oreilly.com/library/view/natural-language-processing/9781098136789/).

**Leandro von Werra** es ingeniero de aprendizaje automático en el equipo de código abierto de Hugging Face y también coautor del libro de O'Reilly [Procesamiento del lenguaje natural con transformadores](https://www.oreilly.com/library/view/natural-language-processing/9781098136789/). Tiene varios años de experiencia en la industria llevando proyectos de NLP a producción al trabajar en toda la pila de aprendizaje automático.

¿Estás listo para rodar? En este capítulo, aprenderá:

- Cómo usar la función pipeline() para resolver tareas de NLP como la generación y clasificación de texto

- Acerca de la arquitectura del Transformador

- Cómo distinguir entre arquitecturas y casos de uso de codificador, decodificador y codificador-decodificador


# Procesamiento natural del lenguaje

Antes de saltar a los modelos de Transformer, hagamos una descripción general rápida de qué es el procesamiento del lenguaje natural y por qué nos importa.

## ¿Qué es la PNL?

La PNL es un campo de la lingüística y el aprendizaje automático centrado en comprender todo lo relacionado con el lenguaje humano. El objetivo de las tareas de PNL no es solo comprender palabras sueltas individualmente, sino también poder comprender el contexto de esas palabras.

La siguiente es una lista de tareas comunes de PNL, con algunos ejemplos de cada una:

- **Clasificar oraciones completas**: Obtener el sentimiento de una reseña, detectar si un correo electrónico es spam, determinar si una oración es gramaticalmente correcta o si dos oraciones están lógicamente relacionadas o no.

- **Clasificar cada palabra en una oración**: Identificar los componentes gramaticales de una oración (sustantivo, verbo, adjetivo) o las entidades nombradas (persona, ubicación, organización)
Generar contenido de texto: completar un aviso con texto generado automáticamente, completar los espacios en blanco en un texto con palabras enmascaradas

- **Extraer una respuesta de un texto**: Dada una pregunta y un contexto, extraer la respuesta a la pregunta en función de la información proporcionada en el contexto

- **Generar una nueva oración a partir de un texto de entrada**: Traducir un texto a otro idioma, resumir un texto

Sin embargo, la PNL no se limita al texto escrito. También aborda desafíos complejos en el reconocimiento de voz y la visión por computadora, como generar una transcripción de una muestra de audio o una descripción de una imagen.

## ¿Por qué es desafiante?

Las computadoras no procesan la información de la misma manera que los humanos. Por ejemplo, cuando leemos la oración “Tengo hambre”, podemos entender fácilmente su significado. De manera similar, dadas dos oraciones como "Tengo hambre" y "Estoy triste", podemos determinar fácilmente qué tan similares son. Para los modelos de aprendizaje automático (ML Machine Learning), estas tareas son más difíciles. El texto debe procesarse de manera que permita que el modelo aprenda de él. Y debido a que el lenguaje es complejo, debemos pensar detenidamente cómo se debe realizar este procesamiento. Se han realizado muchas investigaciones sobre cómo representar el texto, y veremos algunos métodos en el próximo capítulo.

# Transformadores, ¿qué pueden hacer?

En esta sección, veremos qué pueden hacer los modelos de Transformer y usaremos nuestra primera herramienta de la biblioteca de 🤗 Transformers: la función `pipeline()`.

> 👀 ¿Ves el botón *Abrir en Colab* en la parte superior derecha? Haga clic en él para abrir un cuaderno de Google Colab con todos los ejemplos de código de esta sección. Este botón estará presente en cualquier sección que contenga ejemplos de código. Si desea ejecutar los ejemplos localmente, le recomendamos que eche un vistazo a la [configuración](#0_Setup.ipynb).

## ¡Los transformadores están en todas partes!
Los modelos de transformadores se utilizan para resolver todo tipo de tareas de PNL, como las mencionadas en la sección anterior. Estas son algunas de las empresas y organizaciones que utilizan modelos Hugging Face y Transformer, que también contribuyen a la comunidad compartiendo sus modelos:

![Empresas que usan Hugging Face](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/companies.PNG)

La biblioteca 🤗 [Transformers](https://github.com/huggingface/transformers) proporciona la funcionalidad para crear y usar esos modelos compartidos. [Model Hub](https://huggingface.co/models) contiene miles de modelos previamente entrenados que cualquiera puede descargar y usar. ¡También puedes subir tus propios modelos al Hub!

> ⚠️ El Hugging Face Hub no se limita a los modelos Transformer. ¡Cualquiera puede compartir cualquier tipo de modelo o conjunto de datos que desee! ¡[Cree una cuenta huggingface.co](https://huggingface.co/welcome) para beneficiarse de todas las funciones disponibles!

Antes de profundizar en cómo funcionan los modelos de Transformer bajo el capó, veamos algunos ejemplos de cómo se pueden usar para resolver algunos problemas interesantes de PNL.

## Trabajar con `pipelines()`

El objeto más básico en la biblioteca de 🤗 Transformers es la función pipeline(). Conecta un modelo con sus pasos necesarios de preprocesamiento y posprocesamiento, lo que nos permite ingresar directamente cualquier texto y obtener una respuesta inteligible:

In [None]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.23.1-py3-none-any.whl (5.3 MB)
[K     |████████████████████████████████| 5.3 MB 4.2 MB/s 
Collecting huggingface-hub<1.0,>=0.10.0
  Downloading huggingface_hub-0.10.1-py3-none-any.whl (163 kB)
[K     |████████████████████████████████| 163 kB 55.2 MB/s 
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[K     |████████████████████████████████| 7.6 MB 38.2 MB/s 
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.10.1 tokenizers-0.13.1 transformers-4.23.1


In [None]:
!pip install transformers[sentencepiece]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece
  Downloading sentencepiece-0.1.97-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[K     |████████████████████████████████| 1.3 MB 4.2 MB/s 
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.97


In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9598049521446228}]

¡Incluso podemos pasar varias frases!

In [None]:
classifier(
    ["This course it's really great.", "I hate this so much!"]
)

[{'label': 'POSITIVE', 'score': 0.9998730421066284},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

De forma predeterminada, esta canalización selecciona un modelo preentrenado particular que se ha ajustado para el análisis de opiniones en inglés. El modelo se descarga y se almacena en caché cuando crea el objeto `classifier`. Si vuelve a ejecutar el comando, se usará el modelo almacenado en caché y no es necesario volver a descargar el modelo.

Hay tres pasos principales involucrados cuando pasa un texto por un `pipeline`

1. El texto se procesa previamente en un formato que el modelo puede entender.

2. as entradas preprocesadas se pasan al modelo.

3. Las predicciones del modelo se procesan posteriormente, por lo que puede darles sentido.

Algunas de los [`pipelines` disponibles](https://huggingface.co/docs/transformers/main_classes/pipelines) actualmente son:

- `feature-extraction` extracción de características (obtener la representación vectorial de un texto)

- `fill-mask` máscara de relleno

- `ner` reconocimiento de entidad nombrada (named entity recognition)

- `question-answering` pregunta-respuesta

- `sentiment-analysis` análisis de los sentimientos

- `summarization` resumen

- `text-generation` generación de texto

- `translation` traducción

- `zero-shot-classification` clasificación de tiro cero

¡Echemos un vistazo a algunos de estos!





## Clasificación `zero-shot-classification`

Comenzaremos abordando una tarea más desafiante en la que necesitamos clasificar textos que no han sido etiquetados. Este es un escenario común en proyectos del mundo real porque anotar texto suele llevar mucho tiempo y requiere experiencia en el dominio. Para este caso de uso, el `pipeline` de `zero-shot-classification` es muy poderoso: le permite especificar qué etiquetas usar para la clasificación, por lo que no tiene que depender de las etiquetas del modelo previamente entrenado. Ya ha visto cómo el modelo puede clasificar una oración como positiva o negativa usando esas dos etiquetas, pero también puede clasificar el texto usando cualquier otro conjunto de etiquetas que desee.

In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445988297462463, 0.11197440326213837, 0.04342682659626007]}

In [None]:
classifier(
    "Giorgia Meloni sworn in as Italy's prime minister. Some fear the hard-right turn she's promised to take",
    candidate_labels=["education", "politics", "business"],)

{'sequence': "Giorgia Meloni sworn in as Italy's prime minister. Some fear the hard-right turn she's promised to take",
 'labels': ['politics', 'business', 'education'],
 'scores': [0.9391851425170898, 0.05193455144762993, 0.008880263194441795]}

Est `pipeline` se llama `zero-shot` (disparo cero) porque no necesita ajustar el modelo en sus datos para usarlo. ¡Puede devolver directamente puntajes de probabilidad para cualquier lista de etiquetas que desee!

> ✏️ ¡Pruébalo! Juega con tus propias secuencias y etiquetas y observa cómo se comporta el modelo.

## Generación de texto

Ahora veamos cómo usar una canalización para generar texto. La idea principal aquí es que proporcione un aviso y el modelo lo completará automáticamente generando el texto restante. Esto es similar a la función de texto predictivo que se encuentra en muchos teléfonos. La generación de texto implica aleatoriedad, por lo que es normal que no obtenga los mismos resultados que se muestran a continuación.

In [None]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will teach you how to")


No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/665 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/548M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "In this course, we will teach you how to develop the knowledge of the principles of your field, the skills you need to get the most out of your job and what you can do to prevent the next one in coming.\n\nIf it's"}]

In [None]:
generator("This video is about how implement the python")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "This video is about how implement the python webapp plugin you can see the demo on the official forums so you don't have to run into it. Just find it in the plugin folder and run:\n\npython webapp-demo\n\n"}]

Puede controlar cuántas secuencias diferentes se generan con el argumento `num_return_sequences` y la longitud total del texto de salida con el argumento `max_length`.

> ✏️ ¡Pruébalo! Use los argumentos num_return_sequences y max_length para generar dos oraciones de 15 palabras cada una.

## Usar cualquier modelo del Hub en una canalización

Los ejemplos anteriores usaron el modelo predeterminado para la tarea en cuestión, pero también puede elegir un modelo particular del Hub para usarlo en `pipeline` para una tarea específica, por ejemplo, generación de texto. Vaya a [Model Hub](https://huggingface.co/models) y haga clic en la etiqueta correspondiente a la izquierda para mostrar solo los modelos admitidos para esa tarea. Deberías llegar a una página como [esta](https://huggingface.co/models?pipeline_tag=text-generation).

¡Probemos el modelo [distilgpt2](https://huggingface.co/distilgpt2?text=My+name+is+Merve+and+my+favorite)! Aquí se explica cómo cargarlo en la misma canalización que antes:

In [None]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=5,
)

Downloading:   0%|          | 0.00/762 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/353M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to get and build a successful relationship with women and men with knowledge of common knowledge about domestic and gender identity'},
 {'generated_text': 'In this course, we will teach you how to start your new business today. Click Here to Learn How We Invest In Our Global Economy\n\n\n'},
 {'generated_text': 'In this course, we will teach you how to create a ‘Nurse of the Night, ‘Haven‘‘‘'},
 {'generated_text': 'In this course, we will teach you how to make more and more of the same game using a different camera, and how to integrate elements with your'},
 {'generated_text': 'In this course, we will teach you how to be a professional with strong relationships and a career in business.\n\n\n\n\nYou will also'}]

In [None]:
generator(
    "This video is about how implement the python",
    max_length=30,
    num_return_sequences=5,
)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'This video is about how implement the python-freetime and python-freetime code written in python are so easy to modify.'},
 {'generated_text': 'This video is about how implement the python package management protocol.\nTo ensure user profile authentication, enable the authentication method and enable the data exchange service.'},
 {'generated_text': 'This video is about how implement the python3 version of their game, the standard Python, to use.\n\nYou read the original video here:'},
 {'generated_text': 'This video is about how implement the python-numpy interface with python-numpy2.py.py. It is the standard Python interpreter for'},
 {'generated_text': "This video is about how implement the python module inside the import variable'm' is built. This file contains the following instructions:\n\nPython Module"}]

Puede refinar su búsqueda de un modelo haciendo clic en las etiquetas de idioma y elegir un modelo que generará texto en otro idioma. Model Hub incluso contiene puntos de control para modelos multilingües que admiten varios idiomas.

Una vez que seleccione un modelo haciendo clic en él, verá que hay un widget que le permite probarlo directamente en línea. De esta manera, puede probar rápidamente las capacidades del modelo antes de descargarlo.

> ✏️ ¡Pruébalo! Utilice los filtros para encontrar un modelo de generación de texto para otro idioma. ¡Siéntase libre de jugar con el widget y usarlo en una tubería!

## Relleno de máscara
El siguiente `pipeline` que probará es máscara de relleno. La idea de esta tarea es llenar los espacios en blanco en un texto dado:

In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=5)

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/331M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19619810581207275,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052736610174179,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'},
 {'score': 0.03301803022623062,
  'token': 27930,
  'token_str': ' predictive',
  'sequence': 'This course will teach you all about predictive models.'},
 {'score': 0.031941406428813934,
  'token': 745,
  'token_str': ' building',
  'sequence': 'This course will teach you all about building models.'},
 {'score': 0.024522950872778893,
  'token': 3034,
  'token_str': ' computer',
  'sequence': 'This course will teach you all about computer models.'}]

In [None]:
unmasker("This is the best <mask> of my life.", top_k=5)

[{'score': 0.09053923934698105,
  'token': 183,
  'token_str': ' day',
  'sequence': 'This is the best day of my life.'},
 {'score': 0.06649448722600937,
  'token': 1151,
  'token_str': ' moment',
  'sequence': 'This is the best moment of my life.'},
 {'score': 0.03305387124419212,
  'token': 233,
  'token_str': ' part',
  'sequence': 'This is the best part of my life.'},
 {'score': 0.03262469545006752,
  'token': 7285,
  'token_str': ' chapter',
  'sequence': 'This is the best chapter of my life.'},
 {'score': 0.031834378838539124,
  'token': 676,
  'token_str': ' experience',
  'sequence': 'This is the best experience of my life.'}]

El argumento `top_k` controla cuántas posibilidades desea que se muestren. Tenga en cuenta que aquí el modelo completa la palabra especial `<mask>`, que a menudo se denomina *mask token* (token de máscara). Otros modelos `mask-filling` que rellenan mask pueden tener diferentes fichas de máscara, por lo que siempre es bueno verificar la palabra de máscara adecuada al explorar otros modelos. Una forma de verificarlo es mirar la palabra de máscara utilizada en el widget.

> ✏️ ¡Pruébalo! Busque el modelo `bert-base-cased` en Hub e identifique su palabra de máscara en el widget de la API de inferencia. ¿Qué predice este modelo para la oración en nuestro ejemplo de `pipeline` anterior?

## Reconocimiento de entidad nombrada

El reconocimiento de entidades nombradas (NER Name Entity Recognition) es una tarea en la que el modelo tiene que encontrar qué partes del texto de entrada corresponden a entidades como personas, ubicaciones u organizaciones. Veamos un ejemplo:

In [None]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/213k [00:00<?, ?B/s]

  "`grouped_entities` is deprecated and will be removed in version v5.0.0, defaulted to"


[{'entity_group': 'PER',
  'score': 0.9981694,
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9796019,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9932106,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

In [None]:
ner("Today in San Jorge Central, Nicolas is droping some code")

[{'entity_group': 'LOC',
  'score': 0.79628825,
  'word': 'San Jorge',
  'start': 9,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9297789,
  'word': 'Central',
  'start': 19,
  'end': 26},
 {'entity_group': 'PER',
  'score': 0.999326,
  'word': 'Nicolas',
  'start': 28,
  'end': 35}]

Aquí, el modelo identificó correctamente que Sylvain es una persona (PER), Hugging Face una organización (ORG) y Brooklyn una ubicación (LOC).

Pasamos la opción `grouped_entities=True` en la función de creación de canalización para indicarle a la canalización que reagrupa las partes de la oración que corresponden a la misma entidad: aquí el modelo agrupó correctamente "Hugging Face" como una sola organización, aunque el nombre consta de varias palabras. De hecho, como veremos en el próximo capítulo, el preprocesamiento incluso divide algunas palabras en partes más pequeñas. Por ejemplo, Sylvain se divide en cuatro partes: S, ##yl, ##va y ##in. En el paso de posprocesamiento, el `pipeline` reagrupó con éxito esas piezas.

> ✏️ ¡Pruébalo! Busque en Model Hub un modelo capaz de etiquetar partes del discurso (generalmente abreviado como POS) en inglés. ¿Qué predice este modelo para la oración del ejemplo anterior?

## Respondiendo Preguntas

La canalización de preguntas y respuestas responde preguntas utilizando información de un contexto dado:



In [None]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
)

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/473 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/261M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.6949766278266907, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

In [None]:
question_answerer(
    question="What is happening?",
    context="Nicolas is about to cook dinner",
)

{'score': 0.501258134841919, 'start': 20, 'end': 31, 'answer': 'cook dinner'}

Tenga en cuenta que esta canalización funciona extrayendo información del contexto proporcionado; no genera la respuesta.

## Resumen

El resumen es la tarea de reducir un texto a un texto más corto manteniendo todos (o la mayoría) de los aspectos importantes a los que se hace referencia en el texto. Aquí hay un ejemplo:

In [None]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of 
    graduates in traditional engineering disciplines such as mechanical, civil, 
    electrical, chemical, and aeronautical engineering declined, but in most of 
    the premier American universities engineering curricula now concentrate on 
    and encourage largely the study of engineering science. As a result, there 
    are declining offerings in engineering subjects dealing with infrastructure, 
    the environment, and related issues, and greater concentration on high 
    technology subjects, largely supporting increasingly complex scientific 
    developments. While the latter is important, it should not be at the expense 
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other 
    industrial countries in Europe and Asia, continue to encourage and advance 
    the teaching of engineering. Both China and India, respectively, graduate 
    six and eight times as many traditional engineers as does the United States. 
    Other industrial countries at minimum maintain their output, while America 
    suffers an increasingly serious decline in the number of engineering graduates 
    and a lack of well-educated engineers.
"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' America has changed dramatically during recent years . The number of engineering graduates in the U.S. has declined in traditional engineering disciplines such as mechanical, civil,    electrical, chemical, and aeronautical engineering . Rapidly developing economies such as China and India continue to encourage and advance the teaching of engineering .'}]

In [None]:
summarizer(
    """
    Johann Carl Friedrich Gauss was born on 30 April 1777 in Brunswick (Braunschweig), 
    in the Duchy of Brunswick-Wolfenbüttel (now part of Lower Saxony, Germany), to poor, 
    working-class parents.[7][8] His mother was illiterate and never recorded the date 
    of his birth, remembering only that he had been born on a Wednesday, eight days 
    before the Feast of the Ascension (which occurs 39 days after Easter). Gauss later 
    solved this puzzle about his birthdate in the context of finding the date of Easter, 
    deriving methods to compute the date in both past and future years.[9] He was 
    christened and confirmed in a church near the school he attended as a child.[10]

    Gauss was a child prodigy. In his memorial on Gauss, Wolfgang Sartorius von 
    Waltershausen wrote that when Gauss was barely three years old he corrected 
    a math error his father made; and that when he was seven, solved an arithmetic 
    series problem faster than anyone else in his class of 100 pupils.[11] There are 
    many versions of this story, with various details regarding the nature of 
    the series – the most frequent being the classical problem of adding together 
    all the integers from 1 to 100. (See also under "Anecdotes" below.)[12][13][14] 
    There are many other anecdotes about his precocity while a toddler, and he made 
    his first groundbreaking mathematical discoveries while still a teenager. 
    He completed his magnum opus, Disquisitiones Arithmeticae, in 1798, at the 
    age of 21, and it was published in 1801.[15] This work was fundamental in 
    consolidating number theory as a discipline and has shaped the field to the 
    present day.

    Gauss's intellectual abilities attracted the attention of the Duke of Brunswick,
    [12][6] who sent him to the Collegium Carolinum (now Braunschweig University of 
    Technology),[15] which he attended from 1792 to 1795,[16] and to the University 
    of Göttingen from 1795 to 1798.[15] While at university, Gauss independently 
    rediscovered several important theorems.[17] His breakthrough occurred in 1796 
    when he showed that a regular polygon can be constructed by compass and 
    straightedge if the number of its sides is the product of distinct Fermat primes 
    and a power of 2.[a] This was a major discovery in an important field of mathematics; 
    construction problems had occupied mathematicians since the days of the Ancient 
    Greeks, and the discovery ultimately led Gauss to choose mathematics instead of 
    philology as a career. Gauss was so pleased with this result that he requested 
    that a regular heptadecagon be inscribed on his tombstone. The stonemason declined, 
    stating that the difficult construction would essentially look like a circle.[18]

    The year 1796 was productive for both Gauss and number theory. He discovered a 
    construction of the heptadecagon on 30 March.[15][19] He further advanced modular 
    arithmetic, greatly simplifying manipulations in number theory. On 8 April he 
    became the first to prove the quadratic reciprocity law. This remarkably general 
    law allows mathematicians to determine the solvability of any quadratic equation 
    in modular arithmetic. The prime number theorem, conjectured on 31 May, gives a 
    good understanding of how the prime numbers are distributed among the integers.

    Gauss also discovered that every positive integer is representable as a sum of 
    at most three triangular numbers on 10 July and then jotted down in his diary 
    the note: "ΕΥΡΗΚΑ! num = Δ + Δ + Δ". On 1 October he published a result on the 
    number of solutions of polynomials with coefficients in finite fields, which 
    150 years later led to the Weil conjectures.
    """,
    max_length = 1000,
    min_length = 200
)

[{'summary_text': ' Johann Carl Friedrich Gauss was born on 30 April 1777 in Brunswick (Braunschweig),  in the Duchy of Brunswick-Wolfenbüttel (now part of Lower Saxony, Germany), to poor, working-class parents . His mother was illiterate and never recorded the date of his birth, remembering only that he had been born on a Wednesday, eight days before the Feast of the Ascension (which occurs 39 days after Easter) Gauss later solved a puzzle about his birthdate in the context of finding Easter, deriving methods to compute the date in both past and future years . Gauss completed his magnum opus, Disquisitiones Arithmeticae, in 1798, at the age of 21, and it was published in 1801 . His breakthrough occurred in 1796 when he showed that a regular polygon can be constructed by compass and straightedge if the number of its sides is the product of distinct Fermat primes .'}]

Al igual que con la generación de texto, puede especificar una longitud máxima o una longitud mínima para el resultado.

## Traducción

Para la traducción, puede usar un modelo predeterminado si proporciona un par de idiomas en el nombre de la tarea (como "`translation_en_to_fr`"), pero la forma más fácil es elegir el modelo que desea usar en Model Hub. Aquí intentaremos traducir del francés al inglés:

In [None]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")

Downloading:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/301M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/778k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



[{'translation_text': 'This course is produced by Hugging Face.'}]

In [None]:
translator2 = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")
translator2(
    """
    Johann Carl Friedrich Gauss was born on 30 April 1777 in Brunswick (Braunschweig),  
    in the Duchy of Brunswick-Wolfenbüttel (now part of Lower Saxony, Germany), to 
    poor, working-class parents . His mother was illiterate and never recorded the 
    date of his birth, remembering only that he had been born on a Wednesday, eight 
    days before the Feast of the Ascension (which occurs 39 days after Easter) Gauss 
    later solved a puzzle about his birthdate in the context of finding Easter, 
    deriving methods to compute the date in both past and future years . Gauss 
    completed his magnum opus, Disquisitiones Arithmeticae, in 1798, at the age of 21, 
    and it was published in 1801 . His breakthrough occurred in 1796 when he showed that 
    a regular polygon can be constructed by compass and straightedge if the number of 
    its sides is the product of distinct Fermat primes
    """
)

Downloading:   0%|          | 0.00/1.47k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/312M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/826k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

[{'translation_text': 'Johann Carl Friedrich Gauss nació el 30 de abril de 1777 en Brunswick (Braunschweig), en el Ducado de Brunswick-Wolfenbüttel (ahora parte de Baja Sajonia, Alemania), de padres pobres de la clase trabajadora . Su madre era analfabeta y nunca registró la fecha de su nacimiento, recordando sólo que había nacido un miércoles, ocho días antes de la fiesta de la Ascensión (que ocurre 39 días después de Pascua) Gauss más tarde resolvió un rompecabezas sobre su fecha de nacimiento en el contexto de encontrar Pascua, derivando métodos para calcular la fecha en los años pasados y futuros . Gauss completó su opus magnum, Disquisitiones Arithmeticae, en 1798, a la edad de 21 años, y se publicó en 1801 . Su avance ocurrió en 1796, cuando mostró que un polígono regular se puede construir por brújula y recta si el número de sus lados es el producto de diferentes primos Fermat.'}]

Al igual que con la generación y el resumen de texto, puede especificar una longitud máxima o una longitud mínima para el resultado.

> ✏️ ¡Pruébalo! Busque modelos de traducción en otros idiomas e intente traducir la oración anterior a algunos idiomas diferentes.

Los pipelines que se muestran hasta ahora son principalmente para fines demostrativos. Fueron programados para tareas específicas y no pueden realizar variaciones de las mismas. En el próximo capítulo, aprenderá qué hay dentro de una función pipeline() y cómo personalizar su comportamiento.

# ¿Cómo funcionan los transformers (Transformadores)?

En esta sección, daremos un vistazo de alto nivel a la arquitectura de los modelos de Transformer.

## Un poco de historia de Transformer
Aquí hay algunos puntos de referencia en la (breve) historia de los modelos Transformer:

![Una breve cronología de los modelos de Transformers](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono.svg)

La [arquitectura Transformer](https://arxiv.org/abs/1706.03762) se introdujo en junio de 2017. El enfoque de la investigación original estaba en las tareas de traducción. Esto fue seguido por la introducción de varios modelos influyentes, que incluyen:

- Junio ​​de 2018: [GPT](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf), el primer modelo de Transformer preentrenado, utilizado para realizar ajustes en varias tareas de NLP y obtuvo resultados de última generación.

- Octubre de 2018: [BERT](https://arxiv.org/abs/1810.04805), otro gran modelo preentrenado, este diseñado para producir mejores resúmenes de oraciones (¡más sobre esto en el próximo capítulo!)

- Febrero de 2019: [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf), una versión mejorada (y más grande) de GPT que no se hizo pública de inmediato debido a preocupaciones éticas

- Octubre de 2019: [DistilBERT](https://arxiv.org/abs/1910.01108), una versión destilada de BERT que es un 60 % más rápida, un 40 % más ligera en memoria y aún conserva el 97 % del rendimiento de BERT

- Octubre de 2019: [BART](https://arxiv.org/abs/1910.13461) y [T5](https://arxiv.org/abs/1910.10683), dos grandes modelos preentrenados que utilizan la misma arquitectura que el modelo Transformer original (el primero en hacerlo)

- Mayo de 2020, [GPT-3](https://arxiv.org/abs/2005.14165), una versión aún más grande de GPT-2 que puede funcionar bien en una variedad de tareas sin necesidad de ajustes (llamado aprendizaje de disparo cero)

Esta lista está lejos de ser completa y solo pretende resaltar algunos de los diferentes tipos de modelos de Transformer. En términos generales, se pueden agrupar en tres categorías:

- Tipo GPT (también llamados modelos de transformer autorregresivos)

- Tipo BERT (también llamados modelos de transformer  de codificación automática)

- Tipo BART/T5 (también llamados modelos de transformer de secuencia a secuencia)

Más adelante profundizaremos en estas familias.

## Los transformer son modelos de lenguaje.

Todos los modelos de Transformer mencionados anteriormente (GPT, BERT, BART, T5, etc.) han sido entrenados como modelos de lenguaje. Esto significa que han sido capacitados en grandes cantidades de texto sin procesar de manera autosupervisada. El aprendizaje autosupervisado es un tipo de entrenamiento en el que el objetivo se calcula automáticamente a partir de las entradas del modelo. ¡Eso significa que no se necesitan humanos para etiquetar los datos!

Este tipo de modelo desarrolla una comprensión estadística del lenguaje en el que ha sido entrenado, pero no es muy útil para tareas prácticas específicas. Debido a esto, el modelo preentrenado general luego pasa por un proceso llamado aprendizaje de transferencia. Durante este proceso, el modelo se ajusta de forma supervisada, es decir, utilizando etiquetas anotadas por humanos, en una tarea determinada.

Un ejemplo de una tarea es predecir la siguiente palabra en una oración después de leer las n palabras anteriores. Esto se denomina modelado de lenguaje causal porque la salida depende de las entradas pasadas y presentes, pero no de las futuras.

![Ejemplo de modelado de lenguaje causal en el que se predice la siguiente palabra de una oración](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/causal_modeling.svg)

Otro ejemplo es el modelado de lenguaje enmascarado, en el que el modelo predice una palabra enmascarada en la oración.

![Example of masked language modeling in which a masked word from a sentence is predicted.](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling.svg)





## Los transformadores son modelos grandes

Aparte de algunos valores atípicos (como DistilBERT), la estrategia general para lograr un mejor rendimiento es aumentar el tamaño de los modelos, así como la cantidad de datos en los que se entrenan previamente.

![Número de parámetros de los últimos modelos de Transformers](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/model_parameters.png)

Desafortunadamente, entrenar un modelo, especialmente uno grande, requiere una gran cantidad de datos. Esto se vuelve muy costoso en términos de tiempo y recursos informáticos. Incluso se traduce en impacto ambiental, como se puede observar en el siguiente gráfico.

![La huella de carbono de un gran modelo lingüístico](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/carbon_footprint.svg)

[Video](https://youtu.be/ftWlj4FBHTg)

Y esto muestra un proyecto para un modelo (muy grande) liderado por un equipo que intenta conscientemente reducir el impacto ambiental del preentrenamiento. La huella de ejecutar muchas pruebas para obtener los mejores hiperparámetros sería aún mayor.

Imagínese si cada vez que un equipo de investigación, una organización de estudiantes o una empresa quisiera entrenar un modelo, lo hiciera desde cero. ¡Esto conduciría a costos globales enormes e innecesarios!

Esta es la razón por la que compartir modelos de lenguaje es primordial: compartir los pesos entrenados y construir sobre los pesos ya entrenados reduce el costo total de cómputo y la huella de carbono de la comunidad.

## Transferencia de aprendizaje

[Video]()

El preentrenamiento es el acto de entrenar un modelo desde cero: los pesos se inicializan aleatoriamente y el entrenamiento comienza sin ningún conocimiento previo.

![El entrenamiento previo de un modelo de lenguaje es costoso tanto en tiempo como en dinero](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/pretraining.svg)

Este entrenamiento previo generalmente se realiza en cantidades muy grandes de datos. Por lo tanto, requiere un corpus de datos muy grande y el entrenamiento puede llevar varias semanas.

El fine-tuning (ajuste fino), por otro lado, es el entrenamiento realizado después de que un modelo ha sido entrenado previamente. Para realizar un ajuste fino, primero adquiere un modelo de lenguaje previamente entrenado y luego realiza una capacitación adicional con un conjunto de datos específico para su tarea. Un momento, ¿por qué no entrenar directamente para la tarea final? Hay un par de razones:

- El modelo preentrenado ya se entrenó en un conjunto de datos que tiene algunas similitudes con el conjunto de datos de ajuste fino. Por lo tanto, el proceso de ajuste fino puede aprovechar el conocimiento adquirido por el modelo inicial durante el entrenamiento previo (por ejemplo, con problemas de NLP, el modelo entrenado previamente tendrá algún tipo de comprensión estadística del lenguaje que está utilizando para su tarea).

- Dado que el modelo preentrenado ya se entrenó con una gran cantidad de datos, el ajuste fino requiere muchos menos datos para obtener resultados decentes.

- Por la misma razón, la cantidad de tiempo y recursos necesarios para obtener buenos resultados son mucho menores.


Por ejemplo, se podría aprovechar un modelo preentrenado entrenado en el idioma inglés y luego ajustarlo en un corpus arXiv, lo que da como resultado un modelo basado en ciencia/investigación. El ajuste fino solo requerirá una cantidad limitada de datos: el conocimiento que ha adquirido el modelo preentrenado se "transfiere", de ahí el término aprendizaje de transferencia.

![La puesta a punto de un modelo lingüístico es más económica que la formación previa tanto en tiempo como en dinero](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/finetuning.svg)

Por lo tanto, ajustar un modelo tiene menores costos de tiempo, datos, financieros y ambientales. También es más rápido y fácil iterar sobre diferentes esquemas de ajuste fino, ya que el entrenamiento es menos restrictivo que un preentrenamiento completo.

Este proceso también logrará mejores resultados que el entrenamiento desde cero (a menos que tenga muchos datos), por lo que siempre debe intentar aprovechar un modelo previamente entrenado, uno lo más cercano posible a la tarea que tiene entre manos, y ajustarlo.



## Arquitectura general

En esta sección, repasaremos la arquitectura general del modelo Transformer. No te preocupes si no entiendes algunos de los conceptos; hay secciones detalladas más adelante que cubren cada uno de los componentes.

[Video](https://youtu.be/H39Z_720T5s)

### Introducción

El modelo se compone principalmente de dos bloques:

- **Codificador** (izquierda): el codificador recibe una entrada y construye una representación de ella (sus características). Esto significa que el modelo está optimizado para adquirir comprensión a partir de la entrada.

- **Decodificador** (derecha): El decodificador usa la representación del codificador (características) junto con otras entradas para generar una secuencia objetivo. Esto significa que el modelo está optimizado para generar resultados.

![Arquitectura de modelos de Transformers](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks.svg)

Cada una de estas partes se puede utilizar de forma independiente, dependiendo de la tarea:

- Modelos solo de codificador: buenos para tareas que requieren la comprensión de la entrada, como la clasificación de oraciones y el reconocimiento de entidades nombradas.

- Modelos de solo decodificador: buenos para tareas generativas como la generación de texto.

- Modelos de codificador-decodificador o modelos de secuencia a secuencia: buenos para tareas generativas que requieren una entrada, como traducción o resumen.

Nos sumergiremos en esas arquitecturas de forma independiente en secciones posteriores.



### Capas de atención

Una característica clave de los modelos Transformer es que están construidos con capas especiales llamadas capas de atención. De hecho, el título del artículo que presentaba la arquitectura de Transformer era “¡Todo lo que necesita es atención!”. Exploraremos los detalles de las capas de atención más adelante en el curso; por ahora, todo lo que necesita saber es que esta capa le indicará al modelo que preste atención específica a ciertas palabras en la oración que le pasó (y más o menos ignore las otras) cuando trate con la representación de cada palabra.

Para poner esto en contexto, considere la tarea de traducir un texto del inglés al francés. Dada la entrada "Te gusta este curso", un modelo de traducción también deberá prestar atención a la palabra adyacente "Usted" para obtener la traducción adecuada de la palabra "me gusta", porque en francés el verbo "me gusta" se conjuga de manera diferente según el tema. El resto de la oración, sin embargo, no es útil para la traducción de esa palabra. De la misma manera, al traducir “esto”, el modelo también deberá prestar atención a la palabra “curso”, porque “esto” se traduce de manera diferente dependiendo de si el sustantivo asociado es masculino o femenino. Nuevamente, las otras palabras en la oración no importarán para la traducción de "esto". Con oraciones más complejas (y reglas gramaticales más complejas), el modelo necesitaría prestar especial atención a las palabras que podrían aparecer más alejadas en la oración para traducir correctamente cada palabra.

El mismo concepto se aplica a cualquier tarea asociada con el lenguaje natural: una palabra por sí misma tiene un significado, pero ese significado está profundamente afectado por el contexto, que puede ser cualquier otra palabra (o palabras) antes o después de la palabra que se estudia.

Ahora que tiene una idea de lo que son las capas de atención, echemos un vistazo más de cerca a la arquitectura de Transformer.

### la arquitectura originaria

La arquitectura de Transformer se diseñó originalmente para la traducción. Durante el entrenamiento, el codificador recibe entradas (frases) en un determinado idioma, mientras que el decodificador recibe las mismas frases en el idioma de destino deseado. En el codificador, las capas de atención pueden usar todas las palabras de una oración (ya que, como acabamos de ver, la traducción de una palabra dada puede depender de lo que está después y antes de ella en la oración). El decodificador, sin embargo, funciona secuencialmente y solo puede prestar atención a las palabras de la oración que ya ha traducido (es decir, solo las palabras anteriores a la palabra que se está generando actualmente). Por ejemplo, cuando hemos predicho las primeras tres palabras del objetivo traducido, se las damos al decodificador, que luego usa todas las entradas del codificador para intentar predecir la cuarta palabra.

Para acelerar las cosas durante el entrenamiento (cuando el modelo tiene acceso a las oraciones objetivo), el decodificador alimenta el objetivo completo, pero no se le permite usar palabras futuras (si tuvo acceso a la palabra en la posición 2 al intentar predecir el palabra en la posición 2, ¡el problema no sería muy difícil!). Por ejemplo, al intentar predecir la cuarta palabra, la capa de atención solo tendrá acceso a las palabras en las posiciones 1 a 3.

La arquitectura original de Transformer se veía así, con el codificador a la izquierda y el decodificador a la derecha:

![Arquitectura de modelos de Transformers](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg)

Tenga en cuenta que la primera capa de atención en un bloque decodificador presta atención a todas las entradas (pasadas) al decodificador, pero la segunda capa de atención usa la salida del codificador. Por lo tanto, puede acceder a la oración de entrada completa para predecir mejor la palabra actual. Esto es muy útil ya que diferentes idiomas pueden tener reglas gramaticales que colocan las palabras en diferentes órdenes, o algún contexto proporcionado más adelante en la oración puede ser útil para determinar la mejor traducción de una palabra determinada.

La máscara de atención también se puede usar en el codificador/decodificador para evitar que el modelo preste atención a algunas palabras especiales, por ejemplo, la palabra de relleno especial que se usa para hacer que todas las entradas tengan la misma longitud cuando se agrupan oraciones.

## Arquitecturas vs puntos de control

A medida que nos sumerjamos en los modelos de Transformer en este curso, verá menciones de arquitecturas y puntos de control, así como de modelos. Todos estos términos tienen significados ligeramente diferentes:

- **Arquitectura**: este es el esqueleto del modelo: la definición de cada capa y cada operación que ocurre dentro del modelo.

- **Checkpoints**: Son los pesos que se cargarán en una determinada arquitectura.

- **Modelo**: este es un término genérico que no es tan preciso como "arquitectura" o "punto de control": puede significar ambos. Este curso especificará la arquitectura o el punto de control cuando sea importante para reducir la ambigüedad.

Por ejemplo, BERT es una arquitectura, mientras que bert-base-cased, un conjunto de pesos entrenados por el equipo de Google para la primera versión de BERT, es un punto de control. Sin embargo, se puede decir "el modelo BERT" y "el modelo bert-base-cased".

←

# Codificadores (Encoders)

[Video](https://www.youtube.com/watch?v=MUqNwgPjJvQ)

Los modelos de codificador usan solo el codificador de un modelo de transformador. En cada etapa, las capas de atención pueden acceder a todas las palabras de la oración inicial. Estos modelos a menudo se caracterizan por tener una atención "bidireccional" y, a menudo, se denominan modelos de codificación automática.

El entrenamiento previo de estos modelos generalmente gira en torno a corromper de alguna manera una oración dada (por ejemplo, enmascarando palabras aleatorias en ella) y encargar al modelo que encuentre o reconstruya la oración inicial.

Los modelos de codificador son los más adecuados para tareas que requieren una comprensión de la oración completa, como la clasificación de oraciones, el reconocimiento de entidades nombradas (y, en general, la clasificación de palabras) y la respuesta a preguntas extractivas.

Los representantes de esta familia de modelos incluyen:

- [ALBERT](https://huggingface.co/docs/transformers/model_doc/albert)
- [BERT](https://huggingface.co/docs/transformers/model_doc/bert)
- [DistilBERT](https://huggingface.co/docs/transformers/model_doc/distilbert)
- [ELECTRA](https://huggingface.co/docs/transformers/model_doc/electra)
- [RoBERTa](http://huggingface.co/docs/transformers/model_doc/roberta)

# Modelos de decodificadores (Decoders)

[Video](https://youtu.be/d_ixlCubqQw)

Los modelos con decodificador usan solo el decodificador de un modelo con transformador. En cada etapa, para una palabra dada, las capas de atención solo pueden acceder a las palabras ubicadas antes en la oración. Estos modelos a menudo se denominan modelos autorregresivos.

El entrenamiento previo de los modelos decodificadores generalmente gira en torno a la predicción de la siguiente palabra en la oración.

Estos modelos son los más adecuados para tareas que involucran la generación de texto.

Los representantes de esta familia de modelos incluyen:

- [CONTROL](https://huggingface.co/transformers/model_doc/ctrl.html)
- [GPT](https://huggingface.co/transformers/model_doc/gpt.html)
- [GPT-2](https://huggingface.co/transformers/model_doc/gpt2.html)
- [Transformer XL](https://huggingface.co/transformers/model_doc/transfo-xl.html)

Modelos de secuencia a secuencia

[Video](https://youtu.be/0_4KEb08xrE)

Los modelos de codificador-decodificador (también llamados modelos de secuencia a secuencia) utilizan ambas partes de la arquitectura Transformer. En cada etapa, las capas de atención del codificador pueden acceder a todas las palabras de la oración inicial, mientras que las capas de atención del decodificador solo pueden acceder a las palabras situadas antes de una determinada palabra en la entrada.

El preentrenamiento de estos modelos se puede realizar utilizando los objetivos de los modelos de codificador o decodificador, pero generalmente implica algo un poco más complejo. Por ejemplo, T5 se entrena previamente reemplazando tramos de texto aleatorios (que pueden contener varias palabras) con una sola palabra especial de máscara, y el objetivo es entonces predecir el texto que reemplaza esta palabra de máscara.

Los modelos de secuencia a secuencia son más adecuados para tareas que giran en torno a la generación de nuevas oraciones en función de una entrada determinada, como resúmenes, traducciones o respuestas generativas a preguntas.

Los representantes de esta familia de modelos incluyen:

- [BART](https://huggingface.co/transformers/model_doc/bart.html)
- [mBART](https://huggingface.co/transformers/model_doc/mbart.html)
- [Marian](https://huggingface.co/transformers/model_doc/marian.html)
- [T5](https://huggingface.co/transformers/model_doc/t5.html)

# Sesgo y limitaciones

Si su intención es usar un modelo previamente entrenado o una versión ajustada en producción, tenga en cuenta que, si bien estos modelos son herramientas poderosas, tienen limitaciones. El mayor de ellos es que, para permitir el entrenamiento previo con grandes cantidades de datos, los investigadores a menudo extraen todo el contenido que pueden encontrar, tomando lo mejor y lo peor de lo que está disponible en Internet.

Para dar una ilustración rápida, volvamos al ejemplo de una canalización de máscara de relleno con el modelo BERT:



In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])


Downloading:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Downloading:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/466k [00:00<?, ?B/s]

['carpenter', 'lawyer', 'farmer', 'businessman', 'doctor']
['nurse', 'maid', 'teacher', 'waitress', 'prostitute']


Cuando se le pide que complete la palabra que falta en estas dos oraciones, el modelo solo da una respuesta sin género (mesero/camarera). Las otras son ocupaciones laborales generalmente asociadas con un género específico, y sí, la prostituta terminó entre las 5 posibilidades principales que el modelo asocia con "mujer" y "trabajo". Esto sucede a pesar de que BERT es uno de los raros modelos de Transformer que no se crea extrayendo datos de todo Internet, sino que utiliza datos aparentemente neutrales (está entrenado en los conjuntos de datos de [Wikipedia en inglés](https://huggingface.co/datasets/wikipedia) y [BookCorpus](https://huggingface.co/datasets/bookcorpus)).

Cuando utiliza estas herramientas, debe tener en cuenta que el modelo original que está utilizando podría generar fácilmente contenido sexista, racista u homofóbico. Ajustar el modelo en sus datos no hará que este sesgo intrínseco desaparezca.

# Resumen

En este capítulo, vio cómo abordar diferentes tareas de PNL usando la función de `pipeline()` de alto nivel de 🤗 Transformers. También vio cómo buscar y usar modelos en Hub, así como también cómo usar la API de inferencia para probar los modelos directamente en su navegador.

Discutimos cómo funcionan los modelos de Transformer a un alto nivel y hablamos sobre la importancia del aprendizaje de transferencia y el ajuste fino. Un aspecto clave es que puede usar la arquitectura completa o solo el codificador o decodificador, según el tipo de tarea que desee resolver. La siguiente tabla resume esto:


| Modelo | Ejemplos | Tareas |
| --- | --- | --- |
| Codificador | ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa | Clasificación de oraciones, reconocimiento de entidades nombradas, respuesta a preguntas extractivas |
| Decodificador | CTRL, GPT, GPT-2, Transformer XL | Generación de texto |
| Codificador-decodificador | BART, T5, Marian, mBART | Resumen, traducción, respuesta generativa a preguntas |

In [None]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/213k [00:00<?, ?B/s]

  "`grouped_entities` is deprecated and will be removed in version v5.0.0, defaulted to"


[{'entity_group': 'PER',
  'score': 0.9981694,
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9796019,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9932106,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

In [None]:
from transformers import pipeline

filler = pipeline("fill-mask", model="bert-base-cased")
result = filler("This [MASK] has been waiting for you.")

Some weights of the model checkpoint at bert-base-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
result = classifier("This is a course about the Transformers library",
                    candidate_labels=["Data Science", "Informatics", "Statistics"])

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [None]:
result


{'sequence': 'This is a course about the Transformers library',
 'labels': ['Informatics', 'Data Science', 'Statistics'],
 'scores': [0.5029484033584595, 0.272307813167572, 0.2247437983751297]}