## Introducción al Uso de Modelos de Lenguaje de Última Generación (LLMs)

Los modelos de lenguaje de última generación, conocidos como LLMs (Large Language Models), están revolucionando la forma en que las máquinas entienden y generan texto. Desde asistentes virtuales que responden a preguntas hasta sistemas avanzados de traducción automática, los LLMs se están utilizando en una amplia variedad de aplicaciones. Sin embargo, el uso y comprensión de estos modelos puede parecer un desafío, especialmente para quienes no tienen experiencia previa en este campo.

En este curso, te guiaremos paso a paso a través del mundo de los LLMs. Nuestro objetivo es proporcionar una comprensión sólida y práctica de cómo se pueden utilizar estos modelos, incluso si partes desde cero. Aprenderás a:

Comprender los fundamentos de los LLMs: Descubriremos cómo funcionan estos modelos, qué los hace tan poderosos y por qué son una herramienta esencial en el procesamiento de lenguaje natural (NLP).

Trabajar con datasets: Te mostraremos cómo seleccionar, preparar y utilizar conjuntos de datos (datasets) para entrenar y evaluar modelos de lenguaje.

Importar y utilizar modelos preentrenados: Aprenderás a utilizar modelos de Hugging Face, una de las bibliotecas más populares para trabajar con LLMs. Estos modelos preentrenados son un excelente punto de partida para muchas aplicaciones.

Preentrenamiento y ajuste fino (fine-tuning): Te enseñaremos cómo realizar preentrenamiento y ajuste fino de un modelo, adaptándolo a tareas específicas utilizando tus propios datos.

Aplicaciones prácticas: Finalmente, exploraremos cómo aplicar estos modelos en situaciones reales, desde la generación automática de texto hasta la creación de chatbots y más.

Este curso está diseñado para ser accesible, práctico y completo, brindándote las habilidades necesarias para comenzar a utilizar LLMs en tus propios proyectos. ¡Empecemos este emocionante viaje hacia el futuro del procesamiento de lenguaje natural!


1. Plataformas y Herramientas
Hugging Face: Plataforma que facilita el acceso a modelos preentrenados y herramientas de procesamiento de lenguaje.
Google Colab: Entorno gratuito de notebooks donde es fácil ejecutar código relacionado con LLMs.
APIs: Interfaz para interactuar con modelos alojados externamente, como OpenAI o Hugging Face.
Weights and Biases: Plataforma para seguimiento de experimentos y visualización de resultados de entrenamiento y ajuste fino.
2. Modelos Abiertos
GPT-3, BERT, T5: Modelos preentrenados que se pueden utilizar y ajustar para tareas específicas.
LLaMA, Bloom: Modelos abiertos que permiten mayor control y personalización sin las restricciones de APIs propietarias.
3. Tokenización
Byte-Pair Encoding (BPE): Técnica para dividir el texto en subpalabras o tokens.
WordPiece: Otra técnica de tokenización utilizada en modelos como BERT.
Multilingual Tokenization: Consideraciones para manejar diferentes idiomas y caracteres.
4. Quantización
Quantización Post-entrenamiento: Reducir la precisión de los pesos del modelo para mejorar la eficiencia sin volver a entrenar.
Quantización en entrenamiento: Ajuste del modelo durante el entrenamiento para optimizar tamaño y eficiencia.
5. Fine-Tuning (Ajuste fino)
Tuning en datos específicos: Ajustar un modelo preentrenado en un conjunto de datos específico para mejorar el rendimiento en tareas concretas.
Transfer Learning: Aplicar conocimientos de un modelo preentrenado a una nueva tarea con menos datos de entrenamiento.
Métodos de ajuste fino eficientes (LoRA, PEFT): Técnicas que permiten ajustar solo partes del modelo, reduciendo el costo computacional.
6. Evaluación y Benchmarks
Perplexity: Métrica que mide la incertidumbre del modelo en sus predicciones.
BLEU/ROUGE: Métricas de evaluación para tareas de generación de texto como la traducción automática.
GLUE, SuperGLUE: Conjuntos de evaluación estandarizados para medir el rendimiento en varias tareas NLP.
7. Hiperparámetros
Tasa de aprendizaje (Learning Rate): Parámetro clave para el ajuste fino de modelos.
Batch Size: Tamaño de los lotes de datos que se utilizan durante el entrenamiento.
Número de capas, número de cabezas de atención: Ajustes en la arquitectura del modelo para optimizar el rendimiento.
8. Visualizaciones
Embeddings: Representaciones visuales de cómo los modelos entienden el significado de las palabras.
Atención: Visualizar las distribuciones de atención en modelos como Transformers para comprender cómo procesan la información.
Gráficas de Entrenamiento: Monitoreo de la pérdida y precisión a lo largo del tiempo para ajustar el modelo.
9. Uso de APIs
OpenAI API, Hugging Face Inference API: Plataformas que permiten la utilización de modelos grandes sin necesidad de entrenarlos o ajustarlos localmente.
Limitaciones y costos: Consideraciones sobre las cuotas y costos asociados con el uso de APIs.

### PRIMER colab: Importar todo, 2do colab: pre-training-eval, 3er colab: Fine-tuning

# ¿Qué es un Modelo de Lenguaje y un Transformer?

## Modelos de Lenguaje

Un modelo de lenguaje es un tipo de algoritmo de inteligencia artificial diseñado para entender, generar y predecir texto basado en datos previos. Estos modelos son entrenados con grandes cantidades de texto, aprendiendo patrones en el uso del lenguaje, como la gramática, el significado de las palabras y la estructura de las frases. El objetivo principal de un modelo de lenguaje es predecir la siguiente palabra o secuencia de palabras en un texto, lo que le permite generar respuestas coherentes y contextualmente adecuadas.

Los modelos de lenguaje se utilizan en una amplia variedad de aplicaciones, como la traducción automática, la generación de texto, los asistentes virtuales y el análisis de sentimientos. Los avances en el desarrollo de estos modelos han dado lugar a sistemas altamente sofisticados, como los Modelos de Lenguaje de Última Generación (LLMs) de los que hablaremos en este proyecto.

## Transformers

El Transformer es una arquitectura de red neuronal introducida en 2017 que ha revolucionado el campo del procesamiento de lenguaje natural (NLP). Antes de los Transformers, las redes neuronales recurrentes (RNNs) y las redes neuronales convolucionales (CNNs) eran las técnicas más comunes para trabajar con texto. Sin embargo, estas técnicas tenían limitaciones en términos de procesamiento paralelo y manejo de dependencias a largo plazo en las secuencias de texto.

Los Transformers superaron estas limitaciones al introducir una técnica llamada "atención". El mecanismo de atención permite que el modelo se enfoque en diferentes partes de la secuencia de entrada para entender mejor el contexto de cada palabra. Esto significa que el modelo puede "prestar atención" a todas las palabras de una oración al mismo tiempo, en lugar de procesarlas una por una. Como resultado, los Transformers son más eficientes y efectivos para tareas como la traducción de idiomas, la generación de texto y el resumen de documentos.

Una de las características más importantes de los Transformers es su capacidad para escalar. Los modelos basados en Transformers, como GPT-2 y GPT-3, contienen miles de millones de parámetros, lo que les permite capturar complejidades y matices del lenguaje humano de manera impresionante. Estos modelos han establecido nuevos estándares en la generación de texto, la comprensión de lenguaje y muchas otras aplicaciones de NLP.

En resumen, los modelos de lenguaje y los Transformers representan avances significativos en la forma en que las máquinas pueden comprender y generar texto. Los Transformers, en particular, han abierto nuevas posibilidades para el desarrollo de sistemas de inteligencia artificial más potentes y efectivos en el procesamiento del lenguaje natural.

# Importamos un modelo

In [None]:
import torch

from IPython.display import display, HTML
from transformers import AutoModelForCausalLM, AutoTokenizer

BASE_MODEL = 'gpt2'  # More models at https://huggingface.co/models

tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)

In [None]:
prompt = "Hellow, uwu"

model_inputs = tokenizer([prompt], return_tensors="pt")

# Generar una respuesta basada en la entrada
generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)

# Decodificar y mostrar la respuesta generada
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Hellow, uwu, iwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwu, uwr - iu, li, juu, nuh, koo, ui, ni, sii-nuh ruh uuh ruuuu, unn, uuun, nuuuu, hui-nuh uuuun, nuh


In [26]:
from transformers import pipeline

text_gen = pipeline(
    task="text-generation",
    model="gpt2",
    pad_token_id=50256
)

ejemplo="My name is Fabio Santiago. "
text_gen(ejemplo)


[{'generated_text': "My name is Fabio Santiago. \xa0I don't like to get too personal…\xa0 But it's kind of a sad thing to say because sometimes life on Earth is full of people who have been through some rough times (they are still in"}]