# Large Language Models (LLMs)

Los large language models o LLMs son estructuras de redes neuronales pensadas especialmente para la generación del lenguaje.

Heredan mucha de la tarea anteriormente realizada que ha terminado siendo condensada en lo que conocemos como Transformers.

Entender la estructura de estos modelos es clave para poder saber de sus posibilidades y limitaciones. Una pieza clave del proceso es el mecanismo de atención y los bloques _transformers_ compuestos de tres piezas que podemos entender en el contexto de los buscadores (para ejemplificarlo) a pesar de que no son más que tres representaciones vectoriales con sus pesos a aprender asociados:

* La **consulta** (Q o query) que es el texto de búsqueda que se escribe en la barra de búsqueda. Este es el token sobre el que desea "encontrar más información".
* La **clave** (K o key) es el título de cada página web en la ventana de resultados de búsqueda. Representa los posibles tokens a los que puede prestar atención la consulta.
* El **valor** (V) es el contenido real de las páginas web mostradas. Una vez que hemos hecho coincidir el término de búsqueda apropiado (Consulta) con los resultados relevantes (Clave), queremos obtener el contenido (Valor) de las páginas más relevantes.

El concepto de multi-headed se debe a que el mecanismo de atención que presentan estas tres claves puede ser procesado de forma parcial por multiples unidades para captar distintas relacionalidades o puntos de _atención_ sobre el texto.

La arquitectura base de los transformers puede verse en su artículo original _Attention is all you need_ [aquí](https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf)

![](../assets/images/Transformers.png)

Los siguientes recursos pueden ayudarnos a entender más en profundidad estos modelos que de algún modo combinan muchos de los conceptos vistos previamente (arquitectura encdoer-decoder, embeddings y generación condicionada):

* Explicación detallada: https://poloclub.github.io/transformer-explainer/
* Visualizador: https://bbycroft.net/llm

Deberemos entender bien lo que significa la **temperatura** y el **contexto** en estos modelos. El contexto es el máximo número de tokens que puede procesar de una sola vez. Esto es importante porque las LLMs no tienen memoria, con lo cual el límite del contexto determina cuanta información de nuestra conversación les será servida:

* GPT-3: 2048 tokens
* Mistral 7B: 8192 tokens
* GPT-4o: De 60K a 128K tokens
* Claude 3.5: Hasta 100K tokens
* LLama 3.1: Hasta 128K tokens
* Gemini 1.5 Pro: Hasta 1M tokens

Podemos ver y jugar con estos parámetros usando los servicios de playground:

- OpenAI Playground: https://platform.openai.com/playground/prompts
- Google AI Studio: https://aistudio.google.com/prompts/new_chat
- Anthopic Console: https://console.anthropic.com/dashboard

## ¿Qué es ChatGPT?

Digamos que se trata de un _sabor_ de LLM. Quizás uno de los más populares. GPT, el modelo de LLM tras la aplicación ChatGPT, es un modelo de lenguaje desarrollado por [OpenIA](https://openai.com/).

### Historia de versiones

- GPT (2018): 117 millones de parámetros
- GPT-2 (2019): 1.5 miles de millones de parámetros. 
- GPT-3 (2020) -> llegada de chatGPT: 175 miles de millones de parámetros. 
- GPT-3.5 (2022) 
- [GPT-4](https://openai.com/product/gpt-4) (2023): 100 Billones de parámetros. 
- [GPT-4o](https://en.wikipedia.org/wiki/GPT-4o) (2024)
- [o3](https://en.wikipedia.org/wiki/OpenAI_o3) (2025)

Existen multitud de modelos a día de hoy, algunos con acceso a sus pesos lo cual marca un hito en la competencia que se realizan entre sí, a pesar de que debido al tamaño de estos modelos es difícil realizar despliegues on-premise sin tener una buena infraestructura pensada para ello.

![llm](../assets/images/1721759844068.jpeg)

## Cómo funcionan los LLMs

En esencia, los LLMs calculan las probabilidades de que cierta palabra siga a una cadena de palabras dada previamente. Para ello, se nutren de corpus o conjuntos de datos muy grandes, como toda la Wikipedia en inglés o un subconjunto representativo de las páginas de internet.

El LLM "guarda" las sucesiones de palabras que ha encontrado en su entrenamiento y a partir de ahí asignará probabilidades a las siguientes palabras, dada una cadena de palabras previa que usa como punto de partida (el prompt). A esta fase se le llama pre-entrenamiento por su role en establecer el contexto para el resto de soluciones. Muchos de estos modelos explotan arquitecturas basadas en el modelo de Transformers.

Os recomendamos la documentación de HuggingFace respecto a este tema: https://huggingface.co/learn/nlp-course/es/chapter1/4

## Aplicaciones de los LLMs

Los LLMs brindan una amplia variedad de aplicaciones debido a su capacidad para comprender y generar lenguaje humano. Algunas de las aplicaciones más destacadas son:

- **Generación de texto**: Los LLMs pueden generar contenido coherente y de alta calidad en una variedad de contextos, como redacción de artículos, resúmenes automáticos y creación de código.
- **Respuesta a preguntas**: Los LLMs pueden responder preguntas de forma conversacional, interpretando la intención del usuario y respondiendo a comandos sofisticados.
- **Traducción de idiomas**: Los LLMs pueden traducir texto de un idioma a otro, facilitando la comunicación intercultural.
- **Análisis de datos**: Los LLMs pueden revisar grandes cantidades de datos de texto para extraer información de diversas fuentes y ayudar a las empresas a tomar decisiones bien fundamentadas.

## Limitaciones y desafíos de los LLMs

Si bien los LLMs ofrecen muchas ventajas, también tienen algunas limitaciones y desafíos a considerar:

- **Coste**: Se necesita una gran cantidad de recursos para desarrollar, entrenar e implementar los LLMs.
- **Privacidad y seguridad**: Los LLMs requieren acceso a mucha información, incluyendo en ocasiones datos de clientes o empresas, lo que debe manejarse con cuidado.
- **Precisión y sesgo**: Los LLMs pueden incorporar información incorrecta o sesgada presente en los datos de entrenamiento, generando respuestas que no reflejan la realidad.

En resumen, los Large Language Models (LLMs) son modelos de aprendizaje automático que pueden realizar una amplia gama de tareas de procesamiento del lenguaje natural gracias a su capacidad de comprender y generar lenguaje humano. Sin embargo, también presentan desafíos en cuanto a costo, privacidad, sesgo y precisión que deben ser abordados adecuadamente.

Veremos unos ejemplos de cómo podéis emplear modelos "abiertos". Quizás uno de los más populares, Llama de Meta, nos exige que tengamos suficiente capacidad para ejecutar un modelo de al menos 8 billones de parámetros pere puede ser útil para tener una instalación local. Deberéis contar con una cuenta en HuggingFace https://huggingface.co/

In [None]:
# !pip install --upgrade python-dotenv huggingface tf-keras transformers  torch

Podéis crear un fichero _.env_ y guardar el token que encontraréis en vuestro perfil de HuggingFace para poder acceder a la solución.

```
TOKEN_HF=hf_...
```

Si vais a utilizar algún modelo concreto, prestad atención a los términos y condiciones de uso. Llama, por ejemplo, requiere que aceptéis los términos y tarda en dar acceso.

![accept](../assets/images/llama.png)

Dado que estos modelos pueden tener unos requisitos muy pesados, podemos emplear una versión ligera que quizás no sea tan "inteligente". Es cuestión de elegir el modelo que más os encaje.

Veamos qué palabra sugiere a continuación... Podemos mirar en la documentación las opciones que nos ofrecen los pipelines: https://huggingface.co/docs/transformers/v4.43.2/en/main_classes/pipelines#pipelines

Uno de los primeros efectos que notaremos es que la LLM está limitada por su corte de conocimiento, la fecha en la que fué entrenada (2019) y el acceso a información que tuviera en general: https://huggingface.co/openai-community/gpt2

En lugar de hospedar los modelos podemos optar por usar los servicios desplegados, lo cuál os requerirá disponer de una cuenta de pago y así poder obtener el token de acceso al modelo.

## OpenAI

Otras opciones populares son el consumo de los servicios en su modalidad REST. Es decir, el modelo no estará cargado en nuestro sistema si no que lo invocaremos a servicios externos como es el caso de OpenAI y sus modelos:

* Generative Pre-trained Transformer (GPT)
* DALLE: https://arxiv.org/abs/2102.12092
* SORA: https://openai.com/index/sora/

https://platform.openai.com/apps

In [None]:
# !pip install --upgrade openai

Para poder conectarnos podemos emplear el interfaz que ellos mismos proveen (https://platform.openai.com/playground/chat?models=gpt-3.5-turbo) o conectarnos desde nuestro entorno Python, para lo que necesitaremos un token de acceso.

![gpt](../assets/images/openai.png)

Los roles nos ayudan a establecer el condicionamiento del sistema a la hora de responser preguntas. `system` hace referencia al contexto de cómo responder, mientras que `user` es la consulta que realiza en usuario.

# Embeddings

Por debajo, estos textos han sido convertidos a la codificación (embedding) necesaria. Vemos un ejemplo de qué pinta tiene, por ejemplo, para cuando queremos añadir nuestra información particular al corpus:

Nos interesa el texto de review para ver qué opinion se arrojó:

Este texto es el que primeramente deberemos convertir a números si queremos que sea procesado por nuestro modelo de IA. Veamos qué embeddings arroja OpenAI:

Es un nivel en el que habitualmente no solemos trabajar, pero para poder ajustar los modelos o encontrar documentos/textos relevantes para nuestra búsqueda, será importante conocer que existe esta opción.