# Large Language Models (LLMs)

Los large language models o LLMs son estructuras de redes neuronales pensadas especialmente para la generación del lenguaje.

Heredan mucha de la tarea anteriormente realizada que ha terminado siendo condensada en lo que conocemos como Transformers.

Entender la estructura de estos modelos es clave para poder saber de sus posibilidades y limitaciones. Una pieza clave del proceso es el mecanismo de atención y los bloques _transformers_ compuestos de tres piezas que podemos entender en el contexto de los buscadores (para ejemplificarlo) a pesar de que no son más que tres representaciones vectoriales con sus pesos a aprender asociados:

* La **consulta** (Q o query) que es el texto de búsqueda que se escribe en la barra de búsqueda. Este es el token sobre el que desea "encontrar más información".
* La **clave** (K o key) es el título de cada página web en la ventana de resultados de búsqueda. Representa los posibles tokens a los que puede prestar atención la consulta.
* El **valor** (V) es el contenido real de las páginas web mostradas. Una vez que hemos hecho coincidir el término de búsqueda apropiado (Consulta) con los resultados relevantes (Clave), queremos obtener el contenido (Valor) de las páginas más relevantes.

El concepto de multi-headed se debe a que el mecanismo de atención que presentan estas tres claves puede ser procesado de forma parcial por multiples unidades para captar distintas relacionalidades o puntos de _atención_ sobre el texto.

La arquitectura base de los transformers puede verse en su artículo original _Attention is all you need_ [aquí](https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf)

![](../assets/images/Transformers.png)

Los siguientes recursos pueden ayudarnos a entender más en profundidad estos modelos que de algún modo combinan muchos de los conceptos vistos previamente (arquitectura encdoer-decoder, embeddings y generación condicionada):

* Explicación detallada: https://poloclub.github.io/transformer-explainer/
* Visualizador: https://bbycroft.net/llm

Deberemos entender bien lo que significa la **temperatura** y el **contexto** en estos modelos. El contexto es el máximo número de tokens que puede procesar de una sola vez. Esto es importante porque las LLMs no tienen memoria, con lo cual el límite del contexto determina cuanta información de nuestra conversación les será servida:

* GPT-3: 2048 tokens
* Mistral 7B: 8192 tokens
* GPT-4o: De 60K a 128K tokens
* Claude 3.5: Hasta 100K tokens
* LLama 3.1: Hasta 128K tokens
* Gemini 1.5 Pro: Hasta 1M tokens

Podemos ver y jugar con estos parámetros usando los servicios de playground:

- OpenAI Playground: https://platform.openai.com/playground/prompts
- Google AI Studio: https://aistudio.google.com/prompts/new_chat
- Anthopic Console: https://console.anthropic.com/dashboard

## ¿Qué es ChatGPT?

Digamos que se trata de un _sabor_ de LLM. Quizás uno de los más populares. GPT, el modelo de LLM tras la aplicación ChatGPT, es un modelo de lenguaje desarrollado por [OpenIA](https://openai.com/).

### Historia de versiones

- GPT (2018): 117 millones de parámetros
- GPT-2 (2019): 1.5 miles de millones de parámetros. 
- GPT-3 (2020) -> llegada de chatGPT: 175 miles de millones de parámetros. 
- GPT-3.5 (2022) 
- [GPT-4](https://openai.com/product/gpt-4) (2023): 100 Billones de parámetros. 
- [GPT-4o](https://en.wikipedia.org/wiki/GPT-4o) (2024)
- [o3](https://en.wikipedia.org/wiki/OpenAI_o3) (2025)

Existen multitud de modelos a día de hoy, algunos con acceso a sus pesos lo cual marca un hito en la competencia que se realizan entre sí, a pesar de que debido al tamaño de estos modelos es difícil realizar despliegues on-premise sin tener una buena infraestructura pensada para ello.

![llm](../assets/images/1721759844068.jpeg)

## Cómo funcionan los LLMs

En esencia, los LLMs calculan las probabilidades de que cierta palabra siga a una cadena de palabras dada previamente. Para ello, se nutren de corpus o conjuntos de datos muy grandes, como toda la Wikipedia en inglés o un subconjunto representativo de las páginas de internet.

El LLM "guarda" las sucesiones de palabras que ha encontrado en su entrenamiento y a partir de ahí asignará probabilidades a las siguientes palabras, dada una cadena de palabras previa que usa como punto de partida (el prompt). A esta fase se le llama pre-entrenamiento por su role en establecer el contexto para el resto de soluciones. Muchos de estos modelos explotan arquitecturas basadas en el modelo de Transformers.

Os recomendamos la documentación de HuggingFace respecto a este tema: https://huggingface.co/learn/nlp-course/es/chapter1/4

## Aplicaciones de los LLMs

Los LLMs brindan una amplia variedad de aplicaciones debido a su capacidad para comprender y generar lenguaje humano. Algunas de las aplicaciones más destacadas son:

- **Generación de texto**: Los LLMs pueden generar contenido coherente y de alta calidad en una variedad de contextos, como redacción de artículos, resúmenes automáticos y creación de código.
- **Respuesta a preguntas**: Los LLMs pueden responder preguntas de forma conversacional, interpretando la intención del usuario y respondiendo a comandos sofisticados.
- **Traducción de idiomas**: Los LLMs pueden traducir texto de un idioma a otro, facilitando la comunicación intercultural.
- **Análisis de datos**: Los LLMs pueden revisar grandes cantidades de datos de texto para extraer información de diversas fuentes y ayudar a las empresas a tomar decisiones bien fundamentadas.

## Limitaciones y desafíos de los LLMs

Si bien los LLMs ofrecen muchas ventajas, también tienen algunas limitaciones y desafíos a considerar:

- **Coste**: Se necesita una gran cantidad de recursos para desarrollar, entrenar e implementar los LLMs.
- **Privacidad y seguridad**: Los LLMs requieren acceso a mucha información, incluyendo en ocasiones datos de clientes o empresas, lo que debe manejarse con cuidado.
- **Precisión y sesgo**: Los LLMs pueden incorporar información incorrecta o sesgada presente en los datos de entrenamiento, generando respuestas que no reflejan la realidad.

En resumen, los Large Language Models (LLMs) son modelos de aprendizaje automático que pueden realizar una amplia gama de tareas de procesamiento del lenguaje natural gracias a su capacidad de comprender y generar lenguaje humano. Sin embargo, también presentan desafíos en cuanto a costo, privacidad, sesgo y precisión que deben ser abordados adecuadamente.

Veremos unos ejemplos de cómo podéis emplear modelos "abiertos". Quizás uno de los más populares, Llama de Meta, nos exige que tengamos suficiente capacidad para ejecutar un modelo de al menos 8 billones de parámetros pere puede ser útil para tener una instalación local. Deberéis contar con una cuenta en HuggingFace https://huggingface.co/

In [1]:
# !pip install --upgrade python-dotenv huggingface tf-keras transformers  torch

Podéis crear un fichero _.env_ y guardar el token que encontraréis en vuestro perfil de HuggingFace para poder acceder a la solución.

```
TOKEN_HF=hf_...
```

In [2]:
from dotenv import load_dotenv

load_dotenv(override=True)

True

In [3]:
import os
from huggingface_hub import login

login(token = os.environ.get("TOKEN_HF"))

  from .autonotebook import tqdm as notebook_tqdm


Si vais a utilizar algún modelo concreto, prestad atención a los términos y condiciones de uso. Llama, por ejemplo, requiere que aceptéis los términos y tarda en dar acceso.

![accept](../assets/images/llama.png)

Dado que estos modelos pueden tener unos requisitos muy pesados, podemos emplear una versión ligera que quizás no sea tan "inteligente". Es cuestión de elegir el modelo que más os encaje.

In [5]:
from transformers import pipeline, set_seed

set_seed(42)
generator = pipeline('text-generation', model='gpt2')

Device set to use cuda:0


Veamos qué palabra sugiere a continuación... Podemos mirar en la documentación las opciones que nos ofrecen los pipelines: https://huggingface.co/docs/transformers/v4.43.2/en/main_classes/pipelines#pipelines

In [7]:
generator("Llama is an open source ", max_new_tokens=1)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Llama is an open source irc'}]

In [8]:
generator("Llama is an open source ", max_new_tokens=3)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Llama is an open source \xa0tutorial'}]

In [9]:
generator("Llama is an open source ", max_new_tokens=5)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Llama is an open source vernacular for Linux and'}]

In [10]:
generator("Llama is an open source ", max_new_tokens=20)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Llama is an open source irc server. It utilizes the open source OpenSSL library to encrypt data on all public and private networks'}]

Uno de los primeros efectos que notaremos es que la LLM está limitada por su corte de conocimiento, la fecha en la que fué entrenada (2019) y el acceso a información que tuviera en general: https://huggingface.co/openai-community/gpt2

En lugar de hospedar los modelos podemos optar por usar los servicios desplegados, lo cuál os requerirá disponer de una cuenta de pago y así poder obtener el token de acceso al modelo.

## OpenAI

Otras opciones populares son el consumo de los servicios en su modalidad REST. Es decir, el modelo no estará cargado en nuestro sistema si no que lo invocaremos a servicios externos como es el caso de OpenAI y sus modelos:

* Generative Pre-trained Transformer (GPT)
* DALLE: https://arxiv.org/abs/2102.12092
* SORA: https://openai.com/index/sora/

https://platform.openai.com/apps

In [9]:
# !pip install --upgrade openai

Para poder conectarnos podemos emplear el interfaz que ellos mismos proveen (https://platform.openai.com/playground/chat?models=gpt-3.5-turbo) o conectarnos desde nuestro entorno Python, para lo que necesitaremos un token de acceso.

![gpt](../assets/images/openai.png)

Los roles nos ayudan a establecer el condicionamiento del sistema a la hora de responser preguntas. `system` hace referencia al contexto de cómo responder, mientras que `user` es la consulta que realiza en usuario.

In [29]:
from openai import OpenAI

client = OpenAI(api_key=os.environ.get("OPENAI_TOKEN"))

completion = client.chat.completions.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "system", "content": "You are the best poetic assistant, skilled in explaining complex programming concepts with creative flair. Write it in Spanish."},
    {"role": "user", "content": "Compose a poem that explains the concept regularization in Machine learning."}
  ]
)

print(completion.choices[0].message.content)

En el vasto mundo del aprendizaje automático,
La regularización brilla con fulgor sutil y acierto,
Un guardián que controla la complejidad con tino,
Evitando que el modelo se pierda en el abismo.

Lasso y Ridge, dos leales compañeros,
Penalizan los coeficientes con esmero,
Restringiendo su tamaño con maestría,
Para evitar el overfitting con armonía.

La regularización, en su sabiduría,
Busca encontrar el equilibrio con maestría,
Entre el sesgo y la varianza, en perfecta armonía,
Para que el modelo brille con valentía.

Así, en el mar de datos y predicciones,
La regularización guía con decisiones,
Protegiendo al modelo de sus propias ambiciones,
Y asegurando resultados con precisión.


# Embeddings

Por debajo, estos textos han sido convertidos a la codificación (embedding) necesaria. Vemos un ejemplo de qué pinta tiene, por ejemplo, para cuando queremos añadir nuestra información particular al corpus:

In [30]:
import pandas as pd

data_URL =  "https://raw.githubusercontent.com/keitazoumana/Experimentation-Data/main/Musical_instruments_reviews.csv"

review_df = pd.read_csv(data_URL)
review_df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5.0,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5.0,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5.0,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5.0,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5.0,No more pops when I record my vocals.,1392940800,"02 21, 2014"


Nos interesa el texto de review para ver qué opinion se arrojó:

In [31]:
review_df = review_df[['reviewText']]
print("Data shape: {}".format(review_df.shape))
display(review_df.head())

Data shape: (10261, 1)


Unnamed: 0,reviewText
0,"Not much to write about here, but it does exac..."
1,The product does exactly as it should and is q...
2,The primary job of this device is to block the...
3,Nice windscreen protects my MXL mic and preven...
4,This pop filter is great. It looks and perform...


Este texto es el que primeramente deberemos convertir a números si queremos que sea procesado por nuestro modelo de IA. Veamos qué embeddings arroja OpenAI:

In [32]:
def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model).data[0].embedding

get_embedding("Hola! ¿Qué tal estas?")

[0.04324784129858017,
 -0.029252413660287857,
 -0.017573131248354912,
 0.009772159159183502,
 -0.01015161257237196,
 -0.020362360402941704,
 0.008067082613706589,
 0.01195524912327528,
 -0.03248516097664833,
 -0.04888543486595154,
 -0.02751776948571205,
 0.0010428810492157936,
 -0.029075007885694504,
 -0.033628448843955994,
 0.008939333260059357,
 0.05385282635688782,
 -0.07490510493516922,
 0.01162014715373516,
 -0.022609515115618706,
 0.0282076857984066,
 0.049121979624032974,
 -0.02749805711209774,
 -0.03317507728934288,
 0.02540859952569008,
 0.025881685316562653,
 -0.000267188239376992,
 0.024245599284768105,
 -0.017208462581038475,
 -0.018213767558336258,
 0.004341539461165667,
 0.06351163983345032,
 -0.03603329882025719,
 0.008032586425542831,
 0.027576904743909836,
 -0.03108561784029007,
 0.0046766409650444984,
 -0.00883584562689066,
 0.020204667001962662,
 0.002358032390475273,
 -0.01587790995836258,
 0.030573109164834023,
 -0.011610290966928005,
 0.01794765703380108,
 0.03895

In [33]:
review_df = review_df.sample(100)
review_df["embedding"] = review_df["reviewText"].astype(str).apply(get_embedding)

# Make the index start from 0
review_df.reset_index(drop=True)

review_df.head(10)

Unnamed: 0,reviewText,embedding
10009,"I've had a Jam Man for some time, which as a t...","[-0.03681444376707077, 0.001284798257984221, -..."
7947,Very close to the sound of an SM-58. Not quite...,"[-0.027976877987384796, -0.02220250852406025, ..."
4357,The sheets seem to work fine to polish the fre...,"[0.04104297235608101, 0.020026810467243195, -0..."
6258,Although I never gigged with it I think this w...,"[-0.04462393373250961, -0.03721298649907112, -..."
10031,This is a good product. These work very well a...,"[0.014727573841810226, -0.027694379910826683, ..."
5250,I bought it to use with my Boss ME-70. I use t...,"[-0.003695300780236721, -0.016964789479970932,..."
7119,"As soon as put it on my guitar, I enjoyed the ...","[0.015628434717655182, -0.0201640073210001, -0..."
763,The Martin MSP4200 SP Phosphor Bronze Acoustic...,"[0.011762645095586777, -0.04375704005360603, -..."
2136,D'Addario Are The Best Strings That I Have Tri...,"[0.029030298814177513, -0.035048775374889374, ..."
9426,It does the job. Easy to get on and off. See...,"[-0.012856115587055683, -0.03493538871407509, ..."


Es un nivel en el que habitualmente no solemos trabajar, pero para poder ajustar los modelos o encontrar documentos/textos relevantes para nuestra búsqueda, será importante conocer que existe esta opción.