# Large Language Models (LLMs)

## ¿Qué son los Large Language Models (LLMs)?

Los Large Language Models (LLMs) son modelos de aprendizaje automático que pueden realizar diversas tareas de procesamiento del lenguaje natural (NLP), como generar y clasificar texto, responder preguntas de forma conversacional y traducir texto de un idioma a otro. La etiqueta "large" se refiere al número de parámetros que el modelo lingüístico puede cambiar de forma autónoma a medida que aprende, llegando a tener cientos de miles de millones de parámetros en algunos de los LLM más populares.

Los LLMs se entrenan con enormes cantidades de datos utilizando aprendizaje autosupervisado para predecir el siguiente elemento de una frase, teniendo en cuenta el contexto. Este proceso se repite hasta que el modelo alcanza una precisión aceptable. Suelen contar con parámetros en el orden de los billones de parámetros, lo cual las hace difíciles de ser entrenadas por particulares.

![llm](img/1721759844068.jpeg)

## Cómo funcionan los LLMs

En esencia, los LLMs calculan las probabilidades de que cierta palabra siga a una cadena de palabras dada previamente. Para ello, se nutren de corpus o conjuntos de datos muy grandes, como toda la Wikipedia en inglés o un subconjunto representativo de las páginas de internet.

El LLM "guarda" las sucesiones de palabras que ha encontrado en su entrenamiento y a partir de ahí asignará probabilidades a las siguientes palabras, dada una cadena de palabras previa que usa como punto de partida (el prompt). A esta fase se le llama pre-entrenamiento por su role en establecer el contexto para el resto de soluciones. Muchos de estos modelos explotan arquitecturas basadas en el modelo de Transformers.

Os recomendamos la documentación de HuggingFace respecto a este tema: https://huggingface.co/learn/nlp-course/es/chapter1/4

## Aplicaciones de los LLMs

Los LLMs brindan una amplia variedad de aplicaciones debido a su capacidad para comprender y generar lenguaje humano. Algunas de las aplicaciones más destacadas son:

- **Generación de texto**: Los LLMs pueden generar contenido coherente y de alta calidad en una variedad de contextos, como redacción de artículos, resúmenes automáticos y creación de código.
- **Respuesta a preguntas**: Los LLMs pueden responder preguntas de forma conversacional, interpretando la intención del usuario y respondiendo a comandos sofisticados.
- **Traducción de idiomas**: Los LLMs pueden traducir texto de un idioma a otro, facilitando la comunicación intercultural.
- **Análisis de datos**: Los LLMs pueden revisar grandes cantidades de datos de texto para extraer información de diversas fuentes y ayudar a las empresas a tomar decisiones bien fundamentadas.

## Limitaciones y desafíos de los LLMs

Si bien los LLMs ofrecen muchas ventajas, también tienen algunas limitaciones y desafíos a considerar:

- **Costo**: Se necesita una gran cantidad de recursos para desarrollar, entrenar e implementar los LLMs.
- **Privacidad y seguridad**: Los LLMs requieren acceso a mucha información, incluyendo en ocasiones datos de clientes o empresas, lo que debe manejarse con cuidado.
- **Precisión y sesgo**: Los LLMs pueden incorporar información incorrecta o sesgada presente en los datos de entrenamiento, generando respuestas que no reflejan la realidad.

En resumen, los Large Language Models (LLMs) son modelos de aprendizaje automático que pueden realizar una amplia gama de tareas de procesamiento del lenguaje natural gracias a su capacidad de comprender y generar lenguaje humano. Sin embargo, también presentan desafíos en cuanto a costo, privacidad, sesgo y precisión que deben ser abordados adecuadamente.

Veremos unos ejemplos de cómo podéis emplear modelos "abiertos". Quizás uno de los más populares, Llama de Meta, nos exige que tengamos suficiente capacidad para ejecutar un modelo de al menos 8 billones de parámetros pere puede ser útil para tener una instalación local. Deberéis contar con una cuenta en HuggingFace (https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) o bien descargarnos el modelo desde la web oficial (https://llama.meta.com/llama-downloads/). Algunos que serán directamente accesibles son los modelos de Mistral (https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407)

In [2]:
# !pip install --upgrade python-dotenv huggingface tf-keras transformers

Podéis crear un fichero _.env_ y guardar el token que encontraréis en vuestro perfil de HuggingFace para poder acceder a la solución.

```
TOKEN=hf_...
```

In [2]:
from dotenv import load_dotenv

load_dotenv()

True

In [3]:
import os

hf_token = os.environ.get("TOKEN")

In [4]:
from huggingface_hub import login

login(token = hf_token)

  from .autonotebook import tqdm as notebook_tqdm


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/iraitz/.cache/huggingface/token
Login successful


Si os indica `Login successful` ya estáis dentro. Acordaros de aceptar las condiciones

![accept](img/llama.png)

Dado que estos modelos pueden tener unos requisitos muy pesados, podemos emplear una versión ligera que quizás no sea tan "inteligente". Aquí tenéis las referencias de una solución popular:

* https://mistral.ai/news/announcing-mistral-7b/
* https://huggingface.co/docs/transformers/main/en/model_doc/mistral#transformers.MistralForCausalLM

Es cuestión de elegir el modelo que más os encaje.

In [6]:
import transformers
from transformers import AutoTokenizer

# Otras opciones: https://huggingface.co/models?pipeline_tag=question-answering&sort=trending
model_id = "meta-llama/Meta-Llama-3.1-8B"

tokenizer = AutoTokenizer.from_pretrained(model_id, force_download=True)
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
)

2024-07-25 10:19:51.778705: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-07-25 10:19:51.854516: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-25 10:19:51.886102: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-25 10:19:51.897426: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-07-25 10:19:51.949768: I tensorflow/core/platform/cpu_feature_guar

Veamos qué palabra sugiere a continuación... Podemos mirar en la documentación las opciones que nos ofrecen los pipelines: https://huggingface.co/docs/transformers/v4.43.2/en/main_classes/pipelines#pipelines

In [7]:
pipeline("Llama is an open source ", max_new_tokens=1)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


[{'generated_text': 'Llama is an open source 2'}]

In [7]:
pipeline("Llama is an open source ", max_new_tokens=3)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


[{'generated_text': 'Llama is an open source 3D engine'}]

In [9]:
pipeline("Llama is an open source ", max_new_tokens=5)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


[{'generated_text': 'Llama is an open source 2D animation software for'}]

In [10]:
pipeline("Llama is an open source ", max_new_tokens=20)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


[{'generated_text': 'Llama is an open source 3D engine for web applications. It is written in C++ and is available for Windows, Linux'}]

## OpenAI

Otras opciones populares son el consumo de los servicios en su modalidad REST. Es decir, el modelo no estará cargado en nuestro sistema si no que lo invocaremos a servicios externos como es el caso de OpenAI y sus modelos:

* Generative Pre-trained Transformer (GPT)
* DALLE: https://arxiv.org/abs/2102.12092
* SORA: https://openai.com/index/sora/

https://platform.openai.com/apps

In [9]:
# !pip install --upgrade openai

Para poder conectarnos podemos emplear el interfaz que ellos mismos proveen (https://platform.openai.com/playground/chat?models=gpt-3.5-turbo) o conectarnos desde nuestro entorno Python, para lo que necesitaremos un token de acceso.

![gpt](img/openai.png)

Los roles nos ayudan a establecer el condicionamiento del sistema a la hora de responser preguntas. `system` hace referencia al contexto de cómo responder, mientras que `user` es la consulta que realiza en usuario.

In [10]:
from openai import OpenAI

client = OpenAI(api_key=os.environ.get("OPENAI_TOKEN"))

completion = client.chat.completions.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "system", "content": "You are the best poetic assistant, skilled in explaining complex programming concepts with creative flair. Write it in Spanish."},
    {"role": "user", "content": "Compose a poem that explains the concept regularization in Machine learning."}
  ]
)

print(completion.choices[0].message.content)

En el vasto mundo del aprendizaje automático,
Regularización es clave en el abanico matemático.
Ayuda a evitar el sobreajuste, ese obstáculo fatal,
Manteniendo el modelo en un equilibrio ideal.

Lasso y Ridge son técnicas de regularización,
Que controlan los pesos con gran precisión.
Penalizan los coeficientes demasiado altos,
Para que el modelo no se desvíe de los datos, está claro.

Regularización es como una mano amable y sabia,
Que guía al modelo en su travesía cada día.
Evitando que se pierda en el camino sin rumbo,
Y asegurando que sus predicciones nunca caigan en el mundo de lo absurdo.

Así que en el vasto campo del aprendizaje automático,
Recordemos siempre la importancia de la regularización, ¡qué arte práctico!


# Embeddings

Por debajo, estos textos han sido convertidos a la codificación (embedding) necesaria. Vemos un ejemplo de qué pinta tiene, por ejemplo, para cuando queremos añadir nuestra información particular al corpus:

In [6]:
import pandas as pd

data_URL =  "https://raw.githubusercontent.com/keitazoumana/Experimentation-Data/main/Musical_instruments_reviews.csv"

review_df = pd.read_csv(data_URL)
review_df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5.0,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5.0,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5.0,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5.0,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5.0,No more pops when I record my vocals.,1392940800,"02 21, 2014"


Nos interesa el texto de review para ver qué opinion se arrojó:

In [7]:
review_df = review_df[['reviewText']]
print("Data shape: {}".format(review_df.shape))
display(review_df.head())

Data shape: (10261, 1)


Unnamed: 0,reviewText
0,"Not much to write about here, but it does exac..."
1,The product does exactly as it should and is q...
2,The primary job of this device is to block the...
3,Nice windscreen protects my MXL mic and preven...
4,This pop filter is great. It looks and perform...


Este texto es el que primeramente deberemos convertir a números si queremos que sea procesado por nuestro modelo de IA. Veamos qué embeddings arroja OpenAI:

In [12]:
def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model).data[0].embedding

get_embedding("Hola! ¿Qué tal estas?")

[0.04327110946178436,
 -0.0292217917740345,
 -0.017556721344590187,
 0.009768512099981308,
 -0.010098562575876713,
 -0.02035476081073284,
 0.008113333024084568,
 0.011862116865813732,
 -0.03247303515672684,
 -0.04886719211935997,
 -0.02754690870642662,
 0.0010677382815629244,
 -0.0290838610380888,
 -0.033615898340940475,
 0.008970479480922222,
 0.0539509542286396,
 -0.07483773678541183,
 0.011576401069760323,
 -0.022679893299937248,
 0.028216861188411713,
 0.049103643745183945,
 -0.027468090876936913,
 -0.03316269442439079,
 0.025418821722269058,
 0.025970546528697014,
 -0.000268935807980597,
 0.024216845631599426,
 -0.017202040180563927,
 -0.018236525356769562,
 0.00437193876132369,
 0.06352734565734863,
 -0.036039553582668304,
 0.007985253818333149,
 0.02754690870642662,
 -0.03107401542365551,
 0.004699526354670525,
 -0.008857178501784801,
 0.02017742022871971,
 0.002368236193433404,
 -0.01585227996110916,
 0.030601108446717262,
 -0.011625662446022034,
 0.018019776791334152,
 0.03895

In [13]:
review_df = review_df.sample(100)
review_df["embedding"] = review_df["reviewText"].astype(str).apply(get_embedding)

# Make the index start from 0
review_df.reset_index(drop=True)

review_df.head(10)

Unnamed: 0,reviewText,embedding
3926,It's well built enough to stand up to regular ...,"[0.030134661123156548, -0.011592227034270763, ..."
5462,this pedal is well made plastic but w great el...,"[0.027880117297172546, 0.00370430969633162, -0..."
1095,I replaced the metric pots in my Greco LP and ...,"[-0.0101561788469553, -0.008627516217529774, -..."
195,Good all around mike. If you are looking for a...,"[-0.007556712254881859, 0.002419498283416033, ..."
7145,Assembled the stand in seconds. It is very sta...,"[-0.007025360129773617, -0.008119795471429825,..."
6872,They are cheap when bought in the 3 pack and t...,"[-0.004132596310228109, -0.019846785813570023,..."
8612,It works well with several different instrumen...,"[-0.03198286145925522, -0.02102799527347088, -..."
8347,"I've played guitars for over 40 years, and I'v...","[-0.0032276178244501352, 0.03859042748808861, ..."
1848,This is the best case ever for the money! I h...,"[0.002307576360180974, -0.02695648744702339, -..."
3719,These strings have a tonal quality that will c...,"[0.022504756227135658, -0.008391343988478184, ..."


Es un nivel en el que habitualmente no solemos trabajar, pero para poder ajustar los modelos o encontrar documentos/textos relevantes para nuestra búsqueda, será importante conocer que existe esta opción.

## Pompt engineering

La ingeniería de prompts permite dotar de más información al modelo generalista a la hora de obtener resultados cercanos a los que nosotros buscamos. Aquí tenéis una buena referencia: https://www.promptingguide.ai/es

In [None]:
import openai

def get_completion(prompt, model="gpt-3.5-turbo"):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0, # cómo de creativa queremos que resulte la respuesta
    )
    return response

In [15]:
fact_sheet_chair = """
VISIÓN GENERAL
- Parte de una hermosa familia de muebles de oficina de inspiración de mediados de siglo, 
que incluye archivadores, escritorios, librerías, mesas de reuniones y mucho más.
- Varias opciones de color de carcasa y acabados de base.
- Disponible con respaldo de plástico y tapizado frontal (SWC-100) 
o tapizado completo (SWC-110) en 10 opciones de tela y 6 de piel.
- Las opciones de acabado de la base son: acero inoxidable, negro mate 
blanco brillante o cromado.
- La silla está disponible con o sin reposabrazos.
- Adecuada para uso doméstico o profesional.
- Apta para uso contractual.

CONSTRUCCIÓN
- Base de aluminio plastificado de 5 ruedas.
- Ajuste neumático de la silla para subir/bajar fácilmente.

DIMENSIONES
- ANCHO 53 CM | 20.87»
- PROFUNDIDAD 51 CM | 20.08»
- ALTURA 80 CM | 31.50»
- ALTURA DEL ASIENTO 44 CM | 17.32»
- PROFUNDIDAD DEL ASIENTO 41 CM | 16.14»

OPCIONES
- Opciones de ruedas para suelo blando o duro.
- Dos opciones de densidades de espuma de asiento: 
 media (1,8 lb/ft3) o alta (2,8 lb/ft3)
- Reposabrazos de PU de 8 posiciones o sin brazos 

MATERIALES
CARCASA BASE DESLIZANTE
- Aluminio fundido con revestimiento de nailon modificado PA6/PA66.
- Grosor de la carcasa: 10 mm.
ASIENTO
- Espuma HD36

PAÍS DE ORIGEN
- Italia
"""

In [None]:
prompt = f"""
Tu tarea consiste en ayudar a un equipo de marketing a crear una 
descripción de un producto para un sitio web 
en una ficha técnica.

Escriba una descripción del producto basada en la información 
proporcionada en la ficha técnica delimitada por 
tres puntos suspensivos.

Ficha técnica: ```{fact_sheet_chair}```
"""
response = get_completion(prompt)

In [23]:
from pprint import pprint

for choice in response.choices:
    pprint(choice.message.content)

('La silla de oficina de mediados de siglo es parte de una hermosa familia de '
 'muebles de oficina que incluye archivadores, escritorios, librerías y mesas '
 'de reuniones. Con varias opciones de color de carcasa y acabados de base, '
 'esta silla está disponible con respaldo de plástico y tapizado frontal o '
 'tapizado completo en una variedad de opciones de tela y piel. La base de '
 'aluminio plastificado de 5 ruedas permite un ajuste neumático para subir y '
 'bajar fácilmente la silla. Con dimensiones de 53 cm de ancho, 51 cm de '
 'profundidad y 80 cm de altura, esta silla es adecuada para uso doméstico o '
 'profesional. Con opciones de ruedas para suelos blandos o duros, dos '
 'densidades de espuma de asiento y reposabrazos ajustables, esta silla de '
 'origen italiano es la elección perfecta para cualquier espacio de trabajo.')


### Resumen (summarize)

Podemos intentar obtener resultados sobre la calidad de nuestro servicio poniendo foco en un resumen dadas una serie de críticas u opiniones.

In [25]:
review_1 = """
Este producto no es realmente lo que quería. Necesitaba un ordenador de altas prestaciones pero a pesar de su precio, no tiene el rendimiento esperado
"""

review_2 = """
Una maravilla. Al disponer de GPU el procesamiento de imágenes es fabuloso.
"""

review_3 = """
Es extremadamente difícil de usar. Solo lo quería para navegar por internet y la verdad, es que es muy pesado y grande.
"""

reviews = [review_1, review_2, review_3]

In [31]:
prompt = """
Tu tarea es generar un resumen de la satisfacción de clientes para las siguientes reseñas en una sola frase concisa.
"""
for i in range(len(reviews)):
    prompt += f""" Reseña ```{reviews[i]}``` \r\n"""

prompt

'\nTu tarea es generar un resumen de la satisfacción de clientes para las siguientes reseñas en una sola frase concisa.\n Reseña ```\nEste producto no es realmente lo que quería. Necesitaba un ordenador de altas prestaciones pero a pesar de su precio, no tiene el rendimiento esperado\n``` \r\n Reseña ```\nUna maravilla. Al disponer de GPU el procesamiento de imágenes es fabuloso.\n``` \r\n Reseña ```\nEs extremadamente difícil de usar. Solo lo quería para navegar por internet y la verdad, es que es muy pesado y grande.\n``` \r\n'

In [32]:
response = get_completion(prompt)

In [33]:
print(response.choices[0].message.content)

Resumen: Opiniones mixtas sobre el producto, con críticas sobre su rendimiento y facilidad de uso, pero destacando su procesamiento de imágenes con GPU.


# LangChain

LangChain es un marco para desarrollar aplicaciones alimentadas por modelos de lenguaje grandes (LLMs).

LangChain simplifica cada etapa del ciclo de vida de la aplicación LLM:

- **Desarrollo**:
Construye tus aplicaciones utilizando los bloques de construcción y componentes de código abierto de LangChain. Comienza rápidamente utilizando integraciones de terceros y plantillas.

- **Producción**:
Utiliza LangSmith para inspeccionar, monitorear y evaluar tus cadenas, para que puedas optimizar y desplegar continuamente con confianza.

- **Despliegue**:
Convierte cualquier cadena en una API con LangServe.


In [12]:
# !pip install langchain-openai

In [34]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(api_key=os.environ.get("OPENAI_TOKEN"))

In [35]:
print(llm.invoke("Explícame qué es python").content)

Python es un lenguaje de programación de alto nivel, interpretado y orientado a objetos. Fue creado por Guido van Rossum en la década de 1980 y se ha convertido en uno de los lenguajes de programación más populares en la actualidad debido a su simplicidad, flexibilidad y facilidad de uso.

Python se caracteriza por su sintaxis clara y legible, lo que lo hace ideal para principiantes en la programación. Además, cuenta con una amplia biblioteca estándar que proporciona una gran cantidad de herramientas y funciones que facilitan el desarrollo de aplicaciones.

Python se utiliza en una variedad de campos, como la programación web, la ciencia de datos, la inteligencia artificial, la automatización de tareas, entre otros. Es un lenguaje versátil que se adapta a diferentes tipos de proyectos y su popularidad continúa creciendo en la industria de la tecnología.


In [36]:
from langchain_core.prompts import PromptTemplate

prompt_template = PromptTemplate.from_template(
    "Explain me a {concept} in this language {language}."
)

In [37]:
print(llm.invoke(prompt_template.format(concept="activation function", language="spanish")).content)

Una función de activación es una función matemática que se aplica a la salida de una neurona en una red neuronal artificial. Su objetivo es introducir no linealidades en el modelo, permitiendo que la red neuronal pueda aprender y modelar relaciones no lineales en los datos.

Las funciones de activación más comunes son la función sigmoide, la función ReLU (Rectified Linear Unit) y la función tangente hiperbólica. Estas funciones ayudan a que la red neuronal pueda realizar una buena aproximación de funciones complejas y mejorar su capacidad de generalización.

En resumen, la función de activación es un componente crucial en una red neuronal ya que permite que la red pueda aprender de manera más efectiva y modelar relaciones no lineales en los datos.


El foco de LangChain es crear arquitecturas complejas donde podemos generar prompts elaborados, aplicando la arquitectura conocida como Retrieval Augmented Generation (RAG). Os dejamos un documento de referencia por si queréis ahondar en este tema: https://python.langchain.com/v0.2/docs/tutorials/rag/

Plataformas como Lightning AI os permiten duplicar proyectos existentes, proyectos que emplean varias soluciones para montar vuestra aplicación RAG: https://lightning.ai/lightning-ai/studios/rag-using-llama-3-1-by-meta-ai?section=trending

Referencias:

* https://huggingface.co/docs/transformers/main_classes/pipelines
* https://huggingface.co/learn/nlp-course/es/chapter1/1?fw=pt
* https://towardsdatascience.com/transformers-141e32e69591
* https://platform.openai.com/docs/overview
* https://www.langchain.com/