# Algoritmos

1. Datos No Estructurados y Estructurados:

Los archivos de Word y PDF contienen informaci√≥n no estructurada que puede incluir texto en p√°rrafos, listas y tablas.
Los archivos JSON y las bases de datos SQL contienen datos estructurados que se organizan en un formato tabular.
Dado que nuestro proyecto implica trabajar con ambos tipos de datos, necesitamos un modelo que pueda manejar esta diversidad.

2. Caracter√≠sticas del Modelo Llama (Large Language Model Meta AI):

Llama est√° dise√±ado para comprender y generar lenguaje natural, lo que es crucial para interpretar documentos de texto no estructurados.
Llama es eficiente en t√©rminos de recursos computacionales, lo que facilita su entrenamiento y despliegue en entornos de producci√≥n.
Llama puede ser escalado para manejar grandes vol√∫menes de datos, lo que es esencial considerando la cantidad de informaci√≥n que se va a procesar.
Llama es altamente efectivo para interpretar y generar lenguaje natural, lo cual es crucial para un chatbot que necesita interactuar de manera fluida con los usuarios.

Modelos como GPT-3 de OpenAI son extremadamente potentes pero tambi√©n costosos de usar y entrenar. Llama ofrece una alternativa m√°s accesible sin comprometer significativamente el rendimiento.

3. Algoritmos

RAG (Retrieval-Augmented Generation):

RAG combina la capacidad de recuperaci√≥n de informaci√≥n relevante (retrieval) con la generaci√≥n de respuestas coherentes (generation). Esto es particularmente √∫til cuando se necesita extraer informaci√≥n espec√≠fica de grandes vol√∫menes de texto.
Al utilizar t√©cnicas de recuperaci√≥n, RAG puede acceder a informaci√≥n precisa y relevante de los documentos, mejorando la calidad de las respuestas generadas.
RAG es adecuado para escenarios donde los datos provienen de m√∫ltiples fuentes y formatos, permitiendo una integraci√≥n m√°s sencilla de datos estructurados y no estructurados.
RAG permite que el modelo se adapte din√°micamente a nuevas consultas sin necesidad de reentrenamiento extensivo, lo que es m√°s eficiente y flexible que el fine-tuning.

Fine-Tuning:

Fine-tuning de modelos grandes como Llama puede ser muy costoso en t√©rminos de tiempo y recursos computacionales.
Una vez que el modelo est√° fine-tuned, se vuelve menos flexible a cambios en los datos subyacentes. Cada vez que se agregan nuevos datos o se realizan modificaciones significativas, se requiere un nuevo ciclo de fine-tuning.
Fine-tuning puede hacer que el modelo sea menos interpretable, ya que las modificaciones se hacen a nivel de par√°metros internos del modelo.

Decisi√≥n final (RAG):

RAG permite que el modelo se adapte din√°micamente a nuevas consultas sin necesidad de reentrenamiento extensivo.
RAG puede integrar nueva informaci√≥n de manera m√°s eficiente, utilizando t√©cnicas de recuperaci√≥n para acceder a datos relevantes en tiempo real.
RAG es m√°s flexible para manejar diferentes tipos de datos y formatos, lo que es crucial en nuestro caso de uso.

La interpretabilidad es relativamente alta en RAG porque se puede rastrear qu√© documentos y datos espec√≠ficos se utilizaron para generar una respuesta. Esto es importante para la validaci√≥n y mejora continua del modelo.

# Precisi√≥n de Recuperaci√≥n y Generaci√≥n

Para evaluar la eficiencia del modelo, es fundamental seleccionar una m√©trica que est√© alineada con los objetivos del negocio y que permita una interpretaci√≥n significativa en el contexto del problema que estamos abordando. En este caso, dado que estamos desarrollando un chatbot de IA para el equipo comercial de Ford, podemos considerar varias m√©tricas, pero una especialmente relevante es la precisi√≥n de recuperaci√≥n y generaci√≥n de informaci√≥n relevante Precisi√≥n de Respuesta del Chatbot (PRC).

M√©trica: PRC

**Definici√≥n:**
PRC mide la proporci√≥n de resultados relevantes entre los primeros k resultados devueltos por el modelo. En el contexto de nuestro chatbot, esta m√©trica evaluar√° cu√°n precisa es la informaci√≥n que el modelo recupera y genera en respuesta a las consultas de los usuarios.

F√≥rmula: [ \text{PRC} = \frac{\text{N√∫mero de respuestas relevantes en los primeros k resultados}}{k} ]


**Justificaci√≥n**
En un entorno comercial, es crucial que el chatbot proporcione informaci√≥n precisa y relevante r√°pidamente. Precision@k se alinea con este objetivo al medir cu√°n efectivas son las respuestas generadas por el modelo en t√©rminos de relevancia.
La m√©trica ayuda a asegurar que el equipo comercial reciba informaci√≥n √∫til de manera r√°pida, mejorando la eficiencia en la toma de decisiones y la productividad.


**Implementaci√≥n**
Crear un conjunto de consultas t√≠picas que el equipo comercial podr√≠a hacer al chatbot.
Obtener respuestas esperadas o relevantes para estas consultas a partir de expertos o fuentes confiables.
Evaluaci√≥n de Respuestas del Modelo:

Ejecutar el modelo Llama con RAG para responder a las consultas del conjunto de evaluaci√≥n.
Comparar las respuestas generadas por el modelo con las respuestas esperadas.

**C√°lculo de PRC**

Para cada consulta, contar el n√∫mero de respuestas relevantes entre los primeros k resultados devueltos por el modelo.
Calcular PRC para cada consulta y promediar estos valores para obtener una medida general de precisi√≥n.

Ejemplo:

Supongamos que hemos definido ( k = 5 ) (los primeros 5 resultados), y el modelo responde a una consulta con 5 respuestas, de las cuales 3 son relevantes:

[ \text{PRC} = \frac{3}{5} = 0.60 ]

Si repetimos este proceso para m√∫ltiples consultas y obtenemos una precisi√≥n promedio del 0.70, esto indica que, en promedio, el 70% de las respuestas dentro de los primeros 5 resultados son relevantes.


PRC es f√°cil de interpretar y proporciona una medida clara de la efectividad del modelo en t√©rminos de relevancia de las respuestas, lo que facilita la comunicaci√≥n de los resultados a las partes interesadas.

# Caracter√≠sticas importantes

El an√°lisis de las caracter√≠sticas importantes en modelos de Lenguaje de Gran Tama√±o (LLM) como Llama es un desaf√≠o debido a la naturaleza compleja y de "caja negra" de estos modelos. Sin embargo, hay varias t√©cnicas y enfoques que se pueden utilizar para obtener informaci√≥n sobre las caracter√≠sticas importantes y el comportamiento del modelo.

1. An√°lisis de Atenci√≥n (Attention Mechanisms)

Los modelos basados en Transformers, como Llama, utilizan mecanismos de atenci√≥n que permiten al modelo enfocarse en diferentes partes del texto de entrada mientras genera una respuesta.
Analizar los pesos de atenci√≥n puede proporcionar informaci√≥n sobre qu√© palabras o frases son m√°s importantes para el modelo al tomar decisiones.
* Visualizar los mapas de atenci√≥n para diferentes capas y cabezas de atenci√≥n del modelo.
* Identificar patrones en los pesos de atenci√≥n que indiquen qu√© partes del texto de entrada est√°n influyendo m√°s en las predicciones del modelo.

2. An√°lisis de Errores

Revisar y analizar los errores del modelo puede proporcionar informaci√≥n valiosa sobre las caracter√≠sticas importantes y las √°reas donde el modelo podr√≠a mejorar.
Comparar las respuestas generadas por el modelo con las respuestas esperadas y analizar las discrepancias.
* Crear un conjunto de datos de prueba con ejemplos anotados y utilizarlo para evaluar el modelo.
* Categorizar los errores en diferentes tipos (e.g., errores de comprensi√≥n, errores de generaci√≥n, etc.) y analizar las causas subyacentes.


3. Interpretabilidad Basada en Ejemplos (Example-Based Interpretability)

Utilizar ejemplos espec√≠ficos para entender c√≥mo el modelo toma decisiones puede ser una forma efectiva de interpretar su comportamiento.
Examinar c√≥mo el modelo responde a diferentes variaciones de una consulta y qu√© caracter√≠sticas del texto de entrada son m√°s influyentes.
* Realizar pruebas de sensibilidad modificando partes del texto de entrada y observando c√≥mo cambia la respuesta del modelo.
* Utilizar t√©cnicas de perturbaci√≥n para evaluar la importancia de diferentes palabras o frases.

4. M√©todos de Interpretabilidad Post-Hoc

T√©cnicas como LIME (Local Interpretable Model-agnostic Explanations) o SHAP (SHapley Additive exPlanations) pueden ser adaptadas para proporcionar interpretaciones locales de las decisiones del modelo.
Estos m√©todos pueden ayudar a identificar qu√© caracter√≠sticas del texto de entrada est√°n contribuyendo m√°s a una predicci√≥n espec√≠fica.
* Aplicar LIME o SHAP a las salidas del modelo para generar explicaciones locales.
* Analizar las explicaciones para identificar patrones y caracter√≠sticas importantes.

5. An√°lisis de Frecuencia y Contexto

Examinar la frecuencia y el contexto de las palabras y frases en el conjunto de datos de entrenamiento puede proporcionar informaci√≥n sobre qu√© caracter√≠sticas son m√°s importantes para el modelo.
Identificar patrones en el uso del lenguaje que el modelo ha aprendido a reconocer.
* Utilizar t√©cnicas de procesamiento de lenguaje natural (NLP) para analizar el conjunto de datos de entrenamiento.
* Identificar palabras y frases clave que aparecen con mayor frecuencia y en contextos relevantes.

In [1]:
# Instalar Whoosh para la indexaci√≥n y b√∫squeda de texto
#!pip install whoosh

# Instalar transformers para los modelos de generaci√≥n de lenguaje natural
#!pip install transformers datasets

# Instalar pandas para la manipulaci√≥n de datos
#!pip install pandas

# Instalar PyTorch (por defecto, Colab ya incluye PyTorch, pero puedes actualizarlo si es necesario)
#!pip install torch

# Instalar matplotlib para la visualizaci√≥n de gr√°ficos
#!pip install matplotlib

#!pip install accelerate
#!pip install transformers[torch] --upgrade



In [2]:
import json
import pandas as pd
from whoosh import index
from whoosh.fields import Schema, TEXT, ID
from whoosh.index import create_in, open_dir
from whoosh.qparser import QueryParser
from whoosh.query import Every
import os
from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
from datasets import Dataset, DatasetDict

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
# Funci√≥n para cargar datos JSON
def load_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

# Rutas a los archivos JSON en Google Drive
stock_data_path = '/content/drive/My Drive/datasets/llm_train_stock_data.json'
industry_data_path = '/content/drive/My Drive/datasets/llm_train_industry_data.json'
sales_data_path = '/content/drive/My Drive/datasets/llm_train_sales_data.json'

# Cargar los datos de los archivos JSON
stock_data = load_json(stock_data_path)
industry_data = load_json(industry_data_path)
sales_data = load_json(sales_data_path)

# Convertir los datos a DataFrames de pandas
stock_df = pd.DataFrame(stock_data['stock'])
industry_df = pd.DataFrame(industry_data['industry'])
sales_df = pd.DataFrame(sales_data['vehicle_sales'])

In [5]:
stock_df.head()

Unnamed: 0,Brand,Year,Month,Time,PMA,%_SALES_PER_Q
0,ACURA,2024,Q1,QTR,0,0.0
1,ALFA ROMEO,2024,Q1,QTR,0,0.0
2,AUDI,2024,Q1,QTR,0,0.0
3,BAIC,2024,Q1,QTR,2712,1.056338
4,BMW,2024,Q1,QTR,0,0.0


In [6]:
# Paso 2: Indexar los datos para facilitar la b√∫squeda
schema = Schema(title=TEXT(stored=True), content=TEXT(stored=True), path=ID(stored=True))

index_dir = "indexdir"
if not os.path.exists(index_dir):
    os.mkdir(index_dir)

ix = index.create_in(index_dir, schema)

def add_to_index(writer, data, path):
    for i, doc in enumerate(data):
        # Convertir el objeto Python a una cadena JSON
        content = json.dumps(doc, indent=4)
        writer.add_document(title=f"{path}_{i}", content=content, path=path)

writer = ix.writer()
add_to_index(writer, stock_data['stock'], 'stock')
add_to_index(writer, industry_data['industry'], 'industry')
add_to_index(writer, sales_data['vehicle_sales'], 'sales')
writer.commit()

# Verificar el contenido del √≠ndice
#with ix.searcher() as searcher:
#    for fields in searcher.all_stored_fields():
#      print(fields)

In [7]:
# Funci√≥n para buscar todo el contenido en el √≠ndice
def search_all_content():
    ix = open_dir("indexdir")
    with ix.searcher() as searcher:
        # Usar Every() para obtener todos los documentos
        query = Every()
        results = searcher.search(query, limit=None)  # `limit=None` para obtener todos los resultados
        return [result['content'] for result in results]

# Obtener todos los documentos
all_documents = search_all_content()

In [8]:
# Unir todos los datos en una lista
all_data = stock_data['stock'] + industry_data['industry'] + sales_data['vehicle_sales']

# Convertir a DataFrame de pandas
df = pd.DataFrame(all_data)
df = df.astype(str)

# Crear una columna 'content' que contenga el texto que queremos tokenizar
#df['content'] = df.apply(lambda row: json.dumps(row), axis=1)
df['content'] = df.apply(lambda row: json.dumps(row.to_dict()), axis=1)

In [9]:
#def results_to_dataframe(results):
#    data = [json.loads(content) for content in results]
#    return pd.DataFrame(data)

#df = results_to_dataframe(all_documents)

In [10]:
df.head()

Unnamed: 0,Brand,Year,Month,Time,PMA,%_SALES_PER_Q,Dealer_Name,Vehicle_Line,Vehicle_Type,Total_Sales,content
0,ACURA,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""ACURA"", ""Year"": ""2024"", ""Month"": ""Q..."
1,ALFA ROMEO,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""ALFA ROMEO"", ""Year"": ""2024"", ""Month..."
2,AUDI,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""AUDI"", ""Year"": ""2024"", ""Month"": ""Q1..."
3,BAIC,2024,Q1,QTR,2712.0,1.0563380281690145,,,,,"{""Brand"": ""BAIC"", ""Year"": ""2024"", ""Month"": ""Q1..."
4,BMW,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""BMW"", ""Year"": ""2024"", ""Month"": ""Q1""..."


In [11]:
dataset = Dataset.from_pandas(df)

In [12]:
dataset

Dataset({
    features: ['Brand', 'Year', 'Month', 'Time', 'PMA', '%_SALES_PER_Q', 'Dealer_Name', 'Vehicle_Line', 'Vehicle_Type', 'Total_Sales', 'content'],
    num_rows: 2874
})

In [28]:
model_name = "distilgpt2"  # Puedes cambiar esto por cualquier modelo adecuado
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# tokenizar los datos
def tokenize_function(examples):
    tokens = tokenizer(examples['content'], padding="max_length", truncation=True, max_length=512)
    tokens["labels"] = tokens["input_ids"].copy()
    return tokens

# Convertir DataFrame a Dataset de Hugging Face
dataset = Dataset.from_pandas(df)

# Dividir el Dataset en entrenamiento y validaci√≥n
train_testvalid = dataset.train_test_split(test_size=0.99)
test_valid = train_testvalid['test'].train_test_split(test_size=0.99)
dataset_dict = DatasetDict({
    'train': train_testvalid['train'],
    'test': test_valid['test'],
    'validation': test_valid['train']
})


# Definir el token de padding si no existe
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# Mapear la funci√≥n de tokenizaci√≥n al Dataset
tokenized_datasets = dataset_dict.map(tokenize_function, batched=True)

# Definir los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=1e-2,
    per_device_train_batch_size=1,  # Reducir el tama√±o del batch
    weight_decay=0.01,
    num_train_epochs=1,
    save_strategy="epoch"
)

# Inicializar el Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['validation']
)

# Entrenamiento
trainer.train()

Map:   0%|          | 0/28 [00:00<?, ? examples/s]

Map:   0%|          | 0/2818 [00:00<?, ? examples/s]

Map:   0%|          | 0/28 [00:00<?, ? examples/s]



Epoch,Training Loss,Validation Loss
1,No log,0.576786


TrainOutput(global_step=28, training_loss=2.96375002179827, metrics={'train_runtime': 302.7264, 'train_samples_per_second': 0.092, 'train_steps_per_second': 0.092, 'total_flos': 3658154508288.0, 'train_loss': 2.96375002179827, 'epoch': 1.0})

En esta sesi√≥n de entrenamiento, el modelo complet√≥ 28 pasos de entrenamiento, lo cual se indica con global_step=28. La p√©rdida final del entrenamiento (training_loss) fue de aproximadamente 2.96. La p√©rdida es una medida de qu√© tan bien el modelo est√° aprendiendo; un valor m√°s bajo generalmente indica un mejor rendimiento. En este caso, un valor de 2.96 sugiere que el modelo podr√≠a beneficiarse de m√°s ajustes para mejorar su desempe√±o.

El campo metrics proporciona informaci√≥n adicional sobre el rendimiento del entrenamiento. El tiempo total de ejecuci√≥n del entrenamiento fue de aproximadamente 302.73 segundos (train_runtime=302.7264). Durante este tiempo, el modelo proces√≥ 0.092 muestras por segundo (train_samples_per_second=0.092) y complet√≥ 0.092 pasos de entrenamiento por segundo (train_steps_per_second=0.092). Estas m√©tricas indican que el entrenamiento fue relativamente lento, lo cual podr√≠a mejorarse ajustando ciertos hiperpar√°metros o utilizando hardware m√°s potente.

Adem√°s, se realizaron aproximadamente 3.66 billones de operaciones de punto flotante durante el entrenamiento (total_flos=3658154508288.0), lo que da una idea de la complejidad computacional involucrada.

Finalmente, se complet√≥ una √©poca de entrenamiento (epoch=1.0), lo que sugiere que el modelo podr√≠a beneficiarse de m√°s √©pocas de entrenamiento para mejorar su desempe√±o.

En resumen, el TrainOutput muestra que el modelo complet√≥ 28 pasos de entrenamiento en aproximadamente 302.73 segundos, con una p√©rdida final de 2.96. Aunque el entrenamiento fue relativamente lento, esto se puede optimizar ajustando hiperpar√°metros y utilizando hardware m√°s potente. Adem√°s, el modelo podr√≠a beneficiarse de m√°s √©pocas de entrenamiento para mejorar su rendimiento.

In [29]:
# Guardar el modelo y el tokenizer
trainer.save_model("./results/latest_model")  # Guarda el modelo
tokenizer.save_pretrained("./results/latest_model")  # Guarda el tokenizer

('./results/latest_model/tokenizer_config.json',
 './results/latest_model/special_tokens_map.json',
 './results/latest_model/vocab.json',
 './results/latest_model/merges.txt',
 './results/latest_model/added_tokens.json',
 './results/latest_model/tokenizer.json')

In [32]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Cargar el modelo y el tokenizer desde la carpeta m√°s reciente
model = AutoModelForCausalLM.from_pretrained("./results/latest_model")
tokenizer = AutoTokenizer.from_pretrained("./results/latest_model")

#model_name = "./results"  # Directorio donde guardaste el modelo
#model = AutoModelForCausalLM.from_pretrained(model_name)
#tokenizer = AutoTokenizer.from_pretrained(model_name)

def ask_model(question, model, tokenizer, max_length=50):
    # Tokenizar la pregunta
    inputs = tokenizer.encode(question, return_tensors='pt')

    # Generar respuesta
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1, pad_token_id=tokenizer.eos_token_id)

    # Convertir tokens de salida a texto
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return answer

In [33]:
# Hacer una pregunta al modelo
question = "Ford brand"
answer = ask_model(question, model, tokenizer)
print(answer)

Ford brandBrand " "Q", "


Para mejorar la abstracci√≥n y el desempe√±o del modelo, se recomienda realizar ajustes en los hiperpar√°metros, como la tasa de aprendizaje y el tama√±o del batch, y considerar la utilizaci√≥n de hardware m√°s potente. Adem√°s, completar m√°s √©pocas de entrenamiento podr√≠a beneficiar significativamente la capacidad del modelo para aprender de manera m√°s efectiva a partir del conjunto de datos completo. En resumen, un enfoque optimizado y recursos computacionales adecuados son esenciales para que el modelo pueda alcanzar un nivel de abstracci√≥n y rendimiento deseado.