# Algoritmos

1. Datos No Estructurados y Estructurados:

Los archivos de Word y PDF contienen información no estructurada que puede incluir texto en párrafos, listas y tablas.
Los archivos JSON y las bases de datos SQL contienen datos estructurados que se organizan en un formato tabular.
Dado que nuestro proyecto implica trabajar con ambos tipos de datos, necesitamos un modelo que pueda manejar esta diversidad.

2. Características del Modelo Llama (Large Language Model Meta AI):

Llama está diseñado para comprender y generar lenguaje natural, lo que es crucial para interpretar documentos de texto no estructurados.
Llama es eficiente en términos de recursos computacionales, lo que facilita su entrenamiento y despliegue en entornos de producción.
Llama puede ser escalado para manejar grandes volúmenes de datos, lo que es esencial considerando la cantidad de información que se va a procesar.
Llama es altamente efectivo para interpretar y generar lenguaje natural, lo cual es crucial para un chatbot que necesita interactuar de manera fluida con los usuarios.

Modelos como GPT-3 de OpenAI son extremadamente potentes pero también costosos de usar y entrenar. Llama ofrece una alternativa más accesible sin comprometer significativamente el rendimiento.

3. Algoritmos

RAG (Retrieval-Augmented Generation):

RAG combina la capacidad de recuperación de información relevante (retrieval) con la generación de respuestas coherentes (generation). Esto es particularmente útil cuando se necesita extraer información específica de grandes volúmenes de texto.
Al utilizar técnicas de recuperación, RAG puede acceder a información precisa y relevante de los documentos, mejorando la calidad de las respuestas generadas.
RAG es adecuado para escenarios donde los datos provienen de múltiples fuentes y formatos, permitiendo una integración más sencilla de datos estructurados y no estructurados.
RAG permite que el modelo se adapte dinámicamente a nuevas consultas sin necesidad de reentrenamiento extensivo, lo que es más eficiente y flexible que el fine-tuning.

Fine-Tuning:

Fine-tuning de modelos grandes como Llama puede ser muy costoso en términos de tiempo y recursos computacionales.
Una vez que el modelo está fine-tuned, se vuelve menos flexible a cambios en los datos subyacentes. Cada vez que se agregan nuevos datos o se realizan modificaciones significativas, se requiere un nuevo ciclo de fine-tuning.
Fine-tuning puede hacer que el modelo sea menos interpretable, ya que las modificaciones se hacen a nivel de parámetros internos del modelo.

Decisión final (RAG):

RAG permite que el modelo se adapte dinámicamente a nuevas consultas sin necesidad de reentrenamiento extensivo.
RAG puede integrar nueva información de manera más eficiente, utilizando técnicas de recuperación para acceder a datos relevantes en tiempo real.
RAG es más flexible para manejar diferentes tipos de datos y formatos, lo que es crucial en nuestro caso de uso.

La interpretabilidad es relativamente alta en RAG porque se puede rastrear qué documentos y datos específicos se utilizaron para generar una respuesta. Esto es importante para la validación y mejora continua del modelo.

# Precisión de Recuperación y Generación

Para evaluar la eficiencia del modelo, es fundamental seleccionar una métrica que esté alineada con los objetivos del negocio y que permita una interpretación significativa en el contexto del problema que estamos abordando. En este caso, dado que estamos desarrollando un chatbot de IA para el equipo comercial de Ford, podemos considerar varias métricas, pero una especialmente relevante es la precisión de recuperación y generación de información relevante Precisión de Respuesta del Chatbot (PRC).

Métrica: PRC

**Definición:**
PRC mide la proporción de resultados relevantes entre los primeros k resultados devueltos por el modelo. En el contexto de nuestro chatbot, esta métrica evaluará cuán precisa es la información que el modelo recupera y genera en respuesta a las consultas de los usuarios.

Fórmula: [ \text{PRC} = \frac{\text{Número de respuestas relevantes en los primeros k resultados}}{k} ]


**Justificación**
En un entorno comercial, es crucial que el chatbot proporcione información precisa y relevante rápidamente. Precision@k se alinea con este objetivo al medir cuán efectivas son las respuestas generadas por el modelo en términos de relevancia.
La métrica ayuda a asegurar que el equipo comercial reciba información útil de manera rápida, mejorando la eficiencia en la toma de decisiones y la productividad.


**Implementación**
Crear un conjunto de consultas típicas que el equipo comercial podría hacer al chatbot.
Obtener respuestas esperadas o relevantes para estas consultas a partir de expertos o fuentes confiables.
Evaluación de Respuestas del Modelo:

Ejecutar el modelo Llama con RAG para responder a las consultas del conjunto de evaluación.
Comparar las respuestas generadas por el modelo con las respuestas esperadas.

**Cálculo de PRC**

Para cada consulta, contar el número de respuestas relevantes entre los primeros k resultados devueltos por el modelo.
Calcular PRC para cada consulta y promediar estos valores para obtener una medida general de precisión.

Ejemplo:

Supongamos que hemos definido ( k = 5 ) (los primeros 5 resultados), y el modelo responde a una consulta con 5 respuestas, de las cuales 3 son relevantes:

[ \text{PRC} = \frac{3}{5} = 0.60 ]

Si repetimos este proceso para múltiples consultas y obtenemos una precisión promedio del 0.70, esto indica que, en promedio, el 70% de las respuestas dentro de los primeros 5 resultados son relevantes.


PRC es fácil de interpretar y proporciona una medida clara de la efectividad del modelo en términos de relevancia de las respuestas, lo que facilita la comunicación de los resultados a las partes interesadas.

# Características importantes

El análisis de las características importantes en modelos de Lenguaje de Gran Tamaño (LLM) como Llama es un desafío debido a la naturaleza compleja y de "caja negra" de estos modelos. Sin embargo, hay varias técnicas y enfoques que se pueden utilizar para obtener información sobre las características importantes y el comportamiento del modelo.

1. Análisis de Atención (Attention Mechanisms)

Los modelos basados en Transformers, como Llama, utilizan mecanismos de atención que permiten al modelo enfocarse en diferentes partes del texto de entrada mientras genera una respuesta.
Analizar los pesos de atención puede proporcionar información sobre qué palabras o frases son más importantes para el modelo al tomar decisiones.
* Visualizar los mapas de atención para diferentes capas y cabezas de atención del modelo.
* Identificar patrones en los pesos de atención que indiquen qué partes del texto de entrada están influyendo más en las predicciones del modelo.

2. Análisis de Errores

Revisar y analizar los errores del modelo puede proporcionar información valiosa sobre las características importantes y las áreas donde el modelo podría mejorar.
Comparar las respuestas generadas por el modelo con las respuestas esperadas y analizar las discrepancias.
* Crear un conjunto de datos de prueba con ejemplos anotados y utilizarlo para evaluar el modelo.
* Categorizar los errores en diferentes tipos (e.g., errores de comprensión, errores de generación, etc.) y analizar las causas subyacentes.


3. Interpretabilidad Basada en Ejemplos (Example-Based Interpretability)

Utilizar ejemplos específicos para entender cómo el modelo toma decisiones puede ser una forma efectiva de interpretar su comportamiento.
Examinar cómo el modelo responde a diferentes variaciones de una consulta y qué características del texto de entrada son más influyentes.
* Realizar pruebas de sensibilidad modificando partes del texto de entrada y observando cómo cambia la respuesta del modelo.
* Utilizar técnicas de perturbación para evaluar la importancia de diferentes palabras o frases.

4. Métodos de Interpretabilidad Post-Hoc

Técnicas como LIME (Local Interpretable Model-agnostic Explanations) o SHAP (SHapley Additive exPlanations) pueden ser adaptadas para proporcionar interpretaciones locales de las decisiones del modelo.
Estos métodos pueden ayudar a identificar qué características del texto de entrada están contribuyendo más a una predicción específica.
* Aplicar LIME o SHAP a las salidas del modelo para generar explicaciones locales.
* Analizar las explicaciones para identificar patrones y características importantes.

5. Análisis de Frecuencia y Contexto

Examinar la frecuencia y el contexto de las palabras y frases en el conjunto de datos de entrenamiento puede proporcionar información sobre qué características son más importantes para el modelo.
Identificar patrones en el uso del lenguaje que el modelo ha aprendido a reconocer.
* Utilizar técnicas de procesamiento de lenguaje natural (NLP) para analizar el conjunto de datos de entrenamiento.
* Identificar palabras y frases clave que aparecen con mayor frecuencia y en contextos relevantes.

In [1]:
# Instalar Whoosh para la indexación y búsqueda de texto
#!pip install whoosh

# Instalar transformers para los modelos de generación de lenguaje natural
#!pip install transformers datasets

# Instalar pandas para la manipulación de datos
#!pip install pandas

# Instalar PyTorch (por defecto, Colab ya incluye PyTorch, pero puedes actualizarlo si es necesario)
#!pip install torch

# Instalar matplotlib para la visualización de gráficos
#!pip install matplotlib

#!pip install accelerate
#!pip install transformers[torch] --upgrade



In [2]:
import json
import pandas as pd
from whoosh import index
from whoosh.fields import Schema, TEXT, ID
from whoosh.index import create_in, open_dir
from whoosh.qparser import QueryParser
from whoosh.query import Every
import os
from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
from datasets import Dataset, DatasetDict

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
# Función para cargar datos JSON
def load_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

# Rutas a los archivos JSON en Google Drive
stock_data_path = '/content/drive/My Drive/datasets/llm_train_stock_data.json'
industry_data_path = '/content/drive/My Drive/datasets/llm_train_industry_data.json'
sales_data_path = '/content/drive/My Drive/datasets/llm_train_sales_data.json'

# Cargar los datos de los archivos JSON
stock_data = load_json(stock_data_path)
industry_data = load_json(industry_data_path)
sales_data = load_json(sales_data_path)

# Convertir los datos a DataFrames de pandas
stock_df = pd.DataFrame(stock_data['stock'])
industry_df = pd.DataFrame(industry_data['industry'])
sales_df = pd.DataFrame(sales_data['vehicle_sales'])

In [5]:
stock_df.head()

Unnamed: 0,Brand,Year,Month,Time,PMA,%_SALES_PER_Q
0,ACURA,2024,Q1,QTR,0,0.0
1,ALFA ROMEO,2024,Q1,QTR,0,0.0
2,AUDI,2024,Q1,QTR,0,0.0
3,BAIC,2024,Q1,QTR,2712,1.056338
4,BMW,2024,Q1,QTR,0,0.0


In [6]:
# Paso 2: Indexar los datos para facilitar la búsqueda
schema = Schema(title=TEXT(stored=True), content=TEXT(stored=True), path=ID(stored=True))

index_dir = "indexdir"
if not os.path.exists(index_dir):
    os.mkdir(index_dir)

ix = index.create_in(index_dir, schema)

def add_to_index(writer, data, path):
    for i, doc in enumerate(data):
        # Convertir el objeto Python a una cadena JSON
        content = json.dumps(doc, indent=4)
        writer.add_document(title=f"{path}_{i}", content=content, path=path)

writer = ix.writer()
add_to_index(writer, stock_data['stock'], 'stock')
add_to_index(writer, industry_data['industry'], 'industry')
add_to_index(writer, sales_data['vehicle_sales'], 'sales')
writer.commit()

# Verificar el contenido del índice
#with ix.searcher() as searcher:
#    for fields in searcher.all_stored_fields():
#      print(fields)

In [7]:
# Función para buscar todo el contenido en el índice
def search_all_content():
    ix = open_dir("indexdir")
    with ix.searcher() as searcher:
        # Usar Every() para obtener todos los documentos
        query = Every()
        results = searcher.search(query, limit=None)  # `limit=None` para obtener todos los resultados
        return [result['content'] for result in results]

# Obtener todos los documentos
all_documents = search_all_content()

In [8]:
# Unir todos los datos en una lista
all_data = stock_data['stock'] + industry_data['industry'] + sales_data['vehicle_sales']

# Convertir a DataFrame de pandas
df = pd.DataFrame(all_data)
df = df.astype(str)

# Crear una columna 'content' que contenga el texto que queremos tokenizar
#df['content'] = df.apply(lambda row: json.dumps(row), axis=1)
df['content'] = df.apply(lambda row: json.dumps(row.to_dict()), axis=1)

In [9]:
#def results_to_dataframe(results):
#    data = [json.loads(content) for content in results]
#    return pd.DataFrame(data)

#df = results_to_dataframe(all_documents)

In [10]:
df.head()

Unnamed: 0,Brand,Year,Month,Time,PMA,%_SALES_PER_Q,Dealer_Name,Vehicle_Line,Vehicle_Type,Total_Sales,content
0,ACURA,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""ACURA"", ""Year"": ""2024"", ""Month"": ""Q..."
1,ALFA ROMEO,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""ALFA ROMEO"", ""Year"": ""2024"", ""Month..."
2,AUDI,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""AUDI"", ""Year"": ""2024"", ""Month"": ""Q1..."
3,BAIC,2024,Q1,QTR,2712.0,1.0563380281690145,,,,,"{""Brand"": ""BAIC"", ""Year"": ""2024"", ""Month"": ""Q1..."
4,BMW,2024,Q1,QTR,0.0,0.0,,,,,"{""Brand"": ""BMW"", ""Year"": ""2024"", ""Month"": ""Q1""..."


In [11]:
dataset = Dataset.from_pandas(df)

In [12]:
dataset

Dataset({
    features: ['Brand', 'Year', 'Month', 'Time', 'PMA', '%_SALES_PER_Q', 'Dealer_Name', 'Vehicle_Line', 'Vehicle_Type', 'Total_Sales', 'content'],
    num_rows: 2874
})

In [28]:
model_name = "distilgpt2"  # Puedes cambiar esto por cualquier modelo adecuado
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# tokenizar los datos
def tokenize_function(examples):
    tokens = tokenizer(examples['content'], padding="max_length", truncation=True, max_length=512)
    tokens["labels"] = tokens["input_ids"].copy()
    return tokens

# Convertir DataFrame a Dataset de Hugging Face
dataset = Dataset.from_pandas(df)

# Dividir el Dataset en entrenamiento y validación
train_testvalid = dataset.train_test_split(test_size=0.99)
test_valid = train_testvalid['test'].train_test_split(test_size=0.99)
dataset_dict = DatasetDict({
    'train': train_testvalid['train'],
    'test': test_valid['test'],
    'validation': test_valid['train']
})


# Definir el token de padding si no existe
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# Mapear la función de tokenización al Dataset
tokenized_datasets = dataset_dict.map(tokenize_function, batched=True)

# Definir los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=1e-2,
    per_device_train_batch_size=1,  # Reducir el tamaño del batch
    weight_decay=0.01,
    num_train_epochs=1,
    save_strategy="epoch"
)

# Inicializar el Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['validation']
)

# Entrenamiento
trainer.train()

Map:   0%|          | 0/28 [00:00<?, ? examples/s]

Map:   0%|          | 0/2818 [00:00<?, ? examples/s]

Map:   0%|          | 0/28 [00:00<?, ? examples/s]



Epoch,Training Loss,Validation Loss
1,No log,0.576786


TrainOutput(global_step=28, training_loss=2.96375002179827, metrics={'train_runtime': 302.7264, 'train_samples_per_second': 0.092, 'train_steps_per_second': 0.092, 'total_flos': 3658154508288.0, 'train_loss': 2.96375002179827, 'epoch': 1.0})

En esta sesión de entrenamiento, el modelo completó 28 pasos de entrenamiento, lo cual se indica con global_step=28. La pérdida final del entrenamiento (training_loss) fue de aproximadamente 2.96. La pérdida es una medida de qué tan bien el modelo está aprendiendo; un valor más bajo generalmente indica un mejor rendimiento. En este caso, un valor de 2.96 sugiere que el modelo podría beneficiarse de más ajustes para mejorar su desempeño.

El campo metrics proporciona información adicional sobre el rendimiento del entrenamiento. El tiempo total de ejecución del entrenamiento fue de aproximadamente 302.73 segundos (train_runtime=302.7264). Durante este tiempo, el modelo procesó 0.092 muestras por segundo (train_samples_per_second=0.092) y completó 0.092 pasos de entrenamiento por segundo (train_steps_per_second=0.092). Estas métricas indican que el entrenamiento fue relativamente lento, lo cual podría mejorarse ajustando ciertos hiperparámetros o utilizando hardware más potente.

Además, se realizaron aproximadamente 3.66 billones de operaciones de punto flotante durante el entrenamiento (total_flos=3658154508288.0), lo que da una idea de la complejidad computacional involucrada.

Finalmente, se completó una época de entrenamiento (epoch=1.0), lo que sugiere que el modelo podría beneficiarse de más épocas de entrenamiento para mejorar su desempeño.

En resumen, el TrainOutput muestra que el modelo completó 28 pasos de entrenamiento en aproximadamente 302.73 segundos, con una pérdida final de 2.96. Aunque el entrenamiento fue relativamente lento, esto se puede optimizar ajustando hiperparámetros y utilizando hardware más potente. Además, el modelo podría beneficiarse de más épocas de entrenamiento para mejorar su rendimiento.

In [29]:
# Guardar el modelo y el tokenizer
trainer.save_model("./results/latest_model")  # Guarda el modelo
tokenizer.save_pretrained("./results/latest_model")  # Guarda el tokenizer

('./results/latest_model/tokenizer_config.json',
 './results/latest_model/special_tokens_map.json',
 './results/latest_model/vocab.json',
 './results/latest_model/merges.txt',
 './results/latest_model/added_tokens.json',
 './results/latest_model/tokenizer.json')

In [32]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Cargar el modelo y el tokenizer desde la carpeta más reciente
model = AutoModelForCausalLM.from_pretrained("./results/latest_model")
tokenizer = AutoTokenizer.from_pretrained("./results/latest_model")

#model_name = "./results"  # Directorio donde guardaste el modelo
#model = AutoModelForCausalLM.from_pretrained(model_name)
#tokenizer = AutoTokenizer.from_pretrained(model_name)

def ask_model(question, model, tokenizer, max_length=50):
    # Tokenizar la pregunta
    inputs = tokenizer.encode(question, return_tensors='pt')

    # Generar respuesta
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1, pad_token_id=tokenizer.eos_token_id)

    # Convertir tokens de salida a texto
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return answer

In [33]:
# Hacer una pregunta al modelo
question = "Ford brand"
answer = ask_model(question, model, tokenizer)
print(answer)

Ford brandBrand " "Q", "


Para mejorar la abstracción y el desempeño del modelo, se recomienda realizar ajustes en los hiperparámetros, como la tasa de aprendizaje y el tamaño del batch, y considerar la utilización de hardware más potente. Además, completar más épocas de entrenamiento podría beneficiar significativamente la capacidad del modelo para aprender de manera más efectiva a partir del conjunto de datos completo. En resumen, un enfoque optimizado y recursos computacionales adecuados son esenciales para que el modelo pueda alcanzar un nivel de abstracción y rendimiento deseado.