# Algoritmos

1. Datos No Estructurados y Estructurados:

Los archivos de Word y PDF contienen información no estructurada que puede incluir texto en párrafos, listas y tablas.
Los archivos JSON y las bases de datos SQL contienen datos estructurados que se organizan en un formato tabular.
Dado que nuestro proyecto implica trabajar con ambos tipos de datos, necesitamos un modelo que pueda manejar esta diversidad.

2. Características del Modelo Llama (Large Language Model Meta AI):

Llama está diseñado para comprender y generar lenguaje natural, lo que es crucial para interpretar documentos de texto no estructurados.
Llama es eficiente en términos de recursos computacionales, lo que facilita su entrenamiento y despliegue en entornos de producción.
Llama puede ser escalado para manejar grandes volúmenes de datos, lo que es esencial considerando la cantidad de información que se va a procesar.
Llama es altamente efectivo para interpretar y generar lenguaje natural, lo cual es crucial para un chatbot que necesita interactuar de manera fluida con los usuarios.

Modelos como GPT-3 de OpenAI son extremadamente potentes pero también costosos de usar y entrenar. Llama ofrece una alternativa más accesible sin comprometer significativamente el rendimiento.

3. Algoritmos

RAG (Retrieval-Augmented Generation):

RAG combina la capacidad de recuperación de información relevante (retrieval) con la generación de respuestas coherentes (generation). Esto es particularmente útil cuando se necesita extraer información específica de grandes volúmenes de texto.
Al utilizar técnicas de recuperación, RAG puede acceder a información precisa y relevante de los documentos, mejorando la calidad de las respuestas generadas.
RAG es adecuado para escenarios donde los datos provienen de múltiples fuentes y formatos, permitiendo una integración más sencilla de datos estructurados y no estructurados.
RAG permite que el modelo se adapte dinámicamente a nuevas consultas sin necesidad de reentrenamiento extensivo, lo que es más eficiente y flexible que el fine-tuning.

Fine-Tuning:

Fine-tuning de modelos grandes como Llama puede ser muy costoso en términos de tiempo y recursos computacionales.
Una vez que el modelo está fine-tuned, se vuelve menos flexible a cambios en los datos subyacentes. Cada vez que se agregan nuevos datos o se realizan modificaciones significativas, se requiere un nuevo ciclo de fine-tuning.
Fine-tuning puede hacer que el modelo sea menos interpretable, ya que las modificaciones se hacen a nivel de parámetros internos del modelo.

Decisión final (RAG):

RAG permite que el modelo se adapte dinámicamente a nuevas consultas sin necesidad de reentrenamiento extensivo.
RAG puede integrar nueva información de manera más eficiente, utilizando técnicas de recuperación para acceder a datos relevantes en tiempo real.
RAG es más flexible para manejar diferentes tipos de datos y formatos, lo que es crucial en nuestro caso de uso.

La interpretabilidad es relativamente alta en RAG porque se puede rastrear qué documentos y datos específicos se utilizaron para generar una respuesta. Esto es importante para la validación y mejora continua del modelo.

# Precisión de Recuperación y Generación

Para evaluar la eficiencia del modelo, es fundamental seleccionar una métrica que esté alineada con los objetivos del negocio y que permita una interpretación significativa en el contexto del problema que estamos abordando. En este caso, dado que estamos desarrollando un chatbot de IA para el equipo comercial de Ford, podemos considerar varias métricas, pero una especialmente relevante es la precisión de recuperación y generación de información relevante Precisión de Respuesta del Chatbot (PRC).

Métrica: PRC

**Definición:**
PRC mide la proporción de resultados relevantes entre los primeros k resultados devueltos por el modelo. En el contexto de nuestro chatbot, esta métrica evaluará cuán precisa es la información que el modelo recupera y genera en respuesta a las consultas de los usuarios.

Fórmula: [ \text{PRC} = \frac{\text{Número de respuestas relevantes en los primeros k resultados}}{k} ]


**Justificación**
En un entorno comercial, es crucial que el chatbot proporcione información precisa y relevante rápidamente. Precision@k se alinea con este objetivo al medir cuán efectivas son las respuestas generadas por el modelo en términos de relevancia.
La métrica ayuda a asegurar que el equipo comercial reciba información útil de manera rápida, mejorando la eficiencia en la toma de decisiones y la productividad.


**Implementación**
Crear un conjunto de consultas típicas que el equipo comercial podría hacer al chatbot.
Obtener respuestas esperadas o relevantes para estas consultas a partir de expertos o fuentes confiables.
Evaluación de Respuestas del Modelo:

Ejecutar el modelo Llama con RAG para responder a las consultas del conjunto de evaluación.
Comparar las respuestas generadas por el modelo con las respuestas esperadas.

**Cálculo de PRC**

Para cada consulta, contar el número de respuestas relevantes entre los primeros k resultados devueltos por el modelo.
Calcular PRC para cada consulta y promediar estos valores para obtener una medida general de precisión.

Ejemplo:

Supongamos que hemos definido ( k = 5 ) (los primeros 5 resultados), y el modelo responde a una consulta con 5 respuestas, de las cuales 3 son relevantes:

[ \text{PRC} = \frac{3}{5} = 0.60 ]

Si repetimos este proceso para múltiples consultas y obtenemos una precisión promedio del 0.70, esto indica que, en promedio, el 70% de las respuestas dentro de los primeros 5 resultados son relevantes.


PRC es fácil de interpretar y proporciona una medida clara de la efectividad del modelo en términos de relevancia de las respuestas, lo que facilita la comunicación de los resultados a las partes interesadas.


# Características importantes

El análisis de las características importantes en modelos de Lenguaje de Gran Tamaño (LLM) como Llama es un desafío debido a la naturaleza compleja y de "caja negra" de estos modelos. Sin embargo, hay varias técnicas y enfoques que se pueden utilizar para obtener información sobre las características importantes y el comportamiento del modelo.

1. Análisis de Atención (Attention Mechanisms)

Los modelos basados en Transformers, como Llama, utilizan mecanismos de atención que permiten al modelo enfocarse en diferentes partes del texto de entrada mientras genera una respuesta.
Analizar los pesos de atención puede proporcionar información sobre qué palabras o frases son más importantes para el modelo al tomar decisiones.
* Visualizar los mapas de atención para diferentes capas y cabezas de atención del modelo.
* Identificar patrones en los pesos de atención que indiquen qué partes del texto de entrada están influyendo más en las predicciones del modelo.

2. Análisis de Errores

Revisar y analizar los errores del modelo puede proporcionar información valiosa sobre las características importantes y las áreas donde el modelo podría mejorar.
Comparar las respuestas generadas por el modelo con las respuestas esperadas y analizar las discrepancias.
* Crear un conjunto de datos de prueba con ejemplos anotados y utilizarlo para evaluar el modelo.
* Categorizar los errores en diferentes tipos (e.g., errores de comprensión, errores de generación, etc.) y analizar las causas subyacentes.


3. Interpretabilidad Basada en Ejemplos (Example-Based Interpretability)

Utilizar ejemplos específicos para entender cómo el modelo toma decisiones puede ser una forma efectiva de interpretar su comportamiento.
Examinar cómo el modelo responde a diferentes variaciones de una consulta y qué características del texto de entrada son más influyentes.
* Realizar pruebas de sensibilidad modificando partes del texto de entrada y observando cómo cambia la respuesta del modelo.
* Utilizar técnicas de perturbación para evaluar la importancia de diferentes palabras o frases.

4. Métodos de Interpretabilidad Post-Hoc

Técnicas como LIME (Local Interpretable Model-agnostic Explanations) o SHAP (SHapley Additive exPlanations) pueden ser adaptadas para proporcionar interpretaciones locales de las decisiones del modelo.
Estos métodos pueden ayudar a identificar qué características del texto de entrada están contribuyendo más a una predicción específica.
* Aplicar LIME o SHAP a las salidas del modelo para generar explicaciones locales.
* Analizar las explicaciones para identificar patrones y características importantes.

5. Análisis de Frecuencia y Contexto

Examinar la frecuencia y el contexto de las palabras y frases en el conjunto de datos de entrenamiento puede proporcionar información sobre qué características son más importantes para el modelo.
Identificar patrones en el uso del lenguaje que el modelo ha aprendido a reconocer.
* Utilizar técnicas de procesamiento de lenguaje natural (NLP) para analizar el conjunto de datos de entrenamiento.
* Identificar palabras y frases clave que aparecen con mayor frecuencia y en contextos relevantes.

In [16]:
!pip install langchain
!pip install openai
!pip install tiktoken
!pip install faiss-cpu
!pip install langchain_experimental
!pip install "langchain[docarray]"
!pip install jq


[31mERROR: Could not find a version that satisfies the requirement faiss-gpu (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for faiss-gpu[0m[31m




Collecting jq
  Obtaining dependency information for jq from https://files.pythonhosted.org/packages/4f/51/259d005d2d6b269009b5ad3d4502bb40003cbab6ccead31e16a67629c47b/jq-1.7.0-cp39-cp39-macosx_10_9_x86_64.whl.metadata
  Downloading jq-1.7.0-cp39-cp39-macosx_10_9_x86_64.whl.metadata (6.8 kB)
Downloading jq-1.7.0-cp39-cp39-macosx_10_9_x86_64.whl (403 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m403.8/403.8 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: jq
Successfully installed jq-1.7.0


In [38]:
!pip install faiss-cpu

Collecting faiss-cpu
  Obtaining dependency information for faiss-cpu from https://files.pythonhosted.org/packages/ed/96/4694074d8684b9684116d1669b34f7b7b585406ad714af8940a66ff31c7d/faiss_cpu-1.8.0-cp39-cp39-macosx_10_14_x86_64.whl.metadata
  Downloading faiss_cpu-1.8.0-cp39-cp39-macosx_10_14_x86_64.whl.metadata (3.6 kB)
Downloading faiss_cpu-1.8.0-cp39-cp39-macosx_10_14_x86_64.whl (7.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.3/7.3 MB[0m [31m16.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.8.0


In [35]:
import os
from langchain.document_loaders.json_loader import JSONLoader
from langchain.document_loaders import DirectoryLoader, TextLoader
from langchain.embeddings import OpenAIEmbeddings


In [39]:
api_key = "sk-...."

# Set the API key as an environment variable
os.environ["OPENAI_API_KEY"] = api_key

# Optionally, check that the environment variable was set correctly
print("OPENAI_API_KEY has been set!")

OPENAI_API_KEY has been set!


In [33]:
import json
from langchain_community.document_loaders import DirectoryLoader, JSONLoader

DRIVE_FOLDER = "../json/"

# Function to print the structure of the JSON files for debugging
def print_json_structure(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
        print(json.dumps(data, indent=2))

# Load the files and print their structure
import glob

json_files = glob.glob(f"{DRIVE_FOLDER}/**/*.json", recursive=True)
for file_path in json_files:
    print(f"Structure of {file_path}:")

# Custom loader kwargs with text_content=False
loader_kwargs = {
    'jq_schema': '.',  # Adjust the schema based on the actual structure
    'text_content': False  # Handle non-string content
}

# Create a DirectoryLoader instance with the custom loader settings
loader = DirectoryLoader(
    DRIVE_FOLDER,
    glob='**/*.json',
    show_progress=True,
    loader_cls=JSONLoader,
    loader_kwargs=loader_kwargs
)

# Function to extract relevant content from a dictionary
def extract_content(doc):
    if isinstance(doc, dict):
        # Adjust this extraction logic based on your JSON structure
        return doc.get('content', str(doc))  # Default to string representation if 'content' key not found
    return str(doc)

# Load the documents
try:
    documents = loader.load()
    # Extract content from documents
    extracted_documents = [extract_content(doc.page_content) for doc in documents]
    
    print(f'document count: {len(documents)}')
except Exception as e:
    print(f"An error occurred: {e}")


Structure of ../json/llm_train_sales_data.json:
Structure of ../json/llm_train_stock_data.json:
Structure of ../json/llm_train_industry_data.json:


100%|█████████████████████████████████████████████| 3/3 [00:00<00:00, 22.89it/s]

document count: 3





In [36]:
embeddings = OpenAIEmbeddings()

  warn_deprecated(


In [37]:
vectorstore = FAISS.from_documents(data, embedding=embeddings)

NameError: name 'FAISS' is not defined