<a href="https://colab.research.google.com/github/CamiloVga/Curso-IA-Para-Ciencia-de-Datos/blob/main/Script_Sesi%C3%B3n_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IA para la Ciencia de Datos
## Universidad de los Andes

**Profesor:** Camilo Vega - AI/ML Engineer  
**LinkedIn:** https://www.linkedin.com/in/camilo-vega-169084b1/

---

## Gu√≠a: Fine-tuning y RAG (Retrieval-Augmented Generation)

Este notebook presenta **3 implementaciones pr√°cticas**:

1. **Fine-tuning B√°sico** - An√°lisis de sentimientos con tweets
2. **RAG Simple** - B√∫squeda b√°sica en documentos
3. **RAG Base de Datos** - Sistema especializado con embeddings

### Requisitos
- **GPU:** Tesla T4 m√≠nimo (Colab gratuito)
- **APIs:** Hugging Face token
- **Datos:** Tweets y dataset de ventas

## Configuraci√≥n APIs
- **Hugging Face:**
  1. [Crear token](https://huggingface.co/settings/tokens)
  2. En Colab: üîë Secrets ‚Üí Agregar `HF_TOKEN` ‚Üí Pegar tu token

Cada secci√≥n es **independiente** y puede ejecutarse por separado.


#Fine Tuning

In [None]:
# 1. Instalaciones
!pip install torch transformers datasets scikit-learn matplotlib seaborn pandas huggingface_hub -q

# 2. Imports y configuraci√≥n
from google.colab import userdata
import torch
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix, classification_report, roc_auc_score
from sklearn.preprocessing import label_binarize
from sklearn.model_selection import train_test_split
from huggingface_hub import login

# Configuraci√≥n
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name = "bert-base-multilingual-cased"  # Modelo multiling√ºe para ingl√©s

# Autenticaci√≥n
hf_token = userdata.get('HF_TOKEN')
login(token=hf_token)
print(f"Dispositivo: {device}")
print(f"Modelo: {model_name} (multiling√ºe para textos en ingl√©s)")

# 3. Cargar datos
print("Cargando dataset de tweets...")
dataset = load_dataset("mteb/tweet_sentiment_extraction", split="train")

textos = dataset["text"]
etiquetas = dataset["label"]  # 0=negative, 1=neutral, 2=positive

print(f"Dataset cargado: {len(textos)} muestras")
print(f"Distribuci√≥n: {pd.Series(etiquetas).value_counts().sort_index().to_dict()}")

# 4. Filtrar y balancear
df = pd.DataFrame({'texto': textos, 'etiqueta': etiquetas})

# Tomar 5000 ejemplos balanceados
df_sample = df.groupby('etiqueta').apply(
    lambda x: x.sample(min(1667, len(x)), random_state=42)
).reset_index(drop=True).sample(frac=1, random_state=42)

textos_final = df_sample['texto'].tolist()
etiquetas_final = df_sample['etiqueta'].tolist()

print(f"Datos balanceados: {len(textos_final)} muestras")
print(f"Distribuci√≥n final: {pd.Series(etiquetas_final).value_counts().sort_index().to_dict()}")

# 5. Split train/test
X_train, X_test, y_train, y_test = train_test_split(
    textos_final, etiquetas_final, test_size=0.2, random_state=42, stratify=etiquetas_final
)

# 6. Modelo y tokenizador
print("Cargando modelo...")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3).to(device)

# 7. Tokenizaci√≥n
train_encodings = tokenizer(X_train, truncation=True, padding=True, max_length=128, return_tensors="pt")
test_encodings = tokenizer(X_test, truncation=True, padding=True, max_length=128, return_tensors="pt")

# 8. Dataset clase
class SentimentDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: val[idx] for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx], dtype=torch.long)
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = SentimentDataset(train_encodings, y_train)
test_dataset = SentimentDataset(test_encodings, y_test)

# 9. M√©tricas (DEFINIR ANTES DE USAR)
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    accuracy = accuracy_score(labels, predictions)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, predictions, average='weighted')
    return {'accuracy': accuracy, 'f1': f1, 'precision': precision, 'recall': recall}

# 10. Configuraci√≥n de entrenamiento (DEFINIR ANTES DE USAR)
training_args = TrainingArguments(
    output_dir='./modelo',
    num_train_epochs=5,  # Reducir √©pocas para evitar divergencia
    per_device_train_batch_size=32,  # Batch m√°s grande para estabilidad
    per_device_eval_batch_size=64,
    learning_rate=1e-5,  # Learning rate mucho m√°s bajo
    weight_decay=0.1,    # M√°s regularizaci√≥n
    warmup_steps=200,
    eval_strategy="epoch",
    logging_steps=50,
    save_strategy="epoch",
    load_best_model_at_end=True,
    metric_for_best_model="eval_accuracy",  # Optimizar por accuracy
    greater_is_better=True,
    report_to=[],
    dataloader_drop_last=True,
    gradient_checkpointing=True,  # Ahorrar memoria
    fp16=True  # Precisi√≥n mixta para estabilidad
)

# 11. Entrenar modelo est√°ndar (AHORA CON VARIABLES DEFINIDAS)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    compute_metrics=compute_metrics,
)

print("\n" + "="*50)
print("ENTRENANDO...")
print("="*50)

# Entrenar y capturar historial
history = trainer.train()

# Extraer m√©tricas del historial de logs
train_losses = []
eval_losses = []
eval_accuracies = []

for log in trainer.state.log_history:
    if 'train_loss' in log:
        train_losses.append(log['train_loss'])
    if 'eval_loss' in log:
        eval_losses.append(log['eval_loss'])
    if 'eval_accuracy' in log:
        eval_accuracies.append(log['eval_accuracy'])

print(f"Entrenamiento completado. Logs capturados: {len(eval_losses)} evaluaciones")

# 12. Gr√°ficas usando historial de logs
if eval_losses:
    plt.figure(figsize=(15, 4))
    epochs = range(1, len(eval_losses) + 1)

    # P√©rdida de evaluaci√≥n
    plt.subplot(1, 3, 1)
    plt.plot(epochs, eval_losses, 'r-o', linewidth=2, markersize=6)
    plt.title('P√©rdida de Evaluaci√≥n')
    plt.xlabel('√âpoca')
    plt.ylabel('Loss')
    plt.grid(True, alpha=0.3)

    # Accuracy
    plt.subplot(1, 3, 2)
    if eval_accuracies and len(eval_accuracies) == len(eval_losses):
        plt.plot(epochs, eval_accuracies, 'g-o', linewidth=2, markersize=6)
    plt.title('Accuracy')
    plt.xlabel('√âpoca')
    plt.ylabel('Accuracy')
    plt.grid(True, alpha=0.3)

    # Train loss si est√° disponible
    plt.subplot(1, 3, 3)
    if train_losses:
        # Si hay m√∫ltiples train losses por √©poca, promediarlos
        if len(train_losses) > len(epochs):
            steps_per_epoch = len(train_losses) // len(epochs)
            train_by_epoch = []
            for i in range(len(epochs)):
                start = i * steps_per_epoch
                end = min((i + 1) * steps_per_epoch, len(train_losses))
                if start < len(train_losses):
                    epoch_avg = sum(train_losses[start:end]) / len(train_losses[start:end])
                    train_by_epoch.append(epoch_avg)

            if len(train_by_epoch) == len(epochs):
                plt.plot(epochs, train_by_epoch, 'b-s', linewidth=2, alpha=0.7, label='Train Loss')
                plt.plot(epochs, eval_losses, 'r-o', linewidth=2, label='Eval Loss')
                plt.legend()
        else:
            plt.plot(epochs, eval_losses, 'r-o', linewidth=2)
    else:
        plt.plot(epochs, eval_losses, 'r-o', linewidth=2)

    plt.title('Curvas de P√©rdida')
    plt.xlabel('√âpoca')
    plt.ylabel('Loss')
    plt.grid(True, alpha=0.3)

    plt.tight_layout()
    plt.show()

    print(f"\nRESUMEN ENTRENAMIENTO:")
    if len(eval_losses) > 1:
        print(f"Loss inicial: {eval_losses[0]:.4f}")
        print(f"Loss final: {eval_losses[-1]:.4f}")
        print(f"Mejora: {eval_losses[0] - eval_losses[-1]:.4f}")

    if eval_accuracies and len(eval_accuracies) > 1:
        print(f"Accuracy inicial: {eval_accuracies[0]:.4f}")
        print(f"Accuracy final: {eval_accuracies[-1]:.4f}")
        print(f"Mejora: {eval_accuracies[-1] - eval_accuracies[0]:.4f}")

else:
    print("No se encontraron m√©tricas de evaluaci√≥n en el historial")

# 13. Evaluaci√≥n final
predictions = trainer.predict(test_dataset)
y_pred = np.argmax(predictions.predictions, axis=1)
y_pred_proba = torch.softmax(torch.tensor(predictions.predictions), dim=1).numpy()

print("\n" + "="*50)
print("RESULTADOS")
print("="*50)

# Verificar que las dimensiones coincidan
print(f"Muestras de prueba: {len(y_test)}")
print(f"Predicciones: {len(y_pred)}")

# Labels names
labels_names = ['Negativo', 'Neutral', 'Positivo']

# Solo evaluar si las dimensiones coinciden
if len(y_test) == len(y_pred):
    accuracy = accuracy_score(y_test, y_pred)
    print(f"ACCURACY: {accuracy:.4f}")

    # Matriz de confusi√≥n
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                xticklabels=labels_names, yticklabels=labels_names)
    plt.title('Matriz de Confusi√≥n')
    plt.show()

    # ROC-AUC
    y_true_bin = label_binarize(y_test, classes=[0, 1, 2])
    roc_auc = roc_auc_score(y_true_bin, y_pred_proba, multi_class='ovr', average='weighted')
    print(f"ROC-AUC: {roc_auc:.4f}")

    # Classification report
    print("\nREPORTE:")
    print(classification_report(y_test, y_pred, target_names=labels_names))
else:
    print(f"Error: Inconsistencia en dimensiones - y_test: {len(y_test)}, y_pred: {len(y_pred)}")
    print("Evaluando solo con las primeras muestras que coincidan...")

    min_len = min(len(y_test), len(y_pred))
    y_test_truncated = y_test[:min_len]
    y_pred_truncated = y_pred[:min_len]

    accuracy = accuracy_score(y_test_truncated, y_pred_truncated)
    print(f"ACCURACY (truncado): {accuracy:.4f}")

    # Matriz de confusi√≥n truncada
    cm = confusion_matrix(y_test_truncated, y_pred_truncated)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                xticklabels=labels_names, yticklabels=labels_names)
    plt.title('Matriz de Confusi√≥n')
    plt.show()

# 14. Guardar modelo
trainer.save_model("./sentiment_model")
tokenizer.save_pretrained("./sentiment_model")
print("Modelo guardado en ./sentiment_model")

# 15. Inferencia individual simple
from transformers import pipeline

# Cargar el modelo entrenado
sentiment_pipeline = pipeline("text-classification", model="./sentiment_model", tokenizer="./sentiment_model")

# Ejemplo de uso: cambiar el texto aqu√≠ para probar
texto_prueba = "I love this amazing product!"

resultado = sentiment_pipeline(texto_prueba)[0]
label_idx = int(resultado['label'].split('_')[1])
sentimientos = ['Negativo', 'Neutral', 'Positivo']

print("\n" + "="*40)
print("INFERENCIA INDIVIDUAL")
print("="*40)
print(f"Texto: '{texto_prueba}'")
print(f"Sentimiento: {sentimientos[label_idx]}")
print(f"Confianza: {resultado['score']:.3f}")


#RAG con documentos

In [None]:
# RAG SIMPLE CON GROQ API
# Sistema de b√∫squeda en documentos usando TF-IDF y Groq para generaci√≥n

# Instalaci√≥n de dependencias
!pip install groq scikit-learn PyPDF2 python-docx pandas openpyxl -q

import os
import pandas as pd
import numpy as np
from groq import Groq
from google.colab import userdata
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from PyPDF2 import PdfReader
from docx import Document

# Configuraci√≥n del sistema
GROQ_API_KEY = userdata.get('GROQ_KEY')
client = Groq(api_key=GROQ_API_KEY)
folder_path = '/content/carpeta_rag'

# Variables globales del sistema
vectorizer = TfidfVectorizer(max_features=1000, stop_words=None)
chunks = []
vectors = None

def load_documents(folder_path):
    """Carga y procesa documentos de m√∫ltiples formatos"""
    text = ''
    os.makedirs(folder_path, exist_ok=True)

    for filename in os.listdir(folder_path):
        filepath = os.path.join(folder_path, filename)

        try:
            if filename.endswith('.txt'):
                with open(filepath, 'r', encoding='utf-8') as f:
                    text += f.read() + '\n'

            elif filename.endswith('.pdf'):
                reader = PdfReader(filepath)
                for page in reader.pages:
                    text += page.extract_text() + '\n'

            elif filename.endswith('.docx'):
                doc = Document(filepath)
                for paragraph in doc.paragraphs:
                    text += paragraph.text + '\n'

            elif filename.endswith('.csv'):
                df = pd.read_csv(filepath)
                text += df.to_string() + '\n'

            elif filename.endswith('.xlsx'):
                df = pd.read_excel(filepath)
                text += df.to_string() + '\n'
        except:
            continue

    return text

def create_chunks(text, chunk_size=500):
    """Divide el texto en fragmentos de tama√±o manejable"""
    words = text.split()
    chunks = []

    for i in range(0, len(words), chunk_size):
        chunk = ' '.join(words[i:i + chunk_size])
        if len(chunk.strip()) > 100:
            chunks.append(chunk.strip())

    return chunks

def search_relevant_chunks(query, top_k=3):
    """Encuentra fragmentos m√°s relevantes usando similitud coseno"""
    query_vector = vectorizer.transform([query])
    similarities = cosine_similarity(query_vector, vectors)[0]

    # Obtener √≠ndices ordenados por relevancia
    top_indices = np.argsort(similarities)[-top_k:][::-1]

    relevant_chunks = []
    for idx in top_indices:
        if similarities[idx] > 0.1:  # Umbral m√≠nimo de relevancia
            relevant_chunks.append(chunks[idx])

    return relevant_chunks

def generate_answer(query, context):
    """Genera respuesta usando Groq API con el contexto encontrado"""
    if not context:
        return "No encontr√© informaci√≥n relevante en los documentos."

    prompt = f"""Bas√°ndote en esta informaci√≥n:

{context}

Pregunta: {query}

Instrucciones:
- Responde solo con informaci√≥n del contexto
- Si no hay informaci√≥n suficiente, di que no puedes responder
- Responde en espa√±ol de forma clara y concisa"""

    try:
        response = client.chat.completions.create(
            model="llama3-8b-8192",
            messages=[
                {"role": "user", "content": prompt}
            ],
            max_tokens=400,
            temperature=0.7
        )
        return response.choices[0].message.content
    except Exception as e:
        return f"Error generando respuesta: {e}"

def inicializar_rag():
    """Inicializa el sistema RAG cargando documentos y creando √≠ndices"""
    global chunks, vectors, vectorizer

    print("Cargando documentos...")
    documents = load_documents(folder_path)

    if not documents.strip():
        print("No se encontraron documentos en la carpeta.")
        return False

    print("Creando fragmentos de texto...")
    chunks = create_chunks(documents)

    print("Generando √≠ndice de b√∫squeda...")
    vectors = vectorizer.fit_transform(chunks)

    print(f"Sistema listo: {len(chunks)} fragmentos procesados.")
    return True

# Inicializaci√≥n del sistema
inicializar_rag()

# BLOQUE DE INFERENCIA - Ejecutar por separado
query = "¬øDe qu√© tratan estos documentos?"  # Cambia tu pregunta aqu√≠
context = '\n\n'.join(search_relevant_chunks(query))
respuesta = client.chat.completions.create(model="llama3-8b-8192", messages=[{"role": "user", "content": f"Contexto: {context}\nPregunta: {query}\nResponde solo con informaci√≥n del contexto en espa√±ol."}], max_tokens=400).choices[0].message.content
print(query)
print(respuesta)

#Rag Base de Datos


In [None]:
# RAG BASE DE DATOS CON GROQ API
# Sistema de consultas en bases de datos usando embeddings y Groq para generaci√≥n
# DIFERENCIAS vs RAG normal: embeddings de metadatos + generaci√≥n autom√°tica de SQL

"""
L√ìGICA DEL RAG BASE DE DATOS:

1. Embedding busca: columnas similares (no datos raw)
2. Patr√≥n detecta: tipo de consulta en lenguaje natural
3. SQL generado: c√≥digo ejecutable basado en patrones + columnas
4. Resultado: datos reales de la base de datos
5. LLM: respuesta natural con estad√≠sticas precisas

Ejemplo flujo:
Input: "¬øqu√© m√©todo de pago prefiere la gente?"
1. Embedding busca: "M√©todo_pago" (alta similitud)
2. Patr√≥n detecta: "preferir" ‚Üí GROUP BY + COUNT
3. SQL generado: SELECT M√©todo_pago, COUNT(*) FROM data GROUP BY M√©todo_pago
4. Resultado: Tarjeta: 150, Efectivo: 89
5. LLM: "La gente prefiere tarjeta (150 transacciones vs 89 en efectivo)"
"""

# Instalaci√≥n de dependencias
!pip install groq sentence-transformers pandas numpy scikit-learn -q

import pandas as pd
import numpy as np
import sqlite3
import os
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from groq import Groq
from google.colab import userdata

# Configuraci√≥n del sistema
GROQ_API_KEY = userdata.get('GROQ_KEY')
client = Groq(api_key=GROQ_API_KEY)
folder_path = '/content/carpeta_rag'

# Variables globales del sistema
model = SentenceTransformer('all-MiniLM-L6-v2')
conn = None
table_name = 'data'
column_embeddings = {}  # Embeddings de metadatos de columnas (no datos raw)
column_types = {}       # Tipos de datos para generar SQL inteligente

def load_database(folder_path):
    """Carga CSV desde carpeta y crea base de datos en memoria"""
    global conn, column_embeddings, column_types

    os.makedirs(folder_path, exist_ok=True)

    # Buscar archivo CSV en la carpeta
    csv_file = None
    try:
        files = os.listdir(folder_path)
        print(f"Archivos en carpeta: {files}")

        for filename in files:
            if filename.endswith('.csv'):
                csv_file = os.path.join(folder_path, filename)
                break

        if not csv_file:
            # Cargar datos de ejemplo si no hay CSV
            print("No se encontr√≥ CSV. Creando datos de ejemplo...")
            data = {
                'Producto': ['Camiseta', 'Pantal√≥n', 'Zapatos', 'Chaqueta'],
                'Categor√≠a': ['Ropa', 'Ropa', 'Calzado', 'Ropa'],
                'Precio_unitario': [25.99, 45.50, 89.99, 120.00],
                'Cantidad': [15, 8, 12, 5],
                'M√©todo_pago': ['Efectivo', 'Tarjeta', 'Efectivo', 'Tarjeta'],
                'Sucursal': ['Norte', 'Sur', 'Norte', 'Centro']
            }
            df = pd.DataFrame(data)
        else:
            print(f"Cargando {csv_file}...")
            df = pd.read_csv(csv_file)

        # Crear conexi√≥n SQLite
        if conn:
            conn.close()
        conn = sqlite3.connect(':memory:', check_same_thread=False)
        df.to_sql(table_name, conn, index=False, if_exists='replace')

        # Limpiar variables anteriores
        column_embeddings.clear()
        column_types.clear()

        # Analizar columnas y crear embeddings
        # CLAVE: No embebemos los datos, sino descripciones de las columnas
        # Esto permite mapear preguntas a columnas relevantes de la DB
        for col in df.columns:
            if df[col].dtype in ['int64', 'float64']:
                column_types[col] = 'numeric'
                desc = f"{col} valores num√©ricos entre {df[col].min()} y {df[col].max()}"
            elif df[col].nunique() <= 20:
                column_types[col] = 'categorical'
                valores = ', '.join(map(str, df[col].unique()[:5]))
                desc = f"{col} categor√≠as como: {valores}"
            else:
                column_types[col] = 'text'
                desc = f"{col} texto libre"

            # Embedding de la descripci√≥n de la columna, no del contenido
            column_embeddings[col] = model.encode([desc])[0]

        print(f"Base de datos cargada: {df.shape[0]} filas, {df.shape[1]} columnas")
        return True

    except Exception as e:
        print(f"Error cargando datos: {e}")
        return False

def find_relevant_columns(query, top_k=3):
    """Encuentra columnas m√°s relevantes usando similitud coseno
    Diferencia clave vs RAG normal: buscamos columnas, no fragmentos de texto"""
    query_emb = model.encode([query])[0]
    scores = []

    for col, col_emb in column_embeddings.items():
        sim = cosine_similarity([query_emb], [col_emb])[0][0]
        scores.append((col, sim))

    return sorted(scores, key=lambda x: x[1], reverse=True)[:top_k]

def generate_sql(query):
    """Genera consulta SQL inteligente basada en la pregunta
    INNOVACI√ìN: Combina embeddings + detecci√≥n de patrones para SQL autom√°tico
    RAG tradicional solo busca texto, aqu√≠ generamos c√≥digo ejecutable"""
    cols_relevantes = [col for col, _ in find_relevant_columns(query)]
    cols_numericas = [c for c in cols_relevantes if column_types.get(c) == 'numeric']
    cols_categoricas = [c for c in cols_relevantes if column_types.get(c) == 'categorical']

    query_lower = query.lower()

    # Detecci√≥n de patrones en la pregunta
    if any(palabra in query_lower for palabra in ['m√°s vendido', 'm√°s popular', 'qu√© producto', 'cu√°les productos']):
        if cols_numericas and cols_categoricas:
            return f"""
            SELECT {cols_categoricas[0]} as producto,
                   SUM({cols_numericas[0]}) as total_cantidad,
                   COUNT(*) as num_ventas
            FROM {table_name}
            GROUP BY {cols_categoricas[0]}
            ORDER BY total_cantidad DESC
            LIMIT 10
            """

    if any(palabra in query_lower for palabra in ['m√©todo pago', 'forma pago', 'c√≥mo pagan', 'pago m√°s com√∫n']):
        return f"""
        SELECT M√©todo_pago,
               COUNT(*) as cantidad,
               ROUND(COUNT(*) * 100.0 / (SELECT COUNT(*) FROM {table_name}), 1) as porcentaje
        FROM {table_name}
        GROUP BY M√©todo_pago
        ORDER BY cantidad DESC
        """

    if any(palabra in query_lower for palabra in ['ingresos', 'revenue', 'dinero', 'ganancias']):
        if 'Precio_unitario' in column_types and 'Cantidad' in column_types:
            return f"""
            SELECT {cols_categoricas[0] if cols_categoricas else 'Producto'} as categoria,
                   SUM(Precio_unitario * Cantidad) as total_ingresos,
                   AVG(Precio_unitario * Cantidad) as ingreso_promedio
            FROM {table_name}
            GROUP BY {cols_categoricas[0] if cols_categoricas else 'Producto'}
            ORDER BY total_ingresos DESC
            LIMIT 10
            """

    if any(palabra in query_lower for palabra in ['ciudad', 'sucursal', 'd√≥nde', 'ubicaci√≥n']):
        return f"""
        SELECT Sucursal,
               COUNT(*) as num_ventas,
               SUM(Precio_unitario * Cantidad) as total_ingresos
        FROM {table_name}
        GROUP BY Sucursal
        ORDER BY num_ventas DESC
        """

    if any(palabra in query_lower for palabra in ['promedio', 'precio promedio', 'categor√≠a']):
        return f"""
        SELECT Categor√≠a,
               COUNT(*) as num_productos,
               AVG(Precio_unitario) as precio_promedio,
               MIN(Precio_unitario) as precio_min,
               MAX(Precio_unitario) as precio_max
        FROM {table_name}
        GROUP BY Categor√≠a
        ORDER BY precio_promedio DESC
        """

    # Query general
    select_cols = ', '.join(cols_relevantes[:3]) if cols_relevantes else '*'
    return f"SELECT {select_cols} FROM {table_name} LIMIT 15"

def execute_query(sql):
    """Ejecuta consulta SQL y retorna resultados
    Diferencia vs RAG normal: ejecutamos c√≥digo contra DB real, no solo texto"""
    global conn

    if conn is None:
        return "Error: Base de datos no inicializada", pd.DataFrame()

    try:
        sql_clean = ' '.join(line.strip() for line in sql.strip().split('\n') if line.strip())
        print(f"Ejecutando SQL: {sql_clean}")
        resultado = pd.read_sql_query(sql_clean, conn)
        return sql_clean, resultado
    except Exception as e:
        print(f"Error SQL: {e}")
        try:
            sql_simple = f"SELECT * FROM {table_name} LIMIT 10"
            resultado = pd.read_sql_query(sql_simple, conn)
            return sql_simple, resultado
        except Exception as e2:
            print(f"Error en consulta simple: {e2}")
            return "Error", pd.DataFrame()

def generate_answer(query, sql_executed, data):
    """Genera respuesta usando Groq API con los datos encontrados
    Contexto especial: incluye SQL ejecutado + estad√≠sticas calculadas autom√°ticamente"""
    if data.empty:
        return "No se encontraron datos para esta consulta."

    # Crear contexto con estad√≠sticas autom√°ticas
    context = f"""Pregunta: {query}
SQL ejecutado: {sql_executed}
Resultados: {len(data)} filas encontradas

"""

    # Agregar estad√≠sticas de columnas num√©ricas
    cols_numericas = data.select_dtypes(include=[np.number]).columns
    if len(cols_numericas) > 0:
        context += "Estad√≠sticas calculadas:\n"
        for col in cols_numericas[:3]:
            context += f"- {col}: total={data[col].sum():.2f}, promedio={data[col].mean():.2f}, m√°ximo={data[col].max():.2f}\n"
        context += "\n"

    context += "Datos encontrados:\n"
    context += data.to_string(index=False)

    # Generar respuesta con Groq
    prompt = f"""Analiza estos datos y responde de forma clara y espec√≠fica:

{context}

Instrucciones:
- Responde bas√°ndote √öNICAMENTE en los datos mostrados
- Da n√∫meros exactos y estad√≠sticas precisas
- Responde en espa√±ol de forma profesional
- Si hay un ranking, muestra los top 3-5 elementos

Pregunta: {query}"""

    try:
        response = client.chat.completions.create(
            model="llama3-8b-8192",
            messages=[{"role": "user", "content": prompt}],
            max_tokens=400
        )
        return response.choices[0].message.content
    except Exception as e:
        return f"Error generando respuesta: {e}"

def inicializar_rag():
    """Inicializa el sistema RAG cargando base de datos"""
    print("Iniciando sistema RAG...")

    # Crear carpeta si no existe
    os.makedirs(folder_path, exist_ok=True)

    if load_database(folder_path):
        print("Sistema RAG listo para consultas.")
        return True
    else:
        print("Error iniciando RAG.")
        return False

# Inicializaci√≥n del sistema
inicializar_rag()

# BLOQUE DE INFERENCIA - Ejecutar por separado
query = "¬øcu√°les son los productos m√°s vendidos?"  # Cambia tu pregunta aqu√≠
sql = generate_sql(query)
sql_executed, data = execute_query(sql)
respuesta = generate_answer(query, sql_executed, data)
print(f"Pregunta: {query}")
print(f"SQL: {sql_executed}")
print(f"Respuesta: {respuesta}")

In [None]:
# BLOQUE DE INFERENCIA - Ejecutar por separado
query = "¬øcu√°l es el m√©todo de pago m√°s com√∫n?"
sql = generate_sql(query)
sql_executed, data = execute_query(sql)
respuesta = generate_answer(query, sql_executed, data)
print(f"Pregunta: {query}")
print(f"SQL: {sql_executed}")
print(f"Respuesta: {respuesta}")

In [None]:
# BLOQUE DE INFERENCIA - Ejecutar por separado
query = "¬øcu√°l producto genera m√°s ingresos?"
sql = generate_sql(query)
sql_executed, data = execute_query(sql)
respuesta = generate_answer(query, sql_executed, data)
print(f"Pregunta: {query}")
print(f"SQL: {sql_executed}")
print(f"Respuesta: {respuesta}")