<a href="https://colab.research.google.com/github/CENFARG/Excel_IA_Interprete/blob/main/excelIAPandas_OPENAI_v02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# -*- coding: utf-8 -*-
"""excelIAPandas_OPENAI_v02.ipynb

Dev: Gonzalo F. Recalde
Empresa: CENF www.cenfarg.com
email: capacitaciones.cenf@gmail.com
Coautor: Pablo A. Bonnecaze

La API de OPen IA tiene 1Millon de tokes de uso, luego se bloqueara.

"""

!pip install langchain-community gradio pandas matplotlib openpyxl tabulate langchain-openai langchain-experimental

import gradio as gr
import pandas as pd
import os
import json
import traceback
import datetime
import matplotlib.pyplot as plt
import io
import base64
from langchain_openai import ChatOpenAI
from langchain_experimental.agents.agent_toolkits import create_pandas_dataframe_agent
from langchain.agents.agent_types import AgentType
from langchain.prompts import PromptTemplate
from langchain.output_parsers import PandasDataFrameOutputParser

# Variables globales
history = []  # Lista de mensajes en formato {role, content}
last_df = None  # DataFrame global para uso en varias funciones

def setup_agent(api_key, file):
    print("[INFO] Configurando agente...")
    os.environ["OPENAI_API_KEY"] = api_key

    if file is None:
        raise ValueError("No se ha proporcionado un archivo válido.")

    df = pd.read_excel(file.name) if hasattr(file, 'name') else pd.read_excel(file)
    print(f"[INFO] Archivo cargado: {file.name if hasattr(file, 'name') else 'Archivo subido'}, Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

    model = "gpt-4o-mini"
    llm_model = ChatOpenAI(model=model, temperature=0, verbose=True, streaming=True)

    # Crear un agente mejorado con más opciones
    agent = create_pandas_dataframe_agent(
        llm=llm_model,
        df=df,
        verbose=True,
        agent_type=AgentType.OPENAI_FUNCTIONS,
        return_intermediate_steps=True,
        allow_dangerous_code=True,
        # handle_parsing_errors=True
    )
    return agent, df, llm_model

def clean_code(code):
    # Si el código contiene bloques de código markdown
    if "```" in code:
        parts = code.split("```")
        for part in parts:
            if "df[" in part or "df." in part or "pivot_table" in part:
                code = part.strip()
                # Eliminar etiqueta de lenguaje
                if code.startswith("python"):
                    code = code[6:].strip()
                break

    # Eliminar comentarios y líneas vacías
    cleaned_lines = []
    for line in code.split("\n"):
        if line.strip() and not line.strip().startswith("#"):
            cleaned_lines.append(line)

    return "\n".join(cleaned_lines)

def query_agent(api_key, file, query, send_full_history):
    global history, last_df
    print(f"[INFO] Prompt del usuario para consulta común: {query}")
    excel_path = None

    if not api_key or file is None:
        print("[ERROR] Falta API Key o archivo")
        return [], None, ""

    try:
        print(f"[INFO] Recibida consulta: {query}")
        agent, df, llm_model = setup_agent(api_key, file)
        last_df = df

        # Preparar contexto con historial si es necesario
        if send_full_history and history:
            context = "Historial de conversación:\n"
            for i in range(0, len(history), 2):
                if i+1 < len(history):
                    context += f"Usuario: {history[i]['content']}\n"
                    context += f"Asistente: {history[i+1]['content']}\n\n"
            context += "Nueva consulta: " + query
            print(f"[INFO] Enviando consulta con contexto completo")

            # Crear un prompt template para incluir el contexto
            prompt_template = PromptTemplate(
                template="Eres un asistente experto en análisis de datos. Analiza el siguiente DataFrame y responde a la consulta del usuario.\n\nContexto previo:\n{context}\n\nConsulta: {query}\n\nAsegúrate de proporcionar respuestas claras y concisas, con datos numéricos cuando sea relevante.",
                input_variables=["context", "query"]
            )

            # Usar el prompt template
            formatted_prompt = prompt_template.format(context=context, query=query)
            response = agent.invoke(formatted_prompt)
        else:
            # Crear un prompt template para consultas individuales
            prompt_template = PromptTemplate(
                template="Eres un asistente experto en análisis de datos. Analiza el siguiente DataFrame y responde a la consulta del usuario.\n\nConsulta: {query}\n\nAsegúrate de proporcionar respuestas claras y concisas, con datos numéricos cuando sea relevante.",
                input_variables=["query"]
            )

            # Usar el prompt template
            formatted_prompt = prompt_template.format(query=query)
            response = agent.invoke(formatted_prompt)

        if isinstance(response, dict) and "output" in response:
            response = response["output"]

        # Generar Excel para consultas que impliquen mostrar datos
        if "mostrar" in query.lower() or "listar" in query.lower() or "obtener" in query.lower():
            try:
                if "primeras" in query.lower() or "primeros" in query.lower():
                    n = int(''.join(filter(str.isdigit, query.split("primeras")[1].split()[0])))
                    result_df = df.head(n)
                elif "últimas" in query.lower() or "ultimas" in query.lower():
                    n = int(''.join(filter(str.isdigit, query.split("últimas")[1].split()[0])))
                    result_df = df.tail(n)
                else:
                    result_df = df.head(10)

                excel_path = "resultados.xlsx"
                result_df.to_excel(excel_path, index=False)
                print(f"[INFO] Archivo Excel generado: {excel_path}")
            except Exception as e:
                print(f"[ERROR] No se pudo generar Excel: {str(e)}")

        # Si la respuesta es un DataFrame
        if isinstance(response, pd.DataFrame):
            excel_path = "resultados.xlsx"
            response.to_excel(excel_path, index=False)
            response_text = response.to_string(index=False)

            # Actualizar historial con formato correcto
            new_messages = [
                {"role": "user", "content": query},
                {"role": "assistant", "content": response_text}
            ]
            history.extend(new_messages)
            # Devolver todo el historial en lugar de solo los nuevos mensajes
            return history, excel_path, ""

        # Respuesta normal
        new_messages = [
            {"role": "user", "content": query},
            {"role": "assistant", "content": response}
        ]
        history.extend(new_messages)
        print(f"[INFO] Respuesta generada: {response}")
        return new_messages, excel_path, ""

    except Exception as e:
        print("[ERROR] Se produjo un error en la consulta")
        traceback.print_exc()
        new_messages = [
            {"role": "user", "content": query},
            {"role": "assistant", "content": f"Error: {str(e)}"}
        ]
        history.extend(new_messages)
        return new_messages, None, ""

def save_conversation():
    global history
    if not history:
        return None

    timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
    file_path = f"historial_conversacion_{timestamp}.txt"

    conversation = ""
    for i in range(0, len(history), 2):
        if i+1 < len(history):
            conversation += f"Usuario: {history[i]['content']}\n"
            conversation += f"Asistente: {history[i+1]['content']}\n---\n"

    with open(file_path, "w", encoding="utf-8") as f:
        f.write(conversation)
    print(f"[INFO] Conversación guardada en {file_path}")
    return file_path

def generate_default_excel():
    global last_df
    if last_df is None:
        return None

    excel_path = "resultados_default.xlsx"
    last_df.head(5).to_excel(excel_path, index=False)
    print(f"[INFO] Archivo Excel generado por defecto: {excel_path}")
    return excel_path

def generate_data_profile(file, api_key, additional_info):
    global history
    print(f"[INFO] Prompt del usuario para perfil de datos: Generar perfil")
    print(f"[INFO] Información adicional: {additional_info}")
    if file is None:
        return [], None

    try:
        # Cargar el DataFrame
        _, df, llm_model = setup_agent(api_key, file)

        # Crear un prompt template para incluir la información adicional
        # Obtener información detallada sobre las columnas
        column_info = {col: {
            'dtype': str(df[col].dtype),
            'n_unique': df[col].nunique(),
            'n_missing': df[col].isnull().sum(),
            'is_numeric': pd.api.types.is_numeric_dtype(df[col])
        } for col in df.columns}

        prompt_template = PromptTemplate(
            template="""Eres un experto en análisis de datos y visualización.

            Tengo un DataFrame con la siguiente información de columnas:
            {column_details}

            El usuario ha solicitado lo siguiente:
            "{additional_info}"

            Genera un análisis detallado que tenga en cuenta las necesidades específicas del usuario.
            Incluye recomendaciones sobre:
            1. Qué columnas son más relevantes según la solicitud del usuario
            2. Qué análisis estadísticos específicos serían más útiles
            3. Si se detectan problemas de calidad en los datos que afecten al análisis
            4. Sugerencias de visualizaciones o análisis adicionales

            Estructura tu respuesta en secciones claramente definidas.""",
            input_variables=["column_details", "additional_info"]
        )

        # Formatear el prompt con información detallada
        formatted_prompt = prompt_template.format(
            column_details="\n".join(
                f"- {col}: tipo={info['dtype']}, valores únicos={info['n_unique']}, "
                f"valores nulos={info['n_missing']}, es_numérico={info['is_numeric']}"
                for col, info in column_info.items()
            ),
            additional_info=additional_info
        )

        # Enviar el prompt al modelo y obtener respuesta
        response = llm_model.invoke(formatted_prompt)
        analysis_text = response.content
        print(f"[INFO] Análisis del modelo: {analysis_text}")

        # Preparar análisis estadístico personalizado basado en la respuesta del modelo
        stats = pd.DataFrame()

        # Determinar columnas numéricas y categóricas
        numeric_cols = df.select_dtypes(include=['number']).columns
        categorical_cols = df.select_dtypes(include=['object', 'category']).columns

        # Estadísticas básicas para columnas numéricas
        if not numeric_cols.empty:
            stats = pd.concat([stats, df[numeric_cols].describe()], axis=1)

        # Estadísticas para columnas categóricas
        if not categorical_cols.empty:
            cat_stats = pd.DataFrame({
                col: {
                    'unique_count': df[col].nunique(),
                    'top_value': df[col].mode()[0] if not df[col].empty else None,
                    'top_freq': df[col].value_counts().iloc[0] if not df[col].empty else 0,
                    'null_count': df[col].isnull().sum()
                } for col in categorical_cols
            })
            stats = pd.concat([stats, cat_stats], axis=1)

        # Información sobre valores nulos
        null_counts = df.isnull().sum()
        null_percentage = (null_counts / len(df)) * 100
        null_info = pd.DataFrame({
            'Valores Nulos': null_counts,
            '% Nulos': null_percentage
        })

        # Tipos de datos
        dtypes = pd.DataFrame(df.dtypes, columns=['Tipo de Dato'])

        # Unir toda la información
        profile_data = pd.concat([dtypes, null_info], axis=1)

        # Generar Excel con el perfil mejorado
        profile_path = "perfil_datos.xlsx"
        with pd.ExcelWriter(profile_path) as writer:
            # Hoja principal con el análisis del modelo
            pd.DataFrame({
                'Análisis del Modelo': analysis_text.split('\n')
            }).to_excel(writer, sheet_name='Análisis', index=False)

            # Información de columnas con detalles
            column_details = pd.DataFrame(column_info).T
            column_details.index.name = 'Columna'
            column_details.to_excel(writer, sheet_name='Información Columnas')

            # Estadísticas
            stats.to_excel(writer, sheet_name='Estadísticas')

            # Correlaciones para columnas numéricas si existen
            if len(numeric_cols) > 1:
                df[numeric_cols].corr().to_excel(writer, sheet_name='Correlaciones')

            # Muestra de datos
            df.head(10).to_excel(writer, sheet_name='Muestra')

        if analysis_text == "":
            analysis_text = "No se proporcionaron condiciones adicionales para el análisis personalizado."

        # Generar texto descriptivo mejorado
        # Análisis detallado de tipos de datos
        dtypes_summary = df.dtypes.value_counts().to_dict()
        dtype_info = "\n".join([f"- **{dtype}**: {count} columnas" for dtype, count in dtypes_summary.items()])

        # Análisis de valores únicos para columnas categóricas
        categorical_info = []
        if not categorical_cols.empty:
            for col in categorical_cols[:5]:  # Limitamos a 5 columnas para no sobrecargar
                unique_values = df[col].nunique()
                total_values = len(df)
                categorical_info.append(
                    f"- **{col}**: {unique_values} valores únicos "
                    f"({(unique_values/total_values*100):.1f}% de cardinalidad)"
                )

        # Análisis de rangos para columnas numéricas
        numeric_info = []
        if not numeric_cols.empty:
            for col in numeric_cols[:5]:  # Limitamos a 5 columnas para no sobrecargar
                stats = df[col].describe()
                numeric_info.append(
                    f"- **{col}**: rango [{stats['min']:.2f} - {stats['max']:.2f}], "
                    f"media: {stats['mean']:.2f}, mediana: {stats['50%']:.2f}"
                )

        # Identificar columnas con más valores nulos
        null_cols = df.isnull().sum()
        problematic_cols = null_cols[null_cols > 0].sort_values(ascending=False)
        null_info = []
        if not problematic_cols.empty:
            for col, nulls in problematic_cols.items():
                percentage = (nulls / len(df)) * 100
                if percentage > 5:  # Solo mostrar columnas con más del 5% de nulos
                    null_info.append(f"- **{col}**: {nulls} nulos ({percentage:.1f}%)")

        summary = [
            f"### Perfil de datos para {len(df):,} filas y {len(df.columns)} columnas",
            "",
            "#### Resumen General:",
            f"- **Dimensiones**: {df.shape[0]:,} × {df.shape[1]} (filas × columnas)",
            f"- **Tipos de datos**:\n{dtype_info}",
            f"- **Valores nulos totales**: {df.isnull().sum().sum():,} ({df.isnull().sum().sum() / (df.shape[0] * df.shape[1]):.2%})",
        ]

        if null_info:
            summary.extend([
                "",
                "#### Columnas con Valores Nulos Significativos:",
                *null_info
            ])

        if numeric_info:
            summary.extend([
                "",
                "#### Resumen de Columnas Numéricas Principales:",
                *numeric_info
            ])

        if categorical_info:
            summary.extend([
                "",
                "#### Resumen de Columnas Categóricas Principales:",
                *categorical_info
            ])

        summary.extend([
            "",
            "#### Análisis Personalizado:",
            analysis_text,
            "",
            "Se ha generado un archivo Excel con el perfil completo de los datos y análisis detallados."
        ])

        message = "\n".join(summary)
        new_messages = [
            {"role": "user", "content": "Generar perfil de datos"},
            {"role": "assistant", "content": message}
        ]
        history.extend(new_messages)
        return new_messages, profile_path

    except Exception as e:
        traceback.print_exc()
        new_messages = [
            {"role": "user", "content": "Generar perfil de datos"},
            {"role": "assistant", "content": f"Error: {str(e)}"}
        ]
        history.extend(new_messages)
        return new_messages, None

def compare_columns(file, api_key, col1, col2, additional_conditions):
    global history
    print(f"[INFO] Prompt del usuario para comparador de columnas: Comparar {col1} y {col2}")
    print(f"[INFO] Condiciones adicionales: {additional_conditions}")
    if file is None:
        return [], None

    try:
        # Cargar el DataFrame
        _, df, _ = setup_agent(api_key, file)

        if col1 not in df.columns or col2 not in df.columns:
            error_msg = f"Error: Una o ambas columnas ({col1}, {col2}) no están en el dataset"
            new_messages = [
                {"role": "user", "content": f"Comparar columnas '{col1}' y '{col2}'"},
                {"role": "assistant", "content": error_msg}
            ]
            history.extend(new_messages)
            return new_messages, None

        # Verificar si ambas columnas son numéricas
        numeric_comparison = pd.api.types.is_numeric_dtype(df[col1]) and pd.api.types.is_numeric_dtype(df[col2])

        # Calcular correlación si son numéricas
        if numeric_comparison:
            correlation = df[col1].corr(df[col2])
        else:
            correlation = None

        # Generar gráfico
        plt.figure(figsize=(10, 6))
        if numeric_comparison:
            plt.scatter(df[col1], df[col2], alpha=0.5)
            plt.title(f"Relación entre {col1} y {col2}")
            plt.xlabel(col1)
            plt.ylabel(col2)
            plt.grid(True, alpha=0.3)
        else:
            # Para columnas categóricas o mixtas
            cross_tab = pd.crosstab(df[col1], df[col2])
            cross_tab.plot(kind='bar', stacked=True)
            plt.title(f"Distribución de {col2} por {col1}")
            plt.xticks(rotation=45)
            plt.legend(title=col2)

        # Convertir gráfico a imagen
        buf = io.BytesIO()
        plt.tight_layout()
        plt.savefig(buf, format='png', dpi=100)
        buf.seek(0)
        img_str = base64.b64encode(buf.read()).decode('utf-8')
        plt.close()

        # Generar estadísticas
        stats = []
        stats.append(f"### Comparación entre '{col1}' y '{col2}'")

        if numeric_comparison:
            stats.append(f"**Correlación**: {correlation:.4f}")
            stats.append(f"**Valores únicos en '{col1}'**: {df[col1].nunique()}")
            stats.append(f"**Valores únicos en '{col2}'**: {df[col2].nunique()}")
        else:
            stats.append(f"**Valores únicos en '{col1}'**: {df[col1].nunique()}")
            stats.append(f"**Valores únicos en '{col2}'**: {df[col2].nunique()}")
            stats.append("*No se puede calcular correlación entre variables no numéricas*")

        # Generar Excel con datos de comparación
        comparison_path = "comparacion_columnas.xlsx"
        with pd.ExcelWriter(comparison_path) as writer:
            if numeric_comparison:
                df[[col1, col2]].describe().to_excel(writer, sheet_name='Estadísticas')

            # Tabla de contingencia
            pd.crosstab(df[col1], df[col2]).to_excel(writer, sheet_name='Tabla Cruzada')

            # Muestra de datos
            df[[col1, col2]].head(100).to_excel(writer, sheet_name='Muestra')

        message = "\n".join(stats) + f"\n\n![Comparación](data:image/png;base64,{img_str})"
        new_messages = [
            {"role": "user", "content": f"Comparar columnas '{col1}' y '{col2}'"},
            {"role": "assistant", "content": message}
        ]
        history.extend(new_messages)
        return history, comparison_path

    except Exception as e:
        traceback.print_exc()
        new_messages = [
            {"role": "user", "content": f"Comparar columnas '{col1}' y '{col2}'"},
            {"role": "assistant", "content": f"Error: {str(e)}"}
        ]
        history.extend(new_messages)
        # Devolver todo el historial en lugar de solo los nuevos mensajes
        return history, None

def advanced_search(file, api_key, query):
    global history
    print(f"[INFO] Prompt del usuario para búsqueda avanzada: {query}")
    if file is None:
        return [], None

    try:
        # Cargar el DataFrame
        _, df, llm_model = setup_agent(api_key, file)

        os.environ["OPENAI_API_KEY"] = api_key

        # Usar PromptTemplate para mejorar la generación de código
        prompt_template = PromptTemplate(
            template="""Eres un experto en pandas y análisis de datos.

            Estoy trabajando con un DataFrame de pandas con estas columnas: {columns}

            Quiero buscar datos que cumplan con lo siguiente: "{query}"

            Genera solo el código Python que usaría para filtrar el DataFrame (df) basado en esta consulta.
            El resultado debe ser una condición booleana que se pueda usar en df[...] para filtrar el DataFrame.
            IMPORTANTE: NO uses triple backticks ni etiquetas de lenguaje. Devuelve SOLO el código Python puro.""",
            input_variables=["columns", "query"]
        )

        formatted_prompt = prompt_template.format(
            columns=", ".join(df.columns.tolist()),
            query=query
        )

        response = llm_model.invoke(formatted_prompt)
        raw_code = response.content.strip()
        filter_code = clean_code(raw_code)

        print(f"[INFO] Código filtro limpio: {filter_code}")

        # Si la consulta es solo para mostrar filas, usamos head()
        if "primeras" in query.lower() and "filas" in query.lower():
            try:
                n = int(''.join(filter(str.isdigit, query)))
                n = n if n > 0 else 10
                filtered_df = df.head(n)
            except:
                filtered_df = df.head(10)  # valor por defecto
        else:
            # Intentar ejecutar el código directamente
            try:
                # Si el código comienza con df[
                if filter_code.startswith("df["):
                    filtered_df = eval(filter_code)
                # Si es solo una condición
                elif ">" in filter_code or "<" in filter_code or "==" in filter_code or ".str" in filter_code:
                    filtered_df = df[eval(filter_code)]
                else:
                    # Último recurso: ejecutar como está
                    filtered_df = eval(f"df[{filter_code}]")
            except Exception as e:
                print(f"[ERROR] Error al filtrar: {str(e)}")
                # Intentar una búsqueda simple por defecto
                if any(col in query.lower() for col in [c.lower() for c in df.columns]):
                    for col in df.columns:
                        if col.lower() in query.lower():
                            search_term = query.lower().split(col.lower())[1].strip()
                            if search_term:
                                filtered_df = df[df[col].astype(str).str.contains(search_term, case=False)]
                                break
                else:
                    # Si todo falla, mostrar las primeras 10 filas
                    filtered_df = df.head(10)

        # Generar Excel con resultados
        result_path = "resultados_busqueda.xlsx"
        filtered_df.to_excel(result_path, index=False)

        message = f"Se encontraron {len(filtered_df)} registros que coinciden con la búsqueda.\n\nConsulta: '{query}'"
        new_messages = [
            {"role": "user", "content": f"Buscar '{query}'"},
            {"role": "assistant", "content": message}
        ]
        history.extend(new_messages)
        # Devolver todo el historial en lugar de solo los nuevos mensajes
        return history, result_path

    except Exception as e:
        traceback.print_exc()
        new_messages = [
            {"role": "user", "content": f"Buscar '{query}'"},
            {"role": "assistant", "content": f"Error: {str(e)}"}
        ]
        history.extend(new_messages)
        return new_messages, None

def natural_filter(file, api_key, filter_query):
    global history
    print(f"[INFO] Prompt del usuario para filtro natural: {filter_query}")
    if file is None:
        return [], None

    try:
        # Cargar el DataFrame
        _, df, llm_model = setup_agent(api_key, file)

        os.environ["OPENAI_API_KEY"] = api_key

        # Usar PromptTemplate para mejorar la generación de código
        prompt_template = PromptTemplate(
            template="""Eres un experto en pandas y análisis de datos.

            Tengo un DataFrame de pandas con estas columnas:
            {column_info}

            Aquí hay una muestra de los primeros registros:
            {data_sample}

            Quiero filtrar los datos según este criterio expresado en lenguaje natural:
            "{filter_query}"

            Genera el código Python que filtraría el DataFrame (df).
            Asegúrate de que el código sea válido y completo.
            IMPORTANTE: NO uses triple backticks ni etiquetas de lenguaje. Devuelve SOLO el código Python puro.""",
            input_variables=["column_info", "data_sample", "filter_query"]
        )

        formatted_prompt = prompt_template.format(
            column_info="\n".join([f"- {col} ({df[col].dtype})" for col in df.columns]),
            data_sample=df.head(3).to_string(),
            filter_query=filter_query
        )

        response = llm_model.invoke(formatted_prompt)
        raw_code = response.content.strip()
        filter_code = clean_code(raw_code)

        print(f"[INFO] Código filtro limpio: {filter_code}")

        # Manejar casos específicos comunes
        if "salidas" in filter_query.lower() and "mayor" in filter_query.lower():
            # Extraer el valor numérico
            import re
            numbers = re.findall(r'\d+', filter_query)
            if numbers:
                value = int(numbers[0])
                if "m" in filter_query.lower() or "millones" in filter_query.lower():
                    value *= 1_000_000
                result_df = df[df['SALIDAS'] > value]
            else:
                result_df = df[df['SALIDAS'] > df['SALIDAS'].median()]
        elif "ingresos" in filter_query.lower() and "mayor" in filter_query.lower():
            # Extraer el valor numérico
            import re
            numbers = re.findall(r'\d+', filter_query)
            if numbers:
                value = int(numbers[0])
                if "m" in filter_query.lower() or "millones" in filter_query.lower():
                    value *= 1_000_000
                result_df = df[df['INGRESOS'] > value]
            else:
                result_df = df[df['INGRESOS'] > df['INGRESOS'].median()]
        else:
            # Intentar ejecutar el código directamente
            try:
                # Si el código comienza con df[
                if filter_code.startswith("df["):
                    result_df = eval(filter_code)
                # Si es solo una condición
                elif ">" in filter_code or "<" in filter_code or "==" in filter_code or ".str" in filter_code:
                    result_df = df[eval(filter_code)]
                else:
                    # Último recurso: ejecutar como está
                    result_df = eval(f"df[{filter_code}]")
            except Exception as e:
                print(f"[ERROR] Error al filtrar: {str(e)}")
                # Intentar una búsqueda simple por defecto
                if any(col.lower() in filter_query.lower() for col in df.columns):
                    for col in df.columns:
                        if col.lower() in filter_query.lower():
                            if "mayor" in filter_query.lower():
                                result_df = df[df[col] > df[col].median()]
                            elif "menor" in filter_query.lower():
                                result_df = df[df[col] < df[col].median()]
                            else:
                                result_df = df[df[col].notna()]
                            break
                else:
                    # Si todo falla, mostrar las primeras 10 filas
                    result_df = df.head(10)

        # Generar Excel con resultados
        result_path = "datos_filtrados.xlsx"
        result_df.to_excel(result_path, index=False)

        message = f"Filtro aplicado: '{filter_query}'\n\nResultado: {len(result_df)} filas cumplen la condición."
        new_messages = [
            {"role": "user", "content": f"Filtrar '{filter_query}'"},
            {"role": "assistant", "content": message}
        ]
        history.extend(new_messages)
        # Devolver todo el historial en lugar de solo los nuevos mensajes
        return history, result_path

    except Exception as e:
        traceback.print_exc()
        new_messages = [
            {"role": "user", "content": f"Filtrar '{filter_query}'"},
            {"role": "assistant", "content": f"Error: {str(e)}"}
        ]
        history.extend(new_messages)
        # Devolver todo el historial en lugar de solo los nuevos mensajes
        return history, None

def generate_pivot_table(file, api_key, pivot_query):
    global history
    print(f"[INFO] Prompt del usuario para tabla dinámica: {pivot_query}")
    if file is None:
        return [], None

    try:
        # Cargar el DataFrame y configurar el modelo
        _, df, llm_model = setup_agent(api_key, file)
        os.environ["OPENAI_API_KEY"] = api_key

        # Identificar columnas numéricas y categóricas
        numeric_cols = df.select_dtypes(include=['number']).columns.tolist()
        categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()

        tabla_dinamica = None  # Variable para almacenar el resultado final

        try:
            # Generar y limpiar el código para la tabla dinámica
            prompt_template = PromptTemplate(
                template="""Eres un experto en pandas y análisis de datos.
                Tengo un DataFrame de pandas con estas columnas:
                Numéricas: {numeric_cols}
                Categóricas: {categorical_cols}

                Quiero crear una tabla dinámica basada en esta descripción:
                "{pivot_query}"

                Genera el código Python usando df.pivot_table().
                IMPORTANTE: NO uses triple backticks. Devuelve SOLO el código Python puro.""",
                input_variables=["numeric_cols", "categorical_cols", "pivot_query"]
            )

            formatted_prompt = prompt_template.format(
                numeric_cols=", ".join(numeric_cols) if numeric_cols else "No hay columnas numéricas",
                categorical_cols=", ".join(categorical_cols) if categorical_cols else "No hay columnas categóricas",
                pivot_query=pivot_query
            )

            response = llm_model.invoke(formatted_prompt)
            pivot_code = clean_code(response.content.strip())
            print(f"[INFO] Código tabla dinámica limpio: {pivot_code}")

            # Ejecutar el código generado
            local_vars = {'df': df, 'pd': pd}
            if "=" in pivot_code:
                exec(pivot_code, globals(), local_vars)
                result_var = pivot_code.split('=')[0].strip()
                tabla_dinamica = local_vars[result_var]
            else:
                tabla_dinamica = eval(pivot_code, globals(), {'df': df, 'pd': pd})

        except Exception as code_error:
            print(f"[ERROR] Error al ejecutar código generado: {str(code_error)}")

            # Crear tabla dinámica automática si falla el código generado
            print("[INFO] Intentando crear tabla dinámica automática...")

            values = []
            if 'ingresos' in pivot_query.lower():
                values.append('INGRESOS')
            if 'salidas' in pivot_query.lower():
                values.append('SALIDAS')
            if not values and numeric_cols:
                values = [numeric_cols[0]]

            index = None
            for col in categorical_cols:
                if col.upper() in pivot_query.upper():
                    index = col
                    break
            if not index and categorical_cols:
                index = categorical_cols[0]

            if not values or not index:
                raise ValueError("No se pudieron determinar las columnas para la tabla dinámica")

            agg_func = 'sum' if 'sum' in pivot_query.lower() or 'total' in pivot_query.lower() else 'mean'

            tabla_dinamica = df.pivot_table(
                values=values,
                index=index,
                aggfunc=agg_func
            )

        # Generar Excel con el resultado
        result_path = "tabla_dinamica.xlsx"
        tabla_dinamica.to_excel(result_path)

        # Generar mensaje de respuesta
        summary = f"### Tabla dinámica creada: '{pivot_query}'\n\n"
        summary += f"Dimensiones: {tabla_dinamica.shape[0]} filas × {tabla_dinamica.shape[1]} columnas\n\n"

        if tabla_dinamica.shape[0] <= 10 and tabla_dinamica.shape[1] <= 5:
            summary += "Vista previa:\n\n```\n" + tabla_dinamica.to_string() + "\n```"
        else:
            summary += "La tabla es demasiado grande para mostrarla completa. Se ha generado un archivo Excel con los resultados."

        new_messages = [
            {"role": "user", "content": f"Crear tabla dinámica '{pivot_query}'"},
            {"role": "assistant", "content": summary}
        ]
        history.extend(new_messages)
        # Devolver todo el historial en lugar de solo los nuevos mensajes
        return history, result_path

    except Exception as e:
        error_msg = f"Error al crear tabla dinámica: {str(e)}"
        print(f"[ERROR] {error_msg}")
        traceback.print_exc()
        new_messages = [
            {"role": "user", "content": f"Crear tabla dinámica '{pivot_query}'"},
            {"role": "assistant", "content": error_msg}
        ]
        history.extend(new_messages)
        # Devolver todo el historial en lugar de solo los nuevos mensajes
        return history, None

def set_query(selected):
    return selected

# Actualizar las opciones de columnas cuando se carga un archivo
def update_column_options(file, api_key):
    print("[INFO] Actualizando opciones de columnas...")
    if file is None:
        print("[INFO] No hay archivo seleccionado")
        return gr.update(choices=[]), gr.update(choices=[]), "Por favor, seleccione un archivo Excel"

    if not api_key:
        print("[INFO] No se proporcionó API key")
        return gr.update(choices=[]), gr.update(choices=[]), "Por favor, ingrese su API key"

    try:
        # Configurar el agente y cargar el DataFrame
        _, df, _ = setup_agent(api_key, file)

        # Obtener la lista de columnas
        column_list = df.columns.tolist()
        print(f"[INFO] Columnas detectadas: {column_list}")

        # Generar descripciones de columnas
        column_descriptions = [f"{col} ({df[col].dtype})" for col in column_list]

        # Actualizar las opciones de los combobox
        message = f"Se detectaron {len(column_list)} columnas en el archivo"
        return gr.update(choices=column_descriptions), gr.update(choices=column_descriptions), message

    except Exception as e:
        error_msg = f"Error al cargar columnas: {str(e)}"
        print(f"[ERROR] {error_msg}")
        return gr.update(choices=[]), gr.update(choices=[]), error_msg

# Interfaz de Gradio
with gr.Blocks() as demo:
    gr.Markdown("# Chatbot para análisis de datos con IA")

    with gr.Row():
        with gr.Column(scale=2):
            api_key = gr.Textbox(
                label="OpenAI API Key",
                type="password",
                value="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"
            )
            file = gr.File(label="Subir Excel")

        with gr.Column(scale=1):
            send_full_history = gr.Checkbox(
                label="Enviar toda la conversación al modelo",
                value=True,
                info="Al activar esta opción, el modelo tendrá en cuenta todo el historial de la conversación para dar respuestas más contextualizadas. Esto mejora la coherencia pero puede aumentar el tiempo de respuesta."
            )

    # Chatbot principal - Usando el formato correcto de mensajes
    chatbot = gr.Chatbot(label="Conversación", elem_id="chatbot", height=400, type="messages")

    with gr.Row():
        query = gr.Textbox(label="Escribe tu consulta", interactive=True, show_label=False,
                          placeholder="Escribe tu mensaje...")
        btn_query = gr.Button("Enviar")

    # Herramientas principales
    with gr.Row():
        query_templates = gr.Dropdown(
            choices=[
                "Mostrar las primeras 10 filas",
                "Calcular el resultado promedio por categoría",
                "Mostrar los 5 registros con mayor valor",
                "Identificar valores atípicos",
                "Calcular la suma total por columna",
                "¿Cuál es la relación entre dos columnas?",
                "Genera un resumen estadístico"
            ],
            label="Consultas comunes",
            allow_custom_value=True  # Permitir valores personalizados
        )

    # Herramientas avanzadas en pestañas
    tabs = gr.Tabs()
    with tabs:
        with gr.Tab("Perfil de Datos"):
            with gr.Row():
                with gr.Column():
                    btn_profile = gr.Button("Generar Perfil de Datos")
                    additional_info = gr.Textbox(label="Características adicionales", placeholder="Ej: Incluir estadísticas de columnas específicas")
                with gr.Column():
                    gr.Markdown("""
                    **Perfil de datos rápido**: Genera un análisis completo del Excel, incluyendo estadísticas, valores nulos y tipos de datos, exportándolos en un archivo Excel bien estructurado.
                    """)

        comparison_tab = gr.Tab("Comparador de Columnas")
        with comparison_tab:
            with gr.Row():
                with gr.Column():
                    # Configurar los combobox para que sean dinámicos
                    col1_dropdown = gr.Dropdown(label="Columna 1", choices=[], value=None, interactive=True)
                    col2_dropdown = gr.Dropdown(label="Columna 2", choices=[], value=None, interactive=True)
                    additional_conditions = gr.Textbox(label="Condiciones adicionales", placeholder="Ej: Filtrar por valores mayores a 1000")
                    btn_compare = gr.Button("Comparar Columnas")
                with gr.Column():
                    gr.Markdown("""
                    **Comparador de columnas**: Permite seleccionar dos columnas cualquiera del Excel y muestra su relación estadística, incluyendo correlación (para numéricas) o tablas cruzadas (para categóricas), con visualizaciones.
                    """)

        with gr.Tab("Buscador Avanzado"):
            with gr.Row():
                with gr.Column():
                    search_query = gr.Textbox(label="¿Qué estás buscando?", placeholder="Ej: Clientes con resultado mayor a 100000")
                    btn_search = gr.Button("Buscar")
                with gr.Column():
                    gr.Markdown("""
                    **Buscador avanzado**: Permite buscar en todo el Excel usando lenguaje natural. La IA traduce la consulta a código Python para encontrar exactamente lo que se necesita.
                    """)

        with gr.Tab("Filtrador Natural"):
            with gr.Row():
                with gr.Column():
                    filter_query = gr.Textbox(label="Describe tu filtro", placeholder="Ej: Donde ingresos sean mayores que salidas")
                    btn_filter = gr.Button("Aplicar Filtro")
                with gr.Column():
                    gr.Markdown("""
                    **Filtrador natural**: Similar al buscador, pero enfocado en filtrar datos según criterios complejos expresados en lenguaje cotidiano.
                    """)

        # with gr.Tab("Tabla Dinámica"):
        #     with gr.Row():
        #         with gr.Column():
        #             pivot_query = gr.Textbox(label="Describe la tabla dinámica", placeholder="Ej: Promedios de resultado por categoría de cliente")
        #             btn_pivot = gr.Button("Crear Tabla Dinámica")
        #         with gr.Column():
        #             gr.Markdown("""
        #             **Generador de tablas dinámicas**: Crea tablas dinámicas complejas a partir de descripciones en lenguaje natural, simplificando un proceso que normalmente requiere conocimiento técnico.
        #             """)

    # Botones para guardar y descargar
    with gr.Row():
        with gr.Column():
            btn_save = gr.Button("Guardar Conversación")
            download_link_txt = gr.File(label="Descargar Conversación", interactive=False)

        with gr.Column():
            btn_download_excel = gr.Button("Descargar Excel de Resultados")
            download_link_excel = gr.File(label="Descargar Resultados", interactive=False)

    # Eventos para la funcionalidad principal
    btn_query.click(query_agent,
                   inputs=[api_key, file, query, send_full_history],
                   outputs=[chatbot, download_link_excel, query])

    query.submit(query_agent,
                inputs=[api_key, file, query, send_full_history],
                outputs=[chatbot, download_link_excel, query])

    query_templates.change(set_query, inputs=[query_templates], outputs=[query])

    btn_save.click(save_conversation, outputs=[download_link_txt])

    btn_download_excel.click(generate_default_excel, outputs=[download_link_excel])

    # Eventos para las nuevas herramientas
    btn_profile.click(generate_data_profile,
                     inputs=[file, api_key, additional_info],
                     outputs=[chatbot, download_link_excel])

    # Mensaje de estado para la actualización de columnas
    column_status = gr.Textbox(label="Estado de las columnas", interactive=False)

    file.change(update_column_options,
               inputs=[file, api_key],
               outputs=[col1_dropdown, col2_dropdown, column_status])

    # Función para extraer el nombre de la columna del formato extendido
    def extract_column_name(column_desc):
        return column_desc.split(' (')[0] if column_desc else None

    def compare_columns_wrapper(file, api_key, col1_desc, col2_desc, additional_conditions):
        col1 = extract_column_name(col1_desc)
        col2 = extract_column_name(col2_desc)
        return compare_columns(file, api_key, col1, col2, additional_conditions)

    btn_compare.click(compare_columns_wrapper,
                     inputs=[file, api_key, col1_dropdown, col2_dropdown, additional_conditions],
                     outputs=[chatbot, download_link_excel])

    btn_search.click(advanced_search,
                    inputs=[file, api_key, search_query],
                    outputs=[chatbot, download_link_excel])

    btn_filter.click(natural_filter,
                    inputs=[file, api_key, filter_query],
                    outputs=[chatbot, download_link_excel])

    # btn_pivot.click(generate_pivot_table,
    #                inputs=[file, api_key, pivot_query],
    #                outputs=[chatbot, download_link_excel])

    # Evento para actualizar las columnas cuando se selecciona la pestaña del comparador
    comparison_tab.select(
        fn=update_column_options,
        inputs=[file, api_key],
        outputs=[col1_dropdown, col2_dropdown, column_status]
    )

# Lanzar la aplicación
demo.launch(debug=True)



Collecting langchain-community
  Downloading langchain_community-0.3.20-py3-none-any.whl.metadata (2.4 kB)
Collecting gradio
  Downloading gradio-5.23.1-py3-none-any.whl.metadata (16 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.3.11-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-experimental
  Downloading langchain_experimental-0.3.4-py3-none-any.whl.metadata (1.7 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.8.1-py3-none-any.whl.metadata (3.5 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting fastapi<1.0,>=0.115.2 (from gradio)
  Downloading fastapi-0.115.12-py3