# An√°lisis Automatizado de Datos con IA
## Versi√≥n 1: An√°lisis Exploratorio + Generaci√≥n de Insights con Claude

**Este notebook analiza autom√°ticamente cualquier archivo CSV y genera un reporte ejecutivo usando la API de Claude.**

### Requisitos del dataset:
- M√≠nimo 2,000 registros
- M√≠nimo 10 columnas
- Puede contener variables num√©ricas y categ√≥ricas

---
## CONFIGURACI√ìN INICIAL
### üëá MODIFICA SOLO ESTA CELDA üëá

In [None]:
# ============================================================================
# CONFIGURACI√ìN - MODIFICA ESTOS VALORES
# ============================================================================

# Ruta al archivo CSV
CSV_PATH = "data/tu_archivo.csv"

# Descripci√≥n breve del dataset (para que Claude entienda el contexto)
DATASET_DESCRIPTION = """
Describe aqu√≠ tu dataset en 2-3 oraciones.
Por ejemplo: "Dataset de calidad de vinos blancos con propiedades fisicoqu√≠micas.
La variable objetivo es 'quality' que indica la calidad del vino en escala del 1-10."
"""

# Nombre del dataset (para los reportes)
DATASET_NAME = "Mi Dataset"

# Variable objetivo (opcional - dejar None para detecci√≥n autom√°tica)
# Si tu dataset tiene una variable objetivo espec√≠fica, ponla aqu√≠
TARGET_VARIABLE = None  # Ejemplo: "quality" o "precio" o None

# Separador del CSV (coma por defecto)
CSV_SEPARATOR = ","

# ============================================================================
print(" Configuraci√≥n cargada")
print(f"    Archivo: {CSV_PATH}")
print(f"    Dataset: {DATASET_NAME}")

---
## 1- Importar Librer√≠as

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
import os
from dotenv import load_dotenv

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.4f}'.format)

# Cargar variables de entorno
load_dotenv()

# Crear directorios
os.makedirs('outputs', exist_ok=True)
os.makedirs('reports', exist_ok=True)

print("Librer√≠as cargadas correctamente")

---
## 2- Cargar y Validar Datos

In [None]:
# Cargar el dataset
print("Cargando dataset...")
df = pd.read_csv(CSV_PATH, sep=CSV_SEPARATOR)

# Limpiar columnas vac√≠as
df = df.dropna(axis=1, how='all')
df.columns = df.columns.str.strip()

print(f"Dataset cargado: {df.shape[0]:,} registros x {df.shape[1]} columnas")

In [None]:
# Validaci√≥n de requisitos
print("="*60)
print("VALIDACI√ìN DEL DATASET")
print("="*60)

requisitos_cumplidos = True

# Verificar registros
if df.shape[0] >= 2000:
    print(f"Registros: {df.shape[0]:,} (m√≠nimo 2,000)")
else:
    print(f"Registros: {df.shape[0]:,} (m√≠nimo 2,000)")
    requisitos_cumplidos = False

# Verificar columnas
if df.shape[1] >= 10:
    print(f"Columnas: {df.shape[1]} (m√≠nimo 10)")
else:
    print(f"Columnas: {df.shape[1]} (m√≠nimo 10)")
    requisitos_cumplidos = False

if requisitos_cumplidos:
    print("\n¬°Dataset v√°lido! Continuando con el an√°lisis...")
else:
    print("\nEl dataset no cumple con los requisitos m√≠nimos.")

In [None]:
# Identificar tipos de columnas autom√°ticamente
print("\n" + "="*60)
print("IDENTIFICACI√ìN AUTOM√ÅTICA DE VARIABLES")
print("="*60)

# Columnas num√©ricas
columnas_numericas = df.select_dtypes(include=[np.number]).columns.tolist()

# Columnas categ√≥ricas (object, category, o num√©ricas con pocos valores √∫nicos)
columnas_categoricas = df.select_dtypes(include=['object', 'category']).columns.tolist()

# Detectar num√©ricas que podr√≠an ser categ√≥ricas (pocos valores √∫nicos)
for col in columnas_numericas.copy():
    if df[col].nunique() <= 10:  # Si tiene 10 o menos valores √∫nicos
        columnas_categoricas.append(col)
        
# Variables continuas (num√©ricas que no son categ√≥ricas)
columnas_continuas = [col for col in columnas_numericas if col not in columnas_categoricas]

print(f"\nVariables num√©ricas continuas ({len(columnas_continuas)}):")
for col in columnas_continuas:
    print(f"   ‚Ä¢ {col}")

print(f"\nVariables categ√≥ricas ({len(columnas_categoricas)}):")
for col in columnas_categoricas:
    print(f"   ‚Ä¢ {col} ({df[col].nunique()} valores √∫nicos)")

# Detectar variable objetivo
if TARGET_VARIABLE and TARGET_VARIABLE in df.columns:
    variable_objetivo = TARGET_VARIABLE
elif columnas_categoricas:
    # Usar la √∫ltima columna categ√≥rica como objetivo por defecto
    variable_objetivo = columnas_categoricas[-1]
else:
    variable_objetivo = None

print(f"\nVariable objetivo detectada: {variable_objetivo}")

In [None]:
# Vista previa del dataset
print("\nVista previa del dataset:")
df.head(10)

In [None]:
# Informaci√≥n del dataset
print("\nInformaci√≥n del dataset:")
df.info()

---
## 3- An√°lisis de Valores Faltantes

In [None]:
# An√°lisis de valores faltantes
print("="*60)
print("AN√ÅLISIS DE VALORES FALTANTES")
print("="*60)

valores_faltantes = df.isnull().sum()
porcentaje_faltantes = (df.isnull().sum() / len(df)) * 100

df_faltantes = pd.DataFrame({
    'Columna': valores_faltantes.index,
    'Faltantes': valores_faltantes.values,
    'Porcentaje (%)': porcentaje_faltantes.values
}).sort_values('Faltantes', ascending=False)

print(f"\nTotal de celdas: {df.shape[0] * df.shape[1]:,}")
print(f"Celdas con valores faltantes: {df.isnull().sum().sum():,}")
print(f"Porcentaje promedio de faltantes: {porcentaje_faltantes.mean():.2f}%")

# Mostrar solo columnas con faltantes
df_con_faltantes = df_faltantes[df_faltantes['Faltantes'] > 0]
if len(df_con_faltantes) > 0:
    print("\nColumnas con valores faltantes:")
    display(df_con_faltantes)
else:
    print("\nNo hay valores faltantes en el dataset")

In [None]:
# Heatmap de valores faltantes
fig, ax = plt.subplots(figsize=(14, 6))
sns.heatmap(df.isnull(), cbar=True, yticklabels=False, cmap='viridis', ax=ax)
ax.set_title(f'Mapa de Valores Faltantes - {DATASET_NAME}', fontsize=14, fontweight='bold')
ax.set_xlabel('Variables')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.savefig('outputs/01_heatmap_valores_faltantes.png', dpi=150, bbox_inches='tight')
plt.show()
print("Guardado: outputs/01_heatmap_valores_faltantes.png")

---
## 4- An√°lisis Estad√≠stico Descriptivo

In [None]:
# Estad√≠sticas descriptivas para variables num√©ricas
print("="*60)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS")
print("="*60)

if columnas_continuas:
    estadisticas = df[columnas_continuas].describe().T
    estadisticas['mediana'] = df[columnas_continuas].median()
    estadisticas['moda'] = df[columnas_continuas].mode().iloc[0]
    estadisticas['varianza'] = df[columnas_continuas].var()
    estadisticas['rango'] = estadisticas['max'] - estadisticas['min']
    estadisticas['coef_var (%)'] = (estadisticas['std'] / estadisticas['mean']) * 100
    
    display(estadisticas.round(4))
else:
    print("No hay variables num√©ricas continuas para analizar.")
    estadisticas = pd.DataFrame()

In [None]:
# Estad√≠sticas para variables categ√≥ricas
print("\n" + "="*60)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS")
print("="*60)

resumen_categoricas = {}

for col in columnas_categoricas:
    frecuencias = df[col].value_counts()
    porcentajes = (frecuencias / len(df) * 100).round(2)
    
    resumen_categoricas[col] = {
        'valores_unicos': df[col].nunique(),
        'moda': df[col].mode()[0] if len(df[col].mode()) > 0 else None,
        'frecuencia_moda': frecuencias.iloc[0] if len(frecuencias) > 0 else 0,
        'porcentaje_moda': porcentajes.iloc[0] if len(porcentajes) > 0 else 0
    }
    
    print(f"\n{col}:")
    print(f"   Valores √∫nicos: {df[col].nunique()}")
    print(f"   Moda: {resumen_categoricas[col]['moda']} ({resumen_categoricas[col]['porcentaje_moda']}%)")
    print(f"   Distribuci√≥n:")
    for val, freq, pct in zip(frecuencias.index[:5], frecuencias.values[:5], porcentajes.values[:5]):
        print(f"      ‚Ä¢ {val}: {freq:,} ({pct}%)")
    if len(frecuencias) > 5:
        print(f"      ... y {len(frecuencias) - 5} valores m√°s")

---
## 5- Visualizaciones

In [None]:
# Histogramas para variables num√©ricas
if columnas_continuas:
    n_cols = 3
    n_rows = (len(columnas_continuas) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 4*n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes] if n_rows == 1 and n_cols == 1 else axes
    
    for i, col in enumerate(columnas_continuas):
        ax = axes[i]
        ax.hist(df[col].dropna(), bins=30, edgecolor='black', alpha=0.7, color='steelblue')
        ax.axvline(df[col].mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {df[col].mean():.2f}')
        ax.axvline(df[col].median(), color='green', linestyle=':', linewidth=2, label=f'Mediana: {df[col].median():.2f}')
        ax.set_title(col, fontsize=11, fontweight='bold')
        ax.legend(fontsize=8)
    
    # Ocultar ejes vac√≠os
    for j in range(i+1, len(axes)):
        axes[j].set_visible(False)
    
    plt.suptitle(f'Histogramas - {DATASET_NAME}', fontsize=14, fontweight='bold', y=1.02)
    plt.tight_layout()
    plt.savefig('outputs/02_histogramas.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("Guardado: outputs/02_histogramas.png")
else:
    print("No hay variables num√©ricas para crear histogramas.")

In [None]:
# Boxplots para variables num√©ricas
if columnas_continuas:
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 4*n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes] if n_rows == 1 and n_cols == 1 else axes
    
    for i, col in enumerate(columnas_continuas):
        ax = axes[i]
        bp = ax.boxplot(df[col].dropna(), patch_artist=True)
        bp['boxes'][0].set_facecolor('lightblue')
        ax.set_title(col, fontsize=11, fontweight='bold')
    
    for j in range(i+1, len(axes)):
        axes[j].set_visible(False)
    
    plt.suptitle(f'Boxplots (Detecci√≥n de Outliers) - {DATASET_NAME}', fontsize=14, fontweight='bold', y=1.02)
    plt.tight_layout()
    plt.savefig('outputs/03_boxplots.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("Guardado: outputs/03_boxplots.png")

In [None]:
# Gr√°ficos de barras para variables categ√≥ricas
if columnas_categoricas:
    n_cat = min(len(columnas_categoricas), 6)  # M√°ximo 6 gr√°ficos
    n_cols_cat = min(3, n_cat)
    n_rows_cat = (n_cat + n_cols_cat - 1) // n_cols_cat
    
    fig, axes = plt.subplots(n_rows_cat, n_cols_cat, figsize=(15, 4*n_rows_cat))
    if n_cat == 1:
        axes = [axes]
    else:
        axes = axes.flatten()
    
    for i, col in enumerate(columnas_categoricas[:n_cat]):
        ax = axes[i]
        frecuencias = df[col].value_counts().head(10)  # Top 10 valores
        colores = sns.color_palette('husl', n_colors=len(frecuencias))
        
        bars = ax.bar(frecuencias.index.astype(str), frecuencias.values, color=colores, edgecolor='black')
        ax.set_title(col, fontsize=11, fontweight='bold')
        ax.set_xlabel('')
        ax.set_ylabel('Frecuencia')
        plt.sca(ax)
        plt.xticks(rotation=45, ha='right')
    
    for j in range(i+1, len(axes)):
        axes[j].set_visible(False)
    
    plt.suptitle(f'Distribuci√≥n de Variables Categ√≥ricas - {DATASET_NAME}', fontsize=14, fontweight='bold', y=1.02)
    plt.tight_layout()
    plt.savefig('outputs/04_barras_categoricas.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("Guardado: outputs/04_barras_categoricas.png")
else:
    print("No hay variables categ√≥ricas para crear gr√°ficos de barras.")

---
## 6- Detecci√≥n de Outliers

In [None]:
# Detecci√≥n de outliers usando m√©todo IQR
print("="*60)
print("DETECCI√ìN DE OUTLIERS (M√©todo IQR)")
print("="*60)

def contar_outliers_iqr(columna):
    Q1 = columna.quantile(0.25)
    Q3 = columna.quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    outliers = ((columna < limite_inferior) | (columna > limite_superior)).sum()
    return outliers, limite_inferior, limite_superior

resultados_outliers = []
total_outliers = 0

for col in columnas_continuas:
    n_outliers, lim_inf, lim_sup = contar_outliers_iqr(df[col].dropna())
    pct_outliers = (n_outliers / len(df)) * 100
    total_outliers += n_outliers
    
    resultados_outliers.append({
        'Variable': col,
        'Outliers': n_outliers,
        'Porcentaje (%)': pct_outliers,
        'L√≠mite Inf.': lim_inf,
        'L√≠mite Sup.': lim_sup
    })

df_outliers = pd.DataFrame(resultados_outliers).sort_values('Outliers', ascending=False)
print(f"\nTotal de outliers detectados: {total_outliers:,}")
display(df_outliers)

---
## 7- An√°lisis de Correlaciones

In [None]:
# Matriz de correlaci√≥n
if len(columnas_numericas) > 1:
    print("="*60)
    print("AN√ÅLISIS DE CORRELACIONES")
    print("="*60)
    
    matriz_correlacion = df[columnas_numericas].corr(method='pearson')
    
    # Heatmap
    fig, ax = plt.subplots(figsize=(12, 10))
    mask = np.triu(np.ones_like(matriz_correlacion, dtype=bool))
    sns.heatmap(matriz_correlacion, mask=mask, annot=True, fmt='.2f', cmap='RdBu_r', 
                center=0, square=True, linewidths=0.5, ax=ax, cbar_kws={'shrink': 0.8})
    ax.set_title(f'Matriz de Correlaciones - {DATASET_NAME}', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.savefig('outputs/05_heatmap_correlaciones.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("Guardado: outputs/05_heatmap_correlaciones.png")
else:
    print("No hay suficientes variables num√©ricas para an√°lisis de correlaciones.")
    matriz_correlacion = pd.DataFrame()

In [None]:
# Top correlaciones
if len(columnas_numericas) > 1:
    correlaciones_pares = []
    for i in range(len(matriz_correlacion.columns)):
        for j in range(i+1, len(matriz_correlacion.columns)):
            col1 = matriz_correlacion.columns[i]
            col2 = matriz_correlacion.columns[j]
            corr = matriz_correlacion.iloc[i, j]
            correlaciones_pares.append((col1, col2, corr, abs(corr)))
    
    correlaciones_pares.sort(key=lambda x: x[3], reverse=True)
    top_correlaciones = correlaciones_pares[:10]
    
    print("\nTOP 10 CORRELACIONES M√ÅS FUERTES:")
    df_top_corr = pd.DataFrame(top_correlaciones, columns=['Variable 1', 'Variable 2', 'Correlaci√≥n', '|Correlaci√≥n|'])
    df_top_corr.index = range(1, len(df_top_corr) + 1)
    display(df_top_corr)
else:
    top_correlaciones = []
    df_top_corr = pd.DataFrame()

In [None]:
# Correlaciones con variable objetivo (si existe)
if variable_objetivo and variable_objetivo in columnas_numericas:
    print(f"\nCORRELACIONES CON VARIABLE OBJETIVO ({variable_objetivo}):")
    corr_con_objetivo = matriz_correlacion[variable_objetivo].drop(variable_objetivo).sort_values(key=abs, ascending=False)
    
    df_corr_objetivo = pd.DataFrame({
        'Variable': corr_con_objetivo.index,
        'Correlaci√≥n': corr_con_objetivo.values
    })
    df_corr_objetivo.index = range(1, len(df_corr_objetivo) + 1)
    display(df_corr_objetivo)
    
    # Gr√°fico de barras
    fig, ax = plt.subplots(figsize=(10, 6))
    colors = ['green' if c > 0 else 'red' for c in corr_con_objetivo.values]
    ax.barh(corr_con_objetivo.index, corr_con_objetivo.values, color=colors, edgecolor='black', alpha=0.7)
    ax.axvline(x=0, color='black', linewidth=0.5)
    ax.set_xlabel('Correlaci√≥n')
    ax.set_title(f'Correlaci√≥n con {variable_objetivo}', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.savefig('outputs/06_correlacion_objetivo.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("Guardado: outputs/06_correlacion_objetivo.png")
else:
    df_corr_objetivo = pd.DataFrame()
    print("\nNo se detect√≥ variable objetivo num√©rica para an√°lisis de correlaci√≥n.")

---
## 8- Preparar Resumen para Claude

In [None]:
# Construir resumen completo del an√°lisis
print("="*60)
print("GENERANDO RESUMEN DEL AN√ÅLISIS")
print("="*60)

# Resumen de variable objetivo si existe
resumen_objetivo = ""
if variable_objetivo:
    if variable_objetivo in columnas_categoricas:
        freq_obj = df[variable_objetivo].value_counts()
        pct_obj = (freq_obj / len(df) * 100).round(2)
        resumen_objetivo = f"""
   Variable objetivo: {variable_objetivo}
   Tipo: Categ√≥rica
   Valores √∫nicos: {df[variable_objetivo].nunique()}
   Distribuci√≥n:
{chr(10).join([f'      - {val}: {freq:,} ({pct}%)' for val, freq, pct in zip(freq_obj.index[:10], freq_obj.values[:10], pct_obj.values[:10])])}
"""
    else:
        resumen_objetivo = f"""
   Variable objetivo: {variable_objetivo}
   Tipo: Num√©rica
   Media: {df[variable_objetivo].mean():.4f}
   Mediana: {df[variable_objetivo].median():.4f}
   Std: {df[variable_objetivo].std():.4f}
   Rango: [{df[variable_objetivo].min():.4f}, {df[variable_objetivo].max():.4f}]
"""

resumen_analisis = f"""
================================================================================
RESUMEN DEL AN√ÅLISIS DE DATOS
================================================================================

DESCRIPCI√ìN DEL DATASET:
{DATASET_DESCRIPTION}

1. INFORMACI√ìN GENERAL
--------------------------------------------------------------------------------
   - Nombre: {DATASET_NAME}
   - Dimensiones: {df.shape[0]:,} registros x {df.shape[1]} columnas
   - Variables num√©ricas continuas: {len(columnas_continuas)}
   - Variables categ√≥ricas: {len(columnas_categoricas)}
   - Duplicados: {df.duplicated().sum():,}

2. CALIDAD DE DATOS
--------------------------------------------------------------------------------
   - Valores faltantes totales: {df.isnull().sum().sum():,} ({porcentaje_faltantes.mean():.2f}% promedio)
   - Columnas con faltantes: {(valores_faltantes > 0).sum()}
   - Total de outliers (IQR): {total_outliers:,}

3. VARIABLE OBJETIVO
--------------------------------------------------------------------------------
{resumen_objetivo if resumen_objetivo else '   No se identific√≥ variable objetivo espec√≠fica.'}

4. ESTAD√çSTICAS DESCRIPTIVAS (Variables Num√©ricas)
--------------------------------------------------------------------------------
{estadisticas[['mean', 'std', 'min', 'max', 'mediana']].to_string() if len(estadisticas) > 0 else 'No hay variables num√©ricas.'}

5. VARIABLES CATEG√ìRICAS
--------------------------------------------------------------------------------
{chr(10).join([f"   - {col}: {info['valores_unicos']} valores √∫nicos, moda: {info['moda']} ({info['porcentaje_moda']}%)" for col, info in resumen_categoricas.items()])}

6. OUTLIERS DETECTADOS (Top 5)
--------------------------------------------------------------------------------
{df_outliers.head(5).to_string() if len(df_outliers) > 0 else 'No hay outliers detectados.'}

7. TOP 5 CORRELACIONES M√ÅS FUERTES
--------------------------------------------------------------------------------
{df_top_corr.head(5).to_string() if len(df_top_corr) > 0 else 'No hay suficientes variables para correlaciones.'}

8. CORRELACIONES CON VARIABLE OBJETIVO
--------------------------------------------------------------------------------
{df_corr_objetivo.to_string() if len(df_corr_objetivo) > 0 else 'No aplica o no hay variable objetivo num√©rica.'}

9. OBSERVACIONES INICIALES
--------------------------------------------------------------------------------
   - El dataset tiene {df.shape[0]:,} registros y {df.shape[1]} variables
   - {'Hay ' + str(df.isnull().sum().sum()) + ' valores faltantes que requieren tratamiento' if df.isnull().sum().sum() > 0 else 'No hay valores faltantes'}
   - Se detectaron {total_outliers:,} outliers en las variables num√©ricas
   - {'La correlaci√≥n m√°s fuerte es entre ' + top_correlaciones[0][0] + ' y ' + top_correlaciones[0][1] + ' (' + str(round(top_correlaciones[0][2], 3)) + ')' if top_correlaciones else 'No se calcularon correlaciones'}
"""

print(resumen_analisis)

# Guardar resumen
with open('reports/resumen_analisis.txt', 'w', encoding='utf-8') as f:
    f.write(resumen_analisis)
print("\nResumen guardado en: reports/resumen_analisis.txt")

---
## 9- Generaci√≥n de Insights con Claude API

In [None]:
# Configurar cliente de Anthropic
from anthropic import Anthropic

api_key = os.getenv("ANTHROPIC_API_KEY")

if not api_key:
    print("ERROR: No se encontr√≥ ANTHROPIC_API_KEY")
    print("   Por favor, configura tu API key en el archivo .env")
else:
    print("API Key encontrada")
    print(f"   Key: {api_key[:15]}...")

In [None]:
# Funci√≥n para generar insights con Claude
def generar_insights_con_claude(resumen, descripcion, nombre_dataset, api_key):
    """
    Env√≠a el resumen del an√°lisis a Claude y obtiene insights profesionales.
    """
    client = Anthropic(api_key=api_key)
    
    prompt = f"""
Eres un experto en an√°lisis de datos y ciencia de datos. 
A continuaci√≥n te presento el resumen de un an√°lisis exploratorio de datos.

CONTEXTO DEL DATASET:
{descripcion}

Por favor, genera un REPORTE EJECUTIVO PROFESIONAL que incluya:

1. RESUMEN EJECUTIVO (2-3 p√°rrafos)
   - Descripci√≥n general del dataset
   - Calidad de los datos
   - Principales caracter√≠sticas observadas

2. HALLAZGOS CLAVE (3-5 hallazgos)
   - Insights importantes descubiertos en el an√°lisis
   - Patrones o tendencias relevantes
   - Relaciones significativas entre variables

3. CALIDAD DE LOS DATOS
   - Evaluaci√≥n de valores faltantes
   - An√°lisis de outliers detectados
   - Recomendaciones de limpieza

4. RECOMENDACIONES DE PREPROCESAMIENTO (3-5 recomendaciones)
   - Sugerencias para mejorar la calidad de los datos
   - T√©cnicas recomendadas para manejar outliers
   - Transformaciones sugeridas para modelado

5. CONCLUSIONES Y PR√ìXIMOS PASOS
   - Resumen de conclusiones principales
   - Recomendaciones para an√°lisis futuros
   - Posibles aplicaciones del an√°lisis

DATOS DEL AN√ÅLISIS:
{resumen}

Por favor, responde en espa√±ol y de manera profesional. Usa los datos espec√≠ficos 
del resumen para fundamentar cada punto. S√© espec√≠fico y evita generalidades.
"""
    
    response = client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=4000,
        messages=[
            {"role": "user", "content": prompt}
        ]
    )
    
    return response.content[0].text

In [None]:
# Generar insights con Claude
if api_key:
    print("Generando insights con Claude...")
    print("   (Esto puede tomar unos segundos)\n")
    
    try:
        insights = generar_insights_con_claude(
            resumen_analisis, 
            DATASET_DESCRIPTION, 
            DATASET_NAME, 
            api_key
        )
        
        print("="*70)
        print("REPORTE EJECUTIVO GENERADO POR CLAUDE")
        print("="*70)
        print(insights)
        
        # Guardar insights
        with open('reports/insights_claude.txt', 'w', encoding='utf-8') as f:
            f.write(f"REPORTE EJECUTIVO - {DATASET_NAME}\n")
            f.write("="*70 + "\n\n")
            f.write(insights)
        
        print("\nInsights guardados en: reports/insights_claude.txt")
        
    except Exception as e:
        print(f"Error al generar insights: {e}")
else:
    print("No se puede generar insights sin API key.")

---
## Resumen Final

In [None]:
# Resumen final del an√°lisis
print("="*70)
print("AN√ÅLISIS COMPLETADO")
print("="*70)

print(f"""
DATASET: {DATASET_NAME}
ARCHIVO: {CSV_PATH}
DIMENSIONES: {df.shape[0]:,} registros x {df.shape[1]} columnas

   ARCHIVOS GENERADOS:
   Visualizaciones (outputs/):
   ‚Ä¢ 01_heatmap_valores_faltantes.png
   ‚Ä¢ 02_histogramas.png
   ‚Ä¢ 03_boxplots.png
   ‚Ä¢ 04_barras_categoricas.png
   ‚Ä¢ 05_heatmap_correlaciones.png
   ‚Ä¢ 06_correlacion_objetivo.png
   
   Reportes (reports/):
   ‚Ä¢ resumen_analisis.txt
   ‚Ä¢ insights_claude.txt

   M√âTRICAS CLAVE:
   ‚Ä¢ Variables num√©ricas: {len(columnas_continuas)}
   ‚Ä¢ Variables categ√≥ricas: {len(columnas_categoricas)}
   ‚Ä¢ Valores faltantes: {df.isnull().sum().sum():,}
   ‚Ä¢ Outliers detectados: {total_outliers:,}
   ‚Ä¢ Variable objetivo: {variable_objetivo}
""")

print("\n¬°An√°lisis completado exitosamente!")