## Descripción del Proyecto

<div style='font-size: 20px; text-align: center; color: #2C3E50;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #2980B9;'>Análisis de Churn en Clientes de Beta Bank</h1>
    <p style='font-size: 20px; color: #1ABC9C;'>Rubintel Ulloa</p>
    <p style='font-size: 18px; color: #16A085;'>04/08/2024</p>
    <p style='font-size: 18px; color: #16A085;'>Empresa: Beta Bank</p>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">  
    <h1 style='color: #388E3C;'>Descripción del Proyecto</h1>
    <p>En el sector bancario, retener a los clientes es crucial. Beta Bank está perdiendo clientes cada mes. Este proyecto busca desarrollar un modelo predictivo para prever si un cliente abandonará el banco, utilizando datos históricos sobre su comportamiento y la terminación de contratos. Nuestro objetivo es alcanzar un valor F1 mínimo de 0.59.</p>
  </div>
</div>

### Determinación de los Objetivos del Proyecto

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">  
  <h1 style='color: #388E3C;'>Objetivos del Proyecto</h1>
  <h3 style='color: #2E7D32;'>Descripción General</h3>
  <p>El objetivo principal del proyecto es desarrollar un modelo predictivo que pueda identificar con precisión si un cliente dejará Beta Bank. La métrica clave a maximizar será la F1, y también se medirá la métrica AUC-ROC para comparar su rendimiento.</p>
  <h3 style='color: #2E7D32;'>Pasos del Proyecto</h3>
  <ol>
    <li><strong>Preparación de Datos:</strong> Descargar y preparar los datos para el análisis. Este paso incluye la limpieza de datos y la transformación de características.</li>
    <li><strong>Investigación del Equilibrio de Clases:</strong> Examinar el equilibrio de clases y entrenar un modelo inicial sin considerar el desequilibrio. Analizar los resultados y documentar los hallazgos.</li>
    <li><strong>Mejora del Modelo:</strong> Aplicar al menos dos técnicas para corregir el desequilibrio de clases, como el sobremuestreo y el submuestreo. Entrenar diferentes modelos y optimizar los hiperparámetros para encontrar el mejor conjunto de parámetros.</li>
    <li><strong>Prueba Final:</strong> Evaluar el modelo final y comparar las métricas obtenidas con los modelos anteriores para asegurar una mejora significativa.</li>
  </ol>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">  
  <h1 style='color: #388E3C;'>Explicación del Código para Instalación y Importación de Bibliotecas</h1>
  
  <h3 style='color: #2E7D32;'>Descripción General</h3>
  <p>Esta celda de código está diseñada para gestionar la instalación y la importación de las bibliotecas necesarias para el análisis de datos y visualización en Python. Se aseguran de que todas las bibliotecas requeridas estén instaladas y listas para usar, y proporcionan mensajes claros sobre el estado de las instalaciones y las importaciones.</p>

  <h3 style='color: #2E7D32;'>Funciones Clave</h3>
  <ul>
    <li><strong>instalar_biblioteca(biblioteca, nombre_modulo=None):</strong> Esta función toma el nombre de una biblioteca como argumento e intenta importarla. Si la biblioteca no está instalada, se intenta instalarla usando pip. Si la instalación es exitosa, la biblioteca se importa y se muestra un mensaje de éxito.</li>
    <li><strong>instalar_bibliotecas():</strong> Esta función llama a <code>instalar_biblioteca</code> para cada una de las bibliotecas en una lista predefinida de bibliotecas necesarias.</li>
    <li><strong>importar_librerias():</strong> Esta función importa todas las bibliotecas necesarias para el análisis de datos y la visualización. Muestra un mensaje de éxito si todas las bibliotecas se importan correctamente.</li>
  </ul>

  <h3 style='color: #2E7D32;'>Bibliotecas Utilizadas</h3>
  <ul>
    <li><strong>numpy:</strong> Utilizado para operaciones numéricas y manejo de arrays.</li>
    <li><strong>pandas:</strong> Utilizado para la manipulación y análisis de datos.</li>
    <li><strong>scipy:</strong> Utilizado para cálculos científicos y técnicos.</li>
    <li><strong>matplotlib:</strong> Utilizado para la visualización de datos en gráficos estáticos, animados e interactivos.</li>
    <li><strong>seaborn:</strong> Utilizado para la visualización de datos basado en matplotlib.</li>
    <li><strong>scikit-learn:</strong> Utilizado para el aprendizaje automático y la minería de datos.</li>
    <li><strong>ipywidgets:</strong> Utilizado para crear controles interactivos en Jupyter Notebooks.</li>
    <li><strong>plotly:</strong> Utilizado para crear gráficos interactivos.</li>
  </ul>

  <h3 style='color: #2E7D32;'>Proceso de Ejecución</h3>
  <ol>
    <li>Se llama a la función <code>instalar_bibliotecas()</code> para asegurarse de que todas las bibliotecas necesarias estén instaladas.</li>
    <li>Se llama a la función <code>importar_librerias()</code> para importar todas las bibliotecas necesarias.</li>
    <li>Se muestran mensajes claros indicando el estado de cada instalación e importación.</li>
  </ol>

  <h3 style='color: #2E7D32;'>Ventajas</h3>
  <ul>
    <li>Automatiza la instalación de bibliotecas, ahorrando tiempo y esfuerzo.</li>
    <li>Proporciona retroalimentación clara sobre el estado de las instalaciones e importaciones, ayudando a identificar y solucionar problemas rápidamente.</li>
    <li>Garantiza que todas las bibliotecas necesarias estén disponibles antes de iniciar el análisis de datos, evitando errores durante la ejecución del código.</li>
  </ul>
</div>
</div>

In [1]:
import subprocess
import importlib
from IPython.display import display, HTML
import ipywidgets as widgets

# Función para instalar una biblioteca
def instalar_biblioteca(biblioteca, nombre_modulo=None):
    """
    Esta función toma el nombre de una biblioteca como argumento e intenta importarla.
    Si la biblioteca no está instalada, se intenta instalarla usando pip.
    Si la instalación es exitosa, la biblioteca se importa y se muestra un mensaje de éxito.
    """
    if nombre_modulo is None:
        nombre_modulo = biblioteca.replace("-", "_")
    
    # Manejo especial para bibliotecas que tienen un nombre de módulo diferente
    if biblioteca == "scikit-learn":
        nombre_modulo = "sklearn"
    elif biblioteca == "imbalanced-learn":
        nombre_modulo = "imblearn"

    try:
        # Intentar importar la biblioteca
        mod = importlib.import_module(nombre_modulo)
        version = getattr(mod, "__version__", "versión no disponible")
        display(HTML(f"<div style='color: green; font-size: 18px;'>Biblioteca '{biblioteca}' ya está instalada. Versión: {version}</div>"))
    except ModuleNotFoundError:
        try:
            # Si no está instalada, intentar instalarla
            subprocess.check_call(["pip", "install", biblioteca])
            mod = importlib.import_module(nombre_modulo)
            version = getattr(mod, "__version__", "versión no disponible")
            display(HTML(f"<div style='color: green; font-size: 18px;'>Biblioteca '{biblioteca}' instalada con éxito. Versión: {version}</div>"))
        except Exception as e:
            # Mostrar mensaje de error en caso de fallo
            display(HTML(f"<div style='color: red; font-size: 18px;'>Error instalando la biblioteca {biblioteca}: {str(e)}</div>"))

# Función para instalar una lista de bibliotecas
def instalar_bibliotecas():
    """
    Esta función llama a instalar_biblioteca para cada una de las bibliotecas en una lista predefinida de bibliotecas necesarias.
    """
    bibliotecas = [
        "numpy",
        "pandas",
        "scipy",
        "matplotlib",
        "seaborn",
        "scikit-learn",
        "imbalanced-learn",
        "ipywidgets",
        "plotly",
        "lxml",
        "tqdm",
        "xgboost",
        "lightgbm"
    ]
    for biblioteca in bibliotecas:
        instalar_biblioteca(biblioteca)

# Función para importar todas las bibliotecas necesarias
def importar_librerias():
    """
    Esta función importa todas las bibliotecas necesarias para el análisis de datos y la visualización.
    Muestra un mensaje de éxito si todas las bibliotecas se importan correctamente.
    """
    try:
        import pandas as pd
        import numpy as np
        import matplotlib.pyplot as plt
        import seaborn as sns
        from scipy import stats
        from scipy.stats import levene
        from sklearn.impute import SimpleImputer
        from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
        from sklearn.linear_model import LogisticRegression, LinearRegression
        from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
        from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor, GradientBoostingClassifier
        from sklearn.metrics import accuracy_score, mean_squared_error
        from sklearn.preprocessing import StandardScaler
        from sklearn.cluster import KMeans
        import ipywidgets as widgets
        from ipywidgets import interact
        import plotly.express as px
        import time
        from tqdm.notebook import tqdm
        from IPython.display import display, HTML
        from xgboost import XGBClassifier
        from lightgbm import LGBMClassifier
        from imblearn.over_sampling import SMOTE
        from imblearn.under_sampling import RandomUnderSampler
        from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score, roc_curve

        display(HTML(f"<div style='color: green; font-size: 18px;'>Librerías importadas con éxito.</div>"))
    except ModuleNotFoundError as e:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Error importando las librerías: {str(e)}</div>"))
    except Exception as e:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Ocurrió un error inesperado: {str(e)}</div>"))

# Llamar a la función para instalar las bibliotecas
instalar_bibliotecas()

# Llamar a la función para importar las bibliotecas
importar_librerias()


In [2]:
!pip install imbalanced-learn

try:
    from imblearn.over_sampling import SMOTE
    print("Importación exitosa de SMOTE")
except ImportError as e:
    print("Error importando imbalanced-learn:", e)



Importación exitosa de SMOTE


<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">  
  <h1 style='color: #388E3C;'>Configuración de Visualización de DataFrames en pandas</h1>
  
  <h3 style='color: #2E7D32;'>Descripción General</h3>
  <p>Esta celda de código ajusta las opciones de visualización de pandas para mejorar la revisión y presentación de los DataFrames. Estas configuraciones permiten una visualización más clara y completa de los datos, facilitando el análisis y la interpretación.</p>

  <h3 style='color: #2E7D32;'>Opciones de Visualización Configuradas</h3>
  <ul>
    <li><strong>Mostrar todas las columnas:</strong> La opción <code>pd.set_option('display.max_columns', None)</code> asegura que todas las columnas de un DataFrame se muestren, sin importar cuántas haya. Esto es útil para evitar que se oculten columnas importantes.</li>
    <li><strong>Evitar división en varias líneas:</strong> La opción <code>pd.set_option('display.expand_frame_repr', False)</code> impide que las filas del DataFrame se dividan en múltiples líneas. Esto mantiene cada fila en una sola línea, mejorando la legibilidad.</li>
    <li><strong>Mostrar todas las filas:</strong> La opción <code>pd.set_option('display.max_rows', None)</code> permite que todas las filas de un DataFrame se muestren sin límites. Esto es útil para revisar DataFrames completos sin que se trunquen las filas.</li>
    <li><strong>Mostrar el ancho completo de las columnas:</strong> La opción <code>pd.set_option('display.max_colwidth', None)</code> garantiza que las columnas se muestren con su ancho completo, evitando que se trunque el contenido de las celdas.</li>
  </ul>

  <h3 style='color: #2E7D32;'>Ventajas</h3>
  <ul>
    <li><strong>Revisión Completa de Datos:</strong> Permite revisar y analizar el DataFrame en su totalidad, sin que se oculten columnas o filas.</li>
    <li><strong>Mejora de la Legibilidad:</strong> Mantiene cada fila en una sola línea, facilitando la lectura y evitando confusiones.</li>
    <li><strong>Presentación Clara de Datos:</strong> Asegura que el contenido de las celdas se muestre completo, proporcionando una visión más clara y detallada de los datos.</li>
  </ul>
</div>
</div>

In [3]:
import pandas as pd

# Configuración de visualización para mejorar la revisión de DataFrames en pandas
# Mostrar todas las columnas: Para mostrar todas las columnas de un DataFrame
pd.set_option('display.max_columns', None)
# Evitar división en varias líneas: Si deseas que las filas de tu DataFrame no se dividan en varias líneas
pd.set_option('display.expand_frame_repr', False)
# Mostrar todas las filas: Para mostrar todas las filas de un DataFrame sin límites
pd.set_option('display.max_rows', None)
# Mostrar el ancho completo de las columnas: Si quieres que las columnas se muestren con su ancho completo
pd.set_option('display.max_colwidth', None)


## Carga de Datos

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">  
  <h1 style='color: #388E3C;'>Carga de datos</h1>
  
  <h3 style='color: #2E7D32;'>Descripción General</h3>
  <p>Esta celda de código carga y preprocesa los datos desde una URL proporcionada. Utiliza una barra de progreso para simular la carga de datos, mejorando la interactividad y la visualización del proceso. Una vez cargados, los datos se muestran en un DataFrame de pandas.</p>

  <h3 style='color: #2E7D32;'>Código de Carga y Preprocesamiento</h3>
  <p>El siguiente código define una función que simula la carga de datos con una barra de progreso y luego utiliza <code>pandas.read_csv</code> para cargar el archivo CSV desde la URL proporcionada:</p>

  <h3 style='color: #2E7D32;'>Ventajas</h3>
  <ul>
    <li><strong>Interactividad:</strong> La barra de progreso proporciona una indicación visual del estado de la carga de datos, mejorando la interactividad del notebook.</li>
    <li><strong>Revisión Inicial de Datos:</strong> El uso de <code>df.head()</code> permite una revisión rápida y efectiva de las primeras filas del DataFrame, facilitando la verificación de la correcta carga de datos.</li>
  </ul>
</div>
</div>



In [4]:
import pandas as pd
from tqdm import tqdm
from IPython.display import display, HTML

def cargar_datos_con_progreso(file_path):
    try:
        # Simulación de carga de datos con barra de progreso
        for _ in tqdm(range(100), desc="Cargando datos"):
            pass
        
        # Intentar cargar el archivo CSV
        df = pd.read_csv(file_path)
        
        # Mensaje de éxito
        display(HTML(f"<div style='color: green; font-size: 18px;'>Datos cargados exitosamente desde '{file_path}'.</div>"))
        return df
    
    except FileNotFoundError:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Error: Archivo no encontrado en la ruta '{file_path}'.</div>"))
    except pd.errors.EmptyDataError:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Error: El archivo en '{file_path}' está vacío.</div>"))
    except pd.errors.ParserError:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Error: Hubo un problema al analizar el archivo en '{file_path}'.</div>"))
    except Exception as e:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Error inesperado: {str(e)}</div>"))

url = 'https://code.s3.yandex.net/datasets/Churn.csv'  # Cambia esto a la ruta local del archivo
df = cargar_datos_con_progreso(url)
if df is not None:
    print(df.head())



Cargando datos: 100%|██████████| 100/100 [00:00<00:00, 100222.32it/s]


   RowNumber  CustomerId   Surname  CreditScore Geography  Gender  Age  Tenure    Balance  NumOfProducts  HasCrCard  IsActiveMember  EstimatedSalary  Exited
0          1    15634602  Hargrave          619    France  Female   42     2.0       0.00              1          1               1        101348.88       1
1          2    15647311      Hill          608     Spain  Female   41     1.0   83807.86              1          0               1        112542.58       0
2          3    15619304      Onio          502    France  Female   42     8.0  159660.80              3          1               0        113931.57       1
3          4    15701354      Boni          699    France  Female   39     1.0       0.00              2          0               0         93826.63       0
4          5    15737888  Mitchell          850     Spain  Female   43     2.0  125510.82              1          1               1         79084.10       0


## Procesamiento de DataFrame y Analisis

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #388E3C;'>Procesamiento de DataFrame</h1>
    <h3 style='color: #2E7D32;'>Descripción de la Función</h3>
    <p>En esta sección, se realiza el procesamiento del DataFrame, que incluye las siguientes etapas:</p>
    <ul>
      <li>Manejo de valores nulos: Imputación de valores nulos utilizando la mediana, media, moda, constante o interpolación para datos numéricos y el valor más frecuente para datos categóricos.</li>
      <li>Eliminación de duplicados: Eliminación de filas duplicadas en el DataFrame.</li>
      <li>Eliminación de outliers: Identificación y eliminación de registros atípicos utilizando el método del Z-score o IQR.</li>
      <li>Estandarización de datos: Normalización de las variables numéricas utilizando StandardScaler, MinMaxScaler o RobustScaler.</li>
      <li>Codificación de variables categóricas: Transformación de variables categóricas en variables numéricas utilizando codificación ordinal o variables dummy.</li>
      <li>Conversión de tipos de datos: Conversión de tipos de datos según especificaciones proporcionadas.</li>
      <li>Manejo de valores extremos: Manejo de valores extremos mediante capping o eliminación usando IQR.</li>
      <li>Normalización de datos: Normalización de las variables numéricas para que tengan media 0 y desviación estándar 1 utilizando Normalizer.</li>
      <li>Remoción de columnas con baja varianza: Eliminación de columnas con baja varianza en el DataFrame.</li>
      <li>Detección y corrección de valores inconsistentes: Corrección de valores inconsistentes en el DataFrame según reglas específicas.</li>
      <li>Detección de duplicados en columnas específicas: Identificación de duplicados en columnas específicas.</li>
      <li>Conversión de fechas a componentes temporales: Transformación de columnas de fechas en componentes temporales como año, mes, día y día de la semana.</li>
      <li>Imputación de valores faltantes basada en regresión: Imputación de valores faltantes en una columna objetivo utilizando regresión lineal.</li>
      <li>Remoción de columnas altamente correlacionadas: Eliminación de columnas con alta correlación entre sí.</li>
      <li>Transformación de variables categóricas en variables dummy: Transformación de variables categóricas en variables dummy.</li>
      <li>Escalado robusto de datos: Escalado de datos utilizando RobustScaler.</li>
      <li>Detección de valores atípicos usando el método de Tukey: Identificación de valores atípicos utilizando el método de Tukey.</li>
      <li>Conversión de variables categóricas ordinales: Transformación de variables categóricas ordinales en códigos numéricos.</li>
    </ul>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Ventajas del Procesamiento de DataFrame</h3>
    <ul>
      <li><strong>Integridad de Datos:</strong> Al manejar valores nulos y eliminar duplicados, se asegura que el DataFrame esté limpio y sin datos redundantes.</li>
      <li><strong>Normalización y Escalado:</strong> Mejora la precisión de los algoritmos de aprendizaje automático al escalar y normalizar los datos.</li>
      <li><strong>Identificación de Outliers:</strong> Los métodos de eliminación de outliers aseguran que los datos extremos no influyan negativamente en los modelos.</li>
      <li><strong>Codificación de Datos:</strong> La transformación de variables categóricas en variables numéricas facilita la entrada de datos en algoritmos que requieren datos numéricos.</li>
      <li><strong>Eficiencia de Modelado:</strong> La remoción de columnas con baja varianza y alta correlación reduce la dimensionalidad y mejora la eficiencia de los modelos predictivos.</li>
      <li><strong>Automatización y Flexibilidad:</strong> Las diversas funciones proporcionan un flujo de trabajo automatizado y flexible para preprocesar datos, adaptándose a diferentes tipos de DataFrame y necesidades específicas del usuario.</li>
    </ul>
  </div>
</div>

In [5]:
# Función para manejar valores nulos
def manejar_nulos(df, metodo='median', valor_constante=None):
    if metodo == 'constant':
        imputer_num = SimpleImputer(strategy='constant', fill_value=valor_constante)
    else:
        imputer_num = SimpleImputer(strategy=metodo)
    
    df[df.select_dtypes(include=[np.number]).columns] = imputer_num.fit_transform(df.select_dtypes(include=[np.number]))
    imputer_cat = SimpleImputer(strategy='most_frequent')
    df[df.select_dtypes(include=[object]).columns] = imputer_cat.fit_transform(df.select_dtypes(include=[object]))
    display(HTML(f"<div style='color: green; font-size: 18px;'>Imputación de valores faltantes utilizando el método '{metodo}' completada exitosamente.</div>"))
    return df

# Función para identificar y eliminar registros atípicos usando IQR
def eliminar_outliers_iqr(df):
    Q1 = df.quantile(0.25)
    Q3 = df.quantile(0.75)
    IQR = Q3 - Q1
    df_cleaned = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]
    return df_cleaned

# Función para identificar y eliminar registros atípicos usando Z-score
def eliminar_outliers(df, threshold=3):
    z_scores = np.abs(stats.zscore(df.select_dtypes(include=[np.number])))
    df_cleaned = df[(z_scores < threshold).all(axis=1)]
    return df_cleaned

# Función para estandarizar variables numéricas
def estandarizar_datos(df, metodo='standard'):
    if metodo == 'minmax':
        scaler = MinMaxScaler()
    else:
        scaler = StandardScaler()
    
    df[df.select_dtypes(include=[np.number]).columns] = scaler.fit_transform(df.select_dtypes(include=[np.number]))
    display(HTML(f"<div style='color: green; font-size: 18px;'>Estandarización de datos utilizando el método '{metodo}' completada exitosamente.</div>"))
    return df

# Función para codificar variables categóricas
def codificar_variables(df):
    encoder = OrdinalEncoder()
    df[df.select_dtypes(include=[object]).columns] = encoder.fit_transform(df.select_dtypes(include=[object]))
    return df

# Función para detectar valores nulos
def detectar_valores_nulos(df):
    nulos = df.isnull().sum()
    display(HTML("<div style='color: green; font-size: 18px;'>Detección de valores nulos completada exitosamente.</div>"))
    display(nulos)
    return nulos

# Función para mostrar la distribución de datos
def mostrar_distribucion(df, titulo):
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df.select_dtypes(include=[np.number]))
    plt.title(titulo)
    plt.xticks(rotation=90)
    plt.grid(True)
    plt.show()

# Función para eliminar duplicados
def eliminar_duplicados(df):
    df_cleaned = df.drop_duplicates()
    display(HTML(f"<div style='color: green; font-size: 18px;'>Eliminación de duplicados completada: {df_cleaned.shape[0]} filas restantes.</div>"))
    return df_cleaned

# Función para convertir tipos de datos
def convertir_tipos(df, conversiones):
    for columna, tipo in conversiones.items():
        df[columna] = df[columna].astype(tipo)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Conversión de tipos de datos completada.</div>"))
    return df

# Función para manejar valores extremos
def manejar_valores_extremos(df, metodo='cap'):
    if metodo == 'cap':
        for col in df.select_dtypes(include=[np.number]).columns:
            percentiles = df[col].quantile([0.01, 0.99]).values
            df[col] = np.clip(df[col], percentiles[0], percentiles[1])
    elif metodo == 'remove':
        df = eliminar_outliers_iqr(df)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Manejo de valores extremos utilizando el método '{metodo}' completado.</div>"))
    return df

# Función para normalizar datos
def normalizar_datos(df):
    scaler = Normalizer()
    df[df.select_dtypes(include=[np.number]).columns] = scaler.fit_transform(df.select_dtypes(include=[np.number]))
    display(HTML(f"<div style='color: green; font-size: 18px;'>Normalización de datos completada exitosamente.</div>"))
    return df

# Función para remover columnas con baja varianza
def remover_baja_varianza(df, umbral=0.01):
    selector = VarianceThreshold(threshold=umbral)
    selector.fit(df.select_dtypes(include=[np.number]))
    columnas_retenidas = df.select_dtypes(include=[np.number]).columns[selector.get_support()]
    df = df[columnas_retenidas]
    display(HTML(f"<div style='color: green; font-size: 18px;'>Remoción de columnas con baja varianza completada.</div>"))
    return df

# Función para corregir valores inconsistentes
def corregir_valores_inconsistentes(df, reglas):
    for columna, regla in reglas.items():
        df[columna] = df[columna].apply(regla)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Corrección de valores inconsistentes completada.</div>"))
    return df

# Función para detectar duplicados en columnas específicas
def detectar_duplicados_columnas(df, columnas):
    duplicados = df.duplicated(subset=columnas)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Detección de duplicados en columnas específicas completada.</div>"))
    return duplicados

# Función para convertir fechas a componentes temporales
def convertir_fechas(df, columna_fecha):
    df[columna_fecha] = pd.to_datetime(df[columna_fecha])
    df['year'] = df[columna_fecha].dt.year
    df['month'] = df[columna_fecha].dt.month
    df['day'] = df[columna_fecha].dt.day
    df['day_of_week'] = df[columna_fecha].dt.dayofweek
    display(HTML(f"<div style='color: green; font-size: 18px;'>Conversión de fechas a componentes temporales completada.</div>"))
    return df

# Función para imputar valores faltantes basada en regresión
def imputar_valores_regresion(df, columna_objetivo):
    df_no_nulos = df.dropna(subset=[columna_objetivo])
    df_nulos = df[df[columna_objetivo].isnull()]
    X_train = df_no_nulos.drop(columns=[columna_objetivo])
    y_train = df_no_nulos[columna_objetivo]
    modelo = LinearRegression()
    modelo.fit(X_train, y_train)
    df.loc[df[columna_objetivo].isnull(), columna_objetivo] = modelo.predict(df_nulos.drop(columns=[columna_objetivo]))
    display(HTML(f"<div style='color: green; font-size: 18px;'>Imputación de valores faltantes basada en regresión completada.</div>"))
    return df

# Función para remover columnas altamente correlacionadas
def remover_columnas_correlacionadas(df, umbral=0.9):
    correlacion = df.corr().abs()
    upper = correlacion.where(np.triu(np.ones(correlacion.shape), k=1).astype(bool))
    columnas_a_remover = [columna for columna in upper.columns if any(upper[columna] > umbral)]
    df = df.drop(columns=columnas_a_remover)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Remoción de columnas altamente correlacionadas completada.</div>"))
    return df

# Función para transformar variables categóricas en variables dummy
def transformar_variables_dummy(df):
    df = pd.get_dummies(df, drop_first=True)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Transformación de variables categóricas en variables dummy completada.</div>"))
    return df

# Función para escalar datos de forma robusta
def escalar_datos_robusto(df):
    scaler = RobustScaler()
    df[df.select_dtypes(include=[np.number]).columns] = scaler.fit_transform(df.select_dtypes(include=[np.number]))
    display(HTML(f"<div style='color: green; font-size: 18px;'>Escalado robusto de datos completado exitosamente.</div>"))
    return df

# Función para detectar valores atípicos usando el método de Tukey
def detectar_outliers_tukey(df):
    Q1 = df.quantile(0.25)
    Q3 = df.quantile(0.75)
    IQR = Q3 - Q1
    outliers = ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR)))
    display(HTML(f"<div style='color: green; font-size: 18px;'>Detección de valores atípicos usando el método de Tukey completada.</div>"))
    return outliers

# Función para convertir variables categóricas ordinales
def convertir_ordinales(df, columnas_ordinales, categorias):
    for columna, categoria in zip(columnas_ordinales, categorias):
        df[columna] = pd.Categorical(df[columna], categories=categoria, ordered=True)
        df[columna] = df[columna].cat.codes
    display(HTML(f"<div style='color: green; font-size: 18px;'>Conversión de variables categóricas ordinales completada.</div>"))
    return df

# Función para interpolar valores faltantes
def interpolar_valores(df, metodo='linear'):
    df = df.interpolate(method=metodo)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Interpolación de valores faltantes utilizando el método '{metodo}' completada.</div>"))
    return df

# Función para remover columnas con alta proporción de valores nulos
def remover_columnas_nulos(df, umbral=0.5):
    proporciones_nulos = df.isnull().mean()
    columnas_a_remover = proporciones_nulos[proporciones_nulos > umbral].index
    df = df.drop(columns=columnas_a_remover)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Remoción de columnas con alta proporción de valores nulos completada.</div>"))
    return df

# Función para preprocesar el DataFrame
def preprocesar_dataframe(df, metodo_imputacion, metodo_outliers, metodo_estandarizacion, valor_constante=None):
    start_time = time.time()
    with tqdm(total=100, desc="Preprocesando DataFrame") as pbar:
        try:
            df.columns = [col.lower().replace(' ', '_') for col in df.columns]
            pbar.update(10)
            
            # Detección de valores nulos
            detectar_valores_nulos(df)
            pbar.update(10)
            
            # Mostrar distribución antes del preprocesamiento
            mostrar_distribucion(df, "Distribución de datos antes del preprocesamiento")
            pbar.update(10)
            
            # Manejo de valores nulos
            df = manejar_nulos(df, metodo=metodo_imputacion, valor_constante=valor_constante)
            pbar.update(20)
            
            # Eliminación de duplicados
            df = eliminar_duplicados(df)
            pbar.update(5)
            
            # Eliminación de outliers
            if metodo_outliers == 'zscore':
                df = eliminar_outliers(df)
            else:
                df = eliminar_outliers_iqr(df)
            pbar.update(20)
            
            # Estandarización de datos
            df = estandarizar_datos(df, metodo=metodo_estandarizacion)
            pbar.update(20)
            
            # Codificación de variables categóricas
            df = codificar_variables(df)
            pbar.update(10)
            
            # Mostrar distribución después del preprocesamiento
            mostrar_distribucion(df, "Distribución de datos después del preprocesamiento")
            pbar.update(10)

            display(HTML(f"<div style='color: green; font-size: 18px;'>DataFrame preprocesado: {df.shape[0]} filas, {df.shape[1]} columnas</div>"))
            return df

        except Exception as e:
            display(HTML(f"<div style='color: red; font-size: 18px;'>Error durante el preprocesamiento: {str(e)}</div>"))

    end_time = time.time()
    display(HTML(f"<div style='color: green; font-size: 18px;'>Tiempo total de preprocesamiento: {end_time - start_time:.2f} segundos</div>"))

# Widgets para seleccionar métodos de imputación, eliminación de outliers y estandarización
metodo_imputacion = widgets.Dropdown(
    options=['mean', 'median', 'most_frequent', 'constant'],
    value='median',
    description='Método de Imputación:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

metodo_outliers = widgets.Dropdown(
    options=['zscore', 'iqr'],
    value='zscore',
    description='Método de Outliers:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

metodo_estandarizacion = widgets.Dropdown(
    options=['standard', 'minmax'],
    value='standard',
    description='Método de Estandarización:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

valor_constante = widgets.FloatText(
    value=0.0,
    description='Valor Constante:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px'),
    disabled=True
)

def actualizar_valor_constante(*args):
    if metodo_imputacion.value == 'constant':
        valor_constante.disabled = False
    else:
        valor_constante.disabled = True

metodo_imputacion.observe(actualizar_valor_constante, 'value')

# Botón para ejecutar el preprocesamiento
boton_ejecutar = widgets.Button(description="Ejecutar Preprocesamiento",
                                button_style='success',
                                layout=widgets.Layout(width='400px', height='40px'))

# Función para ejecutar el preprocesamiento al presionar el botón
def on_button_clicked(b):
    global df  # Asegurarse de que está usando el DataFrame global `df`
    if df is not None:
        preprocesar_dataframe(df, metodo_imputacion.value, metodo_outliers.value, metodo_estandarizacion.value, valor_constante.value)

boton_ejecutar.on_click(on_button_clicked)

# Mostrar widgets y botón de ejecución con estilo
display(HTML("<style>.widget-label { font-size: 16px; font-weight: bold; color: #2E7D32; }</style>"))
display(metodo_imputacion, metodo_outliers, metodo_estandarizacion, valor_constante, boton_ejecutar)


Dropdown(description='Método de Imputación:', index=1, layout=Layout(width='400px'), options=('mean', 'median'…

Dropdown(description='Método de Outliers:', layout=Layout(width='400px'), options=('zscore', 'iqr'), style=Des…

Dropdown(description='Método de Estandarización:', layout=Layout(width='400px'), options=('standard', 'minmax'…

FloatText(value=0.0, description='Valor Constante:', disabled=True, layout=Layout(width='400px'), style=Descri…

Button(button_style='success', description='Ejecutar Preprocesamiento', layout=Layout(height='40px', width='40…

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #388E3C;'>Análisis Exploratorio de Datos (EDA)</h1>
    <h3 style='color: #2E7D32;'>Subtema 3.2: Análisis Estadístico</h3>
    <p>En esta sección, se implementan varias funciones para realizar análisis estadísticos del DataFrame, proporcionando estadísticas descriptivas, identificación de valores atípicos, verificación de supuestos de normalidad y homogeneidad de varianza, así como análisis de correlación y regresión.</p>
    <ul>
      <li>Generación de estadísticas descriptivas: Resumen estadístico de las variables del DataFrame.</li>
      <li>Detección y manejo de valores nulos: Identificación y manejo de valores nulos mediante imputación.</li>
      <li>Identificación de outliers: Detección de valores atípicos utilizando el método del IQR.</li>
      <li>Verificación de normalidad: Pruebas de normalidad de Kolmogorov-Smirnov para columnas numéricas.</li>
      <li>Verificación de homogeneidad de varianza: Pruebas de Bartlett para evaluar la homogeneidad de varianza.</li>
      <li>Análisis de correlación: Cálculo de la matriz de correlación entre las variables numéricas.</li>
      <li>Distribución de frecuencias: Cálculo de la distribución de frecuencias para variables categóricas.</li>
      <li>Análisis de varianza (ANOVA): Evaluación de diferencias entre grupos categóricos y numéricos.</li>
      <li>Prueba de Chi-Cuadrado: Evaluación de la independencia entre variables categóricas.</li>
      <li>Análisis de componentes principales (PCA): Reducción de dimensionalidad mediante PCA.</li>
      <li>Prueba de T de Student: Comparación de medias entre dos grupos.</li>
      <li>Análisis de regresión lineal: Evaluación de la relación entre variables dependientes e independientes.</li>
      <li>Análisis de clústeres (K-Means): Agrupación de datos utilizando el algoritmo K-Means.</li>
      <li>Análisis de distribución: Visualización de la distribución de una columna numérica.</li>
      <li>Análisis de correlación de Pearson, Spearman y Kendall: Evaluación de la relación entre dos variables numéricas.</li>
      <li>Análisis de regresión logística: Evaluación de la relación entre variables independientes y una variable dependiente binaria.</li>
      <li>Análisis de componentes independientes (ICA): Separación de señales mezcladas mediante ICA.</li>
    </ul>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Ventajas del Análisis Estadístico</h3>
    <ul>
      <li><strong>Detección de Patrones:</strong> Identifica patrones y relaciones entre variables, proporcionando información valiosa para la toma de decisiones.</li>
      <li><strong>Manejo de Datos Faltantes:</strong> Imputa valores faltantes, asegurando la integridad de los datos para el análisis posterior.</li>
      <li><strong>Identificación de Outliers:</strong> Detecta y maneja valores atípicos, mejorando la calidad del análisis y los modelos predictivos.</li>
      <li><strong>Evaluación de Supuestos:</strong> Verifica supuestos estadísticos clave como la normalidad y homogeneidad de varianza, asegurando la validez de las pruebas estadísticas.</li>
      <li><strong>Reducción de Dimensionalidad:</strong> Simplifica el análisis y mejora la eficiencia computacional mediante técnicas como PCA y ICA.</li>
      <li><strong>Automatización del Análisis:</strong> Proporciona un conjunto de funciones automatizadas que facilitan y agilizan el análisis estadístico.</li>
      <li><strong>Visualización de Datos:</strong> Genera visualizaciones claras y concisas que ayudan a interpretar y comunicar los resultados del análisis.</li>
    </ul>
  </div>
</div>


In [6]:
# Decorador para manejo de excepciones
def manejar_excepciones(func):
    def wrapper(*args, **kwargs):
        try:
            return func(*args, **kwargs)
        except KeyError as e:
            display(HTML(f"<div style='color: red; font-size: 18px;'>Error: La columna '{e}' no existe en el DataFrame.</div>"))
        except Exception as e:
            display(HTML(f"<div style='color: red; font-size: 18px;'>Ocurrió un error: {str(e)}</div>"))
    return wrapper

# Función para generar estadísticas descriptivas
@manejar_excepciones
def descripcion_estadistica(df):
    display(HTML("<h3 style='color: #2E7D32;'>Estadísticas Descriptivas</h3>"))
    display(df.describe())

# Función para detectar valores nulos
@manejar_excepciones
def detectar_valores_nulos(df):
    nulos = df.isnull().sum()
    display(HTML("<div style='color: green; font-size: 18px;'>Detección de valores nulos completada exitosamente.</div>"))
    display(nulos)
    return nulos

# Función para imputar valores faltantes
@manejar_excepciones
def imputar_valores_faltantes(df, metodo='media'):
    if metodo == 'media':
        df.fillna(df.mean(), inplace=True)
    elif metodo == 'mediana':
        df.fillna(df.median(), inplace=True)
    elif metodo == 'moda':
        df.fillna(df.mode().iloc[0], inplace=True)
    elif metodo == 'interpolacion':
        df.interpolate(inplace=True)
    display(HTML(f"<div style='color: green; font-size: 18px;'>Imputación de valores faltantes utilizando el método '{metodo}' completada exitosamente.</div>"))
    return df

# Función para identificar valores atípicos usando IQR
@manejar_excepciones
def identificar_outliers_iqr(df):
    Q1 = df.quantile(0.25)
    Q3 = df.quantile(0.75)
    IQR = Q3 - Q1
    outliers = df[((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]
    display(HTML("<h3 style='color: #2E7D32;'>Identificación de Valores Atípicos (IQR)</h3>"))
    display(outliers.head(10))  # Mostrar solo 10 registros por defecto
    return outliers

# Función para verificar la normalidad con Kolmogorov-Smirnov
@manejar_excepciones
def verificar_normalidad_ks(df, columnas):
    display(HTML("<h3 style='color: #2E7D32;'>Verificación de Normalidad (Kolmogorov-Smirnov)</h3>"))
    for col in columnas:
        if col in df.columns:
            stat, p = stats.kstest(df[col].dropna(), 'norm')
            display(HTML(f"<div>Columna: {col}, Estadístico: {stat}, p-valor: {p}</div>"))
            if p > 0.05:
                display(HTML(f"<div style='color: green;'>{col} sigue una distribución normal (p > 0.05).</div>"))
            else:
                display(HTML(f"<div style='color: red;'>{col} no sigue una distribución normal (p <= 0.05).</div>"))

# Función para verificar la homogeneidad de varianza con Bartlett
@manejar_excepciones
def verificar_homogeneidad_bartlett(df, col1, col2):
    if col1 in df.columns and col2 in df.columns:
        stat, p = stats.bartlett(df[col1].dropna(), df[col2].dropna())
        display(HTML(f"<h3 style='color: #2E7D32;'>Verificación de Homogeneidad de Varianza (Bartlett)</h3>"))
        display(HTML(f"<div>Columna 1: {col1}, Columna 2: {col2}, Estadístico: {stat}, p-valor: {p}</div>"))
        if p > 0.05:
            display(HTML(f"<div style='color: green;'>Las varianzas de {col1} y {col2} son homogéneas (p > 0.05).</div>"))
        else:
            display(HTML(f"<div style='color: red;'>Las varianzas de {col1} y {col2} no son homogéneas (p <= 0.05).</div>"))

# Función para calcular la matriz de correlación
@manejar_excepciones
def calcular_correlacion(df):
    correlacion = df.corr()
    display(HTML("<div style='color: green; font-size: 18px;'>Matriz de correlación calculada exitosamente.</div>"))
    display(correlacion)
    return correlacion

# Función para calcular la distribución de frecuencias
@manejar_excepciones
def distribucion_frecuencias(df, columna):
    if columna in df.columns:
        frecuencias = df[columna].value_counts()
        display(HTML(f"<div style='color: green; font-size: 18px;'>Distribución de frecuencias para '{columna}' calculada exitosamente.</div>"))
        display(frecuencias)
        return frecuencias

# Función para realizar análisis de varianza (ANOVA)
@manejar_excepciones
def analisis_anova(df, col_categorica, col_numerica):
    if col_categorica in df.columns and col_numerica in df.columns:
        categorias = df[col_categorica].unique()
        grupos = [df[df[col_categorica] == cat][col_numerica] for cat in categorias]
        anova_result = stats.f_oneway(*grupos)
        display(HTML(f"<div style='color: green; font-size: 18px;'>ANOVA completado exitosamente. F-valor: {anova_result.statistic}, p-valor: {anova_result.pvalue}</div>"))
        return anova_result

# Función para realizar prueba de Chi-Cuadrado
@manejar_excepciones
def prueba_chi_cuadrado(df, col1, col2):
    if col1 in df.columns and col2 in df.columns:
        tabla_contingencia = pd.crosstab(df[col1], df[col2])
        chi2, p, _, _ = stats.chi2_contingency(tabla_contingencia)
        display(HTML(f"<div style='color: green; font-size: 18px;'>Prueba de Chi-Cuadrado completada exitosamente. Chi2: {chi2}, p-valor: {p}</div>"))
        return chi2, p

# Función para realizar análisis de componentes principales (PCA)
@manejar_excepciones
def analisis_pca(df, n_componentes=2):
    pca = PCA(n_components=n_componentes)
    componentes = pca.fit_transform(df.select_dtypes(include=[np.number]).dropna())
    display(HTML("<div style='color: green; font-size: 18px;'>Análisis de Componentes Principales (PCA) completado exitosamente.</div>"))
    
    # Visualización de los componentes principales
    plt.figure(figsize=(10, 6))
    plt.scatter(componentes[:, 0], componentes[:, 1], alpha=0.5)
    plt.xlabel('Componente Principal 1')
    plt.ylabel('Componente Principal 2')
    plt.title('PCA - Componentes Principales')
    plt.grid(True)
    plt.show()
    
    return componentes

# Función para realizar prueba de T de Student
@manejar_excepciones
def prueba_t_student(df, col1, col2):
    if col1 in df.columns and col2 in df.columns:
        stat, p = stats.ttest_ind(df[col1].dropna(), df[col2].dropna())
        display(HTML(f"<div style='color: green; font-size: 18px;'>Prueba de T de Student completada exitosamente. Estadístico: {stat}, p-valor: {p}</div>"))
        return stat, p

# Función para realizar análisis de regresión lineal
@manejar_excepciones
def analisis_regresion_lineal(df, col_x, col_y):
    if col_x in df.columns and col_y in df.columns:
        X = df[[col_x]].dropna()
        y = df[col_y].dropna()
        modelo = LinearRegression()
        modelo.fit(X, y)
        predicciones = modelo.predict(X)
        
        display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de Regresión Lineal completado exitosamente.</div>"))
        
        # Visualización de la regresión lineal
        plt.figure(figsize=(10, 6))
        plt.scatter(X, y, alpha=0.5)
        plt.plot(X, predicciones, color='red')
        plt.xlabel(col_x)
        plt.ylabel(col_y)
        plt.title('Regresión Lineal')
        plt.grid(True)
        plt.show()
        
        return modelo

# Función para realizar análisis de clústeres (K-Means)
@manejar_excepciones
def analisis_kmeans(df, n_clusters=3):
    kmeans = KMeans(n_clusters=n_clusters)
    clusters = kmeans.fit_predict(df.select_dtypes(include=[np.number]).dropna())
    display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de Clústeres (K-Means) completado exitosamente.</div>"))
    
    # Visualización de los clústeres
    plt.figure(figsize=(10, 6))
    plt.scatter(df.iloc[:, 0], df.iloc[:, 1], c=clusters, cmap='viridis', alpha=0.5)
    plt.title('K-Means Clustering')
    plt.xlabel(df.columns[0])
    plt.ylabel(df.columns[1])
    plt.grid(True)
    plt.show()
    
    return clusters

# Función para analizar la distribución
@manejar_excepciones
def analizar_distribucion(df, columna):
    if columna in df.columns:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[columna], kde=True)
        plt.title(f'Distribución de {columna}')
        plt.xlabel(columna)
        plt.ylabel('Frecuencia')
        plt.grid(True)
        plt.show()
        display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de distribución de '{columna}' completado exitosamente.</div>"))

# Función para realizar análisis de correlación de Pearson
@manejar_excepciones
def analisis_correlacion_pearson(df, col1, col2):
    if col1 in df.columns and col2 in df.columns:
        coef, p = stats.pearsonr(df[col1].dropna(), df[col2].dropna())
        display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de correlación de Pearson completado exitosamente. Coeficiente: {coef}, p-valor: {p}</div>"))
        return coef, p

# Función para realizar análisis de correlación de Spearman
@manejar_excepciones
def analisis_correlacion_spearman(df, col1, col2):
    if col1 in df.columns and col2 in df.columns:
        coef, p = stats.spearmanr(df[col1].dropna(), df[col2].dropna())
        display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de correlación de Spearman completado exitosamente. Coeficiente: {coef}, p-valor: {p}</div>"))
        return coef, p

# Función para realizar análisis de correlación de Kendall
@manejar_excepciones
def analisis_correlacion_kendall(df, col1, col2):
    if col1 in df.columns and col2 in df.columns:
        coef, p = stats.kendalltau(df[col1].dropna(), df[col2].dropna())
        display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de correlación de Kendall completado exitosamente. Coeficiente: {coef}, p-valor: {p}</div>"))
        return coef, p

# Función para realizar análisis de regresión logística
@manejar_excepciones
def analisis_regresion_logistica(df, col_x, col_y):
    if col_x in df.columns and col_y in df.columns:
        X = df[[col_x]].dropna()
        y = df[col_y].dropna()
        modelo = LogisticRegression()
        modelo.fit(X, y)
        predicciones = modelo.predict(X)
        
        display(HTML(f"<div style='color: green; font-size: 18px;'>Análisis de Regresión Logística completado exitosamente.</div>"))
        
        # Visualización de la regresión logística
        plt.figure(figsize=(10, 6))
        plt.scatter(X, y, alpha=0.5)
        plt.plot(X, predicciones, color='red')
        plt.xlabel(col_x)
        plt.ylabel(col_y)
        plt.title('Regresión Logística')
        plt.grid(True)
        plt.show()
        
        return modelo

# Función para realizar análisis de componentes independientes (ICA)
@manejar_excepciones
def analisis_ica(df, n_componentes=2):
    ica = FastICA(n_components=n_componentes)
    componentes = ica.fit_transform(df.select_dtypes(include=[np.number]).dropna())
    display(HTML("<div style='color: green; font-size: 18px;'>Análisis de Componentes Independientes (ICA) completado exitosamente.</div>"))
    
    # Visualización de los componentes independientes
    plt.figure(figsize=(10, 6))
    plt.scatter(componentes[:, 0], componentes[:, 1], alpha=0.5)
    plt.xlabel('Componente Independiente 1')
    plt.ylabel('Componente Independiente 2')
    plt.title('ICA - Componentes Independientes')
    plt.grid(True)
    plt.show()
    
    return componentes

# Widgets interactivos para análisis
def actualizar_graficos(tipo, x, y=None):
    if tipo == 'Distribución':
        analizar_distribucion(df, x)
    elif tipo == 'Regresión Lineal':
        analisis_regresion_lineal(df, x, y)

opciones_grafico = ['Distribución', 'Regresión Lineal']
columnas = df.columns.tolist()

# Estilo CSS personalizado
style = """
<style>
    .widget-label {
        font-size: 16px !important;
        color: #2E7D32 !important;
    }
    .widget-dropdown, .widget-text {
        width: 50% !important;
        font-size: 14px !important;
    }
    .widget-button {
        background-color: #2E7D32 !important;
        color: white !important;
        font-size: 16px !important;
    }
</style>
"""
display(HTML(style))

tipo_grafico = widgets.Dropdown(
    options=opciones_grafico, 
    description='Tipo de gráfico:', 
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%')
)
columna_x = widgets.Dropdown(
    options=columnas, 
    description='Columna X:', 
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%')
)
columna_y = widgets.Dropdown(
    options=[None] + columnas, 
    description='Columna Y:', 
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%')
)

# Botón de ejecución
boton_ejecutar = widgets.Button(
    description="Ejecutar Análisis",
    button_style='success',
    layout=widgets.Layout(width='50%')
)

def ejecutar_analisis(b):
    actualizar_graficos(tipo_grafico.value, columna_x.value, columna_y.value)

boton_ejecutar.on_click(ejecutar_analisis)

# Mostrar widgets
display(tipo_grafico, columna_x, columna_y, boton_ejecutar)

# Ejemplo de uso con el DataFrame df
if 'df' in globals():
    with tqdm(total=100, desc="Procesando análisis estadístico", unit="%") as pbar:
        # Generar estadísticas descriptivas
        descripcion_estadistica(df)
        pbar.update(5)

        # Detectar valores nulos
        detectar_valores_nulos(df)
        pbar.update(5)

        # Imputar valores faltantes
        imputar_valores_faltantes(df, metodo='media')
        pbar.update(5)

        # Identificar valores atípicos usando IQR
        outliers = identificar_outliers_iqr(df)
        pbar.update(5)

        # Verificar normalidad de algunas columnas numéricas usando Kolmogorov-Smirnov
        verificar_normalidad_ks(df, ['tenure', 'monthlycharges', 'totalcharges'])
        pbar.update(10)

        # Verificar homogeneidad de varianza entre dos columnas usando Bartlett
        verificar_homogeneidad_bartlett(df, 'tenure', 'monthlycharges')
        pbar.update(10)

        # Análisis de correlación de Pearson entre 'tenure' y 'monthlycharges'
        analisis_correlacion_pearson(df, 'tenure', 'monthlycharges')
        pbar.update(10)

        # Análisis de correlación de Spearman entre 'tenure' y 'totalcharges'
        analisis_correlacion_spearman(df, 'tenure', 'totalcharges')
        pbar.update(10)

        # Análisis de correlación de Kendall entre 'monthlycharges' y 'totalcharges'
        analisis_correlacion_kendall(df, 'monthlycharges', 'totalcharges')
        pbar.update(10)

        # Análisis de regresión logística
        analisis_regresion_logistica(df, 'tenure', 'churn')
        pbar.update(10)

        # Análisis de componentes independientes (ICA)
        analisis_ica(df)
        pbar.update(10)

        # Calcular la matriz de correlación
        calcular_correlacion(df)
        pbar.update(5)

        # Distribución de frecuencias
        distribucion_frecuencias(df, 'churn')
        pbar.update(5)


Dropdown(description='Tipo de gráfico:', layout=Layout(width='50%'), options=('Distribución', 'Regresión Linea…

Dropdown(description='Columna X:', layout=Layout(width='50%'), options=('RowNumber', 'CustomerId', 'Surname', …

Dropdown(description='Columna Y:', layout=Layout(width='50%'), options=(None, 'RowNumber', 'CustomerId', 'Surn…

Button(button_style='success', description='Ejecutar Análisis', layout=Layout(width='50%'), style=ButtonStyle(…

Procesando análisis estadístico:   0%|          | 0/100 [00:00<?, ?%/s]

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,9091.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,4.99769,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.894723,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,2.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


RowNumber            0
CustomerId           0
Surname              0
CreditScore          0
Geography            0
Gender               0
Age                  0
Tenure             909
Balance              0
NumOfProducts        0
HasCrCard            0
IsActiveMember       0
EstimatedSalary      0
Exited               0
dtype: int64

Procesando análisis estadístico:  10%|█         | 10/100 [00:00<00:00, 95.19%/s]

Procesando análisis estadístico:  20%|██        | 20/100 [00:00<00:00, 87.78%/s]

Procesando análisis estadístico: 100%|██████████| 100/100 [00:00<00:00, 422.95%/s]


<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #388E3C;'>Visualización de Datos</h1>
    <h3 style='color: #2E7D32;'>Descripción de la Función</h3>
    <p>En esta sección, se implementan varias funciones para generar gráficos a partir del DataFrame, con una barra de progreso para monitorizar el proceso. Las funciones de visualización incluyen gráficos de líneas, barras, dispersión, boxplots, histogramas, KDEs, y más.</p>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Funcionalidad del Código</h3>
    <p>El código implementa varias funciones clave para la visualización de datos:</p>
    <ul>
      <li><code>generar_grafico_con_progreso(df, tipo, x, y, hue, title, xlabel, ylabel, figsize)</code>: Genera gráficos con barra de progreso, soportando múltiples tipos de gráficos, incluyendo:
        <ul>
          <li>Gráfico de líneas (<code>line</code>)</li>
          <li>Gráfico de barras (<code>bar</code>)</li>
          <li>Gráfico de dispersión (<code>scatter</code>)</li>
          <li>Boxplot (<code>box</code>)</li>
          <li>Histograma (<code>hist</code>)</li>
          <li>Gráfico de densidad Kernel (KDE) (<code>kde</code>)</li>
          <li>Gráfico de violín (<code>violin</code>)</li>
          <li>Boxenplot (<code>boxen</code>)</li>
          <li>Gráfico de puntos (<code>strip</code>)</li>
          <li>Gráfico de enjambre (<code>swarm</code>)</li>
          <li>Mapa de calor (<code>heatmap</code>)</li>
          <li>Mapa de clusters (<code>clustermap</code>)</li>
          <li>Gráfico de contorno (<code>contour</code>)</li>
          <li>Pairplot (<code>pairplot</code>)</li>
          <li>Curvas de Andrews (<code>andrews_curves</code>)</li>
          <li>Coordenadas paralelas (<code>parallel_coordinates</code>)</li>
          <li>Gráfico de radar (<code>radar</code>)</li>
          <li>Gráfico de dispersión 3D (<code>3d_scatter</code>)</li>
        </ul>
      </li>
      <li><code>interactivo_grafico(df)</code>: Crea un menú interactivo para seleccionar el tipo de gráfico y las columnas a graficar, proporcionando una interfaz de usuario amigable y flexible para la exploración de datos visual.</li>
    </ul>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Ventajas de la Visualización de Datos</h3>
    <ul>
      <li><strong>Monitorización del Progreso:</strong> La barra de progreso proporciona feedback en tiempo real sobre el estado de generación del gráfico.</li>
      <li><strong>Amplia Variedad de Gráficos:</strong> Soporta múltiples tipos de gráficos, lo que permite una exploración visual completa y diversificada de los datos.</li>
      <li><strong>Interactividad:</strong> La interfaz de usuario interactiva facilita la selección y personalización de los gráficos, mejorando la experiencia del usuario.</li>
      <li><strong>Validación de Entradas:</strong> Las validaciones aseguran que las columnas seleccionadas existen y son adecuadas para el tipo de gráfico seleccionado.</li>
      <li><strong>Manejo de Excepciones:</strong> Proporciona mensajes de error claros y específicos, mejorando la comprensión y solución de problemas potenciales.</li>
      <li><strong>Estilo y Presentación:</strong> Los gráficos generados son visualmente atractivos y profesionales, facilitando la interpretación y comunicación de los resultados.</li>
    </ul>
  </div>
</div>


In [7]:
# Función para generar gráficos con barra de progreso
def generar_grafico_con_progreso(df, tipo, x=None, y=None, hue=None, title=None, xlabel=None, ylabel=None, figsize=(12, 6)):
    try:
        with tqdm(total=100, desc=f"Generando gráfico {tipo}", colour='blue') as pbar:
            start_time = time.time()
            plt.figure(figsize=figsize)
            if tipo == 'line':
                sns.lineplot(data=df, x=x, y=y)
            elif tipo == 'bar':
                sns.barplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'scatter':
                sns.scatterplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'box':
                sns.boxplot(data=df, x=x, y=y)
            elif tipo == 'hist':
                sns.histplot(data=df, x=x, bins=30, kde=True)
            elif tipo == 'kde':
                sns.kdeplot(data=df, x=x, fill=True)
            elif tipo == 'violin':
                sns.violinplot(data=df, x=x)
            elif tipo == 'boxen':
                sns.boxenplot(data=df, x=x)
            elif tipo == 'strip':
                sns.stripplot(data=df, x=x)
            elif tipo == 'swarm':
                sns.swarmplot(data=df, x=x)
            elif tipo == 'heatmap':
                sns.heatmap(data=df.corr(), annot=True, cmap='coolwarm')
            elif tipo == 'clustermap':
                sns.clustermap(data=df.corr(), annot=True, cmap='coolwarm')
            elif tipo == 'contour':
                sns.kdeplot(data=df, x=x, y=y, fill=True)
            elif tipo == 'pairplot':
                sns.pairplot(df, hue=hue)
            elif tipo == 'andrews_curves':
                pd.plotting.andrews_curves(df, class_column=hue)
            elif tipo == 'parallel_coordinates':
                pd.plotting.parallel_coordinates(df, class_column=hue)
            elif tipo == 'radar':
                labels = np.array(df.columns)
                stats = df.mean(axis=0)
                angles = np.linspace(0, 2 * np.pi, len(labels), endpoint=False).tolist()
                stats = np.concatenate((stats, [stats[0]]))
                angles += angles[:1]
                fig, ax = plt.subplots(figsize=figsize, subplot_kw=dict(polar=True))
                ax.fill(angles, stats, color='blue', alpha=0.25)
                ax.plot(angles, stats, color='blue', linewidth=2)
                ax.set_yticklabels([])
                ax.set_xticks(angles[:-1])
                ax.set_xticklabels(labels)
            elif tipo == '3d_scatter':
                if x is not None and y is not None and hue is not None:
                    from mpl_toolkits.mplot3d import Axes3D
                    fig = plt.figure(figsize=figsize)
                    ax = fig.add_subplot(111, projection='3d')
                    ax.scatter(df[x], df[y], df[hue], c='b', marker='o')
                    ax.set_xlabel(xlabel)
                    ax.set_ylabel(ylabel)
                    ax.set_zlabel(hue)
                else:
                    raise ValueError("Seleccione las columnas X, Y y Hue para el gráfico 3D")
            plt.title(title)
            plt.xlabel(xlabel)
            plt.ylabel(ylabel)
            plt.grid(True)
            plt.show()
            pbar.update(100)
            elapsed_time = time.time() - start_time
            print(f"Tiempo en generar gráfico {tipo}: {elapsed_time:.2f} segundos")
    except KeyError as e:
        print(f"Error: La columna {e} no existe en el DataFrame.")
    except ValueError as e:
        print(f"Error de valor: {e}")
    except Exception as e:
        print(f"Ocurrió un error inesperado: {e}")

import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.notebook import tqdm
import ipywidgets as widgets
from ipywidgets import interact
import pandas as pd
import numpy as np
import time

# Función para generar gráficos con barra de progreso
def generar_grafico_con_progreso(df, tipo, x=None, y=None, hue=None, title=None, xlabel=None, ylabel=None, figsize=(12, 6)):
    try:
        with tqdm(total=100, desc=f"Generando gráfico {tipo}", colour='blue') as pbar:
            start_time = time.time()
            plt.figure(figsize=figsize)
            
            # Selección del tipo de gráfico
            if tipo == 'line':
                sns.lineplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'bar':
                sns.barplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'scatter':
                sns.scatterplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'box':
                sns.boxplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'hist':
                sns.histplot(data=df, x=x, bins=30, kde=True)
            elif tipo == 'kde':
                sns.kdeplot(data=df, x=x, hue=hue, fill=True)
            elif tipo == 'violin':
                sns.violinplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'boxen':
                sns.boxenplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'strip':
                sns.stripplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'swarm':
                sns.swarmplot(data=df, x=x, y=y, hue=hue)
            elif tipo == 'heatmap':
                sns.heatmap(data=df.corr(), annot=True, cmap='coolwarm')
            elif tipo == 'clustermap':
                sns.clustermap(data=df.corr(), annot=True, cmap='coolwarm')
            elif tipo == 'contour':
                sns.kdeplot(data=df, x=x, y=y, hue=hue, fill=True)
            elif tipo == 'pairplot':
                sns.pairplot(df, hue=hue)
            elif tipo == 'andrews_curves':
                pd.plotting.andrews_curves(df, class_column=hue)
            elif tipo == 'parallel_coordinates':
                pd.plotting.parallel_coordinates(df, class_column=hue)
            elif tipo == 'radar':
                labels = np.array(df.columns)
                stats = df.mean(axis=0)
                angles = np.linspace(0, 2 * np.pi, len(labels), endpoint=False).tolist()
                stats = np.concatenate((stats, [stats[0]]))
                angles += angles[:1]
                fig, ax = plt.subplots(figsize=figsize, subplot_kw=dict(polar=True))
                ax.fill(angles, stats, color='blue', alpha=0.25)
                ax.plot(angles, stats, color='blue', linewidth=2)
                ax.set_yticklabels([])
                ax.set_xticks(angles[:-1])
                ax.set_xticklabels(labels)
            elif tipo == '3d_scatter':
                if x is not None and y is not None and hue is not None:
                    from mpl_toolkits.mplot3d import Axes3D
                    fig = plt.figure(figsize=figsize)
                    ax = fig.add_subplot(111, projection='3d')
                    ax.scatter(df[x], df[y], df[hue], c='b', marker='o')
                    ax.set_xlabel(xlabel)
                    ax.set_ylabel(ylabel)
                    ax.set_zlabel(hue)
                else:
                    raise ValueError("Seleccione las columnas X, Y y Hue para el gráfico 3D")
            plt.title(title)
            plt.xlabel(xlabel)
            plt.ylabel(ylabel)
            plt.grid(True)
            plt.show()
            pbar.update(100)
            elapsed_time = time.time() - start_time
            print(f"Tiempo en generar gráfico {tipo}: {elapsed_time:.2f} segundos")
    except KeyError as e:
        print(f"Error: La columna {e} no existe en el DataFrame.")
    except ValueError as e:
        print(f"Error de valor: {e}")
    except Exception as e:
        print(f"Ocurrió un error inesperado: {e}")

# Función para crear el menú interactivo
def interactivo_grafico(df):
    opciones_grafico = [
        'line', 'bar', 'scatter', 'box', 'hist', 'kde', 'violin', 
        'boxen', 'strip', 'swarm', 'heatmap', 'clustermap', 'contour',
        'pairplot', 'andrews_curves', 'parallel_coordinates', 'radar', '3d_scatter'
    ]
    columnas = df.columns.tolist()
    
    tipo_grafico = widgets.Dropdown(
        options=opciones_grafico,
        value='hist',
        description='Tipo de gráfico:',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    )
    
    columna_x = widgets.Dropdown(
        options=columnas,
        value=columnas[0],
        description='Columna X:',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    )
    
    columna_y = widgets.Dropdown(
        options=[None] + columnas,
        value=None,
        description='Columna Y:',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    )
    
    titulo = widgets.Text(
        value='',
        description='Título:',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    )
    
    hue = widgets.Dropdown(
        options=[None] + columnas,
        value=None,
        description='Hue:',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    )
    
    button = widgets.Button(
        description='Ejecutar Análisis',
        button_style='success',
        layout=widgets.Layout(width='400px')
    )
    
    def actualizar_columna_y(*args):
        if tipo_grafico.value in ['heatmap', 'clustermap', 'andrews_curves', 'parallel_coordinates', 'radar', 'pairplot']:
            columna_y.disabled = True
            columna_y.value = None
        else:
            columna_y.disabled = False
    
    tipo_grafico.observe(actualizar_columna_y, 'value')
    
    def ejecutar_analisis(b):
        try:
            plot_wrapper(tipo_grafico.value, columna_x.value, columna_y.value, titulo.value, hue.value)
        except Exception as e:
            print(f"Ocurrió un error inesperado al crear el gráfico interactivo: {e}")
    
    button.on_click(ejecutar_analisis)
    
    display(widgets.VBox([tipo_grafico, columna_x, columna_y, titulo, hue, button]))

def plot_wrapper(tipo, x, y, title, hue):
    if tipo in ['heatmap', 'clustermap', 'andrews_curves', 'parallel_coordinates', 'radar', 'pairplot']:
        generar_grafico_con_progreso(df, tipo, x=x, y=None, hue=hue, title=title, xlabel=x, ylabel='', figsize=(12, 6))
    else:
        generar_grafico_con_progreso(df, tipo, x=x, y=y, hue=hue, title=title, xlabel=x, ylabel=y, figsize=(12, 6))

# Llamar a la función interactiva
try:
    interactivo_grafico(df)
except Exception as e:
    print(f"Ocurrió un error inesperado al llamar a la función interactiva: {e}")



VBox(children=(Dropdown(description='Tipo de gráfico:', index=4, layout=Layout(width='400px'), options=('line'…

## Investigación del Equilibrio de Clases

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #388E3C;'>Investigación del Equilibrio de Clases</h1>
    <h3 style='color: #2E7D32;'> Investigación del Equilibrio de Clases</h3>
    <h4 style='color: #2E7D32;'>Subtema 5.1: Análisis del Equilibrio de Clases</h4>
    <p>En esta sección, se analiza el equilibrio de clases en el conjunto de datos. Se verifica la distribución de las clases para identificar posibles desequilibrios que puedan afectar el rendimiento de los modelos de machine learning.</p>
    <h4 style='color: #2E7D32;'>Subtema 5.2: Visualización del Equilibrio de Clases</h4>
    <p>Se generan visualizaciones para comprender mejor el equilibrio de clases en el conjunto de datos. Estas visualizaciones ayudan a identificar si es necesario aplicar técnicas de balanceo de clases.</p>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Funcionalidad del Código</h3>
    <p>El código implementa varias funciones clave para analizar y visualizar el equilibrio de clases:</p>
    <ul>
      <li><code>analizar_equilibrio_clases(df, columna, cantidad, metodo)</code>: Analiza la distribución de las clases en la columna especificada del DataFrame, permitiendo seleccionar los primeros, últimos o una muestra aleatoria de registros.</li>
      <li><code>visualizar_equilibrio_clases(df, columna)</code>: Genera gráficos para visualizar el equilibrio de clases en la columna especificada del DataFrame.</li>
      <li><code>mostrar_registros(df, cantidad, metodo)</code>: Muestra una cantidad especificada de registros del DataFrame según el método de muestra seleccionado.</li>
    </ul>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Ventajas del Análisis del Equilibrio de Clases</h3>
    <ul>
      <li><strong>Identificación de Desequilibrios:</strong> Permite detectar clases desbalanceadas que podrían afectar el rendimiento de los modelos de machine learning.</li>
      <li><strong>Visualización Intuitiva:</strong> Proporciona gráficos claros y concisos que facilitan la comprensión del equilibrio de clases en el conjunto de datos.</li>
      <li><strong>Flexibilidad en el Análisis:</strong> Ofrece múltiples métodos para seleccionar y analizar una muestra de registros del DataFrame.</li>
      <li><strong>Automatización del Análisis:</strong> Facilita el análisis automatizado del equilibrio de clases, mejorando la eficiencia del proceso de preprocesamiento de datos.</li>
    </ul>
  </div>
</div>


### Análisis del Equilibrio de Clases

In [8]:
# Función para analizar el equilibrio de clases con barra de progreso y tiempo
def analizar_equilibrio_clases(df, columna, cantidad=10, metodo='Primeros'):
    try:
        start_time = time.time()
        with tqdm(total=100, desc="Analizando Equilibrio de Clases", unit="%") as pbar:
            distribucion = df[columna].value_counts(normalize=True) * 100
            pbar.update(50)
            
            display(HTML("<h3 style='color: #2E7D32;'>Análisis del Equilibrio de Clases</h3>"))
            if metodo == 'Primeros':
                display(distribucion.head(cantidad))
            elif metodo == 'Últimos':
                display(distribucion.tail(cantidad))
            elif metodo == 'Aleatorios':
                display(distribucion.sample(cantidad))
            else:
                display(distribucion.head(cantidad))
                
            pbar.update(50)
        
        end_time = time.time()
        elapsed_time = end_time - start_time
        display(HTML(f"<div style='color: green; font-size: 18px;'>Tiempo total de análisis: {elapsed_time:.2f} segundos</div>"))
    
    except KeyError:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Error: La columna '{columna}' no existe en el DataFrame.</div>"))
    except Exception as e:
        display(HTML(f"<div style='color: red; font-size: 18px;'>Ocurrió un error: {str(e)}</div>"))


### Visualización del Equilibrio de Clases

In [9]:
# Función para visualizar el equilibrio de clases con barra de progreso y tiempo
def visualizar_equilibrio_clases(df, columna):
    try:
        start_time = time.time()
        with tqdm(total=100, desc="Visualizando Equilibrio de Clases", unit="%") as pbar:
            plt.figure(figsize=(10, 6))
            sns.countplot(data=df, x=columna, palette='viridis')
            plt.title('Visualización del Equilibrio de Clases')
            plt.xlabel(columna)
            plt.ylabel('Frecuencia')
            plt.grid(True)
            plt.show()
            pbar.update(100)
        
        end_time = time.time()
        elapsed_time = end_time - start_time
        print(f"Tiempo total de visualización: {elapsed_time:.2f} segundos")
    
    except KeyError:
        print(f"Error: La columna '{columna}' no existe en el DataFrame.")
    except Exception as e:
        print(f"Ocurrió un error: {str(e)}")


### Integración del Código en la Interfaz de Usuario

In [10]:
# Función para mostrar los registros del DataFrame
def mostrar_registros(df, cantidad, metodo):
    display(HTML("<h3 style='color: #2E7D32;'>Visualización de Registros</h3>"))
    if metodo == 'Primeros':
        display(df.head(cantidad))
    elif metodo == 'Últimos':
        display(df.tail(cantidad))
    elif metodo == 'Aleatorios':
        display(df.sample(cantidad))
    else:
        display(df.head(cantidad))

# Widgets para seleccionar la columna de clases
columna_clases = widgets.Dropdown(
    options=df.columns.tolist(),
    description='Columna de Clases:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

# Widget para seleccionar la cantidad de registros
cantidad_registros = widgets.IntSlider(
    value=10,
    min=1,
    max=100,
    step=1,
    description='Cantidad de Registros:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

# Widget para seleccionar el método de muestra de registros
metodo_muestra = widgets.Dropdown(
    options=['Primeros', 'Últimos', 'Aleatorios'],
    value='Primeros',
    description='Método de Muestra:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

# Botón para ejecutar el análisis
boton_analisis = widgets.Button(
    description='Ejecutar Análisis de Clases',
    button_style='success',
    layout=widgets.Layout(width='400px')
)

# Función para ejecutar el análisis y visualización del equilibrio de clases con barra de progreso y tiempo
def ejecutar_analisis_clases(b):
    with tqdm(total=100, desc="Ejecutando Análisis de Clases", unit="%") as pbar:
        start_time = time.time()
        analizar_equilibrio_clases(df, columna_clases.value, cantidad_registros.value, metodo_muestra.value)
        pbar.update(50)
        visualizar_equilibrio_clases(df, columna_clases.value)
        pbar.update(25)
        mostrar_registros(df, cantidad_registros.value, metodo_muestra.value)
        pbar.update(25)
        end_time = time.time()
        elapsed_time = end_time - start_time
        display(HTML(f"<div style='color: green; font-size: 18px;'>Tiempo total de análisis: {elapsed_time:.2f} segundos</div>"))

boton_analisis.on_click(ejecutar_analisis_clases)

# Mostrar widgets
display(widgets.VBox([columna_clases, cantidad_registros, metodo_muestra, boton_analisis]))


VBox(children=(Dropdown(description='Columna de Clases:', layout=Layout(width='400px'), options=('RowNumber', …

## División de Datos

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #388E3C;'>División de Datos</h1>
    <h3 style='color: #2E7D32;'>Subtema 5.1: División en Conjuntos de Entrenamiento y Prueba</h3>
    <p>En esta sección, se implementa la división del conjunto de datos en conjuntos de entrenamiento y prueba. Esta división es crucial para evaluar el rendimiento de los modelos de machine learning de manera objetiva. El conjunto de entrenamiento se utiliza para entrenar el modelo, mientras que el conjunto de prueba se utiliza para evaluar su rendimiento en datos no vistos.</p>
  </div>
</div>

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Funcionalidad del Código</h3>
    <p>El código implementa varias funciones clave para la división de datos:</p>
    <ul>
      <li><code>dividir_datos(df, test_size, random_state)</code>: Divide el DataFrame en conjuntos de entrenamiento y prueba, según el tamaño del conjunto de prueba especificado y la semilla aleatoria proporcionada.</li>
      <li><code>visualizar_distribucion_datos(df_train, df_test, columna)</code>: Genera gráficos para visualizar la distribución de una columna específica en los conjuntos de entrenamiento y prueba.</li>
    </ul>
  </div>
</div>


In [11]:
# Asegurarse de que todas las columnas necesarias están presentes
required_columns = ['Balance', 'EstimatedSalary', 'Age', 'Tenure', 'Exited']
for col in required_columns:
    if col not in df.columns:
        raise KeyError(f"La columna '{col}' no se encuentra en el DataFrame")

# Generar nuevas características
df['Balance_to_Salary'] = df['Balance'] / df['EstimatedSalary']
df['Age_Tenure_Ratio'] = df['Age'] / df['Tenure']

# Reemplazar valores infinitos y NaN por la mediana de la columna
df.replace([float('inf'), -float('inf')], pd.NA, inplace=True)
df.fillna(df.median(), inplace=True)

# Definir la columna objetivo
target_column = 'Exited'

# Separar características y etiqueta
X = df.drop(columns=[target_column])
y = df[target_column]

# Identificar las columnas numéricas y categóricas
num_cols = X.select_dtypes(include=['float64', 'int64']).columns
cat_cols = X.select_dtypes(include=['object']).columns

# Crear el preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_cols),
        ('cat', OneHotEncoder(), cat_cols)
    ])

# Aplicar el preprocesador
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

# Aplicar el preprocesamiento a los datos
X_scaled = pipeline.fit_transform(X)

# División en conjuntos de entrenamiento y prueba
X_train, X_temp, y_train, y_temp = train_test_split(X_scaled, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print(f"Dimensiones de los conjuntos de datos:")
print(f"X_train_scaled: {X_train.shape}")
print(f"X_val_scaled: {X_val.shape}")
print(f"X_test_scaled: {X_test.shape}")

# Aplicar SMOTE para balancear las clases con barra de progreso y tiempo
try:
    from imblearn.over_sampling import SMOTE

    start_time = time.time()

    smote = SMOTE(random_state=42)
    X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

    end_time = time.time()
    elapsed_time = end_time - start_time
    print(f"Tiempo para aplicar SMOTE: {elapsed_time:.2f} segundos")

    # Verificar la distribución de clases después de aplicar SMOTE
    print("Distribución de clases después de aplicar SMOTE:")
    print(y_train_smote.value_counts())
except ImportError as e:
    print("Error importando imbalanced-learn:", e)


TypeError: Cannot convert [['Hargrave' 'Hill' 'Onio' ... 'Liu' 'Sabbatini' 'Walker']
 ['France' 'Spain' 'France' ... 'France' 'Germany' 'France']
 ['Female' 'Female' 'Female' ... 'Female' 'Male' 'Female']
 [21.0 41.0 5.25 ... 5.142857142857143 14.0 nan]] to numeric

## Entrenamiento del Modelo Inicial

<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h1 style='color: #388E3C;'>Entrenamiento del Modelo</h1>
    <h3 style='color: #2E7D32;'>Subtema 6.1: Entrenamiento del Modelo Sin Corregir el Desequilibrio</h3>
    <p>En esta sección, se lleva a cabo el entrenamiento de varios modelos de machine learning sin aplicar técnicas de balanceo para corregir el desequilibrio de clases. Se utilizarán algoritmos populares como la Regresión Logística, Random Forest, Gradient Boosting, SVM, KNN, Naive Bayes, XGBoost y LightGBM. Además, se realizará la optimización de hiperparámetros utilizando GridSearchCV.</p>
  </div>
</div>
<div style='font-size: 16px; color: #4CAF50; font-family: Arial, sans-serif;'>
  <div class="alert alert-block alert-info">
    <h3 style='color: #2E7D32;'>Funcionalidad del Código</h3>
    <p>El código implementa varias funciones clave para el entrenamiento y evaluación de modelos:</p>
    <ul>
      <li><code>entrenar_modelo(modelo, param_grid, X_train, y_train, X_val, y_val)</code>: Realiza GridSearchCV para optimizar hiperparámetros y entrena el modelo.</li>
      <li><code>modelos</code>: Diccionario que contiene los modelos y sus respectivos hiperparámetros.</li>
      <li><code>resultados</code>: Diccionario que almacena los mejores hiperparámetros y la exactitud de cada modelo en el conjunto de validación.</li>
    </ul>
  </div>
</div>


### Generación de Nuevas Características

In [None]:
# Verificar si las columnas necesarias están en el DataFrame
required_columns = ['Balance', 'EstimatedSalary', 'Age', 'Tenure']
for col in required_columns:
    if col not in df.columns:
        raise KeyError(f"La columna '{col}' no se encuentra en el DataFrame")

# Generar nuevas características
df['Balance_to_Salary'] = df['Balance'] / df['EstimatedSalary']
df['Age_Tenure_Ratio'] = df['Age'] / df['Tenure']

# Mostrar las primeras filas para verificar las nuevas características
df.head()


## Definir y Entrenar Modelos con Optimización de Hiperparámetros

### División en Conjuntos de Entrenamiento y Prueba

In [None]:

# Identificar la columna objetivo correctamente
target_column = 'Exited'  # Actualiza esto si tu columna objetivo tiene otro nombre

# Verificar si la columna objetivo está en el DataFrame
if target_column not in df.columns:
    raise KeyError(f"La columna '{target_column}' no se encuentra en el DataFrame")

# Separar características y etiqueta
X = df.drop(columns=[target_column])
y = df[target_column]

# Identificar columnas categóricas y numéricas
categorical_features = ['Geography', 'Gender']
numerical_features = X.select_dtypes(include=[np.number]).columns.tolist()

# Reemplazar valores infinitos por NaN y luego imputarlos o eliminarlos
X[numerical_features] = X[numerical_features].replace([np.inf, -np.inf], np.nan)

# Eliminar filas con valores NaN (alternativamente, podrías imputarlos)
X = X.dropna()

# Volver a separar características y etiqueta después de eliminar filas con NaN
y = df.loc[X.index, target_column]

# Crear el preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Crear el pipeline de preprocesamiento
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

# Aplicar el preprocesamiento a los datos
X_train_scaled = pipeline.fit_transform(X_train)
X_val_scaled = pipeline.transform(X_val)
X_test_scaled = pipeline.transform(X_test)

# Verificar las dimensiones de los conjuntos de datos procesados
print("Dimensiones de los conjuntos de datos:")
print(f"X_train_scaled: {X_train_scaled.shape}")
print(f"X_val_scaled: {X_val_scaled.shape}")
print(f"X_test_scaled: {X_test_scaled.shape}")


## Mejora del Modelo

### Entrenamiento del Modelo Sin Corregir el Desequilibrio

In [None]:
# Modelos a entrenar
modelos_iniciales = {
    'Logistic Regression': LogisticRegression(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42)
}

# Diccionario para almacenar predicciones
predicciones_iniciales = {}

# Entrenar y evaluar modelos
start_time = time.time()
for nombre, modelo in tqdm(modelos_iniciales.items(), desc="Entrenando Modelos Iniciales"):
    modelo.fit(X_train_scaled, y_train)
    predicciones_iniciales[nombre] = modelo.predict(X_val_scaled)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo total de entrenamiento de modelos iniciales: {elapsed_time:.2f} segundos")

# Evaluación de modelos
for nombre, y_pred in predicciones_iniciales.items():
    print(f"Evaluación del modelo {nombre} sin corrección del desequilibrio de clases")
    print(classification_report(y_val, y_pred))
    print(confusion_matrix(y_val, y_pred))


### Evaluación del Modelo Inicial

In [None]:
# Diccionario para almacenar resultados
resultados_iniciales = {}

# Evaluar modelos con barra de progreso
start_time = time.time()
for nombre, y_pred in tqdm(predicciones_iniciales.items(), desc="Evaluando Modelos Iniciales"):
    accuracy = accuracy_score(y_val, y_pred)
    f1 = f1_score(y_val, y_pred)
    modelo = modelos_iniciales[nombre]
    roc_auc = roc_auc_score(y_val, modelo.predict_proba(X_val_scaled)[:, 1])
    resultados_iniciales[nombre] = (accuracy, f1, roc_auc)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo total de evaluación de modelos iniciales: {elapsed_time:.2f} segundos")

# Mostrar resultados
for nombre, (accuracy, f1, roc_auc) in resultados_iniciales.items():
    print(f"{nombre} - Exactitud: {accuracy:.4f}, F1 Score: {f1:.4f}, AUC-ROC: {roc_auc:.4f}")



### Sobremuestreo (SMOTE)

In [None]:
from sklearn.utils import resample
from tqdm import tqdm
import time

# Verificar la distribución inicial de clases
print("Distribución inicial de clases:")
print(y_train.value_counts())

# Sobremuestreo manual para balancear las clases con barra de progreso y tiempo
start_time = time.time()

# Concatenar nuestros conjuntos de entrenamiento en un solo DataFrame
train_data = pd.concat([X_train_scaled, y_train], axis=1)

# Separar las clases mayoritaria y minoritaria
majority_class = train_data[train_data[target_column] == 0]
minority_class = train_data[train_data[target_column] == 1]

# Sobremuestreo de la clase minoritaria
minority_class_oversampled = resample(minority_class, 
                                      replace=True,    # muestrear con reemplazo
                                      n_samples=len(majority_class),  # para igualar el número de muestras de la clase mayoritaria
                                      random_state=42) # para reproducibilidad

# Combinar la clase mayoritaria con la clase minoritaria sobremuestreada
oversampled_train_data = pd.concat([majority_class, minority_class_oversampled])

# Separar nuevamente en características y etiquetas
X_train_oversampled = oversampled_train_data.drop(columns=[target_column])
y_train_oversampled = oversampled_train_data[target_column]

end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo para aplicar el sobremuestreo manual: {elapsed_time:.2f} segundos")

# Verificar la distribución de clases después del sobremuestreo
print("Distribución de clases después del sobremuestreo manual:")
print(y_train_oversampled.value_counts())


## Mejora del Modelo

### Sobremuestreo (SMOTE)

In [None]:
from imblearn.over_sampling import SMOTE

# Aplicar SMOTE para sobremuestrear el conjunto de entrenamiento
start_time = time.time()
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train_scaled, y_train)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo para aplicar SMOTE: {elapsed_time:.2f} segundos")

# Entrenar y evaluar el modelo de Regresión Logística con SMOTE
start_time = time.time()
model_lr_smote = LogisticRegression(random_state=42)
model_lr_smote.fit(X_train_smote, y_train_smote)
y_pred_lr_smote = model_lr_smote.predict(X_val_scaled)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo para entrenar Regresión Logística con SMOTE: {elapsed_time:.2f} segundos")

# Evaluar el modelo
accuracy_lr_smote = accuracy_score(y_val, y_pred_lr_smote)
f1_lr_smote = f1_score(y_val, y_pred_lr_smote)
roc_auc_lr_smote = roc_auc_score(y_val, model_lr_smote.predict_proba(X_val_scaled)[:, 1])

print("Regresión Logística con SMOTE - Exactitud: {:.4f}, F1 Score: {:.4f}, AUC-ROC: {:.4f}".format(accuracy_lr_smote, f1_lr_smote, roc_auc_lr_smote))


### Submuestreo

In [None]:
from imblearn.under_sampling import RandomUnderSampler

# Aplicar Submuestreo para balancear el conjunto de entrenamiento
start_time = time.time()
rus = RandomUnderSampler(random_state=42)
X_train_rus, y_train_rus = rus.fit_resample(X_train_scaled, y_train)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo para aplicar Submuestreo: {elapsed_time:.2f} segundos")

# Entrenar y evaluar el modelo de Bosque Aleatorio con Submuestreo
start_time = time.time()
model_rf_rus = RandomForestClassifier(random_state=42)
model_rf_rus.fit(X_train_rus, y_train_rus)
y_pred_rf_rus = model_rf_rus.predict(X_val_scaled)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo para entrenar Bosque Aleatorio con Submuestreo: {elapsed_time:.2f} segundos")

# Evaluar el modelo
accuracy_rf_rus = accuracy_score(y_val, y_pred_rf_rus)
f1_rf_rus = f1_score(y_val, y_pred_rf_rus)
roc_auc_rf_rus = roc_auc_score(y_val, model_rf_rus.predict_proba(X_val_scaled)[:, 1])

print("Bosque Aleatorio con Submuestreo - Exactitud: {:.4f}, F1 Score: {:.4f}, AUC-ROC: {:.4f}".format(accuracy_rf_rus, f1_rf_rus, roc_auc_rf_rus))


### Ajuste de Hiperparámetros

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from tqdm import tqdm
import time

# Modelos y sus hiperparámetros
modelos = {
    'Logistic Regression': (LogisticRegression(random_state=54321), {
        'C': [0.01, 0.1, 1, 10],
        'solver': ['liblinear', 'saga']
    }),
    'Random Forest': (RandomForestClassifier(random_state=54321), {
        'n_estimators': [50, 100, 200],
        'max_depth': [10, 20, None],
        'min_samples_split': [2, 5, 10]
    }),
    'Gradient Boosting': (GradientBoostingClassifier(random_state=54321), {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 4, 5]
    }),
    'SVM': (SVC(random_state=54321), {
        'C': [0.1, 1, 10],
        'kernel': ['linear', 'rbf', 'poly']
    })
}

# Diccionario para almacenar los resultados
resultados = {}

# Entrenar y evaluar los modelos con barra de progreso y tiempo
start_time = time.time()
for nombre, (modelo, param_grid) in tqdm(modelos.items(), desc="Entrenando Modelos"):
    print(f"Entrenando {nombre}...")
    grid_search = GridSearchCV(modelo, param_grid, cv=5)
    grid_search.fit(X_train_scaled, y_train)
    best_params = grid_search.best_params_
    best_model = grid_search.best_estimator_
    accuracy_val = best_model.score(X_val_scaled, y_val)
    resultados[nombre] = (best_params, accuracy_val)
    print(f"Mejores hiperparámetros para {nombre}: {best_params}")
    print(f"Exactitud del mejor modelo de {nombre} en el conjunto de validación: {accuracy_val:.4f}\n")
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo total de entrenamiento: {elapsed_time:.2f} segundos")

# Mostrar resultados
for nombre, (best_params, accuracy_val) in resultados.items():
    print(f"{nombre}:")
    print(f"  Mejores hiperparámetros: {best_params}")
    print(f"  Exactitud en validación: {accuracy_val:.4f}\n")


## Evaluación del Modelo Mejorado

In [None]:
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

# Diccionario para almacenar resultados
resultados_iniciales = {}

# Evaluar modelos
for nombre, y_pred in predicciones_iniciales.items():
    accuracy = accuracy_score(y_val, y_pred)
    f1 = f1_score(y_val, y_pred)
    modelo = modelos[nombre][0].set_params(**resultados[nombre][0])
    roc_auc = roc_auc_score(y_val, modelo.predict_proba(X_val_scaled)[:, 1])
    resultados_iniciales[nombre] = (accuracy, f1, roc_auc)

# Mostrar resultados
for nombre, (accuracy, f1, roc_auc) in resultados_iniciales.items():
    print(f"{nombre} - Exactitud: {accuracy:.4f}, F1 Score: {f1:.4f}, AUC-ROC: {roc_auc:.4f}")


### Evaluación del Modelo con Sobremuestreo

In [None]:
# Evaluar el modelo de Regresión Logística con SMOTE
accuracy_lr_smote = accuracy_score(y_val, y_pred_lr_smote)
f1_lr_smote = f1_score(y_val, y_pred_lr_smote)
roc_auc_lr_smote = roc_auc_score(y_val, model_lr_smote.predict_proba(X_val_scaled)[:, 1])

print("Regresión Logística con SMOTE - Exactitud: {:.4f}, F1 Score: {:.4f}, AUC-ROC: {:.4f}".format(accuracy_lr_smote, f1_lr_smote, roc_auc_lr_smote))


### Evaluación del Modelo con Submuestreo

In [None]:
# Evaluar el modelo de Bosque Aleatorio con Submuestreo
accuracy_rf_rus = accuracy_score(y_val, y_pred_rf_rus)
f1_rf_rus = f1_score(y_val, y_pred_rf_rus)
roc_auc_rf_rus = roc_auc_score(y_val, model_rf_rus.predict_proba(X_val_scaled)[:, 1])

print("Bosque Aleatorio con Submuestreo - Exactitud: {:.4f}, F1 Score: {:.4f}, AUC-ROC: {:.4f}".format(accuracy_rf_rus, f1_rf_rus, roc_auc_rf_rus))


### Comparación de Resultados

In [None]:
# Comparar resultados de los modelos mejorados
print("Comparación de resultados de los modelos mejorados:")
print("Regresión Logística con SMOTE - Exactitud: {:.4f}, F1 Score: {:.4f}, AUC-ROC: {:.4f}".format(accuracy_lr_smote, f1_lr_smote, roc_auc_lr_smote))
print("Bosque Aleatorio con Submuestreo - Exactitud: {:.4f}, F1 Score: {:.4f}, AUC-ROC: {:.4f}".format(accuracy_rf_rus, f1_rf_rus, roc_auc_rf_rus))


### Comparar Modelos

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, roc_curve
import matplotlib.pyplot as plt

def evaluar_modelo(modelo, X_test, y_test):
    y_pred = modelo.predict(X_test)
    y_prob = modelo.predict_proba(X_test)[:, 1] if hasattr(modelo, "predict_proba") else None
    
    metrics = {
        "Accuracy": accuracy_score(y_test, y_pred),
        "Precision": precision_score(y_test, y_pred),
        "Recall": recall_score(y_test, y_pred),
        "F1-Score": f1_score(y_test, y_pred),
        "AUC-ROC": roc_auc_score(y_test, y_prob) if y_prob is not None else None
    }
    
    return metrics

resultados_comparacion = {}

for nombre, (best_params, _) in resultados.items():
    print(f"Evaluando {nombre}...")
    modelo = modelos[nombre][0].set_params(**best_params)
    modelo.fit(X_train_scaled, y_train)
    metrics = evaluar_modelo(modelo, X_test_scaled, y_test)
    resultados_comparacion[nombre] = metrics

# Mostrar resultados de comparación
for nombre, metrics in resultados_comparacion.items():
    print(f"Resultados para {nombre}:")
    for metric, value in metrics.items():
        print(f"  {metric}: {value:.4f}")
    print("\n")

# Gráfica ROC para todos los modelos
plt.figure(figsize=(12, 8))

for nombre, (best_params, _) in resultados.items():
    modelo = modelos[nombre][0].set_params(**best_params)
    modelo.fit(X_train_scaled, y_train)
    y_prob = modelo.predict_proba(X_test_scaled)[:, 1]
    fpr, tpr, _ = roc_curve(y_test, y_prob)
    plt.plot(fpr, tpr, label=f"{nombre} (AUC = {roc_auc_score(y_test, y_prob):.4f})")

plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend(loc='lower right')
plt.show()


## Prueba Final

### Entrenamiento del Modelo Final

In [None]:
# Entrenar el mejor modelo final (aquí se usa un modelo de ejemplo, ajustar según los resultados)
mejor_modelo_nombre = 'Random Forest'
mejor_modelo_params = resultados[mejor_modelo_nombre][0]

mejor_modelo = RandomForestClassifier(random_state=54321).set_params(**mejor_modelo_params)
mejor_modelo.fit(X_train, y_train)

# Guardar el modelo entrenado
import joblib
joblib.dump(mejor_modelo, 'mejor_modelo_final.pkl')


### Evaluación del Modelo Final

In [None]:
# Cargar el modelo entrenado
mejor_modelo_final = joblib.load('mejor_modelo_final.pkl')

# Evaluar el modelo final en el conjunto de prueba
evaluar_modelo(mejor_modelo_final, X_test, y_test)


### Comparación de Resultados

In [None]:
# Función para realizar Grid Search y entrenar el modelo
def entrenar_modelo(modelo, param_grid, X_train, y_train, X_val, y_val):
    grid_search = GridSearchCV(modelo, param_grid, cv=5)
    grid_search.fit(X_train, y_train)
    best_params = grid_search.best_params_
    best_model = grid_search.best_estimator_
    y_val_pred = best_model.predict(X_val)
    accuracy_val = accuracy_score(y_val, y_val_pred)
    f1_val = f1_score(y_val, y_val_pred)
    y_val_proba = best_model.predict_proba(X_val)[:, 1]
    roc_auc_val = roc_auc_score(y_val, y_val_proba)
    return best_params, accuracy_val, f1_val, roc_auc_val

# Diccionario de modelos y sus hiperparámetros
modelos = {
    'Logistic Regression': (LogisticRegression(random_state=54321), {
        'C': [0.01, 0.1, 1, 10],
        'solver': ['liblinear', 'saga']
    }),
    'Random Forest': (RandomForestClassifier(random_state=54321), {
        'n_estimators': [50, 100, 200],
        'max_depth': [10, 20, None],
        'min_samples_split': [2, 5, 10]
    }),
    'Gradient Boosting': (GradientBoostingClassifier(random_state=54321), {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 4, 5]
    }),
    'SVM': (SVC(random_state=54321, probability=True), {
        'C': [0.1, 1, 10],
        'kernel': ['linear', 'rbf', 'poly']
    }),
    'KNN': (KNeighborsClassifier(), {
        'n_neighbors': [3, 5, 7, 9],
        'weights': ['uniform', 'distance']
    }),
    'Naive Bayes': (GaussianNB(), {}),
    'XGBoost': (XGBClassifier(random_state=54321), {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 4, 5]
    }),
    'LightGBM': (LGBMClassifier(random_state=54321), {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 4, 5]
    })
}

# Entrenar y evaluar todos los modelos con barra de progreso y tiempo
resultados = {}
start_time = time.time()
with tqdm(total=len(modelos), desc="Entrenando Modelos", unit="modelo") as pbar:
    for nombre, (modelo, param_grid) in modelos.items():
        print(f"Entrenando {nombre}...")
        best_params, accuracy_val, f1_val, roc_auc_val = entrenar_modelo(modelo, param_grid, X_train_scaled, y_train, X_val_scaled, y_val)
        resultados[nombre] = {
            'Mejores Hiperparámetros': best_params,
            'Exactitud': accuracy_val,
            'F1 Score': f1_val,
            'AUC-ROC': roc_auc_val
        }
        print(f"Mejores hiperparámetros para {nombre}: {best_params}")
        print(f"Exactitud del mejor modelo de {nombre} en el conjunto de validación: {accuracy_val:.4f}")
        print(f"F1 Score del mejor modelo de {nombre} en el conjunto de validación: {f1_val:.4f}")
        print(f"AUC-ROC del mejor modelo de {nombre} en el conjunto de validación: {roc_auc_val:.4f}\n")
        pbar.update(1)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Tiempo total de entrenamiento: {elapsed_time:.2f} segundos")

# Mostrar resultados
for nombre, metrics in resultados.items():
    print(f"{nombre}:")
    for metric, value in metrics.items():
        print(f"  {metric}: {value}")
    print("\n")


## Conclusiones