### **Fundamentos-analitica-II**
FACULTAD DE INGENIERÍA, DISEÑO Y CIENCIAS APLICADAS
 
MAESTRÍA EN CIENCIA DE DATOS

TIC 60153 – Fundamentos de analítica II

*PROYECTO DE PRONOSTICO DE PSA PARA PACIENTES ENTRE 48 Y 60 AÑOS*

GRUPO:
- Esteban Ordoñez
- Raul Echeverry
- Fabian Salazar Figueroa
    

__________________________

### **Descripción**

Contexto de negocio.

El cáncer de próstata es uno de los tipos de cáncer más comunes en hombres. La detección temprana es crucial para mejorar las tasas de supervivencia. La prueba de antígeno prostático específico (PSA) puede ayudar a detectar el cáncer de próstata en etapas tempranas, cuando es más tratable. Sin embargo, el PSA no es específico para el cáncer de próstata y puede estar elevado en otras condiciones como prostatitis o hiperplasia prostática benigna (HPB).

El antígeno prostático específico (PSA) es una proteína producida por células normales y malignas de la glándula prostática. La prueba del PSA mide el nivel de esta proteína en la sangre y es uno de los métodos más utilizados para el tamizaje del cáncer de próstata.

La EPS SaludPorTi, está interesado en priorizar la toma de está prueba, aumentando la demanda y detención temprana del Cáncer de Próstata.

Problema de negocio
La empresa ha decidido contratarlos para que construyan un modelo predictivo que permita estimar la probabilidad de que un usuario entre 48 y 60 años de edad presente resultados anormales de PSA.


Contexto analítico

Se espera que entrene diferentes familias de modelos predictivos de clasificación (SVC con diferentes kernels, Redes Neuronales poco profundas), precedidos por diferentes procesos de transformación (normalizaciones, imputación, feature engineering, dummificación, PCA, selección de features).


La evaluación de la calidad de los flujos de modelos predictivos se debe estimar utilizando la métrica de ROC_AUC.

Expliquen sus ideas, el por qué realizan las acciones, y comenten los resultados obtenidos; se espera mucho más que unos bloques de código.
La toma de decisiones sobre los datos se debe hacer considerando el contexto del problema y de los datos, no se puede ver todo solamente desde los ojos de los datos, sino también considerar el negocio.
Un Científico de Datos debe poder comunicar los puntos importantes de su trabajo en un lenguaje universal para todos los públicos.
Todo esto se considerará en la nota.

### **Cita**

@misc{fa-ii-2024-ii-flujos-de-modelos-tradicionales,
    author = {Daniel Osorio, JavierDiaz},
    title = {FA II 2024-II: flujos de modelos tradicionales},
    publisher = {Kaggle},
    year = {2024},
    url = {https://kaggle.com/competitions/fa-ii-2024-ii-flujos-de-modelos-tradicionales}
}

_________________________________________________________________________________________________________________________________________________________________________________________

### **Flujo de trabajo completo y detallado**
**1.	Definición del problema y objetivos del negocio**
- Definir el objetivo clave: predecir si un paciente entre 48 y 60 años tendrá un resultado anormal de PSA, ayudando a priorizar las pruebas para una detección temprana del cáncer de próstata.

**2.	Análisis exploratorio de datos (EDA)**
- Revisar la distribución de las variables.
- Verificar la correlación entre las características.
- Detectar valores faltantes, outliers, y estudiar las relaciones de las características con la variable objetivo.
- Explorar diferencias entre las clases objetivo (PSA normal vs anormal).

**3.	Preprocesamiento de datos**
- Analisis de importancia de variables
- Formateo de variables.
- Manejo de outliers.
- Imputar valores faltantes.
- Escalar las variables numéricas (normalización o estandarización).
- Codificar las variables categóricas mediante dummificación (One-Hot Encoding).
- Considerar técnicas como reducción de dimensionalidad (PCA) si es necesario.
- Crear un pipeline de preprocesamiento para que los datos estén listos para usarse en los modelos.

Abordaremos esto de una forma donde haremos un preprocesamiento previo a algunas variables que consideramos no alterará ni pondrá en riesgo nuestro dataframe para el conocido **data leakage**, por eso algunos pasos se verán reflejados en el entrenamiento.

**4.	Selección de modelos iniciales**
- Probar diferentes familias de modelos de clasificación:
    - **Support Vector Classifier (SVC)** con diferentes kernels (linear, rbf, poly).
    - Otros modelos iniciales como **Redes Neuronales** poco profundas (que implementaremos más adelante).
- Comparar su rendimiento inicial usando métricas como **ROC-AUC**.
    
**5.	Optimización de hiperparámetros (Optimización Bayesiana)**
- Optimizar los hiperparámetros del modelo, como C, gamma para SVC y n_components para PCA usando optimización bayesiana.
- Ajustar los modelos para maximizar su rendimiento, evaluando en cada iteración con **validación cruzada**.

**6.	Evaluación de los modelos optimizados**
- 6.1 Visualización de las curvas ROC para los modelos optimizados:
    - Aquí incluimos la visualización de las curvas ROC para los modelos optimizados (SVC con PCA) y comparamos su rendimiento.
    - Calcular el área bajo la curva (AUC) para comparar el rendimiento de los diferentes modelos en términos de sensibilidad y especificidad.
- 6.2 Comparación con otros modelos adicionales (redes neuronales poco profundas):
    - Añadir un modelo de redes neuronales poco profundas (MLPClassifier) y comparar su curva ROC con los otros modelos.
    - Realizar una comparación directa en términos de **ROC-AUC**.

**7.	Interpretación de resultados y recomendaciones**
- Interpretar los resultados de los modelos, incluyendo las métricas clave como ROC-AUC y la importancia de las características (en el caso del modelo SVC, a través de los vectores soporte o coeficientes).
- Seleccionar el mejor modelo en base a las métricas y explicar cómo este modelo puede ser implementado en la práctica para priorizar las pruebas de PSA.

**8.	Conclusiones y comunicación**
- Resumir los hallazgos clave para diferentes audiencias (tanto técnicas como no técnicas).
- Presentar recomendaciones basadas en el análisis y los resultados de los modelos para la toma de decisiones empresariales.

_____________________________

### **Definición del problema y objetivos del negocio**

**Objetivo:** Desarrollar un modelo de clasificación que prediga si un paciente entre 48 y 60 años tendrá un nivel anormal de PSA. Esto es clave para priorizar las pruebas y detectar el cáncer de próstata en etapas tempranas.

- **Predicción:** Etiqueta binaria, con resultados normales (0) o anormales (1) en la prueba de PSA.
- **Métrica de evaluación:** ROC-AUC, dado que queremos balancear entre los falsos positivos y falsos negativos.

### **Librerías a básicas utilizar**

In [1]:
# Manejo de análisis de datos a través de dataframes (datos tabulares)
import pandas as pd
# Manipulación de arreglos y análisis numérico
import numpy as np
# Visualización de datos con gráficos estadísticos
import seaborn as sns
# Visualización de datos con gráficos generales
import matplotlib.pyplot as plt
%matplotlib inline
# Librería para el manejo de expresiones regulares
import re
# Librería para identificar variables categóricas y numéricas, y calcular asociaciones
from dython.nominal import identify_nominal_columns, identify_numeric_columns, correlation_ratio, associations
# Librería matemática estándar de Python
import math
# Clasificación de bosque aleatorio
from sklearn.ensemble import RandomForestClassifier
# Base para crear estimadores personalizados en scikit-learn
from sklearn.base import BaseEstimator, TransformerMixin
# Herramientas de scikit-learn para la separación de datos y validación cruzada
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
# Escalador estándar para normalizar las características
from sklearn.preprocessing import StandardScaler, OneHotEncoder
# Imputador para manejar valores faltantes
from sklearn.impute import SimpleImputer
# Clasificador de Máquinas de Soporte Vectorial (SVM)
from sklearn.svm import SVC
# Clasificador de redes neuronales multicapa
from sklearn.neural_network import MLPClassifier
# Métricas de evaluación para modelos de clasificación
from sklearn.metrics import roc_auc_score, roc_curve, auc
# Creación de pipelines para el procesamiento y modelado de datos
from sklearn.pipeline import Pipeline
# Para realizar transformaciones en columnas específicas del DataFrame
from sklearn.compose import ColumnTransformer
# Reducción de la dimensionalidad con análisis de componentes principales (PCA)
from sklearn.decomposition import PCA
# Selección de características basadas en la información mutua
from sklearn.feature_selection import mutual_info_classif
# Optimización bayesiana para la búsqueda de hiperparámetros
from bayes_opt import BayesianOptimization
# Librerías estadísticas
from scipy import stats
from scipy.stats import chi2_contingency
# Winsorización de datos para limitar los valores extremos
from scipy.stats.mstats import winsorize
# Mostrar imágenes en el notebook
from IPython.display import Image
# Desactivar warnings innecesarios
import warnings
warnings.filterwarnings("ignore")

### **Lectura de datos**

In [None]:
df_train = pd.read_parquet(r"https://github.com/alfa7g7/Fundamentos-analitica-II/raw/refs/heads/main/UNIDAD%20II/Proyecto%20final%20PSA/Data/df_train.parquet")
print(df_train.shape)
df_train.head()

In [None]:
df_test = pd.read_parquet(r"https://github.com/alfa7g7/Fundamentos-analitica-II/raw/refs/heads/main/UNIDAD%20II/Proyecto%20final%20PSA/Data/df_test.parquet")
print(df_test.shape)
df_test.head()

In [None]:
#pasar a csv para análisis campesino
#df.to_csv(r"C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Data\df_train.csv")
#df1.to_csv(r"C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Data\df_test.csv")

### **Análisis Explotarorio de Datos**

El análisis exploratorio nos ayudará a comprender mejor el conjunto de datos, incluyendo:

- Distribución de la variable objetivo (PSA normal vs anormal).
- Características demográficas (edad, estado de salud general, historial médico).
- Visualización de correlaciones entre las características y el resultado de PSA.
- Outliers y valores faltantes en las variables predictoras.

In [None]:
# Revisamos las dimensiones del conjunto de datos  
rows, col = df_train.shape
print ("Dimensiones del conjunto de datos: {}" . format (df_train.shape))
print ('Filas:', rows, '\nColumnas:', col)

- Distribución de la variable objetivo (PSA normal vs anormal).

    Se denota que un valor 0 en la variable significa un estado normal y un valor 1 se refiere a un valor anormal

In [None]:
# Verificamos valores únicos
print(df_train['Target'].unique())


In [None]:
# Verificamos si tiene valores faltantes
missing_values = df_train['Target'].isnull().sum()
print(f"Valores faltantes en 'Target': {missing_values}")


In [4]:
def plot_target_distribution(df, target_column='Target', target_labels={0: 'Normal', 1: 'Anormal'}, 
                             palette='viridis', colors=['#66b3ff','#ff9999'], 
                             bar_title='Distribución de PSA Normal y Anormal', 
                             pie_title='Porcentaje de PSA Normal vs Anormal', 
                             xlabel='Estado del PSA', ylabel='Cantidad de Observaciones'):
    """
    Genera el conteo y los gráficos de barras y circular para la variable objetivo.

    Parámetros:
    - df: DataFrame que contiene los datos.
    - target_column: Nombre de la columna objetivo en el DataFrame.
    - target_labels: Diccionario para mapear los valores de la columna objetivo a etiquetas.
    - palette: Paleta de colores para el gráfico de barras.
    - colors: Lista de colores para el gráfico circular.
    - bar_title: Título del gráfico de barras.
    - pie_title: Título del gráfico circular.
    - xlabel: Etiqueta del eje X en el gráfico de barras.
    - ylabel: Etiqueta del eje Y en el gráfico de barras.

    Retorna:
    - None
    """
    # Contar las observaciones en cada categoría
    conteo = df[target_column].map(target_labels).value_counts()
    print("Conteo de observaciones en cada categoría:")
    print(conteo)
    print("\nPorcentajes de cada categoría:")
    print(conteo / conteo.sum() * 100)

    # Gráfico de barras de Target
    plt.figure(figsize=(8,6))
    sns.countplot(x=df[target_column].map(target_labels), palette=palette)
    plt.title(bar_title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.show()

    # Gráfico circular de Target
    plt.figure(figsize=(6,6))
    conteo.plot.pie(autopct='%1.1f%%', startangle=90, colors=colors, labels=conteo.index)
    plt.title(pie_title)
    plt.ylabel('')
    plt.show()


In [None]:
# Llamamos a la funcion con nuestro dataframe df_train
plot_target_distribution(df_train)


Encontramos que la base de datos no está aceptablemente balanceada, con un 28.5% de los individuos presentando una un estado anormal de PSA.

- Características adicionales y demográficas (medicamentos, imc, estado de salud general, historial médico).

In [None]:
# Información general del dataset
print(df_train.info())

In [None]:
# Descripción estadística de variables numéricas
#print(df_train.describe())
df_train.describe()

In [None]:
# Descripción estadística de variables categóricas
#print(df_train.describe(include=['object', 'category']))
df_train.describe(include=['object', 'category'])

In [None]:
# Obtener los tipos de datos
print(df_train.dtypes)

- Análisis Univariado

    Antes de explorar las relaciones entre variables, es útil analizar cada variable individualmente.

    - Variables Numéricas
        Para cada variable numérica:
        - Histograma: Para ver la distribución.
        - Boxplot: Para identificar outliers.

In [12]:
def plot_numerical_variables(df, numerical_vars=None, figsize=(20, 4)):
    """
    Genera histogramas y boxplots para variables numéricas en un DataFrame.

    Parámetros:
    - df: DataFrame que contiene los datos.
    - numerical_vars: Lista de variables numéricas a graficar. Si es None, se seleccionan automáticamente.
    - figsize: Tamaño de la figura para cada variable (ancho, alto).

    Retorna:
    - None
    """
    if numerical_vars is None:
        numerical_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    
    for var in numerical_vars:
        plt.figure(figsize=figsize)
        
        plt.subplot(1, 2, 1)
        sns.histplot(df[var].dropna(), kde=True)
        plt.title(f'Distribución de {var}')
        plt.xlabel(var)
        plt.ylabel('Frecuencia')
        
        plt.subplot(1, 2, 2)
        sns.boxplot(x=df[var])
        plt.title(f'Boxplot de {var}')
        plt.xlabel(var)
        
        plt.tight_layout()
        plt.show()


In [None]:
# Llamamos a la función con nuestro dataframe df_train
plot_numerical_variables(df_train)

- Análisis Univariado

    Antes de explorar las relaciones entre variables, es útil analizar cada variable individualmente.
    - Variables Categóricas
        Para cada variable categórica:
        - Conteo de categorías: Usando gráficos de barras.

In [144]:
def plot_categorical_variables(df, n_cols=3, rotation=45, figsize_multiplier=(6, 5)):
    """
    Genera gráficos de barras para variables categóricas en un DataFrame,
    incluyendo etiquetas de frecuencia en cada barra.

    Parámetros:
    - df: DataFrame que contiene los datos.
    - n_cols: Número de gráficos por fila (columnas en la cuadrícula).
    - rotation: Grados de rotación de las etiquetas del eje X.
    - figsize_multiplier: Tupla que multiplica el tamaño de la figura (ancho, alto) por (n_cols, n_rows).

    Retorna:
    - None
    """

    # Seleccionamos las variables categóricas
    categorical_vars = df.select_dtypes(include=['object', 'category']).columns.tolist()
    n_vars = len(categorical_vars)

    if n_vars == 0:
        print("No hay variables categóricas en el DataFrame.")
        return

    # Calculamos el número de filas necesario
    n_rows = math.ceil(n_vars / n_cols)

    # Creamos la figura y los ejes
    figsize = (n_cols * figsize_multiplier[0], n_rows * figsize_multiplier[1])
    fig, axes = plt.subplots(n_rows, n_cols, figsize=figsize)
    axes = axes.flatten()

    # Iteramos sobre las variables categóricas y los ejes
    for idx, var in enumerate(categorical_vars):
        sns.countplot(x=var, data=df, ax=axes[idx])
        axes[idx].set_title(f'Distribución de {var}')
        axes[idx].tick_params(axis='x', rotation=rotation)
        axes[idx].set_xlabel(var)
        axes[idx].set_ylabel('Frecuencia')

        # Agregar etiquetas de frecuencia encima de las barras
        total = len(df)
        for p in axes[idx].patches:
            height = p.get_height()
            axes[idx].annotate(f'{int(height)}', 
                               (p.get_x() + p.get_width() / 2, height + 0.001 * total),
                               ha='center', va='bottom', fontsize=9)

    # Eliminar los subplots vacíos si los hay
    for i in range(idx + 1, n_rows * n_cols):
        fig.delaxes(axes[i])

    plt.tight_layout()
    plt.show()

In [None]:
# Llamamos a la función con nuestro dataframe df_train
plot_categorical_variables(df_train)

- Análisis Bivariado

    Ahora, exploraremos cómo cada variable se relaciona con la variable objetivo 'Target'.

    - Variables Numéricas vs. Target
        - Boxplots por categoría de Target: Para comparar distribuciones.
        - Histogramas separados: Para ver distribuciones por clase.

In [153]:
import matplotlib.pyplot as plt
import seaborn as sns

def plot_numerical_vs_target(df, target_var='Target', numerical_vars=None, figsize=(20, 4)):
    """
    Genera boxplots y gráficos de densidad (KDE) para variables numéricas en función de la variable objetivo.

    Parámetros:
    - df: DataFrame que contiene los datos.
    - target_var: Nombre de la variable objetivo en el DataFrame.
    - numerical_vars: Lista de variables numéricas a graficar. Si es None, se seleccionan automáticamente.
    - figsize: Tamaño de la figura para cada variable (ancho, alto).

    Retorna:
    - None
    """
    # Si no se proporcionan numerical_vars, las seleccionamos del DataFrame
    if numerical_vars is None:
        numerical_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
        # Excluir la variable objetivo si es numérica
        if target_var in numerical_vars:
            numerical_vars.remove(target_var)

    # Verificar si hay variables numéricas
    if not numerical_vars:
        print("No se encontraron variables numéricas en el DataFrame.")
        return

    for var in numerical_vars:
        plt.figure(figsize=figsize)
        
        # Boxplot de la variable vs Target
        plt.subplot(1, 2, 1)
        sns.boxplot(x=target_var, y=var, data=df)
        plt.title(f'{var} vs {target_var}')
        plt.xlabel(target_var)
        plt.ylabel(var)
        
        # Gráfico de densidad (KDE) de la variable por Target
        plt.subplot(1, 2, 2)
        sns.kdeplot(data=df, x=var, hue=target_var, fill=True)
        plt.title(f'Distribución de {var} por {target_var}')
        plt.xlabel(var)
        plt.ylabel('Densidad')
        
        plt.tight_layout()
        plt.show()

In [None]:
# Llamar a la función con nuestro dataframe df_train
plot_numerical_vs_target(df_train)

- Análisis Bivariado

    Ahora, exploraremos cómo cada variable se relaciona con la variable objetivo 'Target'.
    - Variables Categóricas vs. Target
        - Tablas de contingencia y gráficos de barras apilados: Para ver la distribución de 'Target' dentro de cada categoría.

In [157]:
def plot_categorical_vs_target(df, target_var='Target', n_cols=3, rotation=45, figsize_multiplier=(5, 4)):
    """
    Genera gráficos de conteo para variables categóricas en función de la variable objetivo.

    Parámetros:
    - df: DataFrame que contiene los datos.
    - target_var: Nombre de la variable objetivo en el DataFrame.
    - n_cols: Número de gráficos por fila (columnas en la cuadrícula).
    - rotation: Grados de rotación de las etiquetas del eje X.
    - figsize_multiplier: Tupla que multiplica el tamaño de la figura (ancho, alto) por (n_cols, n_rows).

    Retorna:
    - None
    """
    # Seleccionamos las variables categóricas
    categorical_vars = df.select_dtypes(include=['object', 'category']).columns.tolist()
    n_vars = len(categorical_vars)

    if n_vars == 0:
        print("No hay variables categóricas en el DataFrame.")
        return

    # Definimos el número de filas necesario
    n_rows = math.ceil(n_vars / n_cols)

    # Creamos la figura y los ejes
    figsize = (n_cols * figsize_multiplier[0], n_rows * figsize_multiplier[1])
    fig, axes = plt.subplots(n_rows, n_cols, figsize=figsize)
    axes = axes.flatten()

    # Iteramos sobre las variables categóricas y los ejes
    for idx, var in enumerate(categorical_vars):
        sns.countplot(x=var, hue=target_var, data=df, ax=axes[idx])
        axes[idx].set_title(f'Distribución de {var} por {target_var}')
        axes[idx].tick_params(axis='x', rotation=rotation)
        axes[idx].set_xlabel(var)
        axes[idx].set_ylabel('Frecuencia')
        for p in axes[idx].patches:
            height = p.get_height()
            axes[idx].annotate(f'{int(height)}', (p.get_x() + p.get_width() / 2, height + 0.03),
                       ha='center', va='bottom', fontsize=7)


    # Eliminar los subplots vacíos si los hay
    for i in range(idx + 1, n_rows * n_cols):
        fig.delaxes(axes[i])

    plt.tight_layout()
    plt.show()

In [None]:
# Llamamos a la funcion con nuestro dataframe df_train
plot_categorical_vs_target(df_train)

In [159]:
def plot_categorical_distributions(df, target_var, n_cols=3, normal_color='#66b3ff', anormal_color='#ff9999', figsize_multiplier=(6, 5)):
    """
    Genera gráficos de barras apiladas para cada variable categórica en un DataFrame, mostrando la proporción
    de las categorías de una variable objetivo dentro de cada variable categórica.

    Parámetros:
    - df: DataFrame que contiene las variables categóricas y la variable objetivo.
    - target_var: Nombre de la variable objetivo (debe ser binaria o categórica).
    - n_cols: Número de gráficos por fila (predeterminado: 3).
    - normal_color: Color de las barras de la categoría 'Normal' (predeterminado: '#66b3ff').
    - anormal_color: Color de las barras de la categoría 'Anormal' (predeterminado: '#ff9999').
    - figsize_multiplier: Multiplicador para el tamaño de la figura (predeterminado: (6, 5)).

    Retorna:
    - Muestra los gráficos de distribución apilados.
    """

    # Seleccionar variables categóricas
    categorical_vars = df.select_dtypes(include=['object', 'category']).columns.tolist()
    n_vars = len(categorical_vars)
    
    if n_vars == 0:
        print("No hay variables categóricas en el DataFrame.")
        return


    # Calcular el número de filas necesario
    n_rows = math.ceil(n_vars / n_cols)

    # Crear la figura y los ejes
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * figsize_multiplier[0], n_rows * figsize_multiplier[1]))
    axes = axes.flatten()  # Aplanamos la matriz de ejes para facilitar la iteración

    # Iterar sobre las variables categóricas y los ejes para generar los gráficos
    for idx, var in enumerate(categorical_vars):
        cross_tab = pd.crosstab(df[var], df[target_var], normalize='index')
        cross_tab = cross_tab.reset_index()

        # Asegurarnos de que las columnas están ordenadas correctamente
        cross_tab = cross_tab.rename(columns={0: 'Normal', 1: 'Anormal'})

        # Crear el gráfico de barras apiladas
        bars_normal = axes[idx].bar(x=cross_tab[var], height=cross_tab['Normal'], label='Normal', color=normal_color)
        bars_anormal = axes[idx].bar(x=cross_tab[var], height=cross_tab['Anormal'], bottom=cross_tab['Normal'], label='Anormal', color=anormal_color)

        # Agregar etiquetas de porcentaje
        for i in range(len(cross_tab)):
            normal_height = cross_tab['Normal'].iloc[i]
            anormal_height = cross_tab['Anormal'].iloc[i]
            total_height = normal_height + anormal_height

            # Etiqueta para la categoría 'Normal'
            if normal_height > 0:
                axes[idx].text(i, normal_height / 2, f'{normal_height * 100:.1f}%', ha='center', va='center', color='white', fontsize=10)
            # Etiqueta para la categoría 'Anormal'
            if anormal_height > 0:
                axes[idx].text(i, normal_height + anormal_height / 2, f'{anormal_height * 100:.1f}%', ha='center', va='center', color='white', fontsize=10)

        axes[idx].set_title(f'Distribución de {target_var} dentro de {var}')
        axes[idx].set_ylabel('Proporción')
        axes[idx].set_xlabel(var)
        axes[idx].legend(title=target_var, labels=['Normal', 'Anormal'])
        axes[idx].tick_params(axis='x', rotation=45)

    # Eliminar los subplots vacíos si los hay
    for i in range(idx + 1, n_rows * n_cols):
        fig.delaxes(axes[i])

    plt.tight_layout()
    plt.show()

In [None]:
# Llamamos a la funcion con nuestro dataframe df_train
plot_categorical_distributions(df_train, 'Target', n_cols=3)

In [None]:
# Observamos valores únicos de las variables
unique = df_train.nunique()
plt.figure(figsize=(35, 6))
unique.plot(kind='bar', color='blue', hatch='//')
plt.title('Elementos únicos en cada columna')
plt.ylabel('Conteo')
for i, v in enumerate(unique.values):
    plt.text(i, v+1, str(v), color='black', fontweight='bold', ha='center')
plt.show()

- Visualización de correlaciones entre las características y el resultado de PSA.

    Vamos a utilizar la matriz de correlación para corroborar los indicios sobre las relaciones presentes entre algunas de las características y la variable objetivo.
    - Al contar con variables categóricas (la dependiente y varias dependientes) no podemos utilizar la matriz de correlación clásica que utiliza el coeficiente de correlación de Pearson ya que este tan sólo nos sirve para relación entre variables continuas.
    - Al haber varias características categóricas utilizamos la función associations de dython que utiliza el coeficiente de Pearson para continuas vs continuas, la razón de correlación para continuas vs categóricas y Cramer's V o Theil's U para categóricas vs categóricas

In [43]:
categorical_features=identify_nominal_columns(df_train)
continuous_features=identify_numeric_columns(df_train)

In [None]:
categorical_features

In [None]:
continuous_features

In [None]:
complete_correlation= associations(df_train, filename= r'C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Images\Complete_correlation.png', figsize=(30,30))

In [None]:
target_correlation= associations(df_train, display_rows=['Target'], filename= r'C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Images\Target_correlation.png', figsize=(30,5))

Detallamos primero las variables independientes que más influencian a la objetivo (aunque ninguna tiene una alta correlación >= 0.7 o <= -0.7) en orden descendente es decir de mayor a menor importancia:
- EDAD 0.18

In [None]:
# Obtenemos la matriz de correlación entre las variables continuas
selected_column= df_train[continuous_features]
continuous_df = selected_column.copy()

continuous_correlation= associations(continuous_df, filename= r'C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Images\Continuous_correlation.png', figsize=(20,20))

Detallamos primero las variables independientes que más influencian a la objetivo (aunque ninguna tiene una alta correlación >= 0.7 o <= -0.7) en orden descendente es decir de mayor a menor importancia:

Revisamos aquellas variables independientes continuas que pueden llegar a generar problemas al encontrarse altamente correlacionadas entre sí (problemas de multicolinealidad, redundancia, complejitud innecesaria del modelo):
- **psa_max_gr_flia** y **psa_min_gr_flia** *0.78*
- **Pendiente** e **Intercepto** *-0.78*
- **CANTIDAD_SERVICIOS** y **conteo_dx_diferentes** *0.77*
- **min_Tiempo_CP_Fliar** y **Cant_Fliar_CP** *0.76*
- **Pendiente_flia** y **Pendiente** *0.75*
- **Pendiente_flia** y **Intercepto_flia** *-0.75*
- **Cant_riesgos_flia_mean** y **Cant_Fliar_riesgos** *0.73*
- **Intercepto_flia** y **Intercepto** *0.73*
- **Promedio_costo_flia** y **Promedio_costo** *0.71*
- **Cant_riesgos_flia_mean** y **RIESGOS** *0.69*
- **CANTIDAD_SERVICIOS** y **MEDICINA_ESPECIALIZADA** *0.69*
- **Cant_Fliar_riesgos** y **RIESGOS** *0.63*

Estas relaciones nos ayudarán a decidir el tema de eliminación de variables.

In [None]:
# Obtenemos la matriz de correlación entre las variables categoricas
selected_column= df_train[categorical_features]
categorical_df = selected_column.copy()

categorical_correlation= associations(categorical_df, filename= r'C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Images\Categorical_correlation.png', figsize=(20,20))

Detallamos primero las variables independientes que más influencian a la objetivo (aunque ninguna tiene una alta correlación >= 0.7 o <= -0.7) en orden descendente es decir de mayor a menor importancia:

Revisamos aquellas variables independientes continuas que pueden llegar a generar problemas al encontrarse altamente correlacionadas entre sí (problemas de multicolinealidad, redundancia, complejitud innecesaria del modelo):

- **CEREBRAL** y **ENFERMEDAD_RENAL** *0.92*
- **CORONARIOS** y **ENFERMEDAD_RENAL** *0.86*
- **HIPERTENSION** y **HIPERTENSION_FAMILIAR** *0.86*
- **CORONARIOS** y **CEREBRAL** *0.85*
- **DIABETES** y **DIABETES_FAMILIAR** *0.84*
- **CANCER_OTRO_SITIO** y **CANCER_OTRO_SITIO_FAMILIAR** *0.83*
- **CANCER_OTRO_SITIO** y **ENFERMEDAD_RENAL** *0.80*
- **CORONARIOS** y **CORONARIOS_FAMILIAR** *0.80*
- **DIABETES** y **ENFERMEDAD_RENAL** *0.80*
- **CANCER_OTRO_SITIO** y **CEREBRAL** *0.79*
- **CEREBRAL** y **OTROS_ANTECEDENTES_VASCULARES** *0.79*
- **DIABETES** y **CEREBRAL** *0.79*
- **ENFERMEDAD_RENAL** y **OTROS_ANTECEDENTES_VASCULARES** *0.79*
- **CANCER_OTRO_SITIO** y **CORONARIOS** *0.77*
- **DIABETES** y **CORONARIOS** *0.77*
- **HIPERTENSION** y **ENFERMEDAD_RENAL** *0.77*
- **HIPERTENSION** y **CEREBRAL** *0.77*
- **CORONARIOS** y **OTROS_ANTECEDENTES_VASCULARES** *0.76*
- **HIPERTENSION** y **DIABETES** *0.76*
- **HIPERTENSION** y **CORONARIOS** *0.76*
- **CANCER_OTRO_SITIO** y **HIPERTENSION** *0.75*
- **CANCER_OTRO_SITIO** y **DIABETES** *0.75*
- **CANCER_OTRO_SITIO** y **OTROS_ANTECEDENTES_VASCULARES** *0.74*
- **CEREBRAL** y **CEREBRAL_FAMILIAR** *0.74*
- **DIABETES** y **OTROS_ANTECEDENTES_VASCULARES** *0.74*
- **ENFERMEDAD_RENAL** y **ENFERMEDAD_RENAL_FAMILIAR** *0.73*
- **HIPERTENSION** y **OTROS_ANTECEDENTES_VASCULARES** *0.73*
- **ESTADO_CIVI** y **PROGRAMA** *0.73*
- **CANCER_MAMA_FAMILIAR** y **CANCER_OTRO_SITIO** *0.71*
- **CANCER_MAMA_FAMILIAR** y **CANCER_OTRO_SITIO_FAMILIAR** *0.71*
- **CANCER_MAMA_FAMILIAR** y **HIPERTENSION** *0.71*
- **CANCER_MAMA_FAMILIAR** y **HIPERTENSION_FAMILIAR** *0.71*
- **CANCER_MAMA_FAMILIAR** y **DIABETES** *0.71*
- **CANCER_MAMA_FAMILIAR** y **DIABETES_FAMILIAR** *0.71*
- **CANCER_MAMA_FAMILIAR** y **CORONARIOS** *0.71*
- **CANCER_MAMA_FAMILIAR** y **CORONARIOS_FAMILIAR** *0.71*
- **CANCER_MAMA_FAMILIAR** y **CEREBRAL** *0.71*
- **CANCER_MAMA_FAMILIAR** y **CEREBRAL_FAMILIAR** *0.71*
- **CANCER_MAMA_FAMILIAR** y **ENFERMEDAD_RENAL** *0.71*
- **CANCER_MAMA_FAMILIAR** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CANCER_MAMA_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **CANCER_OTRO_SITIO** y **HIPERTENSION_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO** y **DIABETES_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO** y **CORONARIOS_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO** y **CEREBRAL_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **HIPERTENSION** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **HIPERTENSION_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **DIABETES** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **DIABETES_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **CORONARIOS** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **CORONARIOS_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **CEREBRAL** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **CEREBRAL_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **ENFERMEDAD_RENAL** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CANCER_OTRO_SITIO_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **CEREBRAL** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CEREBRAL_FAMILIAR** y **ENFERMEDAD_RENAL** *0.71*
- **CEREBRAL_FAMILIAR** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CEREBRAL_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **CORONARIOS** y **CEREBRAL_FAMILIAR** *0.71*
- **CORONARIOS** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CORONARIOS_FAMILIAR** y **CEREBRAL** *0.71*
- **CORONARIOS_FAMILIAR** y **CEREBRAL_FAMILIAR** *0.71*
- **CORONARIOS_FAMILIAR** y **ENFERMEDAD_RENAL** *0.71*
- **CORONARIOS_FAMILIAR** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **CORONARIOS_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **DIABETES** y **CORONARIOS_FAMILIAR** *0.71*
- **DIABETES** y **CEREBRAL_FAMILIAR** *0.71*
- **DIABETES** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **DIABETES_FAMILIAR** y **CORONARIOS** *0.71*
- **DIABETES_FAMILIAR** y **CORONARIOS_FAMILIAR** *0.71*
- **DIABETES_FAMILIAR** y **CEREBRAL** *0.71*
- **DIABETES_FAMILIAR** y **CEREBRAL_FAMILIAR** *0.71*
- **DIABETES_FAMILIAR** y **ENFERMEDAD_RENAL** *0.71*
- **DIABETES_FAMILIAR** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **DIABETES_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **ENFERMEDAD_RENAL_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **HIPERTENSION** y **DIABETES_FAMILIAR** *0.71*
- **HIPERTENSION** y **CORONARIOS_FAMILIAR** *0.71*
- **HIPERTENSION** y **CEREBRAL_FAMILIAR** *0.71*
- **HIPERTENSION** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **HIPERTENSION_FAMILIAR** y **DIABETES** *0.71*
- **HIPERTENSION_FAMILIAR** y **DIABETES_FAMILIAR** *0.71*
- **HIPERTENSION_FAMILIAR** y **CORONARIOS** *0.71*
- **HIPERTENSION_FAMILIAR** y **CORONARIOS_FAMILIAR** *0.71*
- **HIPERTENSION_FAMILIAR** y **CEREBRAL** *0.71*
- **HIPERTENSION_FAMILIAR** y **CEREBRAL_FAMILIAR** *0.71*
- **HIPERTENSION_FAMILIAR** y **ENFERMEDAD_RENAL** *0.71*
- **HIPERTENSION_FAMILIAR** y **ENFERMEDAD_RENAL_FAMILIAR** *0.71*
- **HIPERTENSION_FAMILIAR** y **OTROS_ANTECEDENTES_VASCULARES** *0.71*
- **AGRUPACION_SISTOLICA** y **AGRUPACION_DIASTOLICA** *0.70*

De la lista anterior daremos prioridad de observación a estos, debido al alto grado de correlación para nuestras posteriores desiciones 

- **CEREBRAL** y **ENFERMEDAD_RENAL** *0.92*
- **CORONARIOS** y **ENFERMEDAD_RENAL** *0.86*
- **HIPERTENSION** y **HIPERTENSION_FAMILIAR** *0.86*
- **CORONARIOS** y **CEREBRAL** *0.85*
- **DIABETES** y **DIABETES_FAMILIAR** *0.84*
- **CANCER_OTRO_SITIO** y **CANCER_OTRO_SITIO_FAMILIAR** *0.83*
- **CANCER_OTRO_SITIO** y **ENFERMEDAD_RENAL** *0.80*
- **CORONARIOS** y **CORONARIOS_FAMILIAR** *0.80*
- **DIABETES** y **ENFERMEDAD_RENAL** *0.80*
- **CANCER_OTRO_SITIO** y **CEREBRAL** *0.79*
- **CEREBRAL** y **OTROS_ANTECEDENTES_VASCULARES** *0.79*
- **DIABETES** y **CEREBRAL** *0.79*
- **ENFERMEDAD_RENAL** y **OTROS_ANTECEDENTES_VASCULARES** *0.79*
- **CANCER_OTRO_SITIO** y **CORONARIOS** *0.77*
- **DIABETES** y **CORONARIOS** *0.77*
- **HIPERTENSION** y **ENFERMEDAD_RENAL** *0.77*
- **HIPERTENSION** y **CEREBRAL** *0.77*
- **CORONARIOS** y **OTROS_ANTECEDENTES_VASCULARES** *0.76*
- **HIPERTENSION** y **DIABETES** *0.76*
- **HIPERTENSION** y **CORONARIOS** *0.76*
- **CANCER_OTRO_SITIO** y **HIPERTENSION** *0.75*
- **CANCER_OTRO_SITIO** y **DIABETES** *0.75*
- **CANCER_OTRO_SITIO** y **OTROS_ANTECEDENTES_VASCULARES** *0.74*
- **CEREBRAL** y **CEREBRAL_FAMILIAR** *0.74*
- **DIABETES** y **OTROS_ANTECEDENTES_VASCULARES** *0.74*
- **ENFERMEDAD_RENAL** y **ENFERMEDAD_RENAL_FAMILIAR** *0.73*
- **HIPERTENSION** y **OTROS_ANTECEDENTES_VASCULARES** *0.73*
- **ESTADO_CIVI** y **PROGRAMA** *0.73*

Por último haremos uso de la correlación tradicional (Coeficiente de correlación de Pearson)

In [None]:
# Calculamos la matriz de correlación
corr_matrix = continuous_df.corr()

# Convertimos la matriz de correlación en un DataFrame de pares de variables
corr_pairs = corr_matrix.unstack()

# Convertimos la Serie en un DataFrame y renombramos las columnas
corr_pairs = pd.DataFrame(corr_pairs, columns=['Correlación']).reset_index()
corr_pairs.columns = ['Variable_1', 'Variable_2', 'Correlación']

# Eliminamos los pares duplicados y las autocorrelaciones
corr_pairs['Par'] = corr_pairs.apply(lambda x: '-'.join(sorted([x['Variable_1'], x['Variable_2']])), axis=1)
corr_pairs = corr_pairs.drop_duplicates(subset='Par')
corr_pairs = corr_pairs[corr_pairs['Variable_1'] != corr_pairs['Variable_2']]

# Ordenamos las correlaciones de mayor a menor valor absoluto
corr_pairs['Correlación_abs'] = corr_pairs['Correlación'].abs()
corr_pairs = corr_pairs.sort_values(by='Correlación_abs', ascending=False)

# Eliminamos la columna auxiliar 'Correlación_abs' y 'Par'
corr_pairs = corr_pairs.drop(columns=['Correlación_abs', 'Par'])

# Reiniciamos el índice del DataFrame
corr_pairs = corr_pairs.reset_index(drop=True)

# Mostramos el resultado
print(corr_pairs)

In [None]:
# Observemos las 10 correlaciones más altas
top_10_corr = corr_pairs.head(10)
print('Top 10 correlaciones más altas:')
print(top_10_corr)

In [161]:
def plot_pairplot_with_target(df, target_var, diag_kind='kde'):
    """
    Genera un pairplot de las variables numéricas de un DataFrame, destacando las categorías de la variable objetivo.

    Parámetros:
    - df: DataFrame que contiene las variables numéricas y la variable objetivo.
    - target_var: Nombre de la variable objetivo para colorear los gráficos.
    - diag_kind: Tipo de gráfico para la diagonal ('kde' o 'hist', por defecto 'kde').

    Retorna:
    - Un gráfico pairplot con las variables numéricas coloreadas según la variable objetivo.
    """
    
    # Seleccionar variables numéricas
    numerical_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    num_vars = len(numerical_vars)
    
    if num_vars == 0:
        print("No hay variables numéricas en el DataFrame.")
        return

    # Asegurarnos de que el target está en la lista
    num_vars_with_target = numerical_vars + [target_var]
    n_vars = len(num_vars_with_target)
    
    if n_vars == 0:
        print("No hay variables numéricas en el DataFrame.")
        return

    # Generar el pairplot
    sns.pairplot(df[num_vars_with_target], hue=target_var, diag_kind=diag_kind)
    
    # Mostrar el gráfico
    plt.show()

In [None]:
# Llamamos a la funcion con nuestro dataframe df_train y con la variable objetivo llamada 'Target'
plot_pairplot_with_target(df_train, 'Target')

- Detectar valores faltantes, outliers, y estudiar las relaciones de las características con la variable objetivo.

Cálculo de los z-scores: El z-score mide cuántas desviaciones estándar se aleja un valor de la media de la variable. Se calcula utilizando la fórmula:

𝑧 = ( 𝑥 − 𝜇 ) / 𝜎

donde:
- 𝑥 es el valor individual de la observación.
- 𝜇 es la media de todos los valores de la variable.
- 𝜎 es la desviación estándar de la variable.

Criterio de detección: Se consideran outliers los valores que se encuentran a más de 3 desviaciones estándar de la media (según la Regla Empírica o Regla 68-95-99.7).

Identifica los outliers como aquellos valores con un z-score cuyo valor absoluto es mayor que 3.

In [169]:
# Busqueda de outliers con z_scores de scipy
def detectar_outliers_zscore(df, threshold=3):
    """
    Detecta outliers en las variables numéricas de un DataFrame utilizando z-scores.

    Parámetros:
    - df: DataFrame que contiene las variables numéricas.
    - threshold: Valor de umbral para los z-scores (por defecto 3).

    Retorna:
    - Un diccionario donde las claves son los nombres de las variables y los valores son el número de outliers encontrados.
    """
    
    # Seleccionar variables numéricas
    numerical_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    
    # Diccionario para almacenar el número de outliers por variable
    outliers_dict = {}

    # Iterar sobre las variables numéricas y detectar outliers
    for var in numerical_vars:
        # Calcular los z-scores, manteniendo el índice original del DataFrame
        valid_data = df[var].dropna()  # Eliminar NaN temporalmente
        z_scores = stats.zscore(valid_data)

        # Filtrar los outliers basados en el umbral de z-score
        outliers = df.loc[valid_data.index[np.abs(z_scores) > threshold]]  # Usar los índices del DataFrame original

        outliers_dict[var] = outliers.shape[0]
        print(f'Número de outliers en {var}: {outliers.shape[0]}')
    
    return outliers_dict

In [None]:
# llamamaos a la funcion con nuestro dataframe df_train y el valor de umbral threshold =3
outliers_info = detectar_outliers_zscore(df_train, threshold=3)

Hagamos otro análisis de outliers; esta vez podemos corroborar lo anterior de manera estadística haciendo uso del método de Tukey (se consideran como datos atípicos aquellos que están 1.5 veces por fuera del rango intercuartil)

In [81]:
# Función para calcular los datos atípicos utilizando el método de Tukey
def outlier_count(col, data):
    print(15*'-' + col + 15*'-')
    q75, q25 = np.percentile(data[col], [75, 25])
    iqr = q75 - q25
    min_val = q25 - (iqr*1.5)
    max_val = q75 + (iqr*1.5)
    outlier_count = len(np.where((data[col] > max_val) | (data[col] < min_val))[0])
    outlier_percent = round(outlier_count/len(data[col])*100, 2)
    print('Number of outliers: {}'.format(outlier_count))
    print('Percent of data that is outlier: {}%'.format(outlier_percent))
    return outlier_count

In [None]:
# Guardar las columnas de tipo continuas con datos atípicos
cont_vars = []
for col in list(df_train.select_dtypes('number').columns):
    if outlier_count(col, df_train) > 0:
        cont_vars.append(col)

In [102]:
wins_dict = {}

def test_wins(col, df, wins_dict, lower_limit=0, upper_limit=0, show_plot=True):
    wins_data = winsorize(df[col], limits=(lower_limit, upper_limit))
    wins_dict[col] = wins_data
    if show_plot == True:
        plt.figure(figsize=(15,5))
        plt.subplot(121)
        plt.boxplot(df[col])
        plt.title('original {}'.format(col))
        plt.subplot(122)
        plt.boxplot(wins_data)
        plt.title('wins=({},{}) {}'.format(lower_limit, upper_limit, col))
        plt.show()
    return wins_dict

In [None]:
# Verificación de la winsorizing
wins_dict = {}
wins_dict = test_wins(cont_vars[0], df_train, wins_dict, upper_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[1], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[2], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[3], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[4], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[5], df_train, wins_dict, upper_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[6], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[7], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[8], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[9], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[10], df_train, wins_dict, upper_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[11], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[12], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[13], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[14], df_train, wins_dict, lower_limit=0, show_plot=True) #Sin ajustar
wins_dict = test_wins(cont_vars[15], df_train, wins_dict, upper_limit=0, show_plot=True) #Sin ajustar

Nota: Dejaremos propuesto para usarlo de momento no se modifica nada y se hará solo después para revisar que tanto mejora o no con winsorizing.

Implementamos una función que nos permite dibujar nuestros diagramas de cajas y bigotes haciendo especial énfasis en el sesgo de la distribución y los datos atípicos

In [116]:
def plot_numerical_features_boxplots(data, columns_list, rows, cols, title):
    sns.set_style('darkgrid')
    fig, axs = plt.subplots(rows, cols, figsize=(30, 14), sharey=True)
    fig.suptitle(title, fontsize=25, y=1)
    axs = axs.flatten()
    outliers_df = pd.DataFrame(columns=['Column', 'Outlier_index', 'Outlier_values'])
    for i, col in enumerate(columns_list):
        sns.boxplot(x=data[col], color='#404B69', ax=axs[i])
        axs[i].set_title(f'{col} (sesgo: {data[col].skew().round(2)})', fontsize=12)
        Q1 = data[col].quantile(0.25)
        Q3 = data[col].quantile(0.75)
        IQR = Q3 - Q1
        outliers = ((data[col] < (Q1 - 1.5 * IQR)) | (data[col] > (Q3 + 1.5 * IQR)))
        outliers_index = data[outliers].index.tolist()
        outliers_values = data[col][outliers].tolist()
        outliers_df = pd.concat([outliers_df,pd.DataFrame({'Column': col, 'Outlier_index': outliers_index, 'Outlier_values': outliers_values})], ignore_index=True)
        axs[i].plot([], [], 'ro', alpha=0.5, label=f'Atípicos: {outliers.sum()}')
        axs[i].legend(loc='upper right', fontsize=10)
    plt.tight_layout()
    return outliers_df

In [None]:
num_cols = pd.DataFrame (df_train, columns= df_train.select_dtypes(include=['int64','float64']).columns)
cat_cols = pd.DataFrame (df_train, columns= df_train.select_dtypes(include=['object', 'category']).columns)

outliers_df = plot_numerical_features_boxplots(data=df_train, columns_list=num_cols, rows=8, cols=3, title='Diagrama de cajas y bigotes para datos atípicos')

In [None]:
# Verificación de datos faltantes
missing_values = df_train.isnull().sum()
print('Valores faltantes en cada columna:')
print(missing_values)

In [None]:
# Calculamos el porcentaje de valores nulos por columna
percent_missing = df_train.isnull().mean() * 100
print(percent_missing)


In [172]:
def plot_missing_values_heatmap(df, figsize=(20, 6), cmap="Blues"):
    """
    Genera un mapa de calor para visualizar la ubicación de los valores faltantes en un DataFrame.

    Parámetros:
    - df: DataFrame en el que se buscan los valores faltantes.
    - figsize: Tamaño de la figura del mapa de calor (por defecto (20, 6)).
    - cmap: El esquema de color para el mapa de calor (por defecto "Blues").
    
    Retorna:
    - Un gráfico de mapa de calor que muestra los valores faltantes.
    """
    
    plt.figure(figsize=figsize)
    sns.heatmap(df.isnull(), yticklabels=False, cbar=False, cmap=cmap)
    plt.show()

In [None]:
# Llamamos a la funcion con nuestro dataframe df_train
plot_missing_values_heatmap(df_train)

![alt text](Images/EDA-campesino.png)

**CONCLUSIONES SOBRE EDA**

- La variable objetivo 'Target', se encuentra algo desbalanceada teniendo una proporción del 71.5% Normal(0) y 28.5% Anormal (1)
- Matemática y gráficamente se observan comportamientos de outliers que se debatirán con especialistas del área médica
- Las proporciones de la variable objetivo se comportan o observan de forma similar si las contrastamos contra las variables categóricas, es decir aproximadamente hay valores Normales > 70% en cada categoría de cada variable, y valores < 29% Anormales en cada categoría de cada variable
- El análisis de correlaciones nos muestra unos resultados no muy claros por eso haremos uso de un algoritmo para mirar características que mejor describan la variable objetivo
- Matemáticamente se hayan una buena cantidad de outliers pero al tratarse de un área medica no podemos despreciarlos o acotarlos a la ligera
- Se encuentran algunas variables con una gran porcentaje de valores faltantes o nulos > 70%
- Se evidencian 2 variables que deben tener un trato personalizado para su imputación

Cada columna tiene 23494 regsitros y de las 46(45 independientes y 1 dependiente), tenemos 9 con datos faltantes o nulos.

- min_Tiempo_CP_Fliar              23486 faltantes >= 99%
- psa_max_gr_flia                  23330 faltantes >= 99%
- psa_min_gr_flia                  23330 faltantes >= 99%
- IMC                              10364 faltantes >= 44%
- AGRUPACION_SISTOLICA              3320 faltantes >= 14%
- AGRUPACION_DIASTOLICA             3320 faltantes >= 14%
- RIESGOS                          16283 faltantes >= 69%
- PERDIDA_DE_PESO                  17723 faltantes >= 75%
- CANCER_MAMA_FAMILIAR              6802 faltantes >= 28%

Teniendo este panorama decidimos buscar un poco de ayuda con profesionales de area médica para dicidir que camino tomar en la imputación y eliminación de variables llegando a las siguientes conclusiones:

1. La variable **CANCER_MAMA_FAMILIAR** la imputadremos con una categoria que indique no ha sido medido o tomado. Esta desición se consultó con el host de la competencia después de ser analizada por el grupo de especialistas obteniedo acuerdo de él también, citamos su respuesta: "Tienes razón con la imputación de la variable cancer de mama familiar, no sería sano imputar con metodologias de ML, sin embargo, se puede agregar una categoria que indique que el valor no se evidencia". De acuerdo a como estaba formateada la variable esta nueva categoría es '2'.

2. La variable **RIESGOS** será imputada con un valor personalizado 0, debido a un argumento expresado por el host de la competencia: "Para el caso de los RIESGOS, los valores nulos corresponden a que aun no se les ha identifcado algun riesgo, por lo tanto, se pueden marcar con 0 (cero) riesgos".

3. La variable **IMC** será imputada con una nueva categoria para su valores faltantes, su valor es: 'No_medido'. Aquí un grupo de médico especialistas nos indicó que podría ser un grave error imputar por moda este campo ya que el IMC en la vida y experiencia real del trato de este tipo de cancer si da o brinda información importante a través de las cuales los especialistas pueden identificar de una mejor manera éste pronóstico. 

4. Las variables **min_Tiempo_CP_Fliar**, **psa_max_gr_flia** y **psa_min_gr_flia** serán eliminadas para la creación de los modelos pues presentan más del 99% de valores faltantes.

5. La variable **PERDIDA_DE_PESO** será eliminada para la creación de los modelos debido a que presenta más del 75% de valores faltantes

6. Las variables **AGRUPACION_SISTOLICA** y **AGRUPACION_DIASTOLICA** serán imputadas de forma tradicional sin buscar una forma especial debido a la significancia expresada por el grupo de especialistas sobre estas mismas, incluso más adelante se denotará si incluso podrían ser no tenidas en cuenta.

### **Preprocesamiento de datos**

- Analisis de importancia de variables
- Formateo de variables.
- Imputar valores faltantes.
- Manejo de outliers.
- Escalar las variables numéricas (normalización o estandarización).
- Codificar las variables categóricas mediante dummificación (One-Hot Encoding).
- Considerar técnicas como reducción de dimensionalidad (PCA) si es necesario.
- Crear un pipeline de preprocesamiento para que los datos estén listos para usarse en los modelos.

Abordaremos esto de una forma donde haremos un preprocesamiento previo a algunas variables que consideramos no alterará ni pondrá en riesgo nuestro dataframe para el conocido **data leakage**, por eso algunos pasos se verán reflejados en el entrenamiento.

- Análisis de importancia de variables

In [174]:
# Usamos un modelo de random forest para analizar importancia de variables
def plot_feature_importances(df, target_var, test_size=0.3, random_state=42):
    """
    Entrena un modelo de Random Forest y genera un gráfico de barras horizontal con la importancia de las variables.

    Parámetros:
    - df: DataFrame que contiene las características y la variable objetivo.
    - target_var: Nombre de la variable objetivo en el DataFrame.
    - test_size: Proporción del conjunto de datos para pruebas (predeterminado 0.3).
    - random_state: Semilla para la reproducibilidad del modelo (predeterminado 42).
    
    Retorna:
    - Un gráfico de barras horizontal que muestra la importancia de las características.
    """

    # Separar características y variable objetivo
    X = df.drop(target_var, axis=1)
    y = df[target_var]

    # Convertir variables categóricas a numéricas si es necesario
    X = pd.get_dummies(X, drop_first=True)

    # Entrenar el modelo Random Forest
    model = RandomForestClassifier(random_state=random_state)
    model.fit(X, y)

    # Obtener importancias
    importances = pd.Series(model.feature_importances_, index=X.columns)

    # Graficar la importancia de las variables
    importances.sort_values().plot(kind='barh', figsize=(8, 18))
    plt.title('Importancia de las Variables')
    plt.xlabel('Importancia')
    plt.ylabel('Características')
    plt.show()

    return importances

In [None]:
importances = plot_feature_importances(df_train, 'Target')

In [176]:
def plot_numerical_feature_importances(df, target_var, n_estimators=100, random_state=42, figsize=(8, 6)):
    """
    Entrena un modelo de Random Forest con variables numéricas y genera un gráfico de barras horizontal
    con la importancia de las mismas.

    Parámetros:
    - df: DataFrame que contiene las características numéricas y la variable objetivo.
    - target_var: Nombre de la variable objetivo en el DataFrame.
    - n_estimators: Número de árboles en el modelo Random Forest (predeterminado 100).
    - random_state: Semilla para la reproducibilidad del modelo (predeterminado 42).
    - figsize: Tamaño de la figura del gráfico (predeterminado (8, 6)).

    Retorna:
    - Un gráfico de barras horizontal que muestra la importancia de las variables numéricas.
    """
    
    # Seleccionar las variables numéricas
    numerical_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    X_num = df[numerical_vars]
    y = df[target_var]

    # Entrenar el modelo Random Forest
    rf = RandomForestClassifier(n_estimators=n_estimators, random_state=random_state)
    rf.fit(X_num, y)

    # Obtener importancias de las variables
    importances = pd.Series(rf.feature_importances_, index=numerical_vars)

    # Graficar la importancia de las variables
    importances.sort_values().plot(kind='barh', figsize=figsize)
    plt.title('Importancia de Variables Numéricas')
    plt.xlabel('Importancia')
    plt.ylabel('Variables')
    plt.show()

    return importances


In [None]:
importances = plot_numerical_feature_importances(df_train, 'Target')

Realizamos pruebas de Chi-Cuadrado para evaluar la asociación entre cada variable categórica y 'Target'.

In [178]:
def chi2_test_categorical_vars(df, target_var, significance_level=0.05):
    """
    Realiza la prueba de Chi-cuadrado entre las variables categóricas y la variable objetivo.

    Parámetros:
    - df: DataFrame que contiene las variables categóricas y la variable objetivo.
    - target_var: Nombre de la variable objetivo.
    - significance_level: Nivel de significancia para determinar asociación significativa (por defecto 0.05).

    Retorna:
    - Un reporte de la prueba Chi-cuadrado para cada variable categórica.
    """
    
    # Seleccionar las variables categóricas
    categorical_vars = df.select_dtypes(include=['object', 'category']).columns.tolist()

    # Iterar sobre las variables categóricas
    for var in categorical_vars:
        # Crear la tabla de contingencia
        contingency_table = pd.crosstab(df[var], df[target_var])

        # Realizar la prueba de Chi-cuadrado
        chi2, p, dof, expected = chi2_contingency(contingency_table)

        # Mostrar los resultados
        print(f'Variable: {var}')
        print(f'Estadístico Chi2: {chi2:.2f}, Valor p: {p:.4f}')
        if p < significance_level:
            print('→ Asociación significativa con Target')
        else:
            print('→ No hay asociación significativa con Target')
        print('---')

In [None]:
chi2_test_categorical_vars(df_train, 'Target')

Calculamos la información mutua para medir la dependencia entre las variables categóricas y 'Target'.

In [180]:
def plot_mutual_information_categorical(df, target_var, figsize=(8, 6)):
    """
    Calcula la información mutua entre las variables categóricas y la variable objetivo,
    y genera un gráfico de barras horizontal con los resultados.

    Parámetros:
    - df: DataFrame que contiene las variables categóricas y la variable objetivo.
    - target_var: Nombre de la variable objetivo en el DataFrame.
    - figsize: Tamaño de la figura del gráfico (por defecto (8, 6)).

    Retorna:
    - Un gráfico de barras horizontal que muestra la información mutua de las variables categóricas.
    """

    # Seleccionar variables categóricas
    categorical_vars = df.select_dtypes(include=['object', 'category']).columns.tolist()

    # Convertir variables categóricas a códigos numéricos
    X_cat = df[categorical_vars].apply(lambda x: x.astype('category').cat.codes)

    # Extraer la variable objetivo
    y = df[target_var]

    # Calcular la información mutua
    mi = mutual_info_classif(X_cat, y, discrete_features=True)

    # Crear una serie con los resultados de la información mutua
    mi_series = pd.Series(mi, index=categorical_vars)

    # Graficar los resultados
    mi_series.sort_values().plot(kind='barh', figsize=figsize)
    plt.title('Información Mutua de Variables Categóricas')
    plt.xlabel('Información Mutua')
    plt.ylabel('Variables')
    plt.show()

    return mi_series

In [None]:
mi_series = plot_mutual_information_categorical(df_train, 'Target')

Estos análisis gráficos nos confirman nuestras anteriores conclusiones y las fortalecen. de momento continuaremos con nuestros planteamiento

- Formateo de variables.

In [None]:
# Para pruebas
df_train_transformed = df_train.copy()
df_train_transformed.info()

In [230]:
# Creamos un Transformer para renombrar y dar formato a las columnas
class Rename_columns(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()

        # Aplicamos el formato: eliminamos espacios, convertimos a minúsculas y reemplazamos por guiones bajos
        new_cols = []
        for col in result.columns:
            new_cols.append(re.sub(r'\s+', ' ', col.strip()).replace(' ', '_').lower())
        result.columns = new_cols
        
        # Renombramos columnas específicas si es necesario
        result = result.rename(columns={'estado_civi': 'estado_civil'})  #cambiamos el nombre a esta variable porque parece incompleto
        
        return result

In [231]:
# Prueba
df_train_transformed = Rename_columns().fit_transform(df_train)

In [None]:
# Prueba
df_train_transformed.info()

- Creamos un transformador personalizado que asigne valores específicos a las columnas que lo requieran, manteniendo el pipeline limpio y modular.

In [233]:
# Creamos un Transformer Trabajando con el índice de las variables para imputar unos valores específicos
class Custom_imputer(BaseEstimator, TransformerMixin):
    
    def __init__(self, custom_values=None):
        # Definir los valores específicos para las columnas que deseas imputar manualmente si no se pasa custom_values
        if custom_values is None:
            self.custom_values = {
                28: '2',  # CANCER_MAMA_FAMILIAR, agregamos una categoria 2 que indique que el valor no se evidencia.
                22: 0,    # RIESGOS, los valores nulos corresponden a que aun no se les ha identifcado algun riesgo, por lo tanto, se pueden marcar con 0 (cero) riesgos.
                17: 'No_medido'  # IMC, los valores nulos corresponden a que aun no se les ha identifcado IMC, creamos una nueva categoria para no imputar por moda
            }
        else:
            self.custom_values = custom_values  # Usar el diccionario proporcionado si se pasa uno

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()
        for idx, value in self.custom_values.items():
            result.iloc[:, idx].fillna(value, inplace=True)  # Imputar valor específico usando el índice
        return result

In [234]:
# Prueba
df_train_transformed = Custom_imputer().fit_transform(df_train_transformed)

In [None]:
# Prueba
df_train_transformed[['cancer_mama_familiar', 'riesgos', 'imc']].isnull().sum()

In [None]:
# Prueba
df_train_transformed.info()

- Creamos un transformador personalizado para eliminar columnas en función del porcentaje de valores faltantes o errados (nulos) que tienen.

In [None]:
# Prueba Calculamos el porcentaje de valores nulos por columna
percent_missing = df_train_transformed.isnull().mean() * 100
print(percent_missing)

In [238]:
# Creamos un Transformer para eliminar variables que tengan más de 75% de datos nulos o faltantes
class Drop_columns_by_missing_Values(BaseEstimator, TransformerMixin):
    def __init__(self, threshold=0.75):  # Umbral en porcentaje, 0.75 = 75%
        self.threshold = threshold
        self.columns_to_drop = []

    def fit(self, X, y=None):
        # Calcular el porcentaje de valores faltantes por columna
        percent_missing = X.isnull().mean()
        # Guardar las columnas que superan el umbral
        self.columns_to_drop = percent_missing[percent_missing > self.threshold].index
        return self

    def transform(self, X, y=None):
        # Eliminar las columnas que superan el umbral
        return X.drop(columns=self.columns_to_drop)

In [239]:
# Prueba
df_train_transformed = Drop_columns_by_missing_Values().fit_transform(df_train_transformed)

In [None]:
# Prueba Calculamos el porcentaje de valores nulos por columna
percent_missing = df_train_transformed.isnull().mean() * 100
print(percent_missing)

Hacemos uso de un pipeline para dejar listo nuestros dataframe que posteriormente utilizaremos para entrenar nuestros modelos

In [246]:
# Creamos un Pipeline donde reunimos nuestros transformer para hacer todo este primer preproceso en una sola línea
pipe_custom_pre = Pipeline(steps = [('rename columns', Rename_columns()),
                                    ('custom imputer', Custom_imputer()),
                                    ('drop columns > 75%', Drop_columns_by_missing_Values())])

In [250]:
# Prueba
df_train_pipeline_transformed = pipe_custom_pre.fit_transform(df_train)

In [None]:
# Prueba
df_train_pipeline_transformed

In [None]:
# Prueba
df_train_pipeline_transformed.info()

___________________________________

Prueba con los kilos

# Separar variable objetivo y características
X = df_train_pipeline_transformed.drop('target', axis=1)
y = df_train_pipeline_transformed['target']

# Separar en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Preprocesamiento
# Definir las columnas numéricas y categóricas
numeric_features = df_train_pipeline_transformed.select_dtypes(include=['int64', 'float64']).columns
categorical_features = df_train_pipeline_transformed.select_dtypes(include=['object', 'category']).columns

# Pipeline de preprocesamiento
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

# Mapeo de valores numéricos a nombres de kernel
kernel_map = {0: 'linear', 1: 'rbf', 2: 'poly'}

# Función para optimización bayesiana de SVC + PCA
def optimize_svc_pca(C, gamma, n_components, kernel_numeric):
    """Función objetivo para optimización bayesiana del SVC + PCA"""
    # Convertir el número del kernel a su correspondiente nombre
    kernel = kernel_map[int(round(kernel_numeric))]

    # Crear pipeline del modelo
    model_svc = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('pca', PCA(n_components=int(n_components))),  # Número de componentes como parámetro
        ('classifier', SVC(probability=True, kernel=kernel, C=C, gamma=gamma if kernel != 'linear' else 'scale'))])

    # Validación cruzada y cálculo del AUC
    auc = cross_val_score(model_svc, X_train, y_train, cv=5, scoring='roc_auc').mean()
    return auc

# Definir el espacio de búsqueda para C, gamma, n_components y kernel_numeric
param_bounds = {
    'C': (0.1, 10),
    'gamma': (0.0001, 1),  # gamma se optimiza para todos los kernels (lo manejamos dentro de la función)
    'n_components': (2, X_train.shape[1]),  # Número de componentes en PCA
    'kernel_numeric': (0, 2)  # Valor numérico para kernel: 0='linear', 1='rbf', 2='poly'
}

# Optimización bayesiana
optimizer = BayesianOptimization(
    f=lambda C, gamma, n_components, kernel_numeric: optimize_svc_pca(C, gamma, n_components, kernel_numeric),
    pbounds=param_bounds,
    random_state=42,
    verbose=2
)

optimizer.maximize(init_points=5, n_iter=10)

"""
Procesó por +550 min
    hizo 2 iteraciones:
        la primera +/- a los 7 minutos
        la segunda +/- a los 17 minutos
        Con el procesador overclokeado a max 5.2ghz en promedio 4.0 a 5.2 ghz

Procedemos a hacer más pruebas e ir de menos a más

"""

______________________________________________