## Título: "Predicción de la ocurrencia de stroke basado en parámetros clínicos de fácil acceso"

## Introducción y marco teórico

El accidente cerebrovascular (ACV), también conocido como Stroke, es globalmente la segunda causa de muerte, dando cuenta del 11,6% del total de muertes en el 2019. Atribuyéndole a esta patología 63,48 millones de años de vida ajustado por discapacidad (AVISA), y 3,29 millones de muertes (1). En el 2020 la prevalencia global de todos los subtipos de ACV fue de 89,13 millones de casos, siendo el ACV de tipo isquémico el más frecuente, con un total de 68,16 millones de casos (2). 
Las predicciones globales muestran que la tasa de incidencia de ACV isquémico aumentarán en el tiempo, en ambos sexos, en todos los grupos etarios y quintiles socio-demográficos (3). 
Respecto a Chile, según el estudio de carga global de enfermedades, lesiones y factores de riesgo, el ACV representa el 9,1% del total de muertes en el 2017, y fue la segunda mayor causa de muerte general y muerte prematura, representando la tercera causa más común de muerte y discapacidad combinada en Chile durante ese año (4).
En el ACV de tipo isquémico, es el subtipo más frecuente de ACV (1). El fenómeno corresponde a la oclusión de un vaso arterial que determina isquemia en el tejido por falta de irrigación sanguínea. Esto lleva a muerte del tejido cerebral (infarto cerebral), mostrando el paciente un déficit neurológico, el cual puede persistir, generando discapacidad en grados variables y/o la muerte. Es por eso que contar con formas de poder predecir su ocurrencia tienen una alta relevancia a nivel de salud pública global. 

## Objetivo 
El objetivo del presente proyecto es desarrollar un modelo de Machine Learning capaz de predecir la ocurrencia de un accidente cerebrovascular isquémico (Stroke) en pacientes, utilizando características clínicas simples y acotadas, basándonos en una base de datos pública.  

## Base de datos

Se trabajará con la base de datos pública extraída de Kaggle "shashwatwork/cerebral-stroke-predictionimbalaced-dataset" (5), que corresponde a un dataset que contiene distintas características demográficas y clínicas de pacientes, junto a la variable de interés que muestra la ocurrencia o no de un Accidente Cerebrovascular (ACV, también llamados Stroke).
Cabe destacar que es una base de datos desbalanceada en relación con la variable de interés (Stroke), estando altamente cargada hacia casos sin ocurrencia de stroke. 
Esta base de datos tiene la ventaja de contar con variables y características de fácil acceso a la hora de evaluar inicialmente a un paciente, por lo que de resultar en un modelo de predicción robusto, tendría una buena utilidad clínica, permitiéndonos obtener beneficios para el paciente en base a parámetros de fácil obtención. 

Link a la base de datos: https://www.kaggle.com/datasets/shashwatwork/cerebral-stroke-predictionimbalaced-dataset/data

## EXPLORACIÓN DE DATOS

In [42]:
# Se importan las librerías para el análisis inicial de los datos. 
import pandas as pd
import numpy as np
import sklearn as sk
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib notebook

df = pd.read_csv('dataset.csv') #Cargo la base de datos

In [44]:
print(df.info)
print(df.shape) 
print(df.size) 

<bound method DataFrame.info of           id  gender   age  hypertension  heart_disease ever_married  \
0      30669    Male   3.0             0              0           No   
1      30468    Male  58.0             1              0          Yes   
2      16523  Female   8.0             0              0           No   
3      56543  Female  70.0             0              0          Yes   
4      46136    Male  14.0             0              0           No   
...      ...     ...   ...           ...            ...          ...   
43395  56196  Female  10.0             0              0           No   
43396   5450  Female  56.0             0              0          Yes   
43397  28375  Female  82.0             1              0          Yes   
43398  27973    Male  40.0             0              0          Yes   
43399  36271  Female  82.0             0              0          Yes   

          work_type Residence_type  avg_glucose_level   bmi   smoking_status  \
0          children    

## Cantidad de elementos
El número total de elementos es de 520.800. 
El conjunto de datos contiene 43.400 filas y 12 columnas, utilizando la función df.shape

In [46]:
print(df.columns) # se obtuvo los nombres de las 12 columnas contenidas en el data frame

Index(['id', 'gender', 'age', 'hypertension', 'heart_disease', 'ever_married',
       'work_type', 'Residence_type', 'avg_glucose_level', 'bmi',
       'smoking_status', 'stroke'],
      dtype='object')


In [47]:
print(df.dtypes) #Se obtuvieron los tipos de datos de cada columna

id                     int64
gender                object
age                  float64
hypertension           int64
heart_disease          int64
ever_married          object
work_type             object
Residence_type        object
avg_glucose_level    float64
bmi                  float64
smoking_status        object
stroke                 int64
dtype: object


In [48]:
df.describe() # Con la función df.describe obtenemos un resumen estadístico de las columnas del conjunto de datos. 

Unnamed: 0,id,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke
count,43400.0,43400.0,43400.0,43400.0,43400.0,41938.0,43400.0
mean,36326.14235,42.217894,0.093571,0.047512,104.48275,28.605038,0.018041
std,21072.134879,22.519649,0.291235,0.212733,43.111751,7.77002,0.133103
min,1.0,0.08,0.0,0.0,55.0,10.1,0.0
25%,18038.5,24.0,0.0,0.0,77.54,23.2,0.0
50%,36351.5,44.0,0.0,0.0,91.58,27.7,0.0
75%,54514.25,60.0,0.0,0.0,112.07,32.9,0.0
max,72943.0,82.0,1.0,1.0,291.05,97.6,1.0


## Evaluación de datos faltantes

In [25]:

print(df.isnull()) # se evaluaron valores faltantes
print(df.isnull().sum()) #Se realizó un conteo de valores faltantes por columna

          id  gender    age  hypertension  heart_disease  ever_married  \
0      False   False  False         False          False         False   
1      False   False  False         False          False         False   
2      False   False  False         False          False         False   
3      False   False  False         False          False         False   
4      False   False  False         False          False         False   
...      ...     ...    ...           ...            ...           ...   
43395  False   False  False         False          False         False   
43396  False   False  False         False          False         False   
43397  False   False  False         False          False         False   
43398  False   False  False         False          False         False   
43399  False   False  False         False          False         False   

       work_type  Residence_type  avg_glucose_level    bmi  smoking_status  \
0          False           False 

In [49]:
#Dado que en las variables bmi (índice de masa corporal) y smoking_status (hábito tabáquico) hay datos faltantes, debo buscar la forma más adecuada de rellenarlos. 
df['bmi'].describe()
# La función df.describe muestra que la variable bmi tiene outliers (mínimo de 10 y máximo de 97), por lo que se define imputar la media a los valores nulos y no el promedio. 
median_value = df['bmi'].median()
df['bmi'] = df['bmi'].fillna(median_value) #Se rellenan datos faltantes de columna bmi con la mediana. 

print(df['bmi'])


0        18.0
1        39.2
2        17.6
3        35.9
4        19.1
         ... 
43395    20.4
43396    55.4
43397    28.9
43398    33.2
43399    20.6
Name: bmi, Length: 43400, dtype: float64


In [50]:
#Con la variable smoking_status, se definió rellenar los faltantes con una nueva etiqueta 
#Se llamará "desconocido", ya que no se puede asumir el hábito tabáquico de esos pacientes. 

df['smoking_status'] = df['smoking_status'].fillna('desconocido')


In [51]:
#Tras la imputación realizo una prueba de conteo de valores faltantes por columna para verificar que se ha resuelto.
print(df.isnull().sum()) 


id                   0
gender               0
age                  0
hypertension         0
heart_disease        0
ever_married         0
work_type            0
Residence_type       0
avg_glucose_level    0
bmi                  0
smoking_status       0
stroke               0
dtype: int64


In [52]:
#Se realizará transformación de las variables categóricas
#Utilizando Codificación Label para asignar un número único a cada categoría de cada variable
#Se hace este ejercicio con las variables de género, estado civil, tipo de trabajo, tipo de residencia y hábito tabáquico

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

df['gender'] = encoder.fit_transform(df['gender'])
df['ever_married'] = encoder.fit_transform(df['ever_married'])
df['work_type'] = encoder.fit_transform(df['work_type'])
df['Residence_type'] = encoder.fit_transform(df['Residence_type'])
df['smoking_status'] = encoder.fit_transform(df['smoking_status'])


In [53]:
# Se realiza chequeo de las variables tras el nueva codificación 
print(df.head())
print(df.info())

      id  gender   age  hypertension  heart_disease  ever_married  work_type  \
0  30669       1   3.0             0              0             0          4   
1  30468       1  58.0             1              0             1          2   
2  16523       0   8.0             0              0             0          2   
3  56543       0  70.0             0              0             1          2   
4  46136       1  14.0             0              0             0          1   

   Residence_type  avg_glucose_level   bmi  smoking_status  stroke  
0               0              95.12  18.0               0       0  
1               1              87.96  39.2               2       0  
2               1             110.89  17.6               0       0  
3               0              69.04  35.9               1       0  
4               0             161.28  19.1               0       0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43400 entries, 0 to 43399
Data columns (total 12 column

## Normalización

Se realiza normalización de variables continuas (Edad, índice de masa corporal y nivel de glucosa).
- Para Variable Edad (Age) se realizará normalización con MinMaxScaler, pues necesito mantener las proporciones dentro de un rango fijo
- Con variables de Índice de masa corporal (bmi) y niveles de glucosa (avg_glucose_level), utilizaré RobustScaler de tal forma de poder lidiar con los outliers, evitando que me distorcionen la escala.

A continuación los códigos:

In [54]:
#Para variable edad
from sklearn.preprocessing import MinMaxScaler
scaler_age = MinMaxScaler()
df['age_scaled'] = scaler_age.fit_transform(df[['age']])



In [55]:
#para variables bmi y avg_glucosa_level 
from sklearn.preprocessing import RobustScaler

scaler_robust = RobustScaler()
df['bmi_scaled'] = scaler_robust.fit_transform(df[['bmi']])
df['glucose_scaled'] = scaler_robust.fit_transform(df[['avg_glucose_level']])


## Manejo del desbalanceo 
Ya teniendo una base datos explorada y trabajada, pasaremos al desarrollo del modelo, sin embargo, tal como indica el nombre del dataset, la base de datos está desbalanceada, por lo que se debe balancear los datos en relación a la variable de interés 'stroke'.

In [56]:
#Se aplica función para evidenciar cuántos casos presentaron (1) o No presentaron (0) un stroke y dar cuenta del desbalanceo.
df['stroke'].value_counts()


stroke
0    42617
1      783
Name: count, dtype: int64


Los datos están desbalanceados porque la ocurrencia del ACV está en 783 pacientes, versus la no ocurrencia que está en 42.617 (relación 1:54). Por lo que hacer predicciones utilizando estos datos en estas condiciones no resultaría confiable. 


## Eligiendo el método de balanceo y entrenamiento del modelo

Dado que los datos están desbalanceados, se probarán técnicas de balanceo y al mismo tiempo se realizará el entrenamiento del modelo con Random Forest y evaluación de métricas (Accuracy, Precision, Recall, F1-Score y Matriz de confusión).

MÉTRICAS SELECCIONADAS: 
- Precision: Permitirá determinar cuántos casos en que se predice stroke, realmente lo tendrán. 
- Recall: Nos permite evaluar si de todos los pacientes que realmente tienen stroke, cuántos son detectados. Es una métrica importantísima porque nos indica la capacidad que tiene el modelo para detectar la mayor cantidad posible de casos reales, pues no queremos dejar casos reales sin detectar. 
- F1-Score: Realiza un balance entre precision y Recall. Es un buen resumen numérico del desempeño global de nuestro modelo. 
- Matriz de Confusión: Es relevante porque nos mostrará cuántos stroke detecta y cuántos falsos positivos genera.

¿Por qué Random Forest?
- El Random Forest es un algoritmo que se basa en el ensamblaje de árboles de decisión, combinando varios árboles de forma independiente, y posteriormente realiza una promediación de las predicciones.
- Es una buena técnica para reducir el sobreajuste, detecta interacciones entre variables que podrían no ser tran evidentes y es robusto frente al ruido. 



In [57]:
# Se importan las librerías necesarias. 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import RandomForestClassifier

from imblearn.over_sampling import SMOTE, RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler
from collections import Counter

#Defino las variables
X = df.drop(['id', 'stroke'], axis=1)
y = df['stroke']

#Se realiza el split de entrenamiento y test antes de aplicar técnicas de balanceo. 
# se define una partición de entrenamiento/prueba de 70/30. 
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print("Distribución original en train:", Counter(y_train))

#Preprocesamiento, defino explícitamente las categorías.  

categorical_categories = {
    'gender': ['Male', 'Female', 'Other'],
    'ever_married': ['No', 'Yes'],
    'work_type': ['children', 'Govt_job', 'Never_worked', 'Private', 'Self-employed'],
    'Residence_type': ['Rural', 'Urban'],
    'smoking_status': ['formerly smoked', 'never smoked', 'smokes', 'Unknown']
}

#Lista de columnas categóricas y numéricas
categorical_cols = list(categorical_categories.keys())
numeric_cols = ['age', 'avg_glucose_level', 'bmi', 'hypertension', 'heart_disease']

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), categorical_cols),
        ('num', StandardScaler(), numeric_cols)
    ]
)

#FUNCIONES DE EVALUACIÓN
def evaluate_model(X_train_res, y_train_res, X_test, y_test, title):
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', RandomForestClassifier(random_state=42))
    ])
    pipeline.fit(X_train_res, y_train_res)
    y_pred = pipeline.predict(X_test)

    print(f"\n=== Resultados: {title} ===")
    print(classification_report(y_test, y_pred, digits=4))
    print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred))


Distribución original en train: Counter({0: 29832, 1: 548})


Puntos relevantes en el código: 

- Se utiliza test size de 0,3 (30%): de esta forma el test set tendrá aproximadamente 13.000 registros, permitiendo evaluar el modelo con un número suficiente de casos strokes y obtener métricas confiables.
- Además se utiliza stratify=y, asegurándonos que mantendremos esa misma proporción en ambas clases tanto en el conjunto de entrenamiento y de prueba. Esto es aún más importantes en dataset tan desbalanceados como este.
- El random state tiene como fin suprimir la aleatoriedad. 

- Resulta importante aclarar que siempre se realizará primero la división train/test (en el dataset desbalanceado) y luego se aplicará la técnica de balanceo, de esta forma el método de balanceo se aplicará solamente en el conjunto de entrenamiento. Así el modelo se entrena con datos balanceados, pero se testeará con el dataset original que no debe ser manipulado. Así nos aseguramos que la evaluación represente casos reales.  

Se probarán 3 técnicas de balanceo: Random oversampling, SMOTE y SMOTEENN.

## RANDOM OVERSAMPLING

Técnica de balanceo que toma los casos minoritarios (en este caso, pacientes con Stroke) y los copia hasta que haya la misma cantidad que la clase mayoritaria. 
Tiene la ventaja de ser más fácil de aplicar, manteniendo además la información original. 
Por otro lado, tiene la desventaja de presentar alto riesgo de overfitting, porque el modelo usa los mismos ejemplos repetidamente, y no agrega diversidad a la clase minoritaria de interés. 

Vamos a evaluar la aplicación de este método:

In [35]:
#RANDOM OVERSAMPLING
ros = RandomOverSampler(random_state=42)
X_ros, y_ros = ros.fit_resample(X_train, y_train)
print("Distribución después de Random Oversampling:", Counter(y_ros))

evaluate_model(X_ros, y_ros, X_test, y_test, "Random Oversampling")

Distribución después de Random Oversampling: Counter({0: 29832, 1: 29832})

=== Resultados: Random Oversampling ===
              precision    recall  f1-score   support

           0     0.9822    0.9980    0.9901     12785
           1     0.1379    0.0170    0.0303       235

    accuracy                         0.9803     13020
   macro avg     0.5601    0.5075    0.5102     13020
weighted avg     0.9670    0.9803    0.9727     13020

Matriz de confusión:
 [[12760    25]
 [  231     4]]


Con Random Oversampling se logró balancear numéricamente el dataset (29.832 casos en cada clase). 
Yendo a las métricas: 
- En la clase 0 (pacientes sin Stroke) hay una precisión del 98,2%, por lo que suele acertar casi siempre en estos casos, con un recall de 99,8%, por lo que detecta prácticamente todos los pacientes Sin Stroke. Sin embargo, esta no es la clase que nos importa.
- En la clase 1 (Stroke), predice stroke sólo en el 13,7% de los casos, por lo que hay muchos falsos positivos. El Recall es de 1,7%, es decir detecta sólo el 1,7% de los pacientes que sí tienen stroke.
- El F1-Score es 0,03: extremadamente bajo. Confirmando que de esta forma el modelo no es capaz de predecir riesgo de strokes. 

MATRIZ DE CONFUSIÓN 
- Verdaderos positivos: 4 (sólo detectó 4 casos reales de stroke)
- Falsos negativos: 231 (231 casos de stroke no fueron identificados, lo cual es grave)
- Falsos positivos: 25.

MÉTRICAS GLOBALES 
- Accuracy de 98%, lo cual es alto, pero no relevante en el presente trabajo, ya que el modelo sólo predice adecuadamente a la clase mayoritaria.

En suma, modelo no útil para los objetivos del dataset que es detectar strokes. 

## SMOTE

Es un método que genera nuevos casos de forma sintética para la clase minoritaria (Stroke), combinando características de los pacientes reales y cercanos entre sí. De esta manera balancea ambas clases de una forma más variada que con Random Oversampling y hay menos riesgo de overfitting. 
El problema es que pudiesen crearse casos poco realistas si es que existiesen datos muy atípicos o no correctamente etiquetados.

In [58]:
#SMOTE 
#Ajustar k_neighbors de forma dinámica para evitar errores. 
minority_count = Counter(y_train)[1]
k_neighbors = min(5, minority_count - 1)

smote = SMOTE(random_state=42, k_neighbors=k_neighbors)
X_smote, y_smote = smote.fit_resample(X_train, y_train)
print("Distribución después de SMOTE:", Counter(y_smote))

evaluate_model(X_smote, y_smote, X_test, y_test, "SMOTE")

Distribución después de SMOTE: Counter({0: 29832, 1: 29832})

=== Resultados: SMOTE ===
              precision    recall  f1-score   support

           0     0.9832    0.9682    0.9756     12785
           1     0.0557    0.1021    0.0721       235

    accuracy                         0.9525     13020
   macro avg     0.5195    0.5351    0.5239     13020
weighted avg     0.9665    0.9525    0.9593     13020

Matriz de confusión:
 [[12378   407]
 [  211    24]]


Con SMOTE se balanceó el dataset, con 29.832 casos en cada grupo, con la vetaja de que en estos casos no son duplicados, sino que son generados de manera sintética, a diferencia del random oversampling. 
- La clase 0 (No stroke) obtiene una precisión de 98,3% y recall de 96,2%. Por lo que tiene buen desempeño en identificar pacientes sin stroke.
- En la clase 1 (Stroke) muestra una precisión de 5,57%, es decir, de los casos en donde identifica stroke, sólo el 5,57% de las veces son casos reales, por lo que hay muchos falsos positivos. Con Recall de 10,2%, por lo que estaría detectando sólo 1 de cada 10 casos reales de stroke.
- F1-score de 0,07, lo que es muy bajo, evidenciando que no es capaz de aprender sólidamente los patrones para la clase 1.

MATRIZ DE CONFUSIÓN 
- Verdaderos positivos: 24 (sólo detectó 24 casos reales de stroke)
- Falsos negativos: 211 (211 pacientes con stroke No fueron identificados)
- Falsos positivos: 407 (muy alto para un modelo de predicción clínica). 

ACCURACY: 95%. Buen accuracy, pero al igual que en Random Oversampling, no relevante para el objetivo del trabajo, ya que es un modelo que sólo detecta bien el No Stroke. 

En suma, modelo no adecuado para el objetivo de detectar stroke.

## UNDERSAMPLING 

Se desestima usar undersampling porque se reduciría enormemente la clase mayoritaria, perdería mucha  médica relevante y disminuiría la capacidad del modelo para poder aprender patrones, hay más riesgo de terminar con un modelo demasiado simple incapaz de generalizar, además de aumentar la varianza, llevando a que pequeños cambios en la selección de datos produzcan gran variación de los resultados, haciendo el modelo inestable y dificil de reproducir. 


## SMOTEENN 

Es una técnica que permite combinar oversampling con undersampling de manera más inteligente. Es híbrida y consta principalmente de 2 pasos: 

1.- SMOTE, en donde genera muestras sintéticas de la clase minoritaria (Stroke = 1), de esta forma se aumenta la representación de este grupo. Además ayuda a mi modelo a aprender patrones más generales, sin memorizar ejemplos. 
2.- ENN: Tras el SMOTE, se eliminan los ejemplos de ambas clases que se encuentren mal clasificados por sus vecinos más cercanos, de esta forma me permite eliminar ruido. 

Por lo que sería una técnica conveniente de aplicar en este dataset muy desbalanceado. 


        

In [59]:
from imblearn.combine import SMOTEENN

# Ajustar k_neighbors para SMOTE dentro de SMOTEENN
minority_count = Counter(y_train)[1]
k_neighbors = min(5, minority_count - 1)

smote_enn = SMOTEENN(
    smote=SMOTE(random_state=42, k_neighbors=k_neighbors),
    random_state=42
)

X_smoteenn, y_smoteenn = smote_enn.fit_resample(X_train, y_train)

print("Distribución después de SMOTEENN:", Counter(y_smoteenn))

evaluate_model(X_smoteenn, y_smoteenn, X_test, y_test, "SMOTEENN")

Distribución después de SMOTEENN: Counter({1: 29382, 0: 25062})

=== Resultados: SMOTEENN ===
              precision    recall  f1-score   support

           0     0.9851    0.9387    0.9613     12785
           1     0.0644    0.2298    0.1007       235

    accuracy                         0.9259     13020
   macro avg     0.5248    0.5842    0.5310     13020
weighted avg     0.9685    0.9259    0.9458     13020

Matriz de confusión:
 [[12001   784]
 [  181    54]]


Con SMOTEENN se balanceó adecuadamente casi 50/50 (Clase 1: 29.382 casos, y clase 0: 25.062 casos), ya que generó casos sintéticos de la clase minoritaria vía SMOTE. Además eliminó el ruido y ejemplos que pudiesen generar conflicto, dando finalmente un dataset más balanceado. 

- La clase 0 (No stroke) mostró una precision de 98,5%, similar a los métodos previamente evaluados, dando cuenta que casi siempre acierta si se trata de predecir No Stroke. Con un Recall de 93,9%, detectando correctamente pacientes sanos. Buenas cifras para la variable mayoritaria, sin embargo, no es el objetivo perseguido por este trabajo.
- Para la Clase 1 (Stroke) arroja una precision de 6,4%, es decir, cuando predice que hay stroke, sólo el 6,4% de las veces es real. Esto indica una alta tasa de falsos positivos. Respecto al Recall se obtuvo un 22,9%, detectando correctamente sólo ese porcentaje de pacientes que realmente tienen stroke. Eso significa que estamos perdiendo una gran mayoría de casos de stroke. Y un F1-Score de 0,1, lo cual confirma que el modelo tiene problemas en la detección de la clase de interés.

MATRIZ DE CONFUSIÓN 
- Falsos negativos: 181 pacientes con stroke no fueron detectados.
- Verdaderos positivos: 54 casos reales de stroke fueron detectados.
- En la misma línea, confirma que el modelo no estaría siendo capaz de capturar correctamente la clase 1.

En suma, si bien son cifras mejores que en los entrenamientos con los balanceos previamente descritos, sigue siendo un modelo inconsistente en cuanto a la detección de strokes.

## Evaluación del sobreajuste
Ya que se definió que el balanceo con el método de SMOTEENN obtuvo las mejores métricas, es momento de evaluar el sobreajuste del modelo. 

Lo que se hará será comparar el rendimiento en el set de entrenamiento (que determina cómo se comporta con los datos con los que fue entrenado) con el set de prueba (para evaluar qué tan bien generaliza el modelo). 

In [60]:
def evaluate_overfitting(X_train_res, y_train_res, X_test, y_test, title):
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('classifier', RandomForestClassifier(random_state=42))
    ])
    
    # Entrenar modelo
    pipeline.fit(X_train_res, y_train_res)
    
    # Predicciones en entrenamiento
    y_pred_train = pipeline.predict(X_train_res)
    # Predicciones en test (prueba). 
    y_pred_test = pipeline.predict(X_test)
    
    print(f"\n=== Evaluación del modelo: {title} ===")
    print("\n--- Entrenamiento ---")
    print(classification_report(y_train_res, y_pred_train, digits=4))
    
    print("\n--- Prueba ---")
    print(classification_report(y_test, y_pred_test, digits=4))
    
    return pipeline
    
model = evaluate_overfitting(X_smoteenn, y_smoteenn, X_test, y_test, "SMOTEENN")





=== Evaluación del modelo: SMOTEENN ===

--- Entrenamiento ---
              precision    recall  f1-score   support

           0     1.0000    1.0000    1.0000     25062
           1     1.0000    1.0000    1.0000     29382

    accuracy                         1.0000     54444
   macro avg     1.0000    1.0000    1.0000     54444
weighted avg     1.0000    1.0000    1.0000     54444


--- Prueba ---
              precision    recall  f1-score   support

           0     0.9851    0.9387    0.9613     12785
           1     0.0644    0.2298    0.1007       235

    accuracy                         0.9259     13020
   macro avg     0.5248    0.5842    0.5310     13020
weighted avg     0.9685    0.9259    0.9458     13020



## ¿Es un modelo sobreajustado?

El sobreajuste ocurre cuando un modelo aprende excesivamente bien los patrones y el ruido del conjunto de entrenamiento. Así el modelo pierde su capacidad de generalizar. 

En este caso las métricas muestran que el modelo está severamente sobreajustado, mostrando en el set de prueba todas las métricas en 1.0, dando cuenta de la memorización, con un set de prueba que da muy pobres parámetros en la clase 1 (precision 0.064, recall 0.230, F1 0.101). 
El accuracy de 0,92 en este caso puede ser engañoso dado el alto desbalance mostrado. 
En suma, es un modelo incapaz de generalizar. 

## Interpretación general de resultados

En medicina, en especial en la predicción de enfermedades graves como el stroke, el recall de la clase positiva es sumamente importante. En este caso, el modelo mostró un recall de 22,9%. En otras palabras, el modelo está perdiendo la detección de 3 de cada 4 pacientes que son positivos para stroke, con un F1-score de 0,1 (muy bajo) por lo que el desempeño de la clase positiva es extremadamente pobre. Del punto de vista clínico es insostenible porque estas cifras dan cuenta que el modelo no está siendo capaz de detectar los casos. 
Además, el alto sobreajuste evidenciado nos habla de un modelo que no aprende a clasificar la clase 1 y lo ineficiente que es para generalizar.  
El sobreajuste elevado puede pasar por el extremo desbalanceo del dataset, incluso con técnicas de balanceo como SMOTEENN, la señal de clase 1 (stroke) es muy débil. 

## Conclusiones
Es un modelo poco útil para toma de decisiones clínicas por su baja capacidad de predicción, no cumpliéndose el objetivo principal del dataset.  
Las razones podrían pasar justamente por la simpleza de las variables utilizadas, dado que la ocurrencia de un ACV es tremendamente multifactorial e intentar definirlo sólo a través de las 12 variables contenidas en este dataset puede ser algo reduccionista. Afuera quedan antecedentes cruciales de los pacientes y que ya se sabe que confieren un alto riesgo de stroke como ciertos tipos de arritmias cardíacas, la presencia de cáncer, trastornos del colesterol, diagnóstico de diabetes, la adherencia al tratamiento farmacológico de sus enfermedades crónicas, entre muchas otras. Todos ellos son elementos que están fuera de las características contenidas en este dataset. Este motivo, además del alto desbalanceo del dataset, son probablemente las razones más sigificativas de por qué los resultados no son consistentes, pese a las diferentes técnicas de balanceo probadas. 

Se hace necesario el desarollo de futuros modelos que predigan la ocurrencia de stroke en pacientes, sustentados en bases de datos que involucren una mayor cantidad de variables clínicas relevantes asociadas al accidente cerebrovascular. 

## CITACIÓN Y REFERENCIAS 
1.	Feigin VL, Stark BA, Johnson CO, Roth GA, Bisignano C, Abady GG, Abbasifard M, Abbasi-Kangevari M, Abd-Allah F, Abedi V, et al. Global, regional, and national burden of stroke and its risk factors, 1990-2019: a systematic analysis for the global burden of disease study 2019.Lancet Neurol. 2021; 20:795–820.
2.	Capirossi C, Laiso A, Renieri L, Capasso F, Limbucci N. Epidemiology, organization, diagnosis and treatment of acute ischemic stroke. Eur J Radiol Open [Internet]. 2023;11(100527):100527. Disponible en: http://dx.doi.org/10.1016/j.ejro.2023.100527
3.	Pu L, Wang L, Zhang R, Zhao T, Jiang Y, Han L. Projected global trends in ischemic stroke incidence, deaths and disability-adjusted life years from 2020 to 2030. Stroke [Internet]. 2023;54(5):1330–9. Disponible en: http://dx.doi.org/10.1161/strokeaha.122.040073
4.	Kyu HH, Abate D, Abate KH, Abay SM, Abbafati C, Abbasi N, et al. Global, regional, and national disability-adjusted life-years (DALYs) for 359 diseases and injuries and healthy life expectancy (HALE) for 195 countries and territories, 1990–2017: a systematic analysis for the Global Burden of Disease Study 2017. Lancet [Internet]. 2018;392(10159):1859–922. Disponible en: http://dx.doi.org/10.1016/s0140-6736(18)32335-3
5. Liu, Tianyu; Fan, Wenhui; Wu, Cheng (2019), “Data for: A hybrid machine learning approach to cerebral stroke prediction based on imbalanced medical-datasets”, Mendeley Data, V1, doi: 10.17632/x8ygrw87jw.1
  
