## Dataset Diabetes

Este conjunto de datos proviene originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo del conjunto de datos es predecir si un paciente tiene o no diabetes, basándose en ciertas medidas diagnósticas incluidas en el conjunto de datos. Se impusieron varias restricciones en la selección de estas instancias de una base de datos más grande. En particular, todos los pacientes aquí son mujeres mayores de 21 años de herencia india Pima.

### Cargar los datos

Abrir el archivo `diabetes.csv` en la carpeta `1_datos`. Analizar su estructura y responder las siguientes preguntas:

*   ¿Cuántas instancias o ejemplos tiene el dataset?
*   ¿Cómo se llama la variable de salida o target? ¿Qué tipo de datos es?
*   ¿Cuántos atributos posee cada instancia o ejemplo?¿Puede detectar datos faltantes o mal registrados en algún atributo?
*   ¿Qué tipo de dato tiene cada atributo?

1) El dataset tiene 768 instancias.

2) La variable de salida se llama "Outcome". Es una variable categorica binaria, donde 1 indica que la persona tiene diabetes y 0 indica que no la tiene. Este tipo de datos es del tipo int.

3) Cada instancia tiene 9 atributos, más la columna "Outcome", lo que hace un total de 10 columnas (sin contar la columna Unnamed: 0 porque no se que significa, parece un tipo indice)
Si, en los atributos BloodPressure, SkinThickness, Insulin y BMI.

4) regnancies: int
Glucose: int
BloodPressure: int
SkinThickness: int
Insulin: int
BMI: float
DiabetesPedigreeFunction: float
Age: int
Outcome: int

In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline


In [6]:
datos = pd.read_csv('./1_datos/diabetes.csv')
datos


Unnamed: 0.1,Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,0,6,148,72.0,35.0,0.0,33.6,0.627,50,1
1,1,1,85,66.0,29.0,0.0,26.6,0.351,31,0
2,2,8,183,64.0,0.0,0.0,23.3,0.672,32,1
3,3,1,89,66.0,23.0,94.0,28.1,0.167,21,0
4,4,0,137,40.0,35.0,168.0,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...,...
763,763,10,101,76.0,48.0,180.0,32.9,0.171,63,0
764,764,2,122,70.0,27.0,0.0,36.8,0.340,27,0
765,765,5,121,72.0,23.0,112.0,26.2,0.245,30,0
766,766,1,126,60.0,0.0,0.0,30.1,0.349,47,1


In [7]:
datos= datos.drop(columns="Unnamed: 0") #Borro Unnamed: 0 ya que solo parece ser un ID
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             767 non-null    float64
 3   SkinThickness             756 non-null    float64
 4   Insulin                   763 non-null    float64
 5   BMI                       767 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(5), int64(4)
memory usage: 54.1 KB


In [8]:
faltante = datos.isna().sum() #si hay NA los sume, basicamente un ftable de R
print(faltante,"\n")

datos_faltantes = datos[datos.isnull().any(axis=1)]
datos_faltantes.head() #Algunos datos faltantes

Pregnancies                  0
Glucose                      0
BloodPressure                1
SkinThickness               12
Insulin                      5
BMI                          1
DiabetesPedigreeFunction     0
Age                          0
Outcome                      0
dtype: int64 



Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
7,10,115,,,,35.3,0.134,29,0
9,8,125,96.0,,,,0.232,54,1
10,4,110,92.0,,,37.6,0.191,30,0
11,10,168,74.0,,,38.0,0.537,34,1
12,10,139,80.0,,,27.1,1.441,57,0


### Detección de valores atípicos y tratamiento de datos faltantes

- Analice con cuidado el rango de valores de los atributos. **¿Nota valores atípicos a simple vista en algún/algunos de los atributos?**

    -  Ejemplo: Un valor de insulina igual a 0 puede considerarse mal registrado o faltante.

- Los valores atípicos que detecte pueden considerarse datos faltantes. Utilice el método [replace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html) de pandas para reemplazarlos por np.NaN.

In [9]:
datos["BMI"].sort_values().head(11)

49      0.0
371     0.0
706     0.0
60      0.0
684     0.0
426     0.0
81      0.0
494     0.0
145     0.0
522     0.0
438    18.2
Name: BMI, dtype: float64

In [10]:
#Reemplazamos los valores por np.NaN 
datos.replace({"SkinThickness":0}, np.nan, inplace=True) # cambio "np.NaN" "a "np.nan" porque: `np.NaN` was removed in the NumPy 2.0 release.
datos.replace({"BMI":0}, np.nan, inplace=True)
datos.replace({"Insulin":0}, np.nan, inplace=True)
datos.replace({"BloodPressure":0}, np.nan, inplace=True) 
# Revisar los primeros datos para confirmar los cambios
datos.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72.0,35.0,,33.6,0.627,50,1
1,1,85,66.0,29.0,,26.6,0.351,31,0
2,8,183,64.0,,,23.3,0.672,32,1
3,1,89,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137,40.0,35.0,168.0,43.1,2.288,33,1


Después de realizar el reemplazo, ¿Cuántos datos faltantes presenta cada atributo?

In [11]:
X = datos.drop(columns="Outcome")
y= datos["Outcome"]

data_perdida = datos.isna().sum()
print(data_perdida)

Pregnancies                   0
Glucose                       0
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Outcome                       0
dtype: int64


### ⚠️
Antes de realizar cualquier procesamiento, no olvide de separar los datos en entrenamiento y prueba. Divida el conjunto de datos en entrenamiento y prueba utilizando train_test_split (con una proporción de 80% entrenamiento y 20% prueba) use 42 como semilla.

### Aclaración sobre la imputación de datos faltantes
Algo a tener en cuenta al momento de imputar datos faltantes es que los atributos pueden tener distribuciones diferentes según la salida o target (con diabetes/sin diabetes). Por ejemplo, una persona sana tendrá un valor de insulina en un rango distinto a una persona con diabetes.

- Implemente un transformer para imputar datos faltantes de forma condicional, dependiendo de la clase (diabetes/no diabetes). Para hacerlo, utilice la media o mediana correspondiente a cada clase.
- Utilice un Pipeline de scikit-learn para realizar la preparación completa de los datos, que incluya la imputación.

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=42)

In [13]:
# from sklearn.impute import SimpleImputer
# #concatenamos para poder separar por 0 y 1
# df_train = pd.concat([X_train, y_train], axis=1)
# df_sin_diabetes_train = df_train[df_train["Outcome"] == 0]
# df_con_diabetes_train = df_train[df_train["Outcome"] == 1]

# # Imputamos para los sanos en el conjunto de entrenamiento
# imputer_sin_diabetes = SimpleImputer(strategy="mean")
# df_sin_diabetes_imputed_train = df_sin_diabetes_train.copy()
# df_sin_diabetes_imputed_train.iloc[:, :] = imputer_sin_diabetes.fit_transform(df_sin_diabetes_train)

# df_sin_diabetes_imputed_train = df_sin_diabetes_imputed_train.round(1)

# # Imputamos para los diabéticos en el conjunto de entrenamiento
# imputer_con_diabetes = SimpleImputer(strategy="mean")
# df_con_diabetes_imputed_train = df_con_diabetes_train.copy()
# df_con_diabetes_imputed_train.iloc[:, :] = imputer_con_diabetes.fit_transform(df_con_diabetes_train)

# df_con_diabetes_imputed_train = df_con_diabetes_imputed_train.round(1)

# # Juntamos los datasets imputados del conjunto de entrenamiento
# df_imputed_train = pd.concat([df_sin_diabetes_imputed_train, df_con_diabetes_imputed_train])

# # Ahora hacemos lo mismo para el conjunto de prueba
# df_test = pd.concat([X_test, y_test], axis=1)
# df_sin_diabetes_test = df_test[df_test["Outcome"] == 0]
# df_con_diabetes_test = df_test[df_test["Outcome"] == 1]

# # Imputamos para los sanos en el conjunto de prueba
# df_sin_diabetes_imputed_test = df_sin_diabetes_test.copy()
# df_sin_diabetes_imputed_test.iloc[:, :] = imputer_sin_diabetes.transform(df_sin_diabetes_test)

# df_sin_diabetes_imputed_test = df_sin_diabetes_imputed_test.round(1)

# # Imputamos para los diabéticos en el conjunto de prueba
# df_con_diabetes_imputed_test = df_con_diabetes_test.copy()
# df_con_diabetes_imputed_test.iloc[:, :] = imputer_con_diabetes.transform(df_con_diabetes_test)

# df_con_diabetes_imputed_test = df_con_diabetes_imputed_test.round(1)

# # Juntamos los datasets imputados del conjunto de prueba
# df_imputed_test = pd.concat([df_sin_diabetes_imputed_test, df_con_diabetes_imputed_test])

# # Mostramos las primeras 20 filas del conjunto de entrenamiento imputado
# print(df_imputed_train.head(20))

# # Mostramos las primeras 20 filas del conjunto de prueba imputado
# print(df_imputed_test.head(20))


In [14]:
class ConditionalImputer(BaseEstimator, TransformerMixin): #Clase para imputar valores faltantes
    def __init__(self, strategy='mean'): #Constructor de la clase 
        self.strategy = strategy

    def fit(self, X, y): #Metodo para ajustar el modelo
        self.statistics_ = {}
        for cls in np.unique(y):
            if self.strategy == 'mean':
                self.statistics_[cls] = X[y == cls].mean()
            elif self.strategy == 'median':
                self.statistics_[cls] = X[y == cls].median()
        return self
    
    def transform(self, X, y=None): #Metodo para transformar los datos
        X_transformed = X.copy() #Copia de los datos
        for cls, stats in self.statistics_.items(): #Iteramos sobre las clases y las estadisticas
            mask = (y == cls) 
            for col in X.columns: #Iteramos sobre las columnas
                X_transformed.loc[mask & X[col].isnull(), col] = stats[col] #Imputamos los valores faltantes
        return X_transformed

In [34]:
# Ejemplo de uso con un Pipeline
from sklearn.model_selection import train_test_split

# Supongamos que `data` es un DataFrame con los datos y `target` es la columna objetivo
data = pd.DataFrame({
    'feature1': [1, 2, np.nan, 4, 5,4,6],
    'feature2': [np.nan, 2, 3, 4, np.nan ,2,3],
    'target': [0, 1, 0, 1, 0,0,1]
})
X = data.drop(columns='target')
y = data['target']

pipeline = Pipeline([
    ('imputer', ConditionalImputer(strategy='mean'))
])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

pipeline.fit(X_train, y_train)
X_train_transformed = pipeline.named_steps['imputer'].transform(X_train, y_train)
X_test_transformed = pipeline.named_steps['imputer'].transform(X_test, y_test)

print("Datos de entrenamiento transformados:")
print(X_train_transformed)
print("Datos de prueba transformados:")
print(X_test_transformed)

Datos de entrenamiento transformados:
   feature1  feature2
5       4.0       2.0
2       4.5       3.0
4       5.0       2.5
3       4.0       4.0
6       6.0       3.0
Datos de prueba transformados:
   feature1  feature2
0       1.0       2.5
1       2.0       2.0


In [36]:
media_feature1 = X_train["feature1"].mean()
media_feature1

np.float64(4.75)

In [37]:
media_feature1 = X_train["feature2"].mean()
media_feature1

np.float64(3.0)

In [32]:
X_train

Unnamed: 0,feature1,feature2
5,4.0,2.0
2,,3.0
4,5.0,
3,4.0,4.0
6,6.0,3.0



- Entrene al menos tres clasificadores distintos.
- Compare el desempeño de los modelos utilizando la métrica F1-score, ya que el dataset tiene un desbalance de clases (más casos sin diabetes que con diabetes). Puede evaluar otras métricas si lo desea. [sklearn metrics](https://scikit-learn.org/stable/modules/model_evaluation.html)