In [22]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
import joblib
import os

In [23]:
df = pd.read_csv('heart_failure_clinical_records_dataset.csv')
print(df.head())

    age  anaemia  creatinine_phosphokinase  diabetes  ejection_fraction  \
0  75.0        0                       582         0                 20   
1  55.0        0                      7861         0                 38   
2  65.0        0                       146         0                 20   
3  50.0        1                       111         0                 20   
4  65.0        1                       160         1                 20   

   high_blood_pressure  platelets  serum_creatinine  serum_sodium  sex  \
0                    1  265000.00               1.9           130    1   
1                    0  263358.03               1.1           136    1   
2                    0  162000.00               1.3           129    1   
3                    0  210000.00               1.9           137    1   
4                    0  327000.00               2.7           116    0   

   smoking  time  DEATH_EVENT  
0        0     4            1  
1        0     6            1  
2       

In [24]:
#Preprocesamiemto columnas numericas, se pasan a enteros y se redondean usando la funcion piso
df['age'] = np.floor(df['age']).astype(int)
df['creatinine_phosphokinase'] = np.floor(df['creatinine_phosphokinase']).astype(int)
df['ejection_fraction'] = np.floor(df['ejection_fraction']).astype(int)
df['platelets'] = np.floor(df['platelets']).astype(int)
df['serum_sodium'] = np.floor(df['serum_sodium']).astype(int)

In [25]:
def limpiar_columna_age(df):
    # Convertir a numérico y manejar errores (valores no numéricos se convertirán en NaN)
    df['age'] = pd.to_numeric(df['age'], errors='coerce')
    # Aplicar piso a los valores válidos
    df['age'] = np.floor(df['age'])
    # Calcular mediana ignorando NaNs
    mediana = int(df['age'].median())
    # Reemplazar NaNs con la mediana
    df['age'] = df['age'].fillna(mediana).astype(int)
    return df

In [26]:
def limpiar_columna_anaemia(df):
    # Convertir a numérico, forzando errores a NaN
    df['anaemia'] = pd.to_numeric(df['anaemia'], errors='coerce')
    # Calcular mediana ignorando NaNs (redondeamos para asegurar 0 o 1)
    mediana = int(df['anaemia'].median())
    # Rellenar NaNs con la mediana
    df['anaemia'] = df['anaemia'].fillna(mediana).astype(int)
    return df

In [27]:

def limpiar_columna_creatinine(df):
    # Convertir a valores numéricos (forzando errores a NaN)
    df['creatinine_phosphokinase'] = pd.to_numeric(df['creatinine_phosphokinase'], errors='coerce')
    # Aplicar función piso
    df['creatinine_phosphokinase'] = np.floor(df['creatinine_phosphokinase'])
    # Calcular mediana ignorando NaNs
    mediana = int(df['creatinine_phosphokinase'].median())
    # Rellenar NaNs con la mediana y convertir a entero
    df['creatinine_phosphokinase'] = df['creatinine_phosphokinase'].fillna(mediana).astype(int)

    return df

In [28]:
def limpiar_columna_diabetes(df):
    # Convertir a numérico (valores inválidos se vuelven NaN)
    df['diabetes'] = pd.to_numeric(df['diabetes'], errors='coerce')
    # Calcular mediana ignorando NaNs y redondear a entero (0 o 1)
    mediana = int(df['diabetes'].median())
    # Reemplazar NaNs con la mediana
    df['diabetes'] = df['diabetes'].fillna(mediana).astype(int)

    return df

In [29]:
def limpiar_columna_ejection_fraction(df):
    # Convertir a numérico; valores no válidos se vuelven NaN
    df['ejection_fraction'] = pd.to_numeric(df['ejection_fraction'], errors='coerce')
    # Aplicar piso a los valores válidos
    df['ejection_fraction'] = np.floor(df['ejection_fraction'])
    # Calcular mediana ignorando NaNs
    mediana = int(df['ejection_fraction'].median())
    # Rellenar NaNs con la mediana y convertir a int
    df['ejection_fraction'] = df['ejection_fraction'].fillna(mediana).astype(int)
    
    return df

In [30]:
def limpiar_columna_high_blood_pressure(df):
    # Convertir a numérico (valores inválidos se vuelven NaN)
    df['high_blood_pressure'] = pd.to_numeric(df['high_blood_pressure'], errors='coerce')
    # Calcular la mediana (debería ser 0 o 1)
    mediana = int(df['high_blood_pressure'].median())
    # Rellenar NaNs con la mediana y convertir a enteros
    df['high_blood_pressure'] = df['high_blood_pressure'].fillna(mediana).astype(int)

    return df

In [31]:
def limpiar_columna_platelets(df):
    # Convertir a numérico (valores inválidos se vuelven NaN)
    df['platelets'] = pd.to_numeric(df['platelets'], errors='coerce')
    # Aplicar piso
    df['platelets'] = np.floor(df['platelets'])
    # Calcular la mediana (ignorando NaNs) y convertir a int
    mediana = int(df['platelets'].median())
    # Rellenar NaNs con la mediana y convertir a enteros
    df['platelets'] = df['platelets'].fillna(mediana).astype(int)
    
    return df

In [32]:
def limpiar_columna_serum_creatinine(df):
    # Convertir a numérico; valores inválidos se vuelven NaN
    df['serum_creatinine'] = pd.to_numeric(df['serum_creatinine'], errors='coerce')
    # Aplicar piso a los valores válidos
    df['serum_creatinine'] = np.floor(df['serum_creatinine'])
    # Calcular mediana ignorando NaNs
    mediana = int(df['serum_creatinine'].median())
    # Rellenar NaNs con la mediana y convertir a int
    df['serum_creatinine'] = df['serum_creatinine'].fillna(mediana).astype(int)
    return df

In [33]:
def limpiar_columna_serum_sodium(df):
    # Convertir a valores numéricos, forzando errores a NaN
    df['serum_sodium'] = pd.to_numeric(df['serum_sodium'], errors='coerce')
    # Aplicar piso a los valores válidos
    df['serum_sodium'] = np.floor(df['serum_sodium'])
    # Calcular la mediana ignorando NaNs y convertir a entero
    mediana = int(df['serum_sodium'].median())
    # Rellenar NaNs con la mediana y convertir a tipo entero
    df['serum_sodium'] = df['serum_sodium'].fillna(mediana).astype(int)
    
    return df

In [34]:
def limpiar_columna_sex(df):
    # Convertir a numérico, forzando errores a NaN
    df['sex'] = pd.to_numeric(df['sex'], errors='coerce')
    # Calcular la mediana ignorando NaNs y asegurar que sea 0 o 1
    mediana = int(df['sex'].median())
    # Rellenar NaNs con la mediana y convertir a entero
    df['sex'] = df['sex'].fillna(mediana).astype(int)

    return df

In [35]:
def limpiar_columna_smoking(df):
    # Convertir a numérico (valores no válidos se vuelven NaN)
    df['smoking'] = pd.to_numeric(df['smoking'], errors='coerce')
    # Calcular mediana (será 0 o 1)
    mediana = int(df['smoking'].median())
    # Reemplazar NaNs con la mediana y convertir a enteros
    df['smoking'] = df['smoking'].fillna(mediana).astype(int)
    
    return df

In [36]:
def limpiar_columna_time(df):
    # Convertir a numérico, forzando errores a NaN
    df['time'] = pd.to_numeric(df['time'], errors='coerce')
    # Aplicar función piso a los valores válidos
    df['time'] = np.floor(df['time'])
    # Calcular la mediana ignorando NaNs
    mediana = int(df['time'].median())
    # Reemplazar NaNs con la mediana y convertir a entero
    df['time'] = df['time'].fillna(mediana).astype(int)
    return df

In [37]:
def limpiar_columna_death_event(df):
    # Convertir a numérico (valores inválidos a NaN)
    df['DEATH_EVENT'] = pd.to_numeric(df['DEATH_EVENT'], errors='coerce')
    # Eliminar filas con valores nulos en DEATH_EVENT
    df = df.dropna(subset=['DEATH_EVENT'])
    # Convertir a enteros (ya sin NaNs)
    df['DEATH_EVENT'] = df['DEATH_EVENT'].astype(int)
    
    return df

In [38]:
def escalar_columnas(df, columnas_a_escalar, nombre_scaler='scaler.pkl'):
    # Obtener ruta actual
    ruta_actual = os.getcwd()
    ruta_scaler = os.path.join(ruta_actual, nombre_scaler)

    # Inicializar y ajustar el scaler
    scaler = StandardScaler()
    df_scaled = df.copy()
    df_scaled[columnas_a_escalar] = scaler.fit_transform(df_scaled[columnas_a_escalar])

    # Guardar el scaler
    joblib.dump(scaler, ruta_scaler)

    print(f'Scaler guardado en: {ruta_scaler}')
    return df_scaled

In [39]:
#LImpiar dataset
df = limpiar_columna_age(df)
df = limpiar_columna_anaemia(df)
df = limpiar_columna_creatinine(df)
df = limpiar_columna_diabetes(df)
df = limpiar_columna_ejection_fraction(df)
df = limpiar_columna_high_blood_pressure(df)
df = limpiar_columna_platelets(df)
df = limpiar_columna_serum_creatinine(df)
df = limpiar_columna_serum_sodium(df)
df = limpiar_columna_sex(df)
df = limpiar_columna_smoking(df)
df = limpiar_columna_time(df)
df = limpiar_columna_death_event(df)

In [40]:
df.to_csv('datosLimpios.csv')

In [41]:
# Columnas numéricas continuas
columnas_a_escalar = [
    'age',
    'creatinine_phosphokinase',
    'ejection_fraction',
    'platelets',
    'serum_creatinine',
    'serum_sodium'
]

# Escalar y guardar el scaler
df_escalado = escalar_columnas(df, columnas_a_escalar)

Scaler guardado en: /home/felipe/Documentos/CursoIA/EntregaFinal/scaler.pkl


In [42]:
df_escalado.to_csv('datosLimpiosEscalados.csv')