Parte 5: Limpieza y preparación de datos
Una vez cargado el csv mediante el request anterior (part4 API), realiza lo siguiente:

1.Verificar que no existan valores faltantes
2.Verificar que no existan filas repetidas
3.Verificar si existen valores atípicos y eliminarlos
4.Crear una columna que categorice por edades
0-12: Niño
13-19: Adolescente
20-39: Jóvenes adulto
40-59: Adulto
60-...: Adulto mayor
5.Guardar el resultado como csv
Encapsula toda la lógica anterior en una función que reciba un dataframe como entrada.

In [None]:
import pandas as pd

def limpiar_y_preparar_datos(dataframe):
    # Verificar valores faltantes
    if dataframe.isnull().any().any():
        print("Existen valores faltantes. Realiza la imputación o eliminación según sea necesario.")
    
    # Verificar filas duplicadas
    if dataframe.duplicated().any():
        dataframe = dataframe.drop_duplicates()
        print("Se eliminaron filas duplicadas.")
    
    # Verificar y eliminar valores atípicos
    # columna 'edad' eliminar valores atípicos
    columna_edad = 'age'
    limite_inferior = 0
    limite_superior = 100
    dataframe = dataframe[(dataframe[columna_edad] >= limite_inferior) & (dataframe[columna_edad] <= limite_superior)]
    print("Se eliminaron valores atípicos.")
    
    # Crear columna de categorías por edades
    bins = [0, 12, 19, 39, 59, float('inf')]
    etiquetas = ['Niño', 'Adolescente', 'Jóvenes adulto', 'Adulto', 'Adulto mayor']
    dataframe['categoria_edad'] = pd.cut(dataframe[columna_edad], bins=bins, labels=etiquetas, right=False)
    
    # Guardar el resultado como CSV
    dataframe.to_csv('datos_limpios.csv', index=False)
    print("Los datos limpios han sido guardados en 'datos_limpios.csv'.")

# Ejemplo de uso con un DataFrame cargado desde el CSV descargado previamente
url_descarga = 'https://huggingface.co/datasets/mstz/heart_failure/raw/main/heart_failure_clinical_records_dataset.csv'
nombre_archivo_descargado = 'datos_descargados.csv'
dataframe_descargado = pd.read_csv(nombre_archivo_descargado)

# Llamada a la función
limpiar_y_preparar_datos(dataframe_descargado)
