In [3]:
import pandas as pd

# Ruta del archivo original y del archivo limpio
INPUT_FILE = 'clientes_banco.csv'
OUTPUT_FILE = 'clientes_banco_limpio.csv'

def limpiar_datos(input_file, output_file):
    # Leer el archivo CSV
    df = pd.read_csv(input_file)

    # Eliminar filas duplicadas
    df = df.drop_duplicates(subset='Cliente_ID', keep='first')

    # Tratar valores nulos para cada columna
    df['Cliente_ID'] = df['Cliente_ID'].fillna(lambda: f"ID_Desconocido_{pd.util.hash_pandas_object(df.index)}")
    df['Edad'] = df['Edad'].fillna(df['Edad'].median()).astype(int)  # Edad promedio como mediana
    df['Genero'] = df['Genero'].fillna("No especificado")
    df['Saldo'] = df['Saldo'].fillna(df['Saldo'].mean()).astype(float)
    df['Activo'] = df['Activo'].fillna(0).astype(int).astype(bool)  # Rellenar con 0 (falso) y convertir a bool
    df['Nivel_de_Satisfaccion'] = df['Nivel_de_Satisfaccion'].fillna(1).astype(int)

    # Eliminar filas con valores faltantes en columnas críticas (opcional)
    df = df.dropna(subset=['Cliente_ID', 'Edad', 'Saldo'])

    # Guardar el archivo limpio
    df.to_csv(output_file, index=False)

    print(f"Limpieza de datos completada. Archivo guardado en: {output_file}")

# Llamar a la función de limpieza
limpiar_datos(INPUT_FILE, OUTPUT_FILE)


Limpieza de datos completada. Archivo guardado en: clientes_banco_limpio.csv
