In [1]:

# 📦 Importar librerías
import pandas as pd
import numpy as np
import importlib
import data_cleaning_utils
importlib.reload(data_cleaning_utils)

<module 'data_cleaning_utils' from '/Users/emmeravivar/Documents/01_MASTER_DATA/Proyecto_4_Eda+Python/data_cleaning_utils.py'>

In [2]:
# 📂 Carga del archivo
xlsx_path = "data_set_complete_raw.xlsx"  # asegúrate de que esté en el mismo directorio del notebook

# 📥 Cargar el archivo Excel
df = pd.read_excel(xlsx_path)

# 🧮 Número total de registros
num_registros = df.shape[0]
print(f"🧮 Registros totales: {num_registros}")

# 🔁 Número de registros duplicados (filas completas duplicadas)
duplicados = df.duplicated().sum()
print(f"♻️ Registros duplicados: {duplicados}")

# 📊 Información general de columnas y tipos de dato
columnas_info = df.dtypes.reset_index()
columnas_info.columns = ['Columna', 'Tipo de Dato']

# 🕳️ Conteo de nulos por columna
nulos = df.isnull().sum().reset_index()
nulos.columns = ['Columna', 'Nulos']

# 📌 Porcentaje de nulos
nulos['% Nulos'] = (nulos['Nulos'] / num_registros * 100).round(2)

# 📊 Resumen final combinando tipos y nulos
resumen_columnas = columnas_info.merge(nulos, on='Columna')


# 📋 Mostrar resultado
pd.set_option('display.max_rows', None)
display(resumen_columnas)


🧮 Registros totales: 43170
♻️ Registros duplicados: 0


Unnamed: 0,Columna,Tipo de Dato,Nulos,% Nulos
0,age,float64,5290,12.25
1,job,object,515,1.19
2,marital,object,255,0.59
3,education,object,1977,4.58
4,default,float64,9151,21.2
5,housing,float64,1196,2.77
6,loan,float64,1196,2.77
7,contact,object,170,0.39
8,duration,float64,170,0.39
9,campaign,float64,170,0.39


-------------------- COMIENZA LA TRANSFORMACIÓN ---------------------

In [3]:
#  Eliminar columna 'Unnamed: 0' si existe
if 'Unnamed: 0' in df.columns:
    df.drop(columns=['Unnamed: 0'], inplace=True)
    print("✅ Columna 'Unnamed: 0' eliminada correctamente.")
else:
    print("ℹ️ La columna 'Unnamed: 0' no existe en el DataFrame.")

✅ Columna 'Unnamed: 0' eliminada correctamente.


In [4]:
# Transformaciones de datos: int64

columnas_a_int = [
    'age', 'default', 'housing', 'loan',
    'duration', 'campaign', 'pdays', 'previous'
]
df  = data_cleaning_utils.convertir_a_entero(df, columnas_a_int)

🔍 Procesando columna 'age'...
✅ Columna convertida a Int64.
🔎 Valores únicos después: <IntegerArray>
[  22,   56,   31,   38,   39,   43,   48,   36,   34,   44,   52, <NA>,   46,
   28,   53,   35,   33,   32,   85,   51,   45,   59,   54,   24,   40,   60,
   37,   29,   58,   30,   73,   55,   27,   25,   57,   47,   42,   49,   83,
   74,   26,   50,   21,   41,   18,   78,   61,   19,   76,   63,   98,   23,
   65,   20,   77,   64,   70,   62,   82,   81,   71,   88,   84,   68,   75,
   67,   66,   79,   69,   86,   72,   80,   92,   91,   95,   17,   94,   89,
   87]
Length: 79, dtype: Int64
⚠️ Nulos detectados: 5290
--------------------------------------------------
🔍 Procesando columna 'default'...
✅ Columna convertida a Int64.
🔎 Valores únicos después: <IntegerArray>
[0, <NA>, 1]
Length: 3, dtype: Int64
⚠️ Nulos detectados: 9151
--------------------------------------------------
🔍 Procesando columna 'housing'...
✅ Columna convertida a Int64.
🔎 Valores únicos después: <Intege

In [5]:
# Lista de columnas categóricas (tipo object actualmente)
columnas_categoricas = ['job', 'marital', 'education', 'contact', 'poutcome']

# Aplicar la función que ya tienes definida
df = data_cleaning_utils.homogeneizar_categoricas(df, columnas_categoricas)

🔍 Procesando columna 'job'...
🔎 Nulos antes de transformación: 515
✅ Columna 'job' homogeneizada y convertida a categórica.
🔎 Valores únicos: ['services', 'technician', 'blue-collar', 'entrepreneur', 'admin.', ..., 'student', 'retired', 'unemployed', 'self-employed', NaN]
Length: 12
Categories (11, object): ['admin.', 'blue-collar', 'entrepreneur', 'housemaid', ..., 'services', 'student', 'technician', 'unemployed']
⚠️ Nulos después de transformación: 515
--------------------------------------------------
🔍 Procesando columna 'marital'...
🔎 Nulos antes de transformación: 255
✅ Columna 'marital' homogeneizada y convertida a categórica.
🔎 Valores únicos: ['single', 'divorced', 'married', NaN]
Categories (3, object): ['divorced', 'married', 'single']
⚠️ Nulos después de transformación: 255
--------------------------------------------------
🔍 Procesando columna 'education'...
🔎 Nulos antes de transformación: 1977
✅ Columna 'education' homogeneizada y convertida a categórica.
🔎 Valores únic

In [6]:
# Valoración de la columna 'y'
total_registros = len(df)

# Total de nulos en 'y'
nulos_y = df['y'].isnull().sum()

# Porcentaje que representan
porcentaje_nulos_y = round((nulos_y / total_registros) * 100, 2)

# Mostrar resultados
print(f"📊 Nulos en 'y': {nulos_y} de {total_registros} registros totales")
print(f"📉 Porcentaje de registros con 'y' nulo: {porcentaje_nulos_y}%")

# ✅ Eliminar registros con valor nulo en la columna 'y'
df = df[~df['y'].isnull()].reset_index(drop=True)

# 📊 Confirmación
print(f"🧹 Registros eliminados: 170")
print(f"✅ Registros restantes: {len(df)}")


# Definir el mapeo
mapa_y = {
    "yes": True,
    "no": False
}

# Aplicar transformación a la columna 'y'
df = data_cleaning_utils.convertir_a_booleano(df, 'y', mapa_y)


📊 Nulos en 'y': 170 de 43170 registros totales
📉 Porcentaje de registros con 'y' nulo: 0.39%
🧹 Registros eliminados: 170
✅ Registros restantes: 43000
✅ Columna 'y' convertida a booleano.
🔍 Nulos después del mapeo: 0
🔎 Valores únicos finales: [False  True]


In [7]:
# Aplicar la función a la columna 'date'
df['date'] = df['date'].apply(data_cleaning_utils.convertir_a_fecha)

# Verificar tipo de dato
print("🧪 Tipo de dato final:", df['date'].dtype)

# Verificar nulos tras la transformación
print("⚠️ Nulos después de convertir:", df['date'].isnull().sum())

# Mostrar ejemplo de fechas convertidas
print("📅 Fechas convertidas (primeros 5):")
print(df['date'].head())

🧪 Tipo de dato final: datetime64[ns]
⚠️ Nulos después de convertir: 248
📅 Fechas convertidas (primeros 5):
0   2018-01-23
1   2018-12-02
2   2015-01-13
3   2015-09-02
4   2018-04-30
Name: date, dtype: datetime64[ns]


In [8]:
# Resumen desde DataFrame 
total_registros = df.shape[0]

# Recuento de duplicados
duplicados = df.duplicated().sum()

# Crear resumen idéntico al original
resumen_transformado = pd.DataFrame({
    'Columna': df.columns,
    'Tipo de Dato': df.dtypes.values,
    'Nulos': df.isnull().sum().values,
    '% Nulos': np.round(df.isnull().mean().values * 100, 2)
})

# Mostrar resumen en consola
print(f"🧮 Registros totales: {total_registros}")
print(f"♻️ Registros duplicados: {duplicados}")
display(resumen_transformado)

🧮 Registros totales: 43000
♻️ Registros duplicados: 0


Unnamed: 0,Columna,Tipo de Dato,Nulos,% Nulos
0,age,Int64,5120,11.91
1,job,category,345,0.8
2,marital,category,85,0.2
3,education,category,1807,4.2
4,default,Int64,8981,20.89
5,housing,Int64,1026,2.39
6,loan,Int64,1026,2.39
7,contact,category,0,0.0
8,duration,Int64,0,0.0
9,campaign,Int64,0,0.0


In [9]:
# Lista de columnas NO relevantes para el estudio
columnas_no_kpi = [
    'default', 'duration', 'pdays', 'previous', 'poutcome',
    'emp.var.rate', 'cons.price.idx', 'cons.conf.idx',
    'euribor3m', 'nr.employed', 'date', 'latitude', 'longitude', 'NumWebVisitsMonth'
]

# Filas que tienen al menos un valor nulo en cualquiera de esas columnas
registros_con_nulos_no_kpi = df[columnas_no_kpi].isnull().any(axis=1)

# Número total de registros afectados
num_registros_afectados = registros_con_nulos_no_kpi.sum()

# Porcentaje respecto al total
porcentaje_afectados = round((num_registros_afectados / df.shape[0]) * 100, 2)

print(f"🧮 Registros con al menos un nulo en columnas NO KPI: {num_registros_afectados}")
print(f"📉 Porcentaje de registros afectados: {porcentaje_afectados}%")

🧮 Registros con al menos un nulo en columnas NO KPI: 16719
📉 Porcentaje de registros afectados: 38.88%


------------------------- NULOS ---------------------------

In [10]:
# Diccionario de columnas NO KPI con su tipo de dato transformado
columnas_no_kpi = {
    'default': 'Int64',
    'emp.var.rate': 'float64',
    'cons.price.idx': 'float64',
    'cons.conf.idx': 'float64',
    'euribor3m': 'float64',
    'nr.employed': 'float64',
    'latitude': 'float64',
    'longitude': 'float64',
}

# Imputamos según el tipo de dato, con tratamiento especial para 'default'
for col, tipo in columnas_no_kpi.items():
    print(f"🔧 Imputando columna: {col}")
    
    if tipo == 'Int64':
        df[col] = df[col].fillna(2)
        print(f"✅ Sustituido por 2 (entero)")

    elif tipo == 'float64':
        df[col] = df[col].fillna(-1)
        print(f"✅ Sustituido por -1 (float como valor especial)")
    
    print(f"🔍 Nulos restantes: {df[col].isnull().sum()}")
    print("-" * 50)

🔧 Imputando columna: default
✅ Sustituido por 2 (entero)
🔍 Nulos restantes: 0
--------------------------------------------------
🔧 Imputando columna: emp.var.rate
✅ Sustituido por -1 (float como valor especial)
🔍 Nulos restantes: 0
--------------------------------------------------
🔧 Imputando columna: cons.price.idx
✅ Sustituido por -1 (float como valor especial)
🔍 Nulos restantes: 0
--------------------------------------------------
🔧 Imputando columna: cons.conf.idx
✅ Sustituido por -1 (float como valor especial)
🔍 Nulos restantes: 0
--------------------------------------------------
🔧 Imputando columna: euribor3m
✅ Sustituido por -1 (float como valor especial)
🔍 Nulos restantes: 0
--------------------------------------------------
🔧 Imputando columna: nr.employed
✅ Sustituido por -1 (float como valor especial)
🔍 Nulos restantes: 0
--------------------------------------------------
🔧 Imputando columna: latitude
✅ Sustituido por -1 (float como valor especial)
🔍 Nulos restantes: 0
---

In [None]:
# === Fechas coherentes para consumo de KPI 3 (cambio mínimo) ===

# 1) Asegurar 'Dt_Customer' como datetime
if 'Dt_Customer' in df.columns:
    df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], errors='coerce')

# 2) Revertir sentinel previo si existiera (de ejecuciones anteriores)
mask_1900 = df['date'] == pd.Timestamp('1900-01-01')
if mask_1900.any():
    print(f"⚠️ Detectadas {int(mask_1900.sum())} fechas '1900-01-01' en 'date' -> se pasan a NaT para imputar bien.")
    df.loc[mask_1900, 'date'] = pd.NaT

# 3) Imputar 'date' faltante con 'Dt_Customer' (antigüedad 0, mantiene 0% nulos)
df['date'] = df['date'].fillna(df['Dt_Customer'])

# 4) Forzar coherencia temporal: si date < Dt_Customer, igualarlas
mask_incoh = (df['date'].notna() & df['Dt_Customer'].notna() & (df['date'] < df['Dt_Customer']))
if mask_incoh.any():
    print(f"🛠️ Corrigiendo incoherencias (date < Dt_Customer): {int(mask_incoh.sum())} filas")
    df.loc[mask_incoh, 'date'] = df.loc[mask_incoh, 'Dt_Customer']

# 5) Comprobaciones rápidas
print("Nulos -> date:", int(df['date'].isna().sum()), "| Dt_Customer:", int(df['Dt_Customer'].isna().sum()))
print("Fechas ejemplo (date, Dt_Customer):")
print(df[['date','Dt_Customer']].head())


print(f"✅ Nulos en 'date' imputados con '1900-01-01'")
print(f"🔍 Nulos restantes: {df['date'].isnull().sum()}")
print(f"🔎 Valores únicos en 'date' tras imputación: {df['date'].nunique()}")

Nulos -> date: 0 | Dt_Customer: 0
Fechas ejemplo (date, Dt_Customer):
        date Dt_Customer
0 2018-01-23  2014-07-17
1 2018-12-02  2014-01-04
2 2015-01-13  2014-12-01
3 2015-09-02  2012-01-25
4 2018-04-30  2014-05-12
✅ Nulos en 'date' imputados con '1900-01-01'
🔍 Nulos restantes: 0
🔎 Valores únicos en 'date' tras imputación: 2026


In [12]:
# Resumen desde DataFrame 
total_registros = df.shape[0]

# Recuento de duplicados
duplicados = df.duplicated().sum()

# Crear resumen idéntico al original
resumen_transformado = pd.DataFrame({
    'Columna': df.columns,
    'Tipo de Dato': df.dtypes.values,
    'Nulos': df.isnull().sum().values,
    '% Nulos': np.round(df.isnull().mean().values * 100, 2)
})

# Mostrar resumen en consola
print(f"🧮 Registros totales: {total_registros}")
print(f"♻️ Registros duplicados: {duplicados}")
display(resumen_transformado)

🧮 Registros totales: 43000
♻️ Registros duplicados: 0


Unnamed: 0,Columna,Tipo de Dato,Nulos,% Nulos
0,age,Int64,5120,11.91
1,job,category,345,0.8
2,marital,category,85,0.2
3,education,category,1807,4.2
4,default,Int64,0,0.0
5,housing,Int64,1026,2.39
6,loan,Int64,1026,2.39
7,contact,category,0,0.0
8,duration,Int64,0,0.0
9,campaign,Int64,0,0.0


In [13]:
# Estadísticas básicas sobre age
print("📊 Mínima edad registrada:", df['age'].min())
print("📊 Máxima edad registrada:", df['age'].max())

# Registros fuera del rango permitido
menores_18 = df[df['age'] < 18]
mayores_70 = df[df['age'] > 70]
nulos_age = df['age'].isna().sum()

print("🚫 Registros con edad < 18 años:", menores_18.shape[0])
print("🚫 Registros con edad > 70 años:", mayores_70.shape[0])

# Mostrar distribución de edades menores a 18
print("\n📋 Distribución de edades menores de 18 años:")
print(menores_18['age'].value_counts().sort_index())

# Registros válidos
validos = df[(df['age'] >= 18) & (df['age'] <= 70)]
print("\n✅ Registros con edad válida (18-70):", validos.shape[0])
print(f"🔍 Registros con 'age' nulo: {nulos_age}")


📊 Mínima edad registrada: 17
📊 Máxima edad registrada: 98
🚫 Registros con edad < 18 años: 5
🚫 Registros con edad > 70 años: 401

📋 Distribución de edades menores de 18 años:
age
17    5
Name: count, dtype: Int64

✅ Registros con edad válida (18-70): 37474
🔍 Registros con 'age' nulo: 5120


In [14]:
# transformamos 'age'
registros_antes = df.shape[0]

# Aplicamos el filtrado: edades válidas (18 a 70) o nulas
df = df[df['age'].isna() | df['age'].between(18, 70)]

# Guardamos el número de registros después del filtrado
registros_despues = df.shape[0]

# Cálculo de registros eliminados
eliminados = registros_antes - registros_despues

# ✅ Output de verificación
print("📋 Registros antes del filtrado:", registros_antes)
print("✅ Registros después del filtrado:", registros_despues)
print("❌ Registros eliminados:", eliminados)

# Para confirmar que las edades fuera del rango han desaparecido:
print("🚫 Edades fuera de rango aún presentes:", df[~df['age'].between(18, 70) & df['age'].notna()].shape[0])

# Contar los registros con edad nula tras el filtrado
nulos_age = df['age'].isna().sum()
print(f"🔍 Registros con 'age' nulo tras el filtrado: {nulos_age}")

# imputar mediana a nulos
df = data_cleaning_utils.imputar_mediana(df, ['age'])
df['age'] = df['age'].astype('Int64')
nulos_age = df['age'].isna().sum()
print(f"🔍 Nulos en 'age' después de imputar: {nulos_age}")
print(f"📌 Mediana usada en 'age': {df['age'].median()}")

📋 Registros antes del filtrado: 43000
✅ Registros después del filtrado: 42594
❌ Registros eliminados: 406
🚫 Edades fuera de rango aún presentes: 0
🔍 Registros con 'age' nulo tras el filtrado: 5120
🧬 Columna 'age': imputada con mediana = 38.00
🔍 Nulos en 'age' después de imputar: 0
📌 Mediana usada en 'age': 38.0


In [15]:
df['Income'] = df['Income'].astype('float64')

In [16]:
# 🔧 Columnas a evaluar (todas relevantes para el KPI 2)
columnas_objetivo = ['housing', 'loan', 'job', 'marital', 'education']

# 📋 Registros antes del filtrado
registros_antes = df.shape[0]

# 🔍 Eliminamos registros con nulos en cualquiera de las columnas objetivo
filtro_sin_nulos = df[columnas_objetivo].notna().all(axis=1)
df = df[filtro_sin_nulos]

# 📋 Registros después del filtrado
registros_despues = df.shape[0]
eliminados = registros_antes - registros_despues

# 📌 Verificación
print(f"📋 Registros antes del filtrado: {registros_antes}")
print(f"✅ Registros después del filtrado: {registros_despues}")
print(f"❌ Registros eliminados: {eliminados}")
print(f"📉 Porcentaje eliminado: {eliminados / registros_antes * 100:.2f}%")

# 🔍 Confirmación de nulos restantes en las columnas clave
for col in columnas_objetivo:
    print(f"🔍 Nulos en '{col}':", df[col].isna().sum())

📋 Registros antes del filtrado: 42594
✅ Registros después del filtrado: 39578
❌ Registros eliminados: 3016
📉 Porcentaje eliminado: 7.08%
🔍 Nulos en 'housing': 0
🔍 Nulos en 'loan': 0
🔍 Nulos en 'job': 0
🔍 Nulos en 'marital': 0
🔍 Nulos en 'education': 0


In [17]:
# Resumen desde DataFrame 
total_registros = df.shape[0]

# Recuento de duplicados
duplicados = df.duplicated().sum()

# Crear resumen idéntico al original
resumen_transformado = pd.DataFrame({
    'Columna': df.columns,
    'Tipo de Dato': df.dtypes.values,
    'Nulos': df.isnull().sum().values,
    '% Nulos': np.round(df.isnull().mean().values * 100, 2)
})

# Mostrar resumen en consola
print(f"🧮 Registros totales: {total_registros}")
print(f"♻️ Registros duplicados: {duplicados}")
display(resumen_transformado)

🧮 Registros totales: 39578
♻️ Registros duplicados: 0


Unnamed: 0,Columna,Tipo de Dato,Nulos,% Nulos
0,age,Int64,0,0.0
1,job,category,0,0.0
2,marital,category,0,0.0
3,education,category,0,0.0
4,default,Int64,0,0.0
5,housing,Int64,0,0.0
6,loan,Int64,0,0.0
7,contact,category,0,0.0
8,duration,Int64,0,0.0
9,campaign,Int64,0,0.0


------------------ NORMALIZACIÓN DE DATOS ------------------


In [18]:
# Paso 2: Aplicamos la función al DataFrame
df = data_cleaning_utils.limpiar_education(df, columna='education')

# Paso 3: Verificamos conteos para asegurarnos que todo se ha reasignado correctamente
print("📋 Distribución final de 'education':")
print(df['education'].value_counts())

🔍 Transformando columna 'education'...
✅ Columna 'education' limpiada y convertida a categoría.
🔎 Nuevos valores únicos: ['high school', 'professional training', 'basic education', 'university degree', 'illiterate']
Categories (5, object): ['basic education', 'high school', 'illiterate', 'professional training', 'university degree']
--------------------------------------------------
📋 Distribución final de 'education':
education
basic education          12341
university degree        12306
high school               9620
professional training     5294
illiterate                  17
Name: count, dtype: int64


In [19]:
# Ver valores únicos en columnas categóricas relevantes
columnas_categoricas = ['job', 'marital', 'education']

for col in columnas_categoricas:
    print(f"\n📚 Valores únicos en '{col}':")
    print(df[col].sort_values().unique())


📚 Valores únicos en 'job':
['admin.', 'blue-collar', 'entrepreneur', 'housemaid', 'management', ..., 'self-employed', 'services', 'student', 'technician', 'unemployed']
Length: 11
Categories (11, object): ['admin.', 'blue-collar', 'entrepreneur', 'housemaid', ..., 'services', 'student', 'technician', 'unemployed']

📚 Valores únicos en 'marital':
['divorced', 'married', 'single']
Categories (3, object): ['divorced', 'married', 'single']

📚 Valores únicos en 'education':
['basic education', 'high school', 'illiterate', 'professional training', 'university degree']
Categories (5, object): ['basic education', 'high school', 'illiterate', 'professional training', 'university degree']


In [20]:
# ✅ Ruta de guardado y nombre del nuevo archivo
nombre_archivo_limpio = "data_set_complete.xlsx"

# ✅ Guardar DataFrame limpio en nuevo Excel
df.to_excel(nombre_archivo_limpio, index=False)

print(f"✅ Archivo guardado como: {nombre_archivo_limpio}")

✅ Archivo guardado como: data_set_complete.xlsx
