# Limpieza y transformaci√≥n de datos

En este notebook aplicamos las transformaciones necesarias detectadas durante el An√°lisis Exploratorio de Datos (EDA).

El objetivo es obtener un dataset limpio, coherente y listo para el an√°lisis estad√≠stico final.

---

## Resumen de decisiones tomadas tras el EDA

A partir del an√°lisis previo, se han definido las siguientes acciones de limpieza:


### 1Ô∏è‚É£ Normalizaci√≥n de nombres de columnas

- Aplicar `strip()` y convertir los nombres a formato `snake_case`.
- Esto mejora la legibilidad y facilita el trabajo posterior con el dataset.
  

### 2Ô∏è‚É£ Variables categ√≥ricas

- No se han detectado inconsistencias en las categor√≠as.
- Se aplicar√° √∫nicamente `strip()` por seguridad para eliminar posibles espacios invisibles.
- No se modificar√°n may√∫sculas/min√∫sculas ni se alterar√°n las categor√≠as originales.
  

### 3Ô∏è‚É£ Variable `Salary`

- Existen valores negativos (0,12%), que son inconsistentes.
- Existen valores nulos concentrados en el grupo `Education = College`.

Decisi√≥n de tratamiento:
- Los valores negativos se tratar√°n como inv√°lidos.
- Tanto los negativos como los nulos se imputar√°n usando la **mediana del grupo educativo correspondiente**.
- Para el grupo `College`, que no tiene salarios informados, se utilizar√° como referencia la mediana del grupo educativo m√°s cercano.

El objetivo es no dejar valores nulos en `Salary` y aplicar una imputaci√≥n coherente y robusta frente a outliers.


### 4Ô∏è‚É£ Cancelaci√≥n

- Se crea una variable booleana `cancelled` (True/False) a partir de `Cancellation Year`:
  - `True` cuando existe a√±o de cancelaci√≥n.
  - `False` cuando no existe (valor faltante).

- Las columnas `cancellation_year` y `cancellation_month` se mantienen como valores faltantes (`<NA>`) cuando el cliente no ha cancelado.
  Estos valores no representan datos perdidos, sino un caso ‚Äúno aplica‚Äù.

- Se convierten ambas columnas a tipo entero nullable (`Int64`) para evitar decimales innecesarios y mantener consistencia en el tipo de dato.

De esta forma, mantenemos la coherencia sem√°ntica de las variables originales y facilitamos su uso posterior en an√°lisis estad√≠stico o modelos predictivos.


### 5Ô∏è‚É£ Variables constantes

- `Country` tiene un √∫nico valor ("Canada").
- Se eliminar√° del dataset por no aportar informaci√≥n anal√≠tica.



In [3]:
# =========================================
# 1) Imports + carga del dataset unido (sucio)
# =========================================

"""
Cargamos el dataset unido (sin limpiar) que generamos en el notebook de merge.
Configuramos pandas para ver mejor resultados durante el proceso.
"""

import numpy as np
import pandas as pd
from IPython.display import display

pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 50)

ruta_entrada = "../data/processed/dataset_unido.csv"
df = pd.read_csv(ruta_entrada)

print("‚úÖ Dataset cargado")
print("Filas:", df.shape[0], "| Columnas:", df.shape[1])
display(df.head(3))


‚úÖ Dataset cargado
Filas: 401688 | Columnas: 25


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100018,2017,2,2,2,4,1320,132.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
2,100018,2017,3,14,3,17,2533,253.0,438,36,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,


In [4]:
# =========================================
# 2) Funci√≥n de limpieza + guardado
# =========================================

def limpiar_dataset(df, ruta_salida="../data/processed/cleaned_customer_loyalty_flights.csv"):
    """
    Limpia y transforma el dataset unido siguiendo las decisiones tomadas tras el EDA.

    Acciones principales:
    1) Normaliza nombres de columnas a snake_case.
    2) Aplica strip() a variables categ√≥ricas (sin cambiar may√∫sculas/min√∫sculas).
    3) Crea la variable booleana 'cancelled' y ajusta tipos de cancelaci√≥n.
    4) Limpia Salary: negativos -> imputaci√≥n + nulos -> imputaci√≥n por mediana de Education.
       - Caso especial: Education='College' no tiene salarios -> fallback con mediana de Bachelor.
    5) Elimina 'Country' si es constante (un √∫nico valor).
    6) Guarda el dataset limpio en CSV.

    Nota:
    - No se eliminan outliers autom√°ticamente.
    - Cancellation Year/Month se mantienen como NaN cuando no aplica.
    """

    df_limpio = df.copy()

    print("üßπ INICIO LIMPIEZA")
    print("-" * 60)
    print("Filas iniciales:", df_limpio.shape[0], "| Columnas iniciales:", df_limpio.shape[1])

    # -------------------------------------------------
    # 1) Normalizar nombres de columnas (snake_case)
    # -------------------------------------------------
    print("\n1) Normalizando nombres de columnas (snake_case)...")

    columnas_originales = df_limpio.columns.tolist()

    def a_snake_case(texto):
        """
        Convierte un texto a snake_case de forma simple:
        - strip
        - lower
        - reemplaza espacios por _
        """
        texto = texto.strip().lower()
        texto = texto.replace(" ", "_")
        return texto

    df_limpio.columns = [a_snake_case(col) for col in df_limpio.columns]

    print("‚úÖ Columnas normalizadas. Ejemplos:")
    print("Antes:", columnas_originales[:5])
    print("Despu√©s:", df_limpio.columns.tolist()[:5])

    # -------------------------------------------------
    # 2) Strip en categ√≥ricas (por seguridad)
    # -------------------------------------------------
    print("\n2) Aplicando strip() en columnas categ√≥ricas...")

    columnas_categoricas = df_limpio.select_dtypes(include="object").columns.tolist()

    # Aplicamos strip solo a texto
    for col in columnas_categoricas:
        df_limpio[col] = df_limpio[col].astype(str).str.strip()

        # Al convertir a str, los NaN pasan a "nan".
        # En el EDA hemos comprobado que en el dataset las categ√≥ricas no ten√≠an nulos, pero por seguridad:
        df_limpio[col] = df_limpio[col].replace("nan", np.nan)

    print("‚úÖ Strip aplicado a:", len(columnas_categoricas), "columnas categ√≥ricas")

    # -------------------------------------------------
    # 3) Cancelaci√≥n: crear cancelled + ajustar tipos
    # -------------------------------------------------
    print("\n3) Creando variable 'cancelled' y ajustando tipos de cancelaci√≥n...")

    # Creamos booleano a partir de cancellation_year (NaN => no cancelado)
    df_limpio["cancelled"] = df_limpio["cancellation_year"].notna()

    # Convertimos year/month a Int64 nullable (mantiene NaN)
    df_limpio["cancellation_year"] = df_limpio["cancellation_year"].astype("Int64")
    df_limpio["cancellation_month"] = df_limpio["cancellation_month"].astype("Int64")

    print("‚úÖ 'cancelled' creada. Distribuci√≥n:")
    display(df_limpio["cancelled"].value_counts().to_frame(name="frecuencia"))

    # -------------------------------------------------
    # 4) Salary: negativos y nulos
    # -------------------------------------------------
    print("\n4) Limpieza e imputaci√≥n de 'salary'...")

    # a) Contar negativos antes
    negativos_salary = (df_limpio["salary"] < 0).sum()
    nulos_salary = df_limpio["salary"].isna().sum()
    print("Salarios negativos detectados:", negativos_salary)
    print("Nulos en salary detectados:", nulos_salary)

    # b) Convertir negativos a NaN (tratarlos como inv√°lidos)
    df_limpio.loc[df_limpio["salary"] < 0, "salary"] = np.nan

    # c) Medianas por Education (solo para grupos con datos)
    mediana_por_edu = df_limpio.groupby("education")["salary"].median()

    # d) Fallback para College (no tiene salarios): usar mediana de Bachelor si existe
    mediana_bachelor = mediana_por_edu.get("Bachelor", np.nan)

    if pd.isna(mediana_bachelor):
        # Si por alg√∫n motivo no existe Bachelor (muy raro), usamos mediana global
        mediana_bachelor = df_limpio["salary"].median()

    print("Mediana Salary (Bachelor) usada como fallback para College:", mediana_bachelor)

    # e) Imputaci√≥n por Education:
    # - Si education != College: rellenar con mediana de su grupo
    # - Si education == College: rellenar con mediana_bachelor
    # Nota: hacemos esto en pasos simples para que sea f√°cil de entender.

    # Primero imputamos donde hay mediana definida por grupo
    df_limpio["salary"] = df_limpio["salary"].fillna(df_limpio["education"].map(mediana_por_edu))

    # Luego, lo que siga siendo NaN (principalmente College) lo rellenamos con fallback Bachelor
    df_limpio.loc[df_limpio["salary"].isna(), "salary"] = mediana_bachelor

    # Comprobaci√≥n final salary
    print("‚úÖ Salary tras imputaci√≥n:")
    print("Nulos en salary:", df_limpio["salary"].isna().sum())
    print("M√≠nimo salary:", df_limpio["salary"].min())
    print("M√°ximo salary:", df_limpio["salary"].max())

    # -------------------------------------------------
    # 5) Eliminar Country si es constante
    # -------------------------------------------------
    print("\n5) Eliminando 'country' si es constante...")

    if "country" in df_limpio.columns:
        n_paises = df_limpio["country"].nunique(dropna=False)
        print("Valores √∫nicos en country:", n_paises)

        if n_paises == 1:
            df_limpio = df_limpio.drop(columns=["country"])
            print("‚úÖ 'country' eliminada (no aporta informaci√≥n).")
        else:
            print("‚ÑπÔ∏è 'country' se mantiene (tiene m√°s de un valor).")

    # -------------------------------------------------
    # 6) Guardar CSV limpio
    # -------------------------------------------------
    print("\n6) Guardando dataset limpio...")
    df_limpio.to_csv(ruta_salida, index=False)

    print("‚úÖ Guardado completado:", ruta_salida)
    print("Filas finales:", df_limpio.shape[0], "| Columnas finales:", df_limpio.shape[1])

    # Resumen final de nulos
    print("\nüìå Resumen final de nulos (top 10):")
    display(df_limpio.isna().sum().sort_values(ascending=False).head(10).to_frame(name="nulos"))

    return df_limpio

In [5]:
#Ejecuci√≥n de la funci√≥n de limpieza

df_limpio = limpiar_dataset(df)
display(df_limpio.head(3))

üßπ INICIO LIMPIEZA
------------------------------------------------------------
Filas iniciales: 401688 | Columnas iniciales: 25

1) Normalizando nombres de columnas (snake_case)...
‚úÖ Columnas normalizadas. Ejemplos:
Antes: ['Loyalty Number', 'Year', 'Month', 'Flights Booked', 'Flights with Companions']
Despu√©s: ['loyalty_number', 'year', 'month', 'flights_booked', 'flights_with_companions']

2) Aplicando strip() en columnas categ√≥ricas...
‚úÖ Strip aplicado a: 9 columnas categ√≥ricas

3) Creando variable 'cancelled' y ajustando tipos de cancelaci√≥n...
‚úÖ 'cancelled' creada. Distribuci√≥n:


Unnamed: 0_level_0,frecuencia
cancelled,Unnamed: 1_level_1
False,352080
True,49608



4) Limpieza e imputaci√≥n de 'salary'...
Salarios negativos detectados: 480
Nulos en salary detectados: 101712
Mediana Salary (Bachelor) usada como fallback para College: 72026.0
‚úÖ Salary tras imputaci√≥n:
Nulos en salary: 0
M√≠nimo salary: 15609.0
M√°ximo salary: 407228.0

5) Eliminando 'country' si es constante...
Valores √∫nicos en country: 1
‚úÖ 'country' eliminada (no aporta informaci√≥n).

6) Guardando dataset limpio...
‚úÖ Guardado completado: ../data/processed/cleaned_customer_loyalty_flights.csv
Filas finales: 401688 | Columnas finales: 25

üìå Resumen final de nulos (top 10):


Unnamed: 0,nulos
cancellation_year,352080
cancellation_month,352080
month,0
year,0
flights_with_companions,0
total_flights,0
distance,0
flights_booked,0
loyalty_number,0
points_redeemed,0


Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month,cancelled
0,100018,2017,1,3,0,3,1521,152.0,0,0,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,,False
1,100018,2017,2,2,2,4,1320,132.0,0,0,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,,False
2,100018,2017,3,14,3,17,2533,253.0,438,36,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,,False
