### Fase 1: Limpieza
2. Limpieza de Datos:
    - Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos estén completos.
    - Verifica la consistencia y corrección de los datos para asegurarte de que los datos se
presenten de forma coherente.
    - Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar tipos de datos) para garantizar la adecuación de los datos para el análisis estadístico.


In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [None]:
# Carga de Datos
df_limpio = pd.read_csv("Files/datos_unificados.csv")

df_limpio.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100102,2017,1,10,4,14,2030,203.0,0,0,Canada,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3,,
2,100140,2017,1,6,0,6,1200,120.0,0,0,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7,,
3,100214,2017,1,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8,,
4,100272,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1,,


In [None]:
# Muestra Aleatoria
df_limpio.sample()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
309380,457695,2018,7,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V1E 4R6,Female,Bachelor,51716.0,Married,Nova,7349.33,Standard,2018,11,,


In [None]:
# Limpieza de los nombres de las columnas:
df_limpio.columns = df_limpio.columns.str.strip().str.lower().str.replace(' ', '_')

print("\n--- Nombres de columnas limpiados: ---")
print(df_limpio.columns)




--- Nombres de columnas limpiados: ---
Index(['loyalty_number', 'year', 'month', 'flights_booked',
       'flights_with_companions', 'total_flights', 'distance',
       'points_accumulated', 'points_redeemed', 'dollar_cost_points_redeemed',
       'country', 'province', 'city', 'postal_code', 'gender', 'education',
       'salary', 'marital_status', 'loyalty_card', 'clv', 'enrollment_type',
       'enrollment_year', 'enrollment_month', 'cancellation_year',
       'cancellation_month'],
      dtype='object')


In [5]:
# Verificamos si hay filas duplicadas.
duplicate_rows = df_limpio.duplicated().sum()
print(f"\nNúmero de filas duplicadas encontradas: {duplicate_rows}")



Número de filas duplicadas encontradas: 0


In [6]:
# Como había comentado, "Country" no aportaba mnada, por lo que la voy a eliminar.
df_limpio.drop("country", axis = 1, inplace = True)
df_limpio.head(1)

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,


Nulos

In [None]:
# Verificamos nuevamente nulos y su %
def null_report(df_final):
    nulls = df_final.isnull().sum()
    perc = (df_final.isnull().mean() * 100).round(2)
    return pd.DataFrame({'nulos': nulls, 'porcentaje': perc}).sort_values(by='nulos', ascending=False)

null_report(df_limpio)


Unnamed: 0,nulos,porcentaje
cancellation_month,354110,87.7
cancellation_year,354110,87.7
salary,102260,25.33
year,0,0.0
enrollment_month,0,0.0
enrollment_year,0,0.0
enrollment_type,0,0.0
clv,0,0.0
loyalty_card,0,0.0
marital_status,0,0.0


In [8]:
nulos = df_limpio.groupby("salary")["enrollment_type"].count()
nulos

salary
-58486.0     24
-57297.0     24
-49830.0     24
-49001.0     24
-47310.0     24
             ..
 362833.0    24
 363189.0    24
 381124.0    24
 397919.0    24
 407228.0    24
Name: enrollment_type, Length: 5890, dtype: int64

In [9]:
df_limpio.columns

Index(['loyalty_number', 'year', 'month', 'flights_booked',
       'flights_with_companions', 'total_flights', 'distance',
       'points_accumulated', 'points_redeemed', 'dollar_cost_points_redeemed',
       'province', 'city', 'postal_code', 'gender', 'education', 'salary',
       'marital_status', 'loyalty_card', 'clv', 'enrollment_type',
       'enrollment_year', 'enrollment_month', 'cancellation_year',
       'cancellation_month'],
      dtype='object')

In [10]:
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 403760 entries, 0 to 403759
Data columns (total 24 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   loyalty_number               403760 non-null  int64  
 1   year                         403760 non-null  int64  
 2   month                        403760 non-null  int64  
 3   flights_booked               403760 non-null  int64  
 4   flights_with_companions      403760 non-null  int64  
 5   total_flights                403760 non-null  int64  
 6   distance                     403760 non-null  int64  
 7   points_accumulated           403760 non-null  float64
 8   points_redeemed              403760 non-null  int64  
 9   dollar_cost_points_redeemed  403760 non-null  int64  
 10  province                     403760 non-null  object 
 11  city                         403760 non-null  object 
 12  postal_code                  403760 non-null  object 
 13 

In [11]:
# Lista de columnas categóricas para convertir
categorical_cols = [
    'province', 'city', 'gender', 'education', 'marital_status',
    'loyalty_card', 'enrollment_type'
]

# Convertir las columnas a tipo 'category'
for col in categorical_cols:
    df_limpio[col] = df_limpio[col].astype('object')

# Convertir la columna de año y mes de cancelación a un tipo de entero que acepta nulos
# (nota: 'Int64' con I mayúscula)
df_limpio['cancellation_year'] = df_limpio['cancellation_year'].astype('Int64')
df_limpio['cancellation_month'] = df_limpio['cancellation_month'].astype('Int64')

# Puedes ver el resultado con el siguiente comando
print(df_limpio.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 403760 entries, 0 to 403759
Data columns (total 24 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   loyalty_number               403760 non-null  int64  
 1   year                         403760 non-null  int64  
 2   month                        403760 non-null  int64  
 3   flights_booked               403760 non-null  int64  
 4   flights_with_companions      403760 non-null  int64  
 5   total_flights                403760 non-null  int64  
 6   distance                     403760 non-null  int64  
 7   points_accumulated           403760 non-null  float64
 8   points_redeemed              403760 non-null  int64  
 9   dollar_cost_points_redeemed  403760 non-null  int64  
 10  province                     403760 non-null  object 
 11  city                         403760 non-null  object 
 12  postal_code                  403760 non-null  object 
 13 

Exploración de Nulos en la columna Salary

In [12]:
df_limpio.groupby('education')['salary'].mean().isna()

education
Bachelor                False
College                  True
Doctor                  False
High School or Below    False
Master                  False
Name: salary, dtype: bool

In [13]:
round(df_limpio.groupby('education')['salary'].mean().isna()*100,3)

education
Bachelor                  0
College                 100
Doctor                    0
High School or Below      0
Master                    0
Name: salary, dtype: int64

In [14]:
df_limpio.groupby('education')['salary'].mean()

education
Bachelor                 72473.471154
College                           NaN
Doctor                  178403.675202
High School or Below     61019.926143
Master                  103734.523724
Name: salary, dtype: float64

In [15]:
# Imputar los valores nulos en 'Salary' con 0, asumiendo que significa 'sin salario' porque están en la Universidad.
"df_final['salary'].fillna(0, inplace=True)\n","df_final" #Se reasigna para evitar el FutureWarning de pandas sobre la asignación en una copia.
df_limpio.head()

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100102,2017,1,10,4,14,2030,203.0,0,0,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3,,
2,100140,2017,1,6,0,6,1200,120.0,0,0,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7,,
3,100214,2017,1,0,0,0,0,0.0,0,0,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8,,
4,100272,2017,1,0,0,0,0,0.0,0,0,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1,,


Las columnas de 'Cancellation' tienen valores nulos, pero esto es intencional y significa que el cliente no ha cancelado. No los imputamos.

In [16]:
# Obtener el salario mínimo y máximo de la columna
salario_min = df_limpio['salary'].min() # Hay valores negativos
salario_max = df_limpio['salary'].max()

print(f'Este es el salario mínimo:{salario_min}')
print(f'Este es el salario mínimo:{salario_max}')

Este es el salario mínimo:-58486.0
Este es el salario mínimo:407228.0


Diagnóstico y Análisis de Salarios Negativos

In [None]:
# Visualización Previa a la Imputación. Contar cuántos salarios son menores que 0
salarios_negativos_count = (df_limpio['salary'] < 0).sum()

# Imprimir el resultado
print(f"Cantidad de salarios negativos: {salarios_negativos_count}")

Cantidad de salarios negativos: 480


In [18]:
# Contar cuántos salarios son mayores que 0
salarios_positivos_count = (df_limpio['salary'] > 0).sum()

# Imprimir el resultado
print(f"Cantidad de salarios positivos: {salarios_positivos_count}")

Cantidad de salarios positivos: 301020


In [19]:
df_salarios_negativos = df_limpio[df_limpio['salary'] < 0]

In [None]:
# Explorar la distribución de estas filas por 'Year'
print("\n--- Distribución de salarios negativos por Año ---")
year_distribution = df_salarios_negativos['year'].value_counts()
print(year_distribution)


--- Distribución de salarios negativos por Año ---
year
2017    240
2018    240
Name: count, dtype: int64


In [None]:
# Explorar la distribución de estas filas por 'Month'
print("\n--- Distribución de salarios negativos por Mes ---")
month_distribution = df_salarios_negativos['month'].value_counts()
print(month_distribution)


--- Distribución de salarios negativos por Mes ---
month
1     40
2     40
3     40
11    40
4     40
5     40
10    40
12    40
6     40
8     40
7     40
9     40
Name: count, dtype: int64


In [None]:
# Explorar la distribución de estas filas por 'City'
print("\n--- Distribución de salarios negativos por Ciudad ---")
city_distribution = df_salarios_negativos['city'].value_counts()
print(city_distribution.head(10)) # Mostramos solo las 10 principales ciudades


--- Distribución de salarios negativos por Ciudad ---
city
Toronto           72
St. John's        48
Vancouver         48
Quebec City       48
Montreal          48
Sudbury           24
Hull              24
Dawson Creek      24
Victoria          24
West Vancouver    24
Name: count, dtype: int64


In [None]:
# Explorar la distribución de estas filas por 'Enrollment Type'
print("\n--- Distribución de salarios negativos por Tipo de Inscripción ---")
enrollment_type_distribution = df_salarios_negativos['enrollment_type'].value_counts()
print(enrollment_type_distribution)


--- Distribución de salarios negativos por Tipo de Inscripción ---
enrollment_type
2018 Promotion    480
Name: count, dtype: int64


In [None]:
# Explorar si están relacionados con algún tipo de tarjeta de fidelidad
print("\n--- Distribución de salarios negativos por Tarjeta de Fidelidad ---")
loyalty_card_distribution = df_salarios_negativos['loyalty_card'].value_counts()
print(loyalty_card_distribution)


--- Distribución de salarios negativos por Tarjeta de Fidelidad ---
loyalty_card
Nova      216
Star      192
Aurora     72
Name: count, dtype: int64


Los salarios negativos son mucho menores que los positivos, por lo que estrategia a seguir será la de aplicar una imputación con la media. También corresponden a la Promoción 2018

In [None]:
# Explorar la distribución de estas filas por 'Education'
print("--- Distribución de salarios negativos por Nivel Educativo ---")
education_distribution = df_salarios_negativos['education'].value_counts()
print(education_distribution)

--- Distribución de salarios negativos por Nivel Educativo ---
education
Bachelor                456
High School or Below     24
Name: count, dtype: int64


In [None]:
# Calcular la mediana de los salarios para cada nivel educativo
# Es crucial excluir los salarios de 0 y los negativos de este cálculo para no sesgar la mediana
medianas_por_educacion = df_limpio[df_limpio['salary'] > 0].groupby('education')['salary'].median()


In [27]:
# Definir una función para imputar salarios negativos con la mediana del grupo
def imputar_salarios_negativos_por_educacion(fila):
    # Si el salario es menor que 0
    if fila['salary'] < 0:
        educacion = fila['education']
        # Buscar la mediana del grupo de educación. Si no existe, usamos la mediana global
        # como valor de respaldo para evitar errores.
        return medianas_por_educacion.get(educacion, df_limpio[df_limpio['salary'] > 0]['salary'].median())
    else:
        # Si el salario no es negativo, lo dejamos como está
        return fila['salary']

In [28]:
print("--- Mediana de Salario por Nivel Educativo ---")
print(medianas_por_educacion)
print("\n")

--- Mediana de Salario por Nivel Educativo ---
education
Bachelor                 72029.0
Doctor                  180440.0
High School or Below     61902.0
Master                  105487.0
Name: salary, dtype: float64




In [29]:
# Aplicar la función a cada fila del DataFrame para corregir los salarios negativos
df_limpio['salary'] = df_limpio.apply(imputar_salarios_negativos_por_educacion, axis=1)

In [30]:
# Verificar el resultado final
salario_min_final = df_limpio['salary'].min()
salario_max_final = df_limpio['salary'].max()
salarios_negativos_count_final = (df_limpio['salary'] < 0).sum()

print("--- Verificdción después de ld corrección ---")
print(f"Número de salarios negativos restantes: {salarios_negativos_count_final}")
print(f"Salario mínimo corregido: {salario_min_final}")
print(f"Salario máximo corregido: {salario_max_final}")

--- Verificdción después de ld corrección ---
Número de salarios negativos restantes: 0
Salario mínimo corregido: 15609.0
Salario máximo corregido: 407228.0


In [31]:
df_limpio.isnull().sum()

loyalty_number                      0
year                                0
month                               0
flights_booked                      0
flights_with_companions             0
total_flights                       0
distance                            0
points_accumulated                  0
points_redeemed                     0
dollar_cost_points_redeemed         0
province                            0
city                                0
postal_code                         0
gender                              0
education                           0
salary                         102260
marital_status                      0
loyalty_card                        0
clv                                 0
enrollment_type                     0
enrollment_year                     0
enrollment_month                    0
cancellation_year              354110
cancellation_month             354110
dtype: int64

In [32]:
# Para identificar si el cliente está activo
df_limpio['Is Active'] = df_limpio['cancellation_year'].isnull()
# Cuántos clientes están activos vs. cancelados
active_status = df_limpio['Is Active'].value_counts()
print(active_status)

Is Active
True     354110
False     49650
Name: count, dtype: int64


In [33]:
df_limpio.sample(10)

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month,Is Active
34646,157674,2017,3,9,0,9,729,72.0,0,0,Quebec,Tremblant,H5Y 2S9,Female,Bachelor,84580.0,Single,Aurora,8038.95,Standard,2013,2,,,True
114009,801953,2017,7,0,0,0,0,0.0,0,0,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,85081.0,Married,Aurora,6395.35,Standard,2018,12,,,True
128449,676669,2017,8,15,1,16,4384,438.0,0,0,Ontario,Toronto,P1J 8T7,Male,Bachelor,75978.0,Divorced,Aurora,21504.34,Standard,2013,3,,,True
8802,572927,2017,1,0,0,0,0,0.0,0,0,New Brunswick,Fredericton,E3B 2H2,Male,Bachelor,75537.0,Divorced,Star,9156.32,Standard,2017,9,,,True
123109,393206,2017,8,18,3,21,3717,371.0,0,0,British Columbia,Vancouver,V6E 3D9,Male,Bachelor,71935.0,Married,Star,8019.86,Standard,2014,7,,,True
103446,241069,2017,7,0,0,0,0,0.0,0,0,Ontario,Toronto,M2M 7K8,Female,College,,Single,Nova,5337.35,Standard,2015,8,2016.0,8.0,False
231422,784380,2018,2,0,0,0,0,0.0,0,0,Ontario,Toronto,P1J 8T7,Male,College,,Married,Star,2396.22,Standard,2018,5,,,True
282936,839967,2018,5,0,0,0,0,0.0,0,0,Alberta,Peace River,T9O 2W2,Female,Bachelor,87286.0,Married,Aurora,6242.6,Standard,2013,9,,,True
251304,950947,2018,3,0,0,0,0,0.0,0,0,British Columbia,West Vancouver,V6V 8Z3,Female,Doctor,121241.0,Married,Nova,6838.77,Standard,2014,12,2016.0,5.0,False
113023,749362,2017,7,0,0,0,0,0.0,0,0,Ontario,Toronto,P1J 8T7,Male,Bachelor,53530.0,Single,Star,4456.02,Standard,2015,1,2015.0,9.0,False


In [None]:
# Buenas prácticas
df_limpio = df_limpio.copy()
df_limpio.to_csv("Files/datos_limpios.csv", index=False)

... Pasamos a limpieza y visualización en eval-mod-03-parte-3-visualizacion