## DA Módulo 3: Ejercicio de evaluación final

# Customer Flight Analysis.csv
Este archivo contiene información sobre la actividad de vuelo de los clientes, incluyendo el número de
vuelos reservados, la distancia volada, puntos acumulados y redimidos, y costos asociados a los puntos
redimidos
- Loyalty Number: Este atributo representa un identificador único para cada cliente dentro del
programa de lealtad de la aerolínea. Cada número de lealtad corresponde a un cliente específico.
- Year: Indica el año en el cual se registraron las actividades de vuelo para el cliente.
- Month: Representa el mes del año (de 1 a 12) en el cual ocurrieron las actividades de vuelo.
- Flights Booked: Número total de vuelos reservados por el cliente en ese mes específico.
- Flights with Companions: Número de vuelos reservados en los cuales el cliente viajó con
acompañantes.
- Total Flights: El número total de vuelos que el cliente ha realizado, que puede incluir vuelos
reservados en meses anteriores.
- Distance: La distancia total (presumiblemente en millas o kilómetros) que el cliente ha volado
durante el mes.
- Points Accumulated: Puntos acumulados por el cliente en el programa de lealtad durante el mes,
con base en la distancia volada u otros factores.
- Points Redeemed: Puntos que el cliente ha redimido en el mes, posiblemente para obtener
beneficios como vuelos gratis, mejoras, etc.
- Dollar Cost Points Redeemed: El valor en dólares de los puntos que el cliente ha redimido durante
el mes.
# Customer Loyalty History.csv
Este archivo proporciona un perfil detallado de los clientes, incluyendo su ubicación, nivel educativo,
ingresos, estado civil, y detalles sobre su membresía en el programa de lealtad (como el tipo de tarjeta,
valor de vida del cliente, y fechas de inscripción y cancelación).
- Loyalty Number: Identificador único del cliente dentro del programa de lealtad. Este número permite
correlacionar la información de este archivo con el archivo de actividad de vuelos.
- Country: País de residencia del cliente.
- Province: Provincia o estado de residencia del cliente (aplicable a países con divisiones provinciales
o estatales, como Canadá).
- City: Ciudad de residencia del cliente.
- Postal Code: Código postal del cliente.
- Gender: Género del cliente (ej. Male para masculino y Female para femenino).
- Education: Nivel educativo alcanzado por el cliente (ej. Bachelor para licenciatura, College para
estudios universitarios o técnicos, etc.).
- Salary: Ingreso anual estimado del cliente.
- Marital Status: Estado civil del cliente (ej. Single para soltero, Married para casado, Divorced para
divorciado, etc.).
- Loyalty Card: Tipo de tarjeta de lealtad que posee el cliente. Esto podría indicar distintos niveles o
categorías dentro del programa de lealtad.
- CLV (Customer Lifetime Value): Valor total estimado que el cliente aporta a la empresa durante
toda la relación que mantiene con ella.
- Enrollment Type: Tipo de inscripción del cliente en el programa de lealtad (ej. Standard).
- Enrollment Year: Año en que el cliente se inscribió en el programa de lealtad.
- Enrollment Month: Mes en que el cliente se inscribió en el programa de lealtad.
- Cancellation Year: Año en que el cliente canceló su membresía en el programa de lealtad, si aplica.
- Cancellation Month: Mes en que el cliente canceló su membresía en el programa de lealtad, si
aplica.

# Fase 1: Exploración y Limpieza
1. Exploración Inicial:

Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.
Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.
Une los dos conjuntos de datos de la forma más eficiente.

2. Limpieza de Datos:

Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos estén completos.
Verifica la consistencia y corrección de los datos para asegurarte de que los datos se presenten de forma coherente.
Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar tipos de
datos) para garantizar la adecuación de los datos para el análisis estadístico

In [33]:
import pandas as pd
import numpy as np

#Configuración de la visualización del DataFrame
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [8]:
#Exploración de primer CSV:
df1 = pd.read_csv("Customer Flight Activity.csv")
df1.head(10)


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0
5,100301,2017,1,0,0,0,0,0.0,0,0
6,100364,2017,1,0,0,0,0,0.0,0,0
7,100380,2017,1,0,0,0,0,0.0,0,0
8,100428,2017,1,6,0,6,606,60.0,0,0
9,100504,2017,1,0,0,0,0,0.0,0,0


In [9]:
df1.info()
print(f"En este DataFrame hay: {df1.shape[0]} filas y {df1.shape[1]} columnas.")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB
En este DataFrame hay: 405624 filas y 10 columnas.


In [10]:
print(f"Los principales datos estadísticos de las columnas numéricas son:\n")
df1.describe()

Los principales datos estadísticos de las columnas numéricas son:



Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
count,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0
mean,550037.873084,2017.5,6.5,4.115052,1.031805,5.146858,1208.880059,123.692721,30.696872,2.484503
std,258935.286969,0.500001,3.452057,5.225518,2.076869,6.521227,1433.15532,146.599831,125.486049,10.150038
min,100018.0,2017.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,326961.0,2017.0,3.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,550834.0,2017.5,6.5,1.0,0.0,1.0,488.0,50.0,0.0,0.0
75%,772194.0,2018.0,9.25,8.0,1.0,10.0,2336.0,239.0,0.0,0.0
max,999986.0,2018.0,12.0,21.0,11.0,32.0,6293.0,676.5,876.0,71.0


In [11]:
#Exploración de segundo CSV
df2 = pd.read_csv("Customer Loyalty History.csv")
df2.head(10)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,
5,193662,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,51124.0,Married,Star,3844.57,Standard,2012,5,,
6,927943,Canada,Ontario,Toronto,P5S 6R4,Female,College,,Single,Star,3857.95,Standard,2014,6,,
7,188893,Canada,Ontario,Trenton,K8V 4B2,Male,Bachelor,100159.0,Married,Star,3861.49,Standard,2016,12,,
8,852392,Canada,Quebec,Montreal,H2Y 2W2,Female,Bachelor,100159.0,Married,Star,3861.49,Standard,2015,5,,
9,866307,Canada,Ontario,Toronto,M8Y 4K8,Male,Bachelor,100159.0,Married,Star,3861.49,Standard,2016,10,,


In [12]:
df2.info()
print(f"En este DataFrame hay: {df2.shape[0]} filas y {df2.shape[1]} columnas.")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [13]:
print(f"Los principales datos estadísticos de las columnas numéricas son:\n")
df2.describe()

Los principales datos estadísticos de las columnas numéricas son:



Unnamed: 0,Loyalty Number,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
count,16737.0,12499.0,16737.0,16737.0,16737.0,2067.0,2067.0
mean,549735.880445,79245.609409,7988.896536,2015.253211,6.669116,2016.503145,6.962748
std,258912.132453,35008.297285,6860.98228,1.979111,3.398958,1.380743,3.455297
min,100018.0,-58486.0,1898.01,2012.0,1.0,2013.0,1.0
25%,326603.0,59246.5,3980.84,2014.0,4.0,2016.0,4.0
50%,550434.0,73455.0,5780.18,2015.0,7.0,2017.0,7.0
75%,772019.0,88517.5,8940.58,2017.0,10.0,2018.0,10.0
max,999986.0,407228.0,83325.38,2018.0,12.0,2018.0,12.0


In [14]:
#Revisión de nulos y duplicados de primer CSV:
print(f"Los valores nulos por cada columna en el primer DataFrame son:\n{df1.isnull().sum()}")
print(f"Hay {df1.duplicated().sum()} filas duplicadas en el primer DataFrame")

Los valores nulos por cada columna en el primer DataFrame son:
Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64
Hay 1864 filas duplicadas en el primer DataFrame


In [15]:
#Revisión de nulos y duplicados del segundo CSV:
print(f"Los valores nulos por cada columna en el segundo DataFrame son:\n{df2.isnull().sum()}")
print(f"Hay {df2.duplicated().sum()} filas duplicadas en el segundo DataFrame")

Los valores nulos por cada columna en el segundo DataFrame son:
Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64
Hay 0 filas duplicadas en el segundo DataFrame


In [16]:
# Pasamos a unir ambas tablas antes de proceder con la limpieza y tratamiento de los datos.
# Uniremos ambas tablas a través de la PK Loyalty Number, que es común en ambas tablas y así nos aseguramos de que tenemos la totalidad de los clientes y mantenemos la correspondencia de los datos.
df_unificado = pd.merge(df1, df2, on='Loyalty Number', how='inner')

In [17]:
df_unificado.head(6)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100102,2017,1,10,4,14,2030,203.0,0,0,Canada,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3,,
2,100140,2017,1,6,0,6,1200,120.0,0,0,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7,,
3,100214,2017,1,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8,,
4,100272,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1,,
5,100301,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1J 8T7,Male,Bachelor,70323.0,Divorced,Nova,48356.96,Standard,2013,9,,


In [18]:
print(f"En este DataFrame hay: {df_unificado.shape[0]} filas y {df_unificado.shape[1]} columnas.")

En este DataFrame hay: 405624 filas y 25 columnas.


In [19]:
# Una vez tenemos la tabla unificada, procedemos a revisar los nulos y los tipos de datos de cada columna:
print(f"Los valores nulos por cada columna en el DataFrame unificado son:\n{df_unificado.isnull().sum()}")
print(f"Los tipos de datos de cada columna en el DataFrame unificado son:\n{df_unificado.dtypes}")

Los valores nulos por cada columna en el DataFrame unificado son:
Loyalty Number                      0
Year                                0
Month                               0
Flights Booked                      0
Flights with Companions             0
Total Flights                       0
Distance                            0
Points Accumulated                  0
Points Redeemed                     0
Dollar Cost Points Redeemed         0
Country                             0
Province                            0
City                                0
Postal Code                         0
Gender                              0
Education                           0
Salary                         102672
Marital Status                      0
Loyalty Card                        0
CLV                                 0
Enrollment Type                     0
Enrollment Year                     0
Enrollment Month                    0
Cancellation Year              355560
Cancellation Month    

In [20]:
# Tras la revisión anterior procederemos a imputar los nulos de las columna SALARY. Para ello revisamos la media y la mediana de la columna y veremos la diferencia entre ambas.

media_salario = df_unificado['Salary'].mean().round(2)
mediana_salario = df_unificado['Salary'].median()

print(f"La media del salario es: {media_salario}")
print(f"La mediana del salario es: {mediana_salario}")


La media del salario es: 79268.83
La mediana del salario es: 73479.0


In [21]:
# Imputamos los nulos de la columna Salary con la media, ya que la media y la mediana son muy similares y no hay valores atípicos que distorsionen la media.
df_unificado['Salary'].fillna(df_unificado['Salary'].mean(), inplace=True)

In [22]:
df_unificado['Salary'].round(2)

0          92552.00
1          79268.83
2          79268.83
3          63253.00
4          91163.00
            ...    
405619     79268.83
405620    217943.00
405621     47670.00
405622     79268.83
405623     46594.00
Name: Salary, Length: 405624, dtype: float64

In [23]:
# Respecto a las columnas CANCELLATION YEAR y CANCELLATION MONTH, las cuales tienen un porcentaje muy alto de nulos, las eliminamos ya que no aportan información relevante al análisis.
df_unificado.drop(['Cancellation Year', 'Cancellation Month'], axis=1, inplace=True)

In [24]:
df_unificado.head(6)


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8
1,100102,2017,1,10,4,14,2030,203.0,0,0,Canada,Ontario,Toronto,M1R 4K3,Male,College,79268.825953,Single,Nova,2887.74,Standard,2013,3
2,100140,2017,1,6,0,6,1200,120.0,0,0,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,College,79268.825953,Divorced,Nova,2838.07,Standard,2016,7
3,100214,2017,1,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8
4,100272,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1
5,100301,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1J 8T7,Male,Bachelor,70323.0,Divorced,Nova,48356.96,Standard,2013,9


In [25]:
#Revisamos las filas duplicadas:

print(f"Hay {df_unificado.duplicated().sum()} filas duplicadas en el DataFrame unificado")

Hay 1864 filas duplicadas en el DataFrame unificado


In [None]:
# Eliminamos las filas duplicadas ya que no aportan información relevante al análisis.
df_unificado = df_unificado.drop_duplicates()
print(f"Hay {df_unificado.duplicated().sum()} filas duplicadas en el DataFrame unificado")

Hay 0 filas duplicadas en el DataFrame unificado


In [27]:
#Guardamos el dataframe limpio en un csv
df_unificado.to_csv("df_unificado_limpio.csv")