# Evaluación Módulo 3

### Exploración, limpieza y visualización de los datos de clientes de una aerolínea


## ANÁLISIS EXPLORATORIO DE LOS DATOS: INFORME EDA

Los datos que se proporciona consisten en dos conjuntos de archivos que, en conjunto, describen el comportamiento de los clientes dentro de un programa de lealtad de una aerolínea:

### Customer Flight Activity.csv

Este archivo contiene información sobre la actividad de vuelo de los clientes, incluyendo el número de vuelos reservados, la distancia volada, puntos acumulados y redimidos, y costos asociados a los puntos redimidos. Las columnas que encontramos en el DataFrame del archivo "Customer Flight Activity.csv" son:

- Loyalty Number: Este atributo representa un identificador único para cada cliente dentro del programa de lealtad de la aerolínea. Cada número de lealtad corresponde a un cliente específico.

- Year: Indica el año en el cual se registraron las actividades de vuelo para el cliente.

- Month: Representa el mes del año (de 1 a 12) en el cual ocurrieron las actividades de vuelo.

- Flights Booked: Número total de vuelos reservados por el cliente en ese mes específico.

- Flights with Companions: Número de vuelos reservados en los cuales el cliente viajó con acompañantes.

- Total Flights: El número total de vuelos que el cliente ha realizado, que puede incluir vuelos reservados en meses anteriores.

- Distance: La distancia total (presumiblemente en millas o kilómetros) que el cliente ha volado durante el mes.

- Points Accumulated: Puntos acumulados por el cliente en el programa de lealtad durante el mes, con base en la distancia volada u otros factores.

- Points Redeemed: Puntos que el cliente ha redimido en el mes, posiblemente para obtener beneficios como vuelos gratis, mejoras, etc.

- Dollar Cost Points Redeemed: El valor en dólares de los puntos que el cliente ha redimido durante el mes.

### Customer Loyalty History.csv

Este archivo proporciona un perfil detallado de los clientes, incluyendo su ubicación, nivel educativo, ingresos, estado civil, y detalles sobre su membresía en el programa de lealtad (como el tipo de tarjeta, valor de vida del cliente, y fechas de inscripción y cancelación). Las columnas que encontramos en el DataFrame del archivo "Customer Loyalty History.csv" son:

- Loyalty Number: Identificador único del cliente dentro del programa de lealtad. Este número permite correlacionar la información de este archivo con el archivo de actividad de vuelos.

- Country: País de residencia del cliente.

- Province: Provincia o estado de residencia del cliente (aplicable a países con divisiones provinciales o estatales, como Canadá).

- City: Ciudad de residencia del cliente.

- Postal Code: Código postal del cliente.

- Gender: Género del cliente (ej. Male para masculino y Female para femenino).

- Education: Nivel educativo alcanzado por el cliente (ej. Bachelor para licenciatura, College para estudios universitarios o técnicos, etc.).

- Salary: Ingreso anual estimado del cliente.

- Marital Status: Estado civil del cliente (ej. Single para soltero, Married para casado, Divorced para divorciado, etc.).

- Loyalty Card: Tipo de tarjeta de lealtad que posee el cliente. Esto podría indicar distintos niveles o categorías dentro del programa de lealtad.

- CLV (Customer Lifetime Value): Valor total estimado que el cliente aporta a la empresa durante toda la relación que mantiene con ella.

- Enrollment Type: Tipo de inscripción del cliente en el programa de lealtad (ej. Standard).

- Enrollment Year: Año en que el cliente se inscribió en el programa de lealtad.

- Enrollment Month: Mes en que el cliente se inscribió en el programa de lealtad.

- Cancellation Year: Año en que el cliente canceló su membresía en el programa de lealtad, si aplica.

- Cancellation Month: Mes en que el cliente canceló su membresía en el programa de lealtad, si aplica.

## INFORME DE TRANSFORMACIÓN DE LOS DATOS

Incluye la limpieza de datos, la normalización, la conversión de tipos de datos y la aplicación de reglas específicas. Las transformaciones se han realizado mediante funciones de Python aplicados a los datos extraídos.

In [1]:
# Importo las librerías que necesitaré:

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización de datos en gráficas
# -----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

### Customer Flight Activity.csv

In [2]:
df_vuelos = pd.read_csv("files/Customer Flight Activity.csv", index_col=0)

df_vuelos.head(2)

Unnamed: 0_level_0,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
100018,2017,1,3,0,3,1521,152.0,0,0
100102,2017,1,10,4,14,2030,203.0,0,0


In [3]:
print(f"El número de filas que tenemos es {df_vuelos.shape[0]}, y el número de columnas es {df_vuelos.shape[1]}")
print("Nota: La columna Loyalty Number no se cuenta en .shape porque es el índice, pero también forma parte del DataFrame.")

El número de filas que tenemos es 405624, y el número de columnas es 9
Nota: La columna Loyalty Number no se cuenta en .shape porque es el índice, pero también forma parte del DataFrame.


In [4]:
# Convierto el índice de nuevo en una columna para revisar la columna "Loyalty Number"
df_vuelos = df_vuelos.reset_index()

In [5]:
print(f"El número de filas que tenemos es {df_vuelos.shape[0]}, y el número de columnas es {df_vuelos.shape[1]}")

El número de filas que tenemos es 405624, y el número de columnas es 10


In [6]:
df_vuelos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [7]:
# no parece que haya valores NULOS, pero compruebo:
round(df_vuelos.isna().sum()/df_vuelos.shape[0]*100, 10)

Loyalty Number                 0.0
Year                           0.0
Month                          0.0
Flights Booked                 0.0
Flights with Companions        0.0
Total Flights                  0.0
Distance                       0.0
Points Accumulated             0.0
Points Redeemed                0.0
Dollar Cost Points Redeemed    0.0
dtype: float64

In [8]:
df_vuelos.duplicated().sum()

np.int64(1864)

In [9]:
# tenemos 1864 filas duplicadas, voy a comprobar si es así:
df_vuelos[df_vuelos.duplicated(keep=False)]

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
41,101902,2017,1,0,0,0,0,0.0,0,0
42,101902,2017,1,0,0,0,0,0.0,0,0
226,112142,2017,1,0,0,0,0,0.0,0,0
227,112142,2017,1,0,0,0,0,0.0,0,0
477,126100,2017,1,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
405111,971370,2018,12,0,0,0,0,0.0,0,0
405409,988392,2018,12,0,0,0,0,0.0,0,0
405410,988392,2018,12,0,0,0,0,0.0,0,0
405436,989528,2018,12,0,0,0,0,0.0,0,0


In [10]:
# voy a eliminar filas duplicadas conservando la primera aparición:
df_vuelos = df_vuelos.drop_duplicates(keep='first')

In [11]:
df_vuelos.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [15]:
print(f"El número de filas que tenemos es {df_vuelos.shape[0]}, y el número de columnas es {df_vuelos.shape[1]}")
print("Tenía 405624 filas menos las 1864 filas duplicadas son 403760 filas")

El número de filas que tenemos es 403760, y el número de columnas es 10
Tenía 405624 filas menos las 1864 filas duplicadas son 403760 filas


In [13]:
df_vuelos.duplicated().sum()
# ahora no tenemos filas duplicadas

np.int64(0)

In [16]:
df_vuelos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 403760 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               403760 non-null  int64  
 1   Year                         403760 non-null  int64  
 2   Month                        403760 non-null  int64  
 3   Flights Booked               403760 non-null  int64  
 4   Flights with Companions      403760 non-null  int64  
 5   Total Flights                403760 non-null  int64  
 6   Distance                     403760 non-null  int64  
 7   Points Accumulated           403760 non-null  float64
 8   Points Redeemed              403760 non-null  int64  
 9   Dollar Cost Points Redeemed  403760 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 33.9 MB


In [17]:
df_vuelos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,403760.0,549875.383713,258961.514684,100018.0,326699.0,550598.0,772152.0,999986.0
Year,403760.0,2017.500352,0.5,2017.0,2017.0,2018.0,2018.0,2018.0
Month,403760.0,6.501335,3.451982,1.0,4.0,7.0,10.0,12.0
Flights Booked,403760.0,4.13405,5.230064,0.0,0.0,1.0,8.0,21.0
Flights with Companions,403760.0,1.036569,2.080472,0.0,0.0,0.0,1.0,11.0
Total Flights,403760.0,5.170619,6.526858,0.0,0.0,1.0,10.0,32.0
Distance,403760.0,1214.460979,1434.098521,0.0,0.0,525.0,2342.0,6293.0
Points Accumulated,403760.0,124.263761,146.696179,0.0,0.0,53.0,240.0,676.5
Points Redeemed,403760.0,30.838587,125.758002,0.0,0.0,0.0,0.0,876.0
Dollar Cost Points Redeemed,403760.0,2.495973,10.172033,0.0,0.0,0.0,0.0,71.0


Voy a realizar la exploración y transformación columna por columna.

#### Loyalty Number: Este atributo representa un identificador único para cada cliente dentro del programa de lealtad de la aerolínea. Cada número de lealtad corresponde a un cliente específico.

- Índice 0 
- Datos de tipo integer, valores entre 100018 y 999986
- No encuentro valores nulos ni errores

In [21]:
df_vuelos['Loyalty Number'].unique()

array([100018, 100102, 100140, ..., 999731, 999788, 999891],
      shape=(16737,))

In [20]:
df_vuelos['Loyalty Number'].isnull().sum()

np.int64(0)

In [28]:
df_vuelos['Loyalty Number'].describe()

count    403760.000000
mean     549875.383713
std      258961.514684
min      100018.000000
25%      326699.000000
50%      550598.000000
75%      772152.000000
max      999986.000000
Name: Loyalty Number, dtype: float64

#### Year: Indica el año en el cual se registraron las actividades de vuelo para el cliente.

- Índice 1 
- Datos de tipo integer, valores 2017 y 2018
- No encuentro valores nulos ni errores

In [22]:
df_vuelos['Year'].unique()

array([2017, 2018])

#### Month: Representa el mes del año (de 1 a 12) en el cual ocurrieron las actividades de vuelo.

- Índice 2
- Datos de tipo integer, valores entre 1 y 12.
- No encuentro valores nulos ni errores

In [24]:
df_vuelos['Month'].unique()

array([ 1,  9,  2,  3, 11,  4,  5,  7,  6,  8, 10, 12])

In [25]:
df_vuelos['Month'].isnull().sum()

np.int64(0)

#### Flights Booked: Número total de vuelos reservados por el cliente en ese mes específico.

- Índice 3
- Datos de tipo integer, valores entre 0 y 21.
- No encuentro valores nulos ni errores
- Se observa una media de 4.13 vuelos por cliente y mes

In [26]:
df_vuelos['Flights Booked'].unique()

array([ 3, 10,  6,  0,  8, 11,  9,  4,  7,  5,  2,  1, 12, 13, 14, 16, 15,
       17, 18, 19, 20, 21])

In [32]:
df_vuelos['Flights Booked'].mean()

np.float64(4.134049930651872)

#### Flights with Companions: Número de vuelos reservados en los cuales el cliente viajó con acompañantes.

- Índice 4
- Datos de tipo integer, valores entre 0 y 11.
- No encuentro valores nulos ni errores
- Se observa una media de 1.04 vuelos por cliente con acompañantes

In [33]:
df_vuelos['Flights with Companions'].unique()

array([ 0,  4,  7,  1,  6,  3,  5,  2, 10,  8,  9, 11])

In [35]:
df_vuelos['Flights with Companions'].mean()

np.float64(1.0365687537150783)

#### Total Flights: El número total de vuelos que el cliente ha realizado, que puede incluir vuelos reservados en meses anteriores.

- Índice 5
- Datos de tipo integer, valores entre 0 y 32.
- No encuentro valores nulos ni errores
- Se observa una media de 5.17 vuelos por cliente (puede incluir vuelos reservados en meses anteriores)

In [36]:
df_vuelos['Total Flights'].unique()

array([ 3, 14,  6,  0, 15, 11, 12, 10,  8,  9,  7,  5, 16,  2,  1, 17, 13,
       22,  4, 19, 18, 21, 26, 20, 23, 25, 27, 24, 28, 30, 29, 31, 32])

In [38]:
df_vuelos['Total Flights'].mean()

np.float64(5.170618684366951)

#### Distance: La distancia total (presumiblemente en millas o kilómetros) que el cliente ha volado durante el mes.

- Índice 6
- Datos de tipo integer, valores entre 0 y 6293.
- No encuentro valores nulos ni errores
- Se observa una media de 1214.46 (km o millas) por cliente en el mes

In [39]:
df_vuelos['Distance'].unique()

array([1521, 2030, 1200, ..., 1217,  617, 4135], shape=(4746,))

In [40]:
df_vuelos['Distance'].isnull().sum()

np.int64(0)

In [41]:
df_vuelos['Distance'].describe()

count    403760.000000
mean       1214.460979
std        1434.098521
min           0.000000
25%           0.000000
50%         525.000000
75%        2342.000000
max        6293.000000
Name: Distance, dtype: float64

#### Points Accumulated: Puntos acumulados por el cliente en el programa de lealtad durante el mes, con base en la distancia volada u otros factores.

- Índice 7
- Datos de tipo float, valores entre 0.0 y 676.5.
- No encuentro valores nulos ni errores
- Se observa una media de 124.26 puntos acumulados por cliente en el mes

In [42]:
df_vuelos['Points Accumulated'].unique()

array([152.  , 203.  , 120.  , ...,  18.75, 601.  , 626.  ], shape=(1549,))

In [43]:
df_vuelos['Points Accumulated'].isnull().sum()

np.int64(0)

In [44]:
df_vuelos['Points Accumulated'].describe()

count    403760.000000
mean        124.263761
std         146.696179
min           0.000000
25%           0.000000
50%          53.000000
75%         240.000000
max         676.500000
Name: Points Accumulated, dtype: float64

#### Points Redeemed: Puntos que el cliente ha redimido en el mes, posiblemente para obtener beneficios como vuelos gratis, mejoras, etc.

- Índice 8
- Datos de tipo integer, valores entre 0 y 876.
- No encuentro valores nulos ni errores
- Se observa una media de 30.84 puntos redimidos por cliente en el mes, y se refiere a puntos que han sido canjeados o utilizados por un beneficio, recompensa o valor.

In [50]:
df_vuelos['Points Redeemed'].unique()

array([  0, 341, 364, 310, 445, 312, 343, 366, 389, 292, 447, 324, 456,
       409, 436, 327, 322, 291, 323, 300, 290, 309, 325, 386, 321, 363,
       340, 670, 443, 517, 444, 328, 344, 367, 313, 333, 293, 449, 297,
       455, 372, 356, 405, 381, 466, 419, 369, 352, 482, 335, 329, 305,
       415, 396, 317, 348, 314, 334, 350, 330, 318, 298, 420, 336, 471,
       680, 441, 353, 484, 301, 374, 417, 501, 299, 398, 307, 368, 306,
       347, 439, 395, 481, 337, 382, 426, 373, 399, 424, 326, 392, 438,
       467, 480, 448, 308, 400, 376, 375, 460, 339, 385, 611, 431, 320,
       362, 404, 442, 410, 361, 319, 435, 414, 464, 477, 315, 485, 370,
       421, 349, 371, 416, 496, 510, 667, 465, 434, 346, 487, 408, 500,
       360, 378, 345, 358, 479, 380, 411, 491, 505, 446, 425, 476, 393,
       418, 332, 401, 454, 303, 594, 506, 355, 302, 403, 379, 437, 561,
       483, 597, 391, 562, 342, 407, 490, 468, 488, 457, 365, 357, 463,
       388, 413, 351, 462, 440, 493, 507, 338, 377, 428, 525, 39

In [46]:
df_vuelos['Points Redeemed'].isnull().sum()

np.int64(0)

In [47]:
df_vuelos['Points Redeemed'].describe()

count    403760.000000
mean         30.838587
std         125.758002
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max         876.000000
Name: Points Redeemed, dtype: float64

#### Dollar Cost Points Redeemed: El valor en dólares de los puntos que el cliente ha redimido durante el mes.

- Índice 9
- Datos de tipo integer, valores entre 0 y 71.
- No encuentro valores nulos ni errores
- Se observa una media de 2.50 dólares por los puntos redimidos por cliente en el mes.

In [52]:
df_vuelos['Dollar Cost Points Redeemed'].unique()

array([ 0, 28, 30, 25, 36, 32, 24, 26, 37, 33, 35, 27, 31, 54, 42, 29, 38,
       34, 39, 55, 41, 49, 40, 48, 45, 53, 58, 44, 43, 46, 52, 47, 63, 57,
       62, 51, 50, 64, 56, 61, 65, 60, 68, 59, 66, 69, 67, 71, 70])

In [53]:
df_vuelos['Dollar Cost Points Redeemed'].isnull().sum()

np.int64(0)

In [54]:
df_vuelos['Dollar Cost Points Redeemed'].describe()

count    403760.000000
mean          2.495973
std          10.172033
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max          71.000000
Name: Dollar Cost Points Redeemed, dtype: float64

### Customer Loyalty History.csv

In [55]:
df_lealtad = pd.read_csv("files/Customer Loyalty History.csv", index_col=0)

df_lealtad.head(2)

Unnamed: 0_level_0,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,


In [56]:
print(f"El número de filas que tenemos es {df_lealtad.shape[0]}, y el número de columnas es {df_lealtad.shape[1]}")
print("Nota: La columna Loyalty Number no se cuenta en .shape porque es el índice, pero también forma parte del DataFrame.")

El número de filas que tenemos es 16737, y el número de columnas es 15
Nota: La columna Loyalty Number no se cuenta en .shape porque es el índice, pero también forma parte del DataFrame.


In [57]:
# Convierto el índice de nuevo en una columna para revisar la columna "Loyalty Number"
df_lealtad = df_lealtad.reset_index()

In [58]:
print(f"El número de filas que tenemos es {df_lealtad.shape[0]}, y el número de columnas es {df_lealtad.shape[1]}")

El número de filas que tenemos es 16737, y el número de columnas es 16


In [59]:
df_lealtad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [61]:
round(df_lealtad.isna().sum()/df_lealtad.shape[0]*100, 3)
# encuentro valores NULOS en las columnas "Salary", "Cancellation Year" y "Cancellation Month"
# revisaré cada columna individualmente más adelante

Loyalty Number         0.000
Country                0.000
Province               0.000
City                   0.000
Postal Code            0.000
Gender                 0.000
Education              0.000
Salary                25.321
Marital Status         0.000
Loyalty Card           0.000
CLV                    0.000
Enrollment Type        0.000
Enrollment Year        0.000
Enrollment Month       0.000
Cancellation Year     87.650
Cancellation Month    87.650
dtype: float64

In [63]:
df_lealtad.duplicated().sum()
# no tengo filas duplicadas

np.int64(0)

In [64]:
df_lealtad.describe().T
# me llama la atención:
# - el MIN de "Salary", número negativo
# - las columnas "Cancellation Year" y "Cancellation Month" aparecen como float

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
Salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
CLV,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
Enrollment Year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
Enrollment Month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
Cancellation Year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
Cancellation Month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0


In [65]:
df_lealtad.describe(include="O").T
# me llama la atención:
# - Canada es el único valor de la columna "Country"
# - Female es el valor que más sale, la moda, en la columna "Gender" (solo son Female y Male), y es un poco más de la mitad
# - Bachelor es la moda en la columna "Education", es casi un tercio de los datos
# - Married es la moda en "Marital Status", es más de la mitad
# - Star es la moda en "Loyalty Card", está cerca de la mitad de los datos
# - Standard es la moda en "Enrollment Type", casi la totalidad de los datos

Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


Voy a realizar la exploración y transformación columna por columna.

#### Loyalty Number: Identificador único del cliente dentro del programa de lealtad. Este número permite correlacionar la información de este archivo con el archivo de actividad de vuelos.

- Índice 0 
- Datos de tipo integer, valores entre 100018 y 999986
- No encuentro valores nulos ni errores

In [66]:
df_lealtad['Loyalty Number'].unique()

array([480934, 549612, 429460, ..., 776187, 906428, 652627],
      shape=(16737,))

In [67]:
df_lealtad['Loyalty Number'].isnull().sum()

np.int64(0)

In [68]:
df_lealtad['Loyalty Number'].describe()

count     16737.000000
mean     549735.880445
std      258912.132453
min      100018.000000
25%      326603.000000
50%      550434.000000
75%      772019.000000
max      999986.000000
Name: Loyalty Number, dtype: float64

#### Country: País de residencia del cliente.

- Índice 1
- Datos de tipo objeto, valor "Canada" en todos los datos
- No encuentro valores nulos ni errores
- Valorable su eliminación teniéndo en cuenta que no más información a parte de que todos los clientes son de Canada.

In [69]:
df_lealtad['Country'].unique()

array(['Canada'], dtype=object)

#### Province: Provincia o estado de residencia del cliente (aplicable a países con divisiones provinciales o estatales, como Canadá).

- Índice 2
- Datos de tipo objeto, 11 valores ('Ontario', 'Alberta', 'British Columbia', 'Quebec', 'Yukon', 'New Brunswick', 'Manitoba', 'Nova Scotia', 'Saskatchewan', 'Newfoundland', 'Prince Edward Island'), siendo 'Ontario' la moda
- No encuentro valores nulos ni errores

In [70]:
df_lealtad['Province'].unique()

array(['Ontario', 'Alberta', 'British Columbia', 'Quebec', 'Yukon',
       'New Brunswick', 'Manitoba', 'Nova Scotia', 'Saskatchewan',
       'Newfoundland', 'Prince Edward Island'], dtype=object)

In [71]:
df_lealtad['Province'].describe()

count       16737
unique         11
top       Ontario
freq         5404
Name: Province, dtype: object

#### City: Ciudad de residencia del cliente.

- Índice 3
- Datos de tipo objeto, 29 valores ('Toronto', 'Edmonton', 'Vancouver', 'Hull', 'Whitehorse', 'Trenton', 'Montreal', 'Dawson Creek', 'Quebec City', 'Fredericton', 'Ottawa', 'Tremblant', 'Calgary', 'Thunder Bay', 'Whistler', 'Peace River', 'Winnipeg', 'Sudbury', 'West Vancouver', 'Halifax', 'London', 'Regina', 'Kelowna', "St. John's", 'Victoria', 'Kingston', 'Banff', 'Moncton', 'Charlottetown'), siendo 'Toronto' la moda
- No encuentro valores nulos ni errores

In [72]:
df_lealtad['City'].unique()

array(['Toronto', 'Edmonton', 'Vancouver', 'Hull', 'Whitehorse',
       'Trenton', 'Montreal', 'Dawson Creek', 'Quebec City',
       'Fredericton', 'Ottawa', 'Tremblant', 'Calgary', 'Thunder Bay',
       'Whistler', 'Peace River', 'Winnipeg', 'Sudbury', 'West Vancouver',
       'Halifax', 'London', 'Regina', 'Kelowna', "St. John's", 'Victoria',
       'Kingston', 'Banff', 'Moncton', 'Charlottetown'], dtype=object)

In [73]:
df_lealtad['City'].describe()

count       16737
unique         29
top       Toronto
freq         3351
Name: City, dtype: object

#### Postal Code: Código postal del cliente.

- Índice 4
- Datos de tipo objeto, 55 valores ('M2Z 4K1', 'T3G 6Y6', 'V6E 3D9', 'P1W 1K4', 'J8Y 3Z5', 'Y2K 6R0', 'P5S 6R4', 'K8V 4B2', 'H2Y 2W2', 'M8Y 4K8', 'U5I 4F1', 'G1B 3L5', 'H4G 3T4', 'M2M 7K8', 'M2M 6J7', 'E3B 2H2', 'M1R 4K3', 'T9G 1W3', 'H2Y 4R4', 'V5R 1W3', 'P1L 8X8', 'K1F 2R2', 'H5Y 2S9', 'V1E 4R6', 'H2T 2J6', 'T3E 2V9', 'H2T 9K8', 'K8T 5M5', 'V6T 1Y8', 'P2T 6G3', 'T9O 2W2', 'V6E 3Z3', 'R6Y 4T5', 'M5V 1G5', 'V6V 8Z3', 'B3J 9S2', 'M5B 3E4', 'R2C 0M5', 'S6J 3G0', 'M2P 4F6', 'P1J 8T7', 'V09 2E9', 'A1C 6H9', 'V10 6T5', 'B3C 2M8', 'M9K 2P4', 'T4V 1D4', 'R3R 3T4', 'S1J 3C5', 'E1A 2A7', 'K1G 4Z0', 'H3T 8L4', 'C1A 6E8', 'H3J 5I6', 'M3R 4K8'), siendo 'V6E 3D9' la moda
- No encuentro valores nulos ni errores

In [74]:
df_lealtad['Postal Code'].unique()

array(['M2Z 4K1', 'T3G 6Y6', 'V6E 3D9', 'P1W 1K4', 'J8Y 3Z5', 'Y2K 6R0',
       'P5S 6R4', 'K8V 4B2', 'H2Y 2W2', 'M8Y 4K8', 'U5I 4F1', 'G1B 3L5',
       'H4G 3T4', 'M2M 7K8', 'M2M 6J7', 'E3B 2H2', 'M1R 4K3', 'T9G 1W3',
       'H2Y 4R4', 'V5R 1W3', 'P1L 8X8', 'K1F 2R2', 'H5Y 2S9', 'V1E 4R6',
       'H2T 2J6', 'T3E 2V9', 'H2T 9K8', 'K8T 5M5', 'V6T 1Y8', 'P2T 6G3',
       'T9O 2W2', 'V6E 3Z3', 'R6Y 4T5', 'M5V 1G5', 'V6V 8Z3', 'B3J 9S2',
       'M5B 3E4', 'R2C 0M5', 'S6J 3G0', 'M2P 4F6', 'P1J 8T7', 'V09 2E9',
       'A1C 6H9', 'V10 6T5', 'B3C 2M8', 'M9K 2P4', 'T4V 1D4', 'R3R 3T4',
       'S1J 3C5', 'E1A 2A7', 'K1G 4Z0', 'H3T 8L4', 'C1A 6E8', 'H3J 5I6',
       'M3R 4K8'], dtype=object)

In [75]:
df_lealtad['Postal Code'].describe()

count       16737
unique         55
top       V6E 3D9
freq          911
Name: Postal Code, dtype: object

#### Gender: Género del cliente (ej. Male para masculino y Female para femenino).

- Índice 5
- Datos de tipo objeto, 2 valores ('Female' y 'Male'), siendo 'Female' la moda y un poco más de la mitad de los datos
- No encuentro valores nulos ni errores

In [76]:
df_lealtad['Gender'].unique()

array(['Female', 'Male'], dtype=object)

In [77]:
df_lealtad['Gender'].describe()

count      16737
unique         2
top       Female
freq        8410
Name: Gender, dtype: object

#### Education: Nivel educativo alcanzado por el cliente (ej. Bachelor para licenciatura, College para estudios universitarios o técnicos, etc.).

- Índice 6
- Datos de tipo objeto, 5 valores ('Bachelor', 'College', 'Master', 'High School or Below', 'Doctor'), siendo 'Bachelor' la moda y casi un tercio de los datos
- El orden educativo de estos niveles de estudios de menor a mayor es 'High School or Below', 'College', 'Bachelor', 'Master', 'Doctor'.
- No encuentro valores nulos ni errores

In [78]:
df_lealtad['Education'].unique()

array(['Bachelor', 'College', 'Master', 'High School or Below', 'Doctor'],
      dtype=object)

In [79]:
df_lealtad['Education'].describe()

count        16737
unique           5
top       Bachelor
freq         10475
Name: Education, dtype: object

#### Salary: Ingreso anual estimado del cliente.

- Índice 7
- Datos de tipo float
- Encuentro errores (alguno sale en negativo)
- Encuentro 4238 nulos, y comparando con la columna 'Education' veo que son todas las filas que tienen 'College' en 'Education'

In [91]:
df_lealtad['Salary'].unique()

array([ 83236.,     nan, 103495., ...,  76178.,  91970., -57297.],
      shape=(5891,))

In [None]:
# empiezo por eliminar el negativo de los datos que salgan con '-':
df_lealtad['Salary'] = df_lealtad['Salary'].astype(str) 
df_lealtad['Salary'] = df_lealtad['Salary'].str.replace('-','') 
df_lealtad['Salary'] = df_lealtad['Salary'].astype(float)

In [96]:
df_lealtad['Salary'].unique()

array([ 83236.,     nan, 103495., ...,  76178.,  91970.,  57297.],
      shape=(5891,))

In [97]:
df_lealtad['Salary'].isnull().sum()

np.int64(4238)

In [98]:
df_lealtad[df_lealtad['Salary'].isna()]['Education'].value_counts()
# aqui veo que los nulos en 'Salary' aparecen conectados con 'College' en la columna 'Education'

Education
College    4238
Name: count, dtype: int64

In [99]:
df_lealtad[df_lealtad['Education'] == 'College'].shape[0]
# esto son todas las filas con 'College': ==> todos los nulos están en filas con 'College'

4238

In [100]:
df_lealtad.groupby('Education')['Salary'].mean()
# miro las medias de los salarios según la 'Education'

Education
Bachelor                 72577.254415
College                           NaN
Doctor                  178608.897820
High School or Below     61199.161125
Master                  103757.848425
Name: Salary, dtype: float64

In [None]:
# El orden educativo de estos niveles de estudios de menor a mayor es 'High School or Below', 'College', 'Bachelor', 'Master' y 'Doctor'.
# 'High School or Below' tiene una media = 61199.161125 de salario
# 'Bachelor' tiene una media = 72577.254415 de salario
# sumando estas medias y dividiéndolas entre 2 me da 66888.20777 de salario. Redondeo a 66888.21
# Le doy este valor a los NaN de'College'
df_lealtad.loc[df_lealtad['Education'] == 'College', 'Salary'] = 66888.21

In [102]:
df_lealtad['Salary'].isnull().sum()

np.int64(0)

In [103]:
df_lealtad.groupby('Education')['Salary'].mean()

Education
Bachelor                 72577.254415
College                  66888.210000
Doctor                  178608.897820
High School or Below     61199.161125
Master                  103757.848425
Name: Salary, dtype: float64

#### Marital Status: Estado civil del cliente (ej. Single para soltero, Married para casado, Divorced para divorciado, etc.).

- Índice 8
- Datos de tipo object, 3 valores ('Married', 'Divorced', 'Single'), siendo 'Married' la moda y más de la mitad de los datos
- No encuentro valores nulos ni errores 

In [104]:
df_lealtad['Marital Status'].unique()

array(['Married', 'Divorced', 'Single'], dtype=object)

In [105]:
df_lealtad['Marital Status'].describe()

count       16737
unique          3
top       Married
freq         9735
Name: Marital Status, dtype: object

#### Loyalty Card: Tipo de tarjeta de lealtad que posee el cliente. Esto podría indicar distintos niveles o categorías dentro del programa de lealtad.

- Índice 9
- Datos de tipo object, 3 valores ('Star', 'Aurora', 'Nova'), siendo 'Star' la moda y casi la mitad de los datos
- No encuentro valores nulos ni errores 

In [106]:
df_lealtad['Loyalty Card'].unique()

array(['Star', 'Aurora', 'Nova'], dtype=object)

In [107]:
df_lealtad['Loyalty Card'].describe()

count     16737
unique        3
top        Star
freq       7637
Name: Loyalty Card, dtype: object

#### CLV (Customer Lifetime Value): Valor total estimado que el cliente aporta a la empresa durante toda la relación que mantiene con ella.

- Índice 10
- Datos de tipo float, múltiples valores entre 1898.01 y 83325.38, y con una media de 7988.90 de valor estimado que el cliente aporta a la empresa
- No encuentro valores nulos ni errores 

In [108]:
df_lealtad['CLV'].unique()

array([ 3839.14,  3839.61,  3839.75, ..., 44771.3 , 50568.26, 61134.68],
      shape=(7984,))

In [109]:
df_lealtad['CLV'].isnull().sum()

np.int64(0)

In [110]:
df_lealtad['CLV'].describe()

count    16737.000000
mean      7988.896536
std       6860.982280
min       1898.010000
25%       3980.840000
50%       5780.180000
75%       8940.580000
max      83325.380000
Name: CLV, dtype: float64

#### Enrollment Type: Tipo de inscripción del cliente en el programa de lealtad (ej. Standard).

- Índice 11
- Datos de tipo object, 2 valores ('Standard', '2018 Promotion'), siendo Standard la moda y casi la totalidad de los datos
- No encuentro valores nulos ni errores 

In [111]:
df_lealtad['Enrollment Type'].unique()

array(['Standard', '2018 Promotion'], dtype=object)

In [112]:
df_lealtad['Enrollment Type'].describe()

count        16737
unique           2
top       Standard
freq         15766
Name: Enrollment Type, dtype: object

#### Enrollment Year: Año en que el cliente se inscribió en el programa de lealtad.

- Índice 12
- Datos de tipo integer, 7 valores (2012, 2013, 2014, 2015, 2016, 2017, 2018), siendo 2018 la moda
- No encuentro valores nulos ni errores 

In [113]:
df_lealtad['Enrollment Year'].unique()

array([2016, 2014, 2013, 2012, 2015, 2018, 2017])

In [114]:
df_lealtad['Enrollment Year'].value_counts()

Enrollment Year
2018    3010
2017    2487
2016    2456
2013    2397
2014    2370
2015    2331
2012    1686
Name: count, dtype: int64

#### Enrollment Month: Mes en que el cliente se inscribió en el programa de lealtad.

- Índice 13
- Datos de tipo integer, 12 valores (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), siendo 5 (mayo) la moda
- No encuentro valores nulos ni errores 

In [115]:
df_lealtad['Enrollment Month'].unique()

array([ 2,  3,  7, 10,  5,  6, 12,  1, 11,  8,  4,  9])

In [116]:
df_lealtad['Enrollment Month'].value_counts()

Enrollment Month
5     1503
12    1480
7     1473
11    1446
10    1444
8     1430
6     1412
9     1391
4     1388
3     1358
2     1220
1     1192
Name: count, dtype: int64

#### Cancellation Year: Año en que el cliente canceló su membresía en el programa de lealtad, si aplica.

- Índice 14
- Datos de tipo float, cuando deberían ser integer (son 'año'). 6 valores (2013, 2014, 2015, 2016, 2017, 2018)
- Encuentro '.' al final, lo elimino
- Encuentro nulos

In [117]:
df_lealtad['Cancellation Year'].unique()

array([  nan, 2018., 2015., 2017., 2014., 2016., 2013.])

In [None]:
# valorar si quieres hacer esto:

In [118]:
# empiezo por eliminar el negativo de los datos que salgan con '.':
df_lealtad['Cancellation Year'] = df_lealtad['Cancellation Year'].astype(str)
df_lealtad['Cancellation Year'] = df_lealtad['Cancellation Year'].str.replace('\.0$', '', regex=True)
df_lealtad['Cancellation Year'] = df_lealtad['Cancellation Year'].replace('nan', pd.NA)
df_lealtad['Cancellation Year'] = df_lealtad['Cancellation Year'].astype('Int64') 

  df_lealtad['Cancellation Year'] = df_lealtad['Cancellation Year'].str.replace('\.0$', '', regex=True)


In [119]:
df_lealtad['Cancellation Year'].unique()

<IntegerArray>
[<NA>, 2018, 2015, 2017, 2014, 2016, 2013]
Length: 7, dtype: Int64