# Los Datos
Los datos que se proporciona consisten en dos conjuntos de archivos que, en conjunto, describen el
comportamiento de los clientes dentro de un programa de lealtad de una aerolínea.

### Fase 1: Exploración
1. Exploración Inicial:
    - Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.
    - Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la
presencia de valores nulos y estadísticas básicas de las columnas involucradas.
    - Une los dos conjuntos de datos de la forma más eficiente.


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Flight Activity

| Atributo                    | Descripción                                                                                                                                     |
|----------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------|
| **Loyalty Number**         | Identificador único para cada cliente dentro del programa de lealtad de la aerolínea. Cada número corresponde a un cliente específico.           |
| **Year**                   | Año en el cual se registraron las actividades de vuelo para el cliente.                                                                         |
| **Month**                  | Mes del año (de 1 a 12) en el cual ocurrieron las actividades de vuelo.                                                                          |
| **Flights Booked**         | Número total de vuelos reservados por el cliente en ese mes específico.                                                                         |
| **Flights with Companions**| Número de vuelos reservados en los cuales el cliente viajó con acompañantes.                                                                    |
| **Total Flights**          | Total de vuelos realizados por el cliente, incluyendo los reservados en meses anteriores.                                                       |
| **Distance**               | Distancia total (en millas o kilómetros) volada por el cliente durante el mes.                                                                  |
| **Points Accumulated**     | Puntos acumulados por el cliente en el programa de lealtad durante el mes, basados en distancia u otros factores.                              |
| **Points Redeemed**        | Puntos redimidos por el cliente durante el mes, posiblemente para obtener beneficios como vuelos gratis o mejoras.                             |
| **Dollar Cost Points Redeemed** | Valor en dólares de los puntos redimidos por el cliente durante el mes.                                                                  |


In [31]:
df_cfa = pd.read_csv("Files/customer_flight_activity.csv")

df_cfa.head()


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [33]:
# Obtenemos información respecto al shape (filas y columnas)
print("\nInformación sobre filas y columnas:")
df_cfa.shape


Información sobre filas y columnas:


(405624, 10)

In [None]:
# Obtenemos información general del DataFrame
print("\nInformación general y tipos de datos:")
df_cfa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [22]:
df_cfa.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [23]:
df_cfa.isna().sum()

Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

In [46]:
# principales estadisticos de todas las columnas
display(df_cfa.describe().T)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,405624.0,550037.873084,258935.286969,100018.0,326961.0,550834.0,772194.0,999986.0
Year,405624.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
Month,405624.0,6.5,3.452057,1.0,3.75,6.5,9.25,12.0
Flights Booked,405624.0,4.115052,5.225518,0.0,0.0,1.0,8.0,21.0
Flights with Companions,405624.0,1.031805,2.076869,0.0,0.0,0.0,1.0,11.0
Total Flights,405624.0,5.146858,6.521227,0.0,0.0,1.0,10.0,32.0
Distance,405624.0,1208.880059,1433.15532,0.0,0.0,488.0,2336.0,6293.0
Points Accumulated,405624.0,123.692721,146.599831,0.0,0.0,50.0,239.0,676.5
Points Redeemed,405624.0,30.696872,125.486049,0.0,0.0,0.0,0.0,876.0
Dollar Cost Points Redeemed,405624.0,2.484503,10.150038,0.0,0.0,0.0,0.0,71.0


In [8]:
df_cfa.mean()

Loyalty Number                 550037.873084
Year                             2017.500000
Month                               6.500000
Flights Booked                      4.115052
Flights with Companions             1.031805
Total Flights                       5.146858
Distance                         1208.880059
Points Accumulated                123.692721
Points Redeemed                    30.696872
Dollar Cost Points Redeemed         2.484503
dtype: float64

In [25]:
df_cfa.duplicated().sum()

1864

In [13]:
df_cfa["Loyalty Number"].value_counts()

Loyalty Number
678205    72
989528    48
373638    48
684889    48
684881    48
          ..
428526    24
428536    24
428565    24
428590    24
999891    24
Name: count, Length: 16737, dtype: int64

### Loyalty History

| Atributo                  | Descripción                                                                                                                                               |
|--------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Loyalty Number**       | Identificador único del cliente dentro del programa de lealtad. Permite correlacionar con el archivo de actividad de vuelos.                             |
| **Country**              | País de residencia del cliente.                                                                                                                            |
| **Province**             | Provincia o estado de residencia del cliente (aplicable a países como Canadá).                                                                             |
| **City**                 | Ciudad de residencia del cliente.                                                                                                                          |
| **Postal Code**          | Código postal del cliente.                                                                                                                                  |
| **Gender**               | Género del cliente (ej. *Male* para masculino y *Female* para femenino).                                                                                   |
| **Education**            | Nivel educativo alcanzado por el cliente (ej. *Bachelor* para licenciatura, *College* para estudios técnicos o universitarios, etc.).                     |
| **Salary**               | Ingreso anual estimado del cliente.                                                                                                                         |
| **Marital Status**       | Estado civil del cliente (ej. *Single*, *Married*, *Divorced*, etc.).                                                                                      |
| **Loyalty Card**         | Tipo de tarjeta de lealtad que posee el cliente, indicando posibles niveles o categorías dentro del programa.                                              |
| **CLV (Customer Lifetime Value)** | Valor total estimado que el cliente aporta a la empresa durante toda su relación con ella.                                                       |
| **Enrollment Type**      | Tipo de inscripción del cliente en el programa de lealtad (ej. *Standard*).                                                                                |
| **Enrollment Year**      | Año en que el cliente se inscribió en el programa de lealtad.                                                                                              |
| **Enrollment Month**     | Mes en que el cliente se inscribió en el programa de lealtad.                                                                                              |
| **Cancellation Year**    | Año en que el cliente canceló su membresía en el programa de lealtad, si aplica.                                                                           |
| **Cancellation Month**   | Mes en que el cliente canceló su membresía en el programa de lealtad, si aplica.                                                                           |


In [35]:
df_clh = pd.read_csv("Files/customer_loyalty_history.csv")

df_clh.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [36]:
df_clh.shape

(16737, 16)

In [37]:
df_clh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [38]:
df_clh.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [39]:
df_clh.isna().sum()

Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

In [44]:
# principales estadisticos de todas las columnas
display(df_clh.describe().T)
print(".............")
display(df_clh.describe(include = "O").T)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
Salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
CLV,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
Enrollment Year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
Enrollment Month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
Cancellation Year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
Cancellation Month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0


.............


Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


In [57]:
df_clh["Salary"].mean()

79245.6094087527

In [59]:
df_clh.value_counts

<bound method DataFrame.value_counts of        Loyalty Number Country          Province        City Postal Code  \
0              480934  Canada           Ontario     Toronto     M2Z 4K1   
1              549612  Canada           Alberta    Edmonton     T3G 6Y6   
2              429460  Canada  British Columbia   Vancouver     V6E 3D9   
3              608370  Canada           Ontario     Toronto     P1W 1K4   
4              530508  Canada            Quebec        Hull     J8Y 3Z5   
...               ...     ...               ...         ...         ...   
16732          823768  Canada  British Columbia   Vancouver     V6E 3Z3   
16733          680886  Canada      Saskatchewan      Regina     S1J 3C5   
16734          776187  Canada  British Columbia   Vancouver     V5R 1W3   
16735          906428  Canada             Yukon  Whitehorse     Y2K 6R0   
16736          652627  Canada          Manitoba    Winnipeg     R2C 0M5   

       Gender Education    Salary Marital Status Loyalty Ca

In [58]:
df_clh.duplicated().sum()

0

In [62]:
#Todas estas columnas categóricas tienen más de 1 subnivel, por lo que no eliminaremos ninguna.
cols_cat = ["Country", "Province", "City", "Postal Code", "Gender", "Education", "Marital Status", "Loyalty Card", "Enrollment Type"]

for col in cols_cat:
    print(f'Columna {col}: {df_clh[col].nunique()} subniveles')

Columna Country: 1 subniveles
Columna Province: 11 subniveles
Columna City: 29 subniveles
Columna Postal Code: 55 subniveles
Columna Gender: 2 subniveles
Columna Education: 5 subniveles
Columna Marital Status: 3 subniveles
Columna Loyalty Card: 3 subniveles
Columna Enrollment Type: 2 subniveles
