In [1]:
# importamos librerias a utilizar en todo el análisis
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

# configuración estética global, para mejorar la legibilidad de los gráficos (facilita la comparación visual de valores y tendencias, especialmente en variables numéricas)
%matplotlib inline
sns.set(style="whitegrid")

# Ejercicio
## Fase 1: Exploración y Limpieza

### Exploración Inicial:

#### Realiza una exploración inicial de los datos para identificar posibles problemas, como nulos, atípicos o datos faltantes en las columnas relevantes.
#### Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.
#### Une los dos conjuntos de datos de la forma más eficiente.

In [28]:
# EDA: Dataset Customer Flight Activity.csv

df_flights = pd.read_csv("../data/Customer Flight Activity.csv")

In [None]:
# Exploración del dataset (variables)
df_flights.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [30]:
# Nº de filas y columnas
df_flights.shape    

(405624, 10)

In [None]:
# Estructura y  tipos de datos
df_flights.info()       

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


OBSERVACIONES: 

A) Loyalty Number es el identificador clave.

B) A priori no parece necesaria ninguna conversión inicial en los tipos de datos de las variables.

In [32]:
# Duplicados
df_flights.duplicated().sum()

np.int64(1864)

In [33]:
df_flights[df_flights.duplicated()]

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
42,101902,2017,1,0,0,0,0,0.0,0,0
227,112142,2017,1,0,0,0,0,0.0,0,0
478,126100,2017,1,0,0,0,0,0.0,0,0
567,130331,2017,1,0,0,0,0,0.0,0,0
660,135421,2017,1,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
404668,949628,2018,12,0,0,0,0,0.0,0,0
404884,960050,2018,12,0,0,0,0,0.0,0,0
405111,971370,2018,12,0,0,0,0,0.0,0,0
405410,988392,2018,12,0,0,0,0,0.0,0,0


In [34]:
# Definir qué significan estos duplicados
df_flights.duplicated(subset=["Loyalty Number", "Year", "Month"]).sum()

np.int64(3936)

In [35]:
# Inspeccionar estos casos
df_flights[
    df_flights.duplicated(subset=["Loyalty Number", "Year", "Month"], keep=False)
].sort_values(["Loyalty Number", "Year", "Month"])

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
41,101902,2017,1,0,0,0,0,0.0,0,0
42,101902,2017,1,0,0,0,0,0.0,0,0
16942,101902,2017,2,0,0,0,0,0.0,0,0
16943,101902,2017,2,0,0,0,0,0.0,0,0
33843,101902,2017,3,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
371685,992168,2018,10,0,0,0,0,0.0,0,0
130846,992168,2018,11,11,5,16,3360,336.0,502,41
336313,992168,2018,11,1,1,2,546,54.0,343,28
405486,992168,2018,12,15,0,15,3120,312.0,0,0


OBSERVACIONES:

Estos registros no son duplicados erróneos, sino múltiples registros de actividad para un mismo cliente dentro del mismo mes.

In [36]:
# DECISIÓN: Como el análisis es mensual y las variables son acumulativas (vuelos, distancia, puntos): se agrega los datos por cliente-año-mes.
df_flights_monthly = (
    df_flights
    .groupby(["Loyalty Number", "Year", "Month"], as_index=False)
    .sum()
)

In [37]:
# Comprobación de un único registro mensual
df_flights_monthly.shape
df_flights_monthly.duplicated(
    subset=["Loyalty Number", "Year", "Month"]
).sum()

np.int64(0)

In [38]:
df_flights.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [39]:
df_flights_monthly.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [40]:
df_flights.shape

(405624, 10)

In [41]:
df_flights_monthly.shape

(401688, 10)

CONCLUSIÓN: 

Tras la agregación por cliente, año y mes, se mantiene la misma estructura de columnas, pero cada fila representa ahora un único registro mensual de actividad por cliente, evitando duplicidades y preservando toda la información relevante.

In [42]:
# Valores nulos
df_flights.isna().sum()      

Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

OBSERVACIONES: 

No se observan nulos en las variables, por lo que no es necesaria gestión alguna.

In [43]:
# Estadística descriptiva básica
df_flights.describe()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
count,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0
mean,550037.873084,2017.5,6.5,4.115052,1.031805,5.146858,1208.880059,123.692721,30.696872,2.484503
std,258935.286969,0.500001,3.452057,5.225518,2.076869,6.521227,1433.15532,146.599831,125.486049,10.150038
min,100018.0,2017.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,326961.0,2017.0,3.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,550834.0,2017.5,6.5,1.0,0.0,1.0,488.0,50.0,0.0,0.0
75%,772194.0,2018.0,9.25,8.0,1.0,10.0,2336.0,239.0,0.0,0.0
max,999986.0,2018.0,12.0,21.0,11.0,32.0,6293.0,676.5,876.0,71.0


OBSERVACIONES: 

A) Las variables relacionadas con la actividad de vuelo presentan distribuciones asimétricas, con diferencias notables entre la media y la mediana en métricas como vuelos reservados, distancia volada y puntos acumulados. Esto sugiere la existencia de un grupo reducido 
de clientes con una actividad significativamente superior al promedio.

B) Asimismo, se observa que una gran proporción de registros presenta valores cero en variables como vuelos, distancia o puntos redimidos, lo cual es consistente con clientes con baja o nula actividad en determinados meses. La redención de puntos se concentra en un subconjunto pequeño de clientes, mientras que la mayoría acumula puntos sin redimirlos.

CONCLUSION FINAL EDA 1: Customer Flight Activity

Tras la exploración inicial, no se detectan problemas estructurales en las variables del dataset. Aunque se observan múltiples registros por cliente y mes, estos corresponden a fragmentos de actividad válidos.

Para evitar duplicidades lógicas y facilitar el análisis posterior, se ha agregado la información a nivel mensual por cliente, manteniendo todas las columnas originales. No ha sido necesario eliminar ninguna variable del conjunto de datos.

In [27]:
# EDA 2: Dataset Customer Loyalty History.csv

df_loyalty = pd.read_csv("../data/Customer Loyalty History.csv")

In [61]:
# Exploración del dataset (variables)
df_loyalty.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


OBSERVACIONES:

A) Cada fila parece un cliente único, el Loyalty Number.

B) Hay variables demográficas estables (país, ciudad, educación...) y de fidelización a nivel cliente, con variables categóricas y numéricas.

C) Salario con muchos nulos

D) Nulos de cancelaciones, coherenters con clientes activos que no han cancelado su membresía, y siguen activos en el programa de fidelización.

In [47]:
# Nº de filas y columnas
df_loyalty.shape  

(16737, 16)

In [None]:
# Estructura y tipos de datos
df_loyalty.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

OBSERVACIONES:

A) El dataset presenta una estructura adecuada para el análisis, con una fila por cliente y una clave única (Loyalty Number) completa. Las variables categóricas no presentan valores nulos.

B) La variable Salary presenta valores nulos, lo que sugiere información incompleta para parte de los clientes. Estos valores se mantendrán y se tratarán según el contexto de cada análisis. 12499 DE 16737: 4238 valores nulos aproximadamente.

C) Sólo alrededor del 12% de los clientes (2067) ha cancelado su membresía, el resto sigue activo, por lo que no se consideran errores de calidad de los datos.

In [54]:
df_loyalty.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [50]:
# Duplicados
df_loyalty.duplicated().sum()

np.int64(0)

OBSERVACIONES: 

NO HAY DUPLICADOS

A) Loyalty Number es el identificador único.

B) Una fila = Un cliente

In [53]:
# Valores nulos
df_loyalty.isna().sum()  

Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

OBSERVACIONES:

A) Alrededor del 25% de los clientes no hay informado de su salario; se desconoce el motivo. No se imputa ni se elimina en esta fase. Se tratará según el análisis, filtrando cuando toque o usanda medianas.

B) Sólo han cancelado su membresía 2067, el resto sigue activo. Por lo tanto, estos NaN no son errores de calidad de los datos, representa "no cancelado", que siguen fidelizados.

In [57]:
# Estadística descriptiva básica
df_loyalty.describe()

Unnamed: 0,Loyalty Number,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
count,16737.0,12499.0,16737.0,16737.0,16737.0,2067.0,2067.0
mean,549735.880445,79245.609409,7988.896536,2015.253211,6.669116,2016.503145,6.962748
std,258912.132453,35008.297285,6860.98228,1.979111,3.398958,1.380743,3.455297
min,100018.0,-58486.0,1898.01,2012.0,1.0,2013.0,1.0
25%,326603.0,59246.5,3980.84,2014.0,4.0,2016.0,4.0
50%,550434.0,73455.0,5780.18,2015.0,7.0,2017.0,7.0
75%,772019.0,88517.5,8940.58,2017.0,10.0,2018.0,10.0
max,999986.0,407228.0,83325.38,2018.0,12.0,2018.0,12.0


OBSERVACIONES:

A) La variable Salary presenta una alta dispersión y contiene valores negativos y extremos, lo que sugiere posibles outliers o errores de registro que deberán tenerse en cuenta en los análisis posteriores.

B) CLV (Customer Lifetime Value: estimación del valor económico total que un cliente aporta a la empresa durante toda su relación con ella. Permite identificar clientes más rentables y analizar diferencias entre segmentos. Valor total del cliente en el tiempo”): distribución asimétrica a la derecha, en la que un grupo reducido de clientes concentra un CLV muy elevado.

In [None]:
# Distribución de variables categóricas
df_loyalty["Loyalty Card"].value_counts()

Loyalty Card
Star      7637
Nova      5671
Aurora    3429
Name: count, dtype: int64

OBSERVACIONES:

La mayoría de los clientes pertenece al nivel de tarjeta Star, seguido de Nova y Aurora, lo que indica una distribución desigual entre los distintos niveles del programa de fidelización.

In [62]:
df_loyalty["Education"].value_counts()

Education
Bachelor                10475
College                  4238
High School or Below      782
Doctor                    734
Master                    508
Name: count, dtype: int64

OBSERVACIONES:

A) Predomina claramente el nivel Bachelor.

b) Los niveles más altos (Master, Doctor) son minoritarios.

c) Existe diversidad educativa, pero concentrada en niveles medios.

In [63]:
df_loyalty["Gender"].value_counts()

Gender
Female    8410
Male      8327
Name: count, dtype: int64

OBSERVACIONES:

La distribución por género es prácticamente equilibrada, lo que sugiere una representación similar de clientes masculinos y femeninos en el programa de fidelización y reduce la probabilidad de sesgos en análisis comparativos posteriores.

CONCLUSIÓN FINAL EDA 2: Customer Loyalty History

El dataset de historial de fidelización presenta una estructura adecuada para el análisis, con una fila por cliente, sin registros duplicados y con una clave única (`Loyalty Number`) completa. Las variables categóricas se encuentran bien definidas y no presentan valores nulos, lo que facilita su uso en análisis comparativos y visualizaciones.

Se detectan valores nulos en la variable Salary y en las variables de cancelación. En el caso del salario, la presencia de valores faltantes, negativos y extremos sugiere la necesidad de un tratamiento específico en análisis posteriores. Los valores nulos en las columnas de cancelación corresponden a clientes que no han cancelado su membresía y no se consideran errores de calidad de datos.

Las variables numéricas, especialmente Salary y CLV, muestran distribuciones asimétricas y una alta variabilidad, lo que indica la existencia de posibles outliers. En cuanto a las variables categóricas, se observa un predominio de la tarjeta de fidelización Star y del nivel educativo Bachelor, mientras que la distribución por género es equilibrada. Estos patrones serán tenidos en cuenta en las fases de análisis y visualización posteriores.
