In [1]:
# importamos librerias a utilizar en todo el análisis
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

# configuración estética global, para mejorar la legibilidad de los gráficos (facilita la comparación visual de valores y tendencias, especialmente en variables numéricas)
%matplotlib inline
sns.set(style="whitegrid")

# Ejercicio
## Fase 1: Exploración y Limpieza

### Exploración Inicial:

Realiza una exploración inicial de los datos para identificar posibles problemas, como nulos, atípicos o datos faltantes en las columnas relevantes.

Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.

Une los dos conjuntos de datos de la forma más eficiente.

### Limpieza de Datos:

Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos
estén completos.

Verifica la consistencia y corrección de los datos para asegurarte de que los datos se
presenten de forma coherente.

Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar tipos de
datos) para garantizar la adecuación de los datos para el análisis estadístico.

In [2]:
# EDA: Dataset Customer Flight Activity.csv

df_flights = pd.read_csv("../data/Customer Flight Activity.csv")

In [3]:
# Exploración del dataset (variables)
df_flights.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [4]:
# Nº de filas y columnas
df_flights.shape    

(405624, 10)

In [5]:
# Estructura y  tipos de datos
df_flights.info()       

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


OBSERVACIONES: 

A) Loyalty Number es el identificador clave.

B) A priori no parece necesaria ninguna conversión inicial en los tipos de datos de las variables.

In [6]:
# Duplicados
df_flights.duplicated().sum()

np.int64(1864)

In [7]:
df_flights[df_flights.duplicated()]

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
42,101902,2017,1,0,0,0,0,0.0,0,0
227,112142,2017,1,0,0,0,0,0.0,0,0
478,126100,2017,1,0,0,0,0,0.0,0,0
567,130331,2017,1,0,0,0,0,0.0,0,0
660,135421,2017,1,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
404668,949628,2018,12,0,0,0,0,0.0,0,0
404884,960050,2018,12,0,0,0,0,0.0,0,0
405111,971370,2018,12,0,0,0,0,0.0,0,0
405410,988392,2018,12,0,0,0,0,0.0,0,0


In [8]:
# Definir qué significan estos duplicados
df_flights.duplicated(subset=["Loyalty Number", "Year", "Month"]).sum()

np.int64(3936)

In [9]:
# Inspeccionar estos casos
df_flights[
    df_flights.duplicated(subset=["Loyalty Number", "Year", "Month"], keep=False)
].sort_values(["Loyalty Number", "Year", "Month"])

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
41,101902,2017,1,0,0,0,0,0.0,0,0
42,101902,2017,1,0,0,0,0,0.0,0,0
16942,101902,2017,2,0,0,0,0,0.0,0,0
16943,101902,2017,2,0,0,0,0,0.0,0,0
33843,101902,2017,3,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
371685,992168,2018,10,0,0,0,0,0.0,0,0
130846,992168,2018,11,11,5,16,3360,336.0,502,41
336313,992168,2018,11,1,1,2,546,54.0,343,28
405486,992168,2018,12,15,0,15,3120,312.0,0,0


OBSERVACIONES:

Estos registros no son duplicados erróneos, sino múltiples registros de actividad para un mismo cliente dentro del mismo mes.

In [10]:
# DECISIÓN: Como el análisis es mensual y las variables son acumulativas (vuelos, distancia, puntos): se agrega los datos por cliente-año-mes.
df_flights_monthly = (
    df_flights
    .groupby(["Loyalty Number", "Year", "Month"], as_index=False)
    .sum()
)

In [11]:
# Comprobación de un único registro mensual
df_flights_monthly.shape
df_flights_monthly.duplicated(
    subset=["Loyalty Number", "Year", "Month"]
).sum()

np.int64(0)

In [12]:
df_flights.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [13]:
df_flights_monthly.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [14]:
df_flights.shape

(405624, 10)

In [15]:
df_flights_monthly.shape

(401688, 10)

CONCLUSIÓN: 

Tras la agregación por cliente, año y mes, se mantiene la misma estructura de columnas, pero cada fila representa ahora un único registro mensual de actividad por cliente, evitando duplicidades y preservando toda la información relevante.

In [16]:
# Valores nulos
df_flights.isna().sum()      

Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

OBSERVACIONES: 

No se observan nulos en las variables, por lo que no es necesaria gestión alguna.

In [17]:
# Estadística descriptiva básica
df_flights.describe()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
count,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0
mean,550037.873084,2017.5,6.5,4.115052,1.031805,5.146858,1208.880059,123.692721,30.696872,2.484503
std,258935.286969,0.500001,3.452057,5.225518,2.076869,6.521227,1433.15532,146.599831,125.486049,10.150038
min,100018.0,2017.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,326961.0,2017.0,3.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,550834.0,2017.5,6.5,1.0,0.0,1.0,488.0,50.0,0.0,0.0
75%,772194.0,2018.0,9.25,8.0,1.0,10.0,2336.0,239.0,0.0,0.0
max,999986.0,2018.0,12.0,21.0,11.0,32.0,6293.0,676.5,876.0,71.0


OBSERVACIONES: 

A) Las variables relacionadas con la actividad de vuelo presentan distribuciones asimétricas, con diferencias notables entre la media y la mediana en métricas como vuelos reservados, distancia volada y puntos acumulados. Esto sugiere la existencia de un grupo reducido 
de clientes con una actividad significativamente superior al promedio.

B) Asimismo, se observa que una gran proporción de registros presenta valores cero en variables como vuelos, distancia o puntos redimidos, lo cual es consistente con clientes con baja o nula actividad en determinados meses. La redención de puntos se concentra en un subconjunto pequeño de clientes, mientras que la mayoría acumula puntos sin redimirlos.

CONCLUSION FINAL EDA 1: Customer Flight Activity

Tras la exploración inicial, no se detectan problemas estructurales en las variables del dataset. Aunque se observan múltiples registros por cliente y mes, estos corresponden a fragmentos de actividad válidos.

Para evitar duplicidades lógicas y facilitar el análisis posterior, se ha agregado la información a nivel mensual por cliente, manteniendo todas las columnas originales. No ha sido necesario eliminar ninguna variable del conjunto de datos.

In [18]:
# EDA 2: Dataset Customer Loyalty History.csv

df_loyalty = pd.read_csv("../data/Customer Loyalty History.csv")

In [19]:
# Exploración del dataset (variables)
df_loyalty.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


OBSERVACIONES:

A) Cada fila parece un cliente único, el Loyalty Number.

B) Hay variables demográficas estables (país, ciudad, educación...) y de fidelización a nivel cliente, con variables categóricas y numéricas.

C) Salario con muchos nulos

D) Nulos de cancelaciones, coherenters con clientes activos que no han cancelado su membresía, y siguen activos en el programa de fidelización.

In [20]:
# Nº de filas y columnas
df_loyalty.shape  

(16737, 16)

In [21]:
# Estructura y tipos de datos
df_loyalty.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

OBSERVACIONES:

A) El dataset presenta una estructura adecuada para el análisis, con una fila por cliente y una clave única (Loyalty Number) completa. Las variables categóricas no presentan valores nulos.

B) La variable Salary presenta valores nulos, lo que sugiere información incompleta para parte de los clientes. Estos valores se mantendrán y se tratarán según el contexto de cada análisis. 12499 DE 16737: 4238 valores nulos aproximadamente.

C) Sólo alrededor del 12% de los clientes (2067) ha cancelado su membresía, el resto sigue activo, por lo que no se consideran errores de calidad de los datos.

In [22]:
df_loyalty.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [23]:
# Duplicados
df_loyalty.duplicated().sum()

np.int64(0)

OBSERVACIONES: 

NO HAY DUPLICADOS

A) Loyalty Number es el identificador único.

B) Una fila = Un cliente

In [24]:
# Valores nulos
df_loyalty.isna().sum()  

Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

OBSERVACIONES:

A) Alrededor del 25% de los clientes no hay informado de su salario; se desconoce el motivo. No se imputa ni se elimina en esta fase. Se tratará según el análisis, filtrando cuando toque o usanda medianas.

B) Sólo han cancelado su membresía 2067, el resto sigue activo. Por lo tanto, estos NaN no son errores de calidad de los datos, representa "no cancelado", que siguen fidelizados.

In [25]:
# Estadística descriptiva básica
df_loyalty.describe()

Unnamed: 0,Loyalty Number,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
count,16737.0,12499.0,16737.0,16737.0,16737.0,2067.0,2067.0
mean,549735.880445,79245.609409,7988.896536,2015.253211,6.669116,2016.503145,6.962748
std,258912.132453,35008.297285,6860.98228,1.979111,3.398958,1.380743,3.455297
min,100018.0,-58486.0,1898.01,2012.0,1.0,2013.0,1.0
25%,326603.0,59246.5,3980.84,2014.0,4.0,2016.0,4.0
50%,550434.0,73455.0,5780.18,2015.0,7.0,2017.0,7.0
75%,772019.0,88517.5,8940.58,2017.0,10.0,2018.0,10.0
max,999986.0,407228.0,83325.38,2018.0,12.0,2018.0,12.0


OBSERVACIONES:

A) La variable Salary presenta una alta dispersión y contiene valores negativos y extremos, lo que sugiere posibles outliers o errores de registro que deberán tenerse en cuenta en los análisis posteriores.

B) CLV (Customer Lifetime Value: estimación del valor económico total que un cliente aporta a la empresa durante toda su relación con ella. Permite identificar clientes más rentables y analizar diferencias entre segmentos. Valor total del cliente en el tiempo”): distribución asimétrica a la derecha, en la que un grupo reducido de clientes concentra un CLV muy elevado.

In [26]:
# Distribución de variables categóricas
df_loyalty["Loyalty Card"].value_counts()

Loyalty Card
Star      7637
Nova      5671
Aurora    3429
Name: count, dtype: int64

OBSERVACIONES:

La mayoría de los clientes pertenece al nivel de tarjeta Star, seguido de Nova y Aurora, lo que indica una distribución desigual entre los distintos niveles del programa de fidelización.

In [27]:
df_loyalty["Education"].value_counts()

Education
Bachelor                10475
College                  4238
High School or Below      782
Doctor                    734
Master                    508
Name: count, dtype: int64

OBSERVACIONES:

A) Predomina claramente el nivel Bachelor.

b) Los niveles más altos (Master, Doctor) son minoritarios.

c) Existe diversidad educativa, pero concentrada en niveles medios.

In [28]:
df_loyalty["Gender"].value_counts()

Gender
Female    8410
Male      8327
Name: count, dtype: int64

OBSERVACIONES:

La distribución por género es prácticamente equilibrada, lo que sugiere una representación similar de clientes masculinos y femeninos en el programa de fidelización y reduce la probabilidad de sesgos en análisis comparativos posteriores.

CONCLUSIÓN FINAL EDA 2: Customer Loyalty History

El dataset de historial de fidelización presenta una estructura adecuada para el análisis, con una fila por cliente, sin registros duplicados y con una clave única (`Loyalty Number`) completa. Las variables categóricas se encuentran bien definidas y no presentan valores nulos, lo que facilita su uso en análisis comparativos y visualizaciones.

Se detectan valores nulos en la variable Salary y en las variables de cancelación. En el caso del salario, la presencia de valores faltantes, negativos y extremos sugiere la necesidad de un tratamiento específico en análisis posteriores. Los valores nulos en las columnas de cancelación corresponden a clientes que no han cancelado su membresía y no se consideran errores de calidad de datos.

Las variables numéricas, especialmente Salary y CLV, muestran distribuciones asimétricas y una alta variabilidad, lo que indica la existencia de posibles outliers. En cuanto a las variables categóricas, se observa un predominio de la tarjeta de fidelización Star y del nivel educativo Bachelor, mientras que la distribución por género es equilibrada. Estos patrones serán tenidos en cuenta en las fases de análisis y visualización posteriores.


In [29]:
# UNIÓN DE DATASETS
# “Se verifica que la columna Loyalty Number tuviera el mismo tipo de dato en ambos datasets, lo que garantiza una unión correcta 
# sin necesidad de conversiones adic ionales.”
# LEFT JOIN desde vuelos hacia loyalty: se mantiene toda la actividad de los vuelos, se añade la información demográfica cuando existe,
# si falta información de loyalty aparece como NaN, no se pierden registros de vuelos.
df_merged = pd.merge(
    df_flights_monthly,
    df_loyalty,
    on="Loyalty Number",
    how="left"
)

In [30]:
# COMPROBACIONES
df_merged.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,...,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,...,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100018,2017,2,2,2,4,1320,132.0,0,0,...,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
2,100018,2017,3,14,3,17,2533,253.0,438,36,...,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
3,100018,2017,4,4,0,4,924,92.0,0,0,...,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
4,100018,2017,5,0,0,0,0,0.0,0,0,...,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,


OBSERVACIONES:

A) Se ha realizado una unión de los datasets utilizando un `left join`, tomando como base la actividad mensual de vuelos e incorporando la información demográfica y de fidelización de los clientes mediante la clave `Loyalty Number`.

B) Tras la unión, cada fila representa la actividad mensual de un cliente, enriquecida con sus características de perfil cuando están disponibles. Los valores nulos resultantes corresponden a registros de actividad sin información asociada en el historial de fidelización y se mantienen para preservar la totalidad de la actividad registrada.

In [31]:
df_merged.shape

(401688, 25)

OBSERVACIONES:

A)  401.688 filas, que son la actividad mensual de vuelos (tu unidad de análisis)

B) 25 columnas, que son vuelos + perfil de cliente

In [32]:
df_merged.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed',
       'Country', 'Province', 'City', 'Postal Code', 'Gender', 'Education',
       'Salary', 'Marital Status', 'Loyalty Card', 'CLV', 'Enrollment Type',
       'Enrollment Year', 'Enrollment Month', 'Cancellation Year',
       'Cancellation Month'],
      dtype='object')

In [40]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401688 entries, 0 to 401687
Data columns (total 25 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               401688 non-null  int64  
 1   Year                         401688 non-null  int64  
 2   Month                        401688 non-null  int64  
 3   Flights Booked               401688 non-null  int64  
 4   Flights with Companions      401688 non-null  int64  
 5   Total Flights                401688 non-null  int64  
 6   Distance                     401688 non-null  int64  
 7   Points Accumulated           401688 non-null  float64
 8   Points Redeemed              401688 non-null  int64  
 9   Dollar Cost Points Redeemed  401688 non-null  int64  
 10  Country                      401688 non-null  object 
 11  Province                     401688 non-null  object 
 12  City                         401688 non-null  object 
 13 

In [33]:
df_merged.isna().sum()

Loyalty Number                      0
Year                                0
Month                               0
Flights Booked                      0
Flights with Companions             0
Total Flights                       0
Distance                            0
Points Accumulated                  0
Points Redeemed                     0
Dollar Cost Points Redeemed         0
Country                             0
Province                            0
City                                0
Postal Code                         0
Gender                              0
Education                           0
Salary                         101712
Marital Status                      0
Loyalty Card                        0
CLV                                 0
Enrollment Type                     0
Enrollment Year                     0
Enrollment Month                    0
Cancellation Year              352080
Cancellation Month             352080
dtype: int64

OBSERVACIONES:

A) Salary: 101.712 nulos. Esto ocurre, como ya hemos visto en df_loyalty, porque el salario es una variable del cliente; hay clientes sin salario informado; al repetirse por mes, los NaN se multiplican. Se mantienen para evitar imputaciones que puedan introducir sesgos.

B) Cancellation Year / Month1: 352.080 nulos. Esto es totalmente esperado: la mayoría de clientes no ha cancelado; esos NaN se repiten en todos sus meses de actividad. Los valores nulos en las variables de cancelación corresponden a clientes activos dentro del programa de fidelización y no representan errores de calidad de datos.

## Fase 2: Análisis Estadístico

Análisis de variables numéricas:

    Estadísticas descriptivas (media, mediana, moda, desviación estándar, etc.) de las variables numéricas relevantes.

    Identificación de valores atípicos en las variables numéricas.
    
    Análisis de correlación entre variables numéricas.
    
Análisis de variables categóricas:

    Distribución de frecuencias de las variables categóricas relevantes.

## VALORES NUMÉRICOS

In [34]:
# ESTADÍSTICAS DESCRIPTIVAS
df_merged[[
    "Flights Booked",
    "Total Flights",
    "Distance",
    "Points Accumulated",
    "Points Redeemed",
    "Dollar Cost Points Redeemed",
    "Salary",
    "CLV"
]].describe()

Unnamed: 0,Flights Booked,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Salary,CLV
count,401688.0,401688.0,401688.0,401688.0,401688.0,401688.0,299976.0,401688.0
mean,4.155374,5.19729,1220.725451,124.904743,30.99766,2.508848,79245.609409,7988.896536
std,5.269271,6.576952,1446.440549,147.982107,126.104987,10.20009,35006.955163,6860.785852
min,0.0,0.0,0.0,0.0,0.0,0.0,-58486.0,1898.01
25%,0.0,0.0,0.0,0.0,0.0,0.0,59237.0,3980.84
50%,1.0,1.0,524.0,53.0,0.0,0.0,73455.0,5780.18
75%,8.0,10.0,2352.0,240.0,0.0,0.0,88519.0,8940.58
max,39.0,57.0,11244.0,1216.5,996.0,80.0,407228.0,83325.38


OBSERVACIONES:

### A) Flights Booked / Total Flights

Datos clave:

Mediana = 1 vuelo

Media ≈ 4–5 vuelos

75% ≤ 8–10 vuelos

Máximos: 39 / 57

La mayoría de los registros mensuales corresponde a clientes con baja actividad, mientras que un subconjunto reducido concentra un número elevado de vuelos, lo que genera una distribución asimétrica hacia la derecha.

Esto conecta directamente con: outliers, fidelización y análisis por segmentos, que veremos más adelante.

### B) Distance

Mediana ≈ 524

Media ≈ 1.220

Máximo ≈ 11.244

La distancia volada presenta una alta variabilidad, con una media significativamente superior a la mediana, lo que sugiere la existencia de clientes que realizan trayectos largos y elevan el promedio.

### C) Points Accumulated

Mediana = 53

Media ≈ 125

75% = 240

Máximo > 1.200

La acumulación de puntos muestra una distribución asimétrica, coherente con la relación entre distancia volada y puntos obtenidos.

### D) Points Redeemed

Mediana = 0

75% = 0

Máximo ≈ 996

La mayoría de los registros no presenta redención de puntos, lo que indica que la redención se concentra en un subconjunto reducido de clientes.

### E) Dollar Cost Points Redeemed

Mediana = 0

Máximo = 80

Refuerza la idea anterior: El coste asociado a la redención de puntos es poco frecuente y está concentrado en pocos registros.

### F) Salary

Mediana ≈ 73.455

Media ≈ 79.246

Mínimo negativo

Máximo ≈ 407.228

La variable Salary presenta valores negativos y extremos, lo que sugiere la presencia de outliers o errores de registro. Estos valores se tendrán en cuenta en análisis posteriores, evitando imputaciones automáticas.

### G) CLV

Mediana ≈ 5.780

Media ≈ 7.989

Máximo > 83.000

El CLV presenta una distribución claramente asimétrica, con un grupo reducido de clientes de alto valor que elevan la media.

In [41]:
# Redondeo sólo en las salidas
df_merged[[
    "Salary",
    "CLV",
    "Distance",
    "Points Accumulated"
]].describe().round(2)


Unnamed: 0,Salary,CLV,Distance,Points Accumulated
count,299976.0,401688.0,401688.0,401688.0
mean,79245.61,7988.9,1220.73,124.9
std,35006.96,6860.79,1446.44,147.98
min,-58486.0,1898.01,0.0,0.0
25%,59237.0,3980.84,0.0,0.0
50%,73455.0,5780.18,524.0,53.0
75%,88519.0,8940.58,2352.0,240.0
max,407228.0,83325.38,11244.0,1216.5


OBSERVACIONES (valores seleccionados):

A) Las variables Salary, CLV, Distance y Points Accumulated presentan una alta variabilidad y distribuciones asimétricas, con diferencias claras entre la media y la mediana. En particular, Salary y CLV muestran valores extremos que elevan la media, lo que sugiere la presencia de posibles outliers.

B) La distancia volada y los puntos acumulados presentan una relación coherente, con valores medios superiores a la mediana, lo que indica que una parte reducida de clientes concentra trayectos largos y mayor acumulación de puntos.

### VALORES ATÍPICOS (los que tienen dispersión alta y/o sentido económico)

In [None]:
# 1.- Salary
Q1 = df_merged["Salary"].quantile(0.25)
Q3 = df_merged["Salary"].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

lower_bound, upper_bound

(np.float64(15314.0), np.float64(132442.0))

In [43]:
outliers_salary = df_merged[
    (df_merged["Salary"] < lower_bound) |
    (df_merged["Salary"] > upper_bound)
]

outliers_salary.shape

(13176, 25)

OBSERVACIONES:

A) El método IQR identifica valores atípicos en la variable Salary (muy asimétrica), tanto por valores bajos como por valores elevados. Estos outliers representan un pequeño porcentaje del total de registros (alredecor del 3,3%, 13.1776 de 401.608 filas) y se explican por la alta dispersión salarial y la repetición mensual del salario por cliente (un solo cliente outlier genera muchas filas outlier).

B) Impacta directamente en el análisis socioeconómico.

C) Los valores atípicos no se eliminan del conjunto de datos base y se tratarán de forma contextual en los análisis y visualizaciones donde el salario sea relevante.

In [47]:
# 2.- CLV
Q1 = df_merged["CLV"].quantile(0.25)
Q3 = df_merged["CLV"].quantile(0.75)
IQR = Q3 - Q1

lower_clv = Q1 - 1.5 * IQR
upper_clv = Q3 + 1.5 * IQR

lower_clv, upper_clv

(np.float64(-3458.7699999999995), np.float64(16380.189999999999))

In [45]:
outliers_clv = df_merged[
    (df_merged["CLV"] < lower_clv) |
    (df_merged["CLV"] > upper_clv)
]

outliers_clv.shape

(35640, 25)

OBSERVACIONES:

A) El análisis mediante el método IQR identifica valores atípicos en la variable CLV, principalmente en el extremo superior de la distribución. Estos valores corresponden a un subconjunto reducido de clientes con un valor significativamente mayor para la empresa, lo cual es coherente con la naturaleza del indicador CLV.

Por lo tanto, la variable es asimétrica a la derecha, ya que la mayoría de valores están en la parte baja y hay una cola larga de valores altos. El IQR son sólo rangos estadísticos, no tiene el significado de negocio.

B) Los outliers de esta variable representan en torno al 8,9% (35.640 sobre 401.688 filas aproximadamente). Esto no es excesivo para CLV, y además, como en el Salary hay un factor clave que es la Repetición Mensual, ya que CLV es una variable del cliente y nos indica que un cliente con CLV alto ha producido muchas filas outlier. 

Se podría decir que en CLV, outlier significa cliente muy valioso.

C) Es una variable estratégica. Estos valores no se consideran errores y se mantienen en el conjunto de datos para su análisis posterior.

D) Los valores no se redondean en los cálculos para no perder precisión. El redondeo se utilizará únicamente en la presentación de resultados para facilitar la interpretación.

In [48]:
# 3.- Flights Booked
Q1 = df_merged["Flights Booked"].quantile(0.25)
Q3 = df_merged["Flights Booked"].quantile(0.75)
IQR = Q3 - Q1

lower_fb = Q1 - 1.5 * IQR
upper_fb = Q3 + 1.5 * IQR

lower_fb, upper_fb

(np.float64(-12.0), np.float64(20.0))

In [49]:
outliers_flights = df_merged[
    (df_merged["Flights Booked"] < lower_fb) |
    (df_merged["Flights Booked"] > upper_fb)
]

outliers_flights.shape

(778, 25)

OBSERVACIONES:

A) Flights Booked tiene muchos valores bajos (0, 1, 2) y la distribución está muy concentrada en valores pequeños. Por esta razón, el IQR “matemáticamente” baja el límite inferior por debajo de 0, pero No existen vuelos negativos. En la práctica, los outliers relevantes son los valores altos.

B) El límite superior son más de 20 vuelos en un mes, por lo que se puede considerar una actividad atípica, ya qupe nos arroja un perfil viajero muy frecuente.

C) Ese grupo de outliers (778) representan aproximadamente un 0,19% del total, que son muy pocos: un grupo muy reducido clientes extremadamente activos, lo que refuerza la idea de que un pequeño subconjunto de clientes muy valiosos concentra gran parte de la actividad, como ya se había visto en la variable anterior, por lo que no se eliminan del conjunto de datos.

D) Dado que estos clientes representan comportamientos reales y relevantes para el negocio, los valores atípicos no se eliminan y se mantienen para su análisis posterior, especialmente en visualizaciones y segmentaciones de clientes.

In [50]:
# 4.- Distance
Q1 = df_merged["Distance"].quantile(0.25)
Q3 = df_merged["Distance"].quantile(0.75)
IQR = Q3 - Q1

lower_dist = Q1 - 1.5 * IQR
upper_dist = Q3 + 1.5 * IQR

lower_dist, upper_dist

(np.float64(-3528.0), np.float64(5880.0))

In [51]:
outliers_distance = df_merged[
    (df_merged["Distance"] < lower_dist) |
    (df_merged["Distance"] > upper_dist)
]

outliers_distance.shape

(392, 25)

OBSERVACIONES:

A) Se tiene de nuevo, como en en Flights Booked, el límite inferior negativo aunque la distancia no puede ser negativa, pero el IQR es puramente estadístico y, como anteriormente, no tiene interpretación práctica.

B) Por otro lado, el límite superior es de aproximadamente 5.880 (km. o millas según la unidad) lo que indica que es un comportamiento poco frecuente; de un perfil típico de viajeros de larga distancia, viajes intercontinentales y/o clientes muy activos o con trayectos largos puntuales.

La variable Distance no especifica la unidad de medida en el dataset original. Dado el contexto del programa de fidelización y el rango de valores observados, se interpreta que la distancia está expresada en millas, aunque este supuesto se mantiene únicamente a efectos interpretativos.

C) 392 outliers son aproximadamente el 0,1 %, es decir muy pocos: un subconjunto muy pequeño, que ya hemos visto anteriormente, y/o trayectos excepcionales.

D) La variable Distance presenta valores atípicos asociados a clientes que realizan trayectos especialmente largos en determinados meses. Estos valores extremos tienen un impacto directo en métricas como la media y los puntos acumulados.  

E) Los valores atípicos se consideran representativos de comportamientos reales y no se eliminan del conjunto de datos, aunque se tendrán en cuenta en la interpretación de resultados y en las visualizaciones.


CONCLUSIÓN:

A) El análisis de outliers se centró en las variables con mayor dispersión y relevancia de negocio, donde los valores extremos pueden afectar a la interpretación. En variables derivadas o con distribuciones muy concentradas en cero, el análisis de outliers no aporta información adicional.

B) El método IQR es puramente estadístico y no tiene en cuenta las restricciones naturales de la variable. En variables con distribuciones asimétricas y valores mínimos cercanos a cero, como Flights Booked o Distance, es habitual que el límite inferior resulte negativo, aunque no tenga interpretación práctica. En estos casos, como se ha hecho, el análisis lo centramos en el límite superior.

In [36]:
# ANÁLISIS DE CORRELACIÓN

## VALORES CATEGÓRICOS

In [37]:
# DISTRIBUCIÓN DE FRECUENCIAS