# PreparaciÃ³n y Merge de Datos
## Customer Flight Activity & Loyalty History

## 1. Carga de librerÃ­as

En esta secciÃ³n importamos las librerÃ­as necesarias para trabajar con los datos.

- **pandas** y **numpy** para manipulaciÃ³n de datos.
- **matplotlib** y **seaborn** para visualizaciÃ³n posterior.
- Ajustamos algunas opciones de visualizaciÃ³n para facilitar la lectura de tablas grandes.

Este paso es imprescindible antes de comenzar cualquier anÃ¡lisis.


In [1]:
# =========================================
# 1) Imports
# =========================================

"""
LibrerÃ­as necesarias para:
- ManipulaciÃ³n de datos (pandas, numpy)
- VisualizaciÃ³n (matplotlib, seaborn)
- Mostrar tablas de forma mÃ¡s clara en el notebook
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from IPython.display import display

# ConfiguraciÃ³n para que se vean mejor las tablas
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)

print("âœ… LibrerÃ­as cargadas correctamente.")


âœ… LibrerÃ­as cargadas correctamente.


## 2. Carga de los datasets

Cargamos los dos archivos CSV proporcionados:

- **Customer Flight Activity**: contiene la actividad mensual de vuelos de cada cliente.
- **Customer Loyalty History**: contiene la informaciÃ³n demogrÃ¡fica y de perfil de cada cliente.

En este punto verificamos que los datos se cargan correctamente y revisamos su tamaÃ±o.

In [3]:
# =========================================
# 2) Carga de datos
# =========================================

"""
Leemos los dos archivos CSV proporcionados en el ejercicio.

- Customer Flight Analysis.csv â†’ actividad de vuelos mensual
- Customer Loyalty History.csv â†’ perfil del cliente
"""

df_flight = pd.read_csv("../data/raw/Customer Flight Activity.csv")
df_loyalty = pd.read_csv("../data/raw/Customer Loyalty History.csv")

print("ðŸ“Š Customer Flight Activity")
print(f"Filas: {df_flight.shape[0]} | Columnas: {df_flight.shape[1]}")

print("\nðŸ“Š Customer Loyalty History")
print(f"Filas: {df_loyalty.shape[0]} | Columnas: {df_loyalty.shape[1]}")

print("\nðŸ”Ž Vista rÃ¡pida Flight:")
display(df_flight.head())

print("\nðŸ”Ž Vista rÃ¡pida Loyalty:")
display(df_loyalty.head())



ðŸ“Š Customer Flight Activity
Filas: 405624 | Columnas: 10

ðŸ“Š Customer Loyalty History
Filas: 16737 | Columnas: 16

ðŸ”Ž Vista rÃ¡pida Flight:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0



ðŸ”Ž Vista rÃ¡pida Loyalty:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


Observamos que el dataset de vuelos contiene muchas mÃ¡s filas que el dataset de perfil.

Esto es coherente, ya que la tabla de vuelos registra actividad mensual (varias filas por cliente), mientras que la tabla de loyalty contiene una fila por cliente con informaciÃ³n demogrÃ¡fica.


## 3. ValidaciÃ³n de la clave de uniÃ³n

Antes de realizar el merge, es fundamental validar la columna comÃºn entre ambos datasets: **Loyalty Number**.

Comprobamos:

- Si existen valores nulos en la clave.
- Si el nÃºmero de clientes Ãºnicos coincide en ambos datasets.
- Si existen duplicados en la tabla de perfil.
- Si la tabla de vuelos tiene mÃ¡s de una fila por cliente-aÃ±o-mes.

Este paso evita errores como duplicaciones no deseadas o pÃ©rdida de informaciÃ³n en la uniÃ³n.

In [4]:
# =========================================
# 3) EDA pre-merge #1 â€” Clave y granularidad
# =========================================

"""
Objetivo:
Comprobar si podemos hacer el merge sin problemas:

1) Nulos en la clave 'Loyalty Number'
2) NÂº de clientes Ãºnicos en cada dataset
3) Duplicados de 'Loyalty Number' en el dataset de perfil (deberÃ­a ser 0)
4) Duplicados de (Loyalty Number, Year, Month) en el dataset de vuelos (esperado: 0 si es 1 fila por cliente/mes)
"""

clave = "Loyalty Number"

print("ðŸ”‘ Nulos en la clave")
print("Flight:", df_flight[clave].isna().sum())
print("Loyalty:", df_loyalty[clave].isna().sum())

print("\nðŸ‘¤ Clientes Ãºnicos (Loyalty Number)")
print("Flight:", df_flight[clave].nunique())
print("Loyalty:", df_loyalty[clave].nunique())

print("\nðŸ“Œ Duplicados de Loyalty Number en Loyalty (perfil)")
print(df_loyalty.duplicated(subset=[clave]).sum())

print("\nðŸ“Œ Duplicados de (Loyalty Number, Year, Month) en Flight (actividad)")
print(df_flight.duplicated(subset=[clave, "Year", "Month"]).sum())


ðŸ”‘ Nulos en la clave
Flight: 0
Loyalty: 0

ðŸ‘¤ Clientes Ãºnicos (Loyalty Number)
Flight: 16737
Loyalty: 16737

ðŸ“Œ Duplicados de Loyalty Number en Loyalty (perfil)
0

ðŸ“Œ Duplicados de (Loyalty Number, Year, Month) en Flight (actividad)
3936


Los resultados muestran que:

- No hay valores nulos en la clave.
- Ambos datasets tienen el mismo nÃºmero de clientes Ãºnicos.
- La tabla de perfil tiene una Ãºnica fila por cliente.
- La tabla de vuelos presenta duplicados por cliente-aÃ±o-mes.

El merge podrÃ¡ realizarse correctamente, pero antes debemos analizar esos duplicados para evitar doble conteo.


## 4. InspecciÃ³n de duplicados en la tabla de vuelos

Detectamos duplicados por (Loyalty Number, Year, Month).

En esta secciÃ³n analizamos:

- CuÃ¡ntas filas estÃ¡n implicadas.
- CuÃ¡ntos grupos cliente-mes estÃ¡n afectados.
- Si los registros duplicados son copias exactas o contienen informaciÃ³n diferente.

Este anÃ¡lisis nos permitirÃ¡ decidir cÃ³mo tratarlos correctamente.

In [5]:
# =========================================
# 4) InspecciÃ³n de duplicados en Flight por cliente-aÃ±o-mes
# =========================================

"""
Objetivo:
Entender quÃ© estÃ¡ pasando con los duplicados de (Loyalty Number, Year, Month).
Vamos a:
1) Extraer solo las filas duplicadas (todos los registros implicados)
2) Ver algunos ejemplos ordenados
3) Ver cuÃ¡ntas repeticiones hay por grupo
"""

# 1) Todas las filas que forman parte de un duplicado (no solo "la segunda")
duplicados_flight = df_flight[df_flight.duplicated(subset=[clave, "Year", "Month"], keep=False)].copy()

print("ðŸ“Œ Filas implicadas en duplicados (cliente-aÃ±o-mes):", duplicados_flight.shape[0])
print("ðŸ“Œ NÂº de grupos cliente-aÃ±o-mes duplicados:", duplicados_flight.groupby([clave, "Year", "Month"]).ngroups)

print("\nðŸ”Ž Ejemplos (primeros 10 registros duplicados ordenados):")
display(
    duplicados_flight.sort_values([clave, "Year", "Month"]).head(10)
)

# 2) TamaÃ±o de los duplicados por grupo (2, 3, 4...)
repeticiones = (
    duplicados_flight
    .groupby([clave, "Year", "Month"])
    .size()
    .value_counts()
    .sort_index()
)

print("\nðŸ“Š DistribuciÃ³n de repeticiones por grupo (cuÃ¡ntos grupos tienen 2 filas, 3 filas, etc.):")
display(repeticiones.to_frame(name="n_grupos"))


ðŸ“Œ Filas implicadas en duplicados (cliente-aÃ±o-mes): 7848
ðŸ“Œ NÂº de grupos cliente-aÃ±o-mes duplicados: 3912

ðŸ”Ž Ejemplos (primeros 10 registros duplicados ordenados):


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
41,101902,2017,1,0,0,0,0,0.0,0,0
42,101902,2017,1,0,0,0,0,0.0,0,0
16942,101902,2017,2,0,0,0,0,0.0,0,0
16943,101902,2017,2,0,0,0,0,0.0,0,0
33843,101902,2017,3,0,0,0,0,0.0,0,0
33844,101902,2017,3,0,0,0,0,0.0,0,0
50744,101902,2017,4,4,0,4,1460,146.0,0,0
185796,101902,2017,4,4,4,8,2384,238.0,488,40
67645,101902,2017,5,9,3,12,2748,274.0,0,0
67646,101902,2017,5,7,0,7,3318,331.0,0,0



ðŸ“Š DistribuciÃ³n de repeticiones por grupo (cuÃ¡ntos grupos tienen 2 filas, 3 filas, etc.):


Unnamed: 0,n_grupos
2,3888
3,24


Observamos que algunos duplicados son copias exactas, pero otros contienen valores distintos dentro del mismo cliente y mes.

Esto significa que no podemos eliminar todos los duplicados directamente sin perder informaciÃ³n. SerÃ¡ necesario diferenciarlos antes de actuar.

## 5. IdentificaciÃ³n de duplicados exactos y no exactos

En este paso distinguimos entre:

- Duplicados exactos: filas completamente iguales.
- Duplicados no exactos: misma clave cliente-mes pero con valores distintos.

Esta diferenciaciÃ³n es clave para decidir quÃ© registros pueden eliminarse y cuÃ¡les deben consolidarse.

In [6]:
# =========================================
# 5) Duplicados exactos vs no exactos en Flight
# =========================================

"""
Objetivo:
Distinguir entre:
- Duplicados exactos: filas 100% iguales â†’ se pueden eliminar.
- Duplicados no exactos: mismo cliente-aÃ±o-mes pero valores distintos â†’ hay que agregarlos.
"""

# 1) Duplicados exactos (todas las columnas iguales)
duplicados_exactos = df_flight.duplicated(keep="first").sum()
print("ðŸ“Œ NÂº de filas duplicadas exactas (todas las columnas iguales):", duplicados_exactos)

# 2) Duplicados por cliente-aÃ±o-mes
duplicados_cliente_mes = df_flight.duplicated(subset=[clave, "Year", "Month"]).sum()
print("ðŸ“Œ NÂº de duplicados por (Loyalty Number, Year, Month):", duplicados_cliente_mes)

# 3) Dentro de las filas duplicadas por cliente-mes, ver cuÃ¡ntos grupos son exactos vs no exactos
dups = df_flight[df_flight.duplicated(subset=[clave, "Year", "Month"], keep=False)].copy()

# Contamos cuÃ¡ntas filas Ãºnicas reales hay dentro de cada grupo (cliente-aÃ±o-mes)
# Si en un grupo hay 2 filas pero solo 1 fila Ãºnica â†’ eran exactos
unicos_por_grupo = dups.groupby([clave, "Year", "Month"]).apply(lambda x: x.drop_duplicates().shape[0])

print("\nðŸ“Š NÂº de grupos duplicados que en realidad son copias exactas (solo 1 fila Ãºnica en el grupo):")
print((unicos_por_grupo == 1).sum())

print("ðŸ“Š NÂº de grupos duplicados con informaciÃ³n distinta (mÃ¡s de 1 fila Ãºnica en el grupo):")
print((unicos_por_grupo > 1).sum())


ðŸ“Œ NÂº de filas duplicadas exactas (todas las columnas iguales): 1864
ðŸ“Œ NÂº de duplicados por (Loyalty Number, Year, Month): 3936

ðŸ“Š NÂº de grupos duplicados que en realidad son copias exactas (solo 1 fila Ãºnica en el grupo):
1846
ðŸ“Š NÂº de grupos duplicados con informaciÃ³n distinta (mÃ¡s de 1 fila Ãºnica en el grupo):
2066


  unicos_por_grupo = dups.groupby([clave, "Year", "Month"]).apply(lambda x: x.drop_duplicates().shape[0])


Se identifican dos situaciones:

- Existen filas duplicadas exactas que pueden eliminarse sin pÃ©rdida de informaciÃ³n.
- Existen registros con diferencias reales dentro del mismo cliente y mes, que deberÃ¡n consolidarse para evitar doble conteo.

El siguiente paso serÃ¡ eliminar Ãºnicamente los duplicados exactos.

## 6. EliminaciÃ³n de duplicados exactos

Eliminamos Ãºnicamente las filas que son completamente iguales en todas sus columnas.

De esta manera reducimos el ruido del dataset sin afectar a los registros que contienen informaciÃ³n distinta.

In [7]:
# =========================================
# 6) Flight: eliminar duplicados exactos
# =========================================

"""
Objetivo:
Eliminar filas duplicadas exactas (todas las columnas iguales).
Esto NO afecta a los casos donde un mismo cliente-mes tiene informaciÃ³n distinta.
"""

filas_antes = df_flight.shape[0]

df_flight_sin_exactos = df_flight.drop_duplicates().copy()

filas_despues = df_flight_sin_exactos.shape[0]

print("ðŸ“‰ EliminaciÃ³n de duplicados exactos en Flight")
print("Filas antes:", filas_antes)
print("Filas despuÃ©s:", filas_despues)
print("Filas eliminadas:", filas_antes - filas_despues)

print("\nðŸ“Œ Duplicados por (cliente, aÃ±o, mes) tras quitar exactos:")
print(df_flight_sin_exactos.duplicated(subset=["Loyalty Number", "Year", "Month"]).sum())


ðŸ“‰ EliminaciÃ³n de duplicados exactos en Flight
Filas antes: 405624
Filas despuÃ©s: 403760
Filas eliminadas: 1864

ðŸ“Œ Duplicados por (cliente, aÃ±o, mes) tras quitar exactos:
2072


Se han eliminado los duplicados exactos correctamente.

Sin embargo, todavÃ­a existen duplicados por cliente-aÃ±o-mes con informaciÃ³n distinta, por lo que el siguiente paso serÃ¡ consolidar la tabla a una fila por cliente y mes.

## 7. ConsolidaciÃ³n de la tabla de vuelos

Para evitar doble conteo, agrupamos la tabla por:

- Loyalty Number
- Year
- Month

Aplicamos:
- SUM en las mÃ©tricas mensuales (vuelos, distancia, puntos).
- MAX en Total Flights, ya que puede representar un acumulado.

El objetivo es dejar una Ãºnica fila por cliente y mes.

In [8]:
# =========================================
# 7) Flight: consolidar a nivel cliente-aÃ±o-mes
# =========================================

"""
Objetivo:
Dejar Flight con 1 fila por (Loyalty Number, Year, Month), evitando doble conteo.

Regla de agregaciÃ³n:
- SUMA (porque son mÃ©tricas del mes): 
  Flights Booked, Flights with Companions, Distance, Points Accumulated,
  Points Redeemed, Dollar Cost Points Redeemed

- MAX para Total Flights:
  Por el enunciado, puede ser un acumulado (incluye meses anteriores), asÃ­ que
  sumar podrÃ­a inflar el dato.
"""

filas_antes = df_flight_sin_exactos.shape[0]

df_flight_mensual = (
    df_flight_sin_exactos
    .groupby(["Loyalty Number", "Year", "Month"], as_index=False)
    .agg({
        "Flights Booked": "sum",
        "Flights with Companions": "sum",
        "Total Flights": "max",
        "Distance": "sum",
        "Points Accumulated": "sum",
        "Points Redeemed": "sum",
        "Dollar Cost Points Redeemed": "sum"
    })
)

filas_despues = df_flight_mensual.shape[0]

print("ðŸ“Œ ConsolidaciÃ³n Flight a nivel cliente-aÃ±o-mes")
print("Filas antes:", filas_antes)
print("Filas despuÃ©s:", filas_despues)
print("Filas reducidas:", filas_antes - filas_despues)

print("\nâœ… Duplicados por (Loyalty Number, Year, Month) tras consolidar:")
print(df_flight_mensual.duplicated(subset=["Loyalty Number", "Year", "Month"]).sum())

print("\nðŸ”Ž Vista rÃ¡pida del Flight consolidado:")
display(df_flight_mensual.head())


ðŸ“Œ ConsolidaciÃ³n Flight a nivel cliente-aÃ±o-mes
Filas antes: 403760
Filas despuÃ©s: 401688
Filas reducidas: 2072

âœ… Duplicados por (Loyalty Number, Year, Month) tras consolidar:
0

ðŸ”Ž Vista rÃ¡pida del Flight consolidado:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100018,2017,2,2,2,4,1320,132.0,0,0
2,100018,2017,3,14,3,17,2533,253.0,438,36
3,100018,2017,4,4,0,4,924,92.0,0,0
4,100018,2017,5,0,0,0,0,0.0,0,0


Tras la consolidaciÃ³n, la tabla queda sin duplicados por cliente-aÃ±o-mes.

La granularidad ahora es correcta y el dataset de vuelos estÃ¡ preparado para realizar el merge sin riesgo de inflar mÃ©tricas.

## 8. RevisiÃ³n de tipos y rangos

Antes del merge, revisamos:

- Los tipos de datos de ambas tablas.
- El rango de Year y Month.
- Un resumen bÃ¡sico de la variable Salary.

Este paso permite detectar posibles incoherencias antes de unir los datasets.

In [9]:
# =========================================
# 8) RevisiÃ³n rÃ¡pida de tipos (dtypes) y rangos bÃ¡sicos
# =========================================

"""
Objetivo:
Comprobar que las columnas clave para el anÃ¡lisis tienen tipos razonables
y que Year/Month tienen rangos coherentes.
"""

print("ðŸ§¾ Tipos de datos â€” Flight mensual")
display(df_flight_mensual.dtypes.to_frame(name="dtype"))

print("\nðŸ§¾ Tipos de datos â€” Loyalty")
display(df_loyalty.dtypes.to_frame(name="dtype"))

print("\nðŸ“… Rango de fechas en Flight (Year y Month)")
print("AÃ±os:", df_flight_mensual["Year"].min(), "â†’", df_flight_mensual["Year"].max())
print("Meses:", df_flight_mensual["Month"].min(), "â†’", df_flight_mensual["Month"].max())

print("\nðŸ’° Salary (Loyalty) â€” vistazo rÃ¡pido")
print(df_loyalty["Salary"].describe())


ðŸ§¾ Tipos de datos â€” Flight mensual


Unnamed: 0,dtype
Loyalty Number,int64
Year,int64
Month,int64
Flights Booked,int64
Flights with Companions,int64
Total Flights,int64
Distance,int64
Points Accumulated,float64
Points Redeemed,int64
Dollar Cost Points Redeemed,int64



ðŸ§¾ Tipos de datos â€” Loyalty


Unnamed: 0,dtype
Loyalty Number,int64
Country,object
Province,object
City,object
Postal Code,object
Gender,object
Education,object
Salary,float64
Marital Status,object
Loyalty Card,object



ðŸ“… Rango de fechas en Flight (Year y Month)
AÃ±os: 2017 â†’ 2018
Meses: 1 â†’ 12

ðŸ’° Salary (Loyalty) â€” vistazo rÃ¡pido
count     12499.000000
mean      79245.609409
std       35008.297285
min      -58486.000000
25%       59246.500000
50%       73455.000000
75%       88517.500000
max      407228.000000
Name: Salary, dtype: float64


Los tipos de datos y los rangos de fechas son coherentes.

En Salary se observan valores nulos y algunos valores atÃ­picos (por ejemplo negativos), pero en esta fase no realizamos limpieza profunda. La limpieza completa se realizarÃ¡ en el notebook de EDA posterior.

## 9. Merge de los datasets y guardado

Realizamos un LEFT JOIN desde la tabla de vuelos consolidada hacia la tabla de perfil.

Elegimos LEFT JOIN para:

- Mantener toda la actividad de vuelos.
- AÃ±adir informaciÃ³n demogrÃ¡fica y de perfil a cada observaciÃ³n mensual.

Finalmente guardamos el dataset unido para trabajar el anÃ¡lisis completo en otro notebook.

In [10]:
# =========================================
# 9) Merge + guardado del dataset unido
# =========================================

"""
Objetivo:
Unir el dataset mensual de actividad (df_flight_mensual) con el perfil del cliente (df_loyalty)
usando 'Loyalty Number' como clave.

Estrategia:
- LEFT JOIN desde Flight mensual: mantenemos toda la actividad de vuelos
- AÃ±adimos las variables del perfil desde Loyalty History

DespuÃ©s:
- Guardamos el resultado a CSV para trabajar la limpieza y EDA completa en otro notebook.
"""

df_merged = df_flight_mensual.merge(df_loyalty, on="Loyalty Number", how="left")

print("âœ… Merge completado")
print("Filas:", df_merged.shape[0], "| Columnas:", df_merged.shape[1])

# ComprobaciÃ³n mÃ­nima: nulos en la clave tras el merge (deberÃ­a ser 0)
print("\nðŸ”‘ Nulos en Loyalty Number tras merge:", df_merged["Loyalty Number"].isna().sum())

# Guardado del CSV unido
ruta_salida = "../data/processed/dataset_unido.csv"
df_merged.to_csv(ruta_salida, index=False)

print(f"\nðŸ’¾ Archivo guardado en: {ruta_salida}")

print("\nðŸ”Ž Vista rÃ¡pida del dataset unido:")
display(df_merged.head())



âœ… Merge completado
Filas: 401688 | Columnas: 25

ðŸ”‘ Nulos en Loyalty Number tras merge: 0

ðŸ’¾ Archivo guardado en: ../data/processed/dataset_unido.csv

ðŸ”Ž Vista rÃ¡pida del dataset unido:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100018,2017,2,2,2,4,1320,132.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
2,100018,2017,3,14,3,17,2533,253.0,438,36,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
3,100018,2017,4,4,0,4,924,92.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
4,100018,2017,5,0,0,0,0,0.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,


El merge se ha realizado correctamente y el nÃºmero de filas se mantiene.

El dataset resultante combina la actividad mensual con las variables de perfil del cliente. Este archivo serÃ¡ la base para el anÃ¡lisis estadÃ­stico y las visualizaciones en la siguiente fase.