### UNIÓN DE LOS CONJUNTOS DE DATOS PROPORCIONADOS EN CSV

Importamos las liberías que necesitamos:

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np

Cargamos los csv, queremos ver todas las filas y columnas:

In [2]:
# ver todas las columnas
pd.set_option('display.max_columns', None)

In [3]:
# ver todas las filas
pd.set_option('display.max_rows', None)

In [4]:
df_customer_flight = pd.read_csv("Customer Flight Activity.csv")

In [5]:
df_customer_loyalty = pd.read_csv("Customer Loyalty History.csv")

In [6]:
df_customer_flight.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [7]:
df_customer_loyalty.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


Tenemos que unir los dos conjuntos de datos de la forma más eficiente. Vamos a utilizar para ello el MÉTODO MERGE. 

Hemo optado por un LEFT JOIN porque conserva todos los registros de vuelo, es decir cada fila de df_flight representa una actividad real registrada y queremos mantener todas las actividades, aunque hay clientes sin historial en df_loyalty. En el caso de que hubiésemos utilizado un INNER JOIN, perderíamos cualquier vuelo cuyo cliente no aparezca en df_loyalty y si pensamos más allá del ámbito académico en el que se desarrolla esta prueba, una aerolínea que al tratar sus datos no tenga en cuenta éstos datos, podría tener graves consecuencias y es que precisamente al utilizar LEFT JOIN se evita pérdida de información. Con INNER solo nos quedaríamos con vuelos de clientes presentes en ambos conjuntos de datos, eliminando registros de vuelo válidos.

Además, el sentido de la relación es 1 a N, porque un cliente (Loyalty Number) puede tener muchos vuelos (df_flight). Pero en df_loyalty cada cliente aparece una sola vez (su historial). Al utilizar merge con LEFT JOIN, se respeta relación, de modo que por cada vuelo trae los datos de su clientes si existen. También desde el punto de vista de la eficiencia, con LEFT JOIN, Pandas solo tiene que garantizar la longitud del dataframe izquierdo. 


Primero vamos a limpiar los duplicados existentes en df_customer_flight y después procedemos a la unión:

In [8]:
# Limpiar duplicados exactos en vuelos
df_customer_flight = df_customer_flight.drop_duplicates()

# 2. Asegurar unicidad de clientes en loyalty
df_customer_loyalty = df_customer_loyalty.drop_duplicates(subset="Loyalty Number", keep="last")

# 3. Unión final
df_final = pd.merge(df_customer_flight, df_customer_loyalty, on="Loyalty Number", how="left")

In [9]:
df_final.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100102,2017,1,10,4,14,2030,203.0,0,0,Canada,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3,,
2,100140,2017,1,6,0,6,1200,120.0,0,0,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7,,
3,100214,2017,1,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8,,
4,100272,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1,,


In [10]:
df_final.tail()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
403755,999902,2018,12,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,M1R 4K3,Male,College,,Married,Aurora,7290.07,Standard,2014,5,,
403756,999911,2018,12,0,0,0,0,0.0,0,0,Canada,Newfoundland,St. John's,A1C 6H9,Male,Doctor,217943.0,Single,Nova,8564.77,Standard,2012,8,,
403757,999940,2018,12,3,0,3,1233,123.0,0,0,Canada,Quebec,Quebec City,G1B 3L5,Female,Bachelor,47670.0,Married,Nova,20266.5,Standard,2017,7,,
403758,999982,2018,12,0,0,0,0,0.0,0,0,Canada,British Columbia,Victoria,V10 6T5,Male,College,,Married,Star,2631.56,Standard,2018,7,,
403759,999986,2018,12,0,0,0,0,0.0,0,0,Canada,Ontario,Ottawa,K1F 2R2,Female,Bachelor,46594.0,Married,Nova,8257.01,2018 Promotion,2018,2,,


Ahora vamos a proceder a guardar este dataframe de unión en un csv para usarlo posteriormente en la LIMPIEZA DE DATOS:

In [11]:
df_final.to_csv("union_conjunto.csv", index=False, encoding="utf-8")