# Evaluación Final Módulo 3

## Fase 1: Exploración y Limpieza 

1. Exploración Inicial:
    * Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.
    * Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.
    * Une los dos conjuntos de datos de la forma más eficiente. 

2. LimpiezadeDatos:
    * Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos estén completos. Verifica la consistencia y corrección de los datos para asegurarte de que los datos se presenten de forma coherente.
    * Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar tipos de datos) para garantizar la adecuación de los datos para el análisis estadístico.

### importamos las librerías que necesitamos

In [None]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)

## Exploración Inicial

In [399]:
# Cargamos los datos con el método read_csv de pandas y guardamos los objetos de tipo DataFrame en variables 
df_activity = pd.read_csv('../data/Customer Flight Activity.csv')
df_history = pd.read_csv('../data/Customer Loyalty History.csv')

In [400]:
# Usamos el método info de pandas para ver el total de filas y columnas en el dataframe, la cantidad de valores no nulos y el tipo de dato por columna.
df_activity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [401]:
# Creamos un diccionario para cambiar los nombres de las columnas
col_names_activity = {col:col.lower().replace(' ', '_') for col in df_activity.columns}
col_names_activity

{'Loyalty Number': 'loyalty_number',
 'Year': 'year',
 'Month': 'month',
 'Flights Booked': 'flights_booked',
 'Flights with Companions': 'flights_with_companions',
 'Total Flights': 'total_flights',
 'Distance': 'distance',
 'Points Accumulated': 'points_accumulated',
 'Points Redeemed': 'points_redeemed',
 'Dollar Cost Points Redeemed': 'dollar_cost_points_redeemed'}

In [402]:
df_history.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [403]:
col_names_history = {col:col.lower().replace(' ', '_') for col in df_history.columns}
col_names_history

{'Loyalty Number': 'loyalty_number',
 'Country': 'country',
 'Province': 'province',
 'City': 'city',
 'Postal Code': 'postal_code',
 'Gender': 'gender',
 'Education': 'education',
 'Salary': 'salary',
 'Marital Status': 'marital_status',
 'Loyalty Card': 'loyalty_card',
 'CLV': 'clv',
 'Enrollment Type': 'enrollment_type',
 'Enrollment Year': 'enrollment_year',
 'Enrollment Month': 'enrollment_month',
 'Cancellation Year': 'cancellation_year',
 'Cancellation Month': 'cancellation_month'}

In [404]:
# Con el método rename de Pandas renombramos las columnas usando los diccionarios creados previamente
df_activity.rename(columns = col_names_activity, inplace = True)
df_history.rename(columns = col_names_history, inplace = True) # El inplace es un parámetro que altera el DataFrame original

In [405]:
# El método head nos permite ver las primeras 5 filas del DataFrame
df_activity.head()

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [406]:
df_history.head()

Unnamed: 0,loyalty_number,country,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [407]:
# El método describe nos permite ver las estadísticas descriptivas de las variables numéricas del DataFrame
df_activity.describe().T # La 'T' de transpose cambia las filas y columnas 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,405624.0,550037.873084,258935.286969,100018.0,326961.0,550834.0,772194.0,999986.0
year,405624.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
month,405624.0,6.5,3.452057,1.0,3.75,6.5,9.25,12.0
flights_booked,405624.0,4.115052,5.225518,0.0,0.0,1.0,8.0,21.0
flights_with_companions,405624.0,1.031805,2.076869,0.0,0.0,0.0,1.0,11.0
total_flights,405624.0,5.146858,6.521227,0.0,0.0,1.0,10.0,32.0
distance,405624.0,1208.880059,1433.15532,0.0,0.0,488.0,2336.0,6293.0
points_accumulated,405624.0,123.692721,146.599831,0.0,0.0,50.0,239.0,676.5
points_redeemed,405624.0,30.696872,125.486049,0.0,0.0,0.0,0.0,876.0
dollar_cost_points_redeemed,405624.0,2.484503,10.150038,0.0,0.0,0.0,0.0,71.0


### Conclusiones que podemos extraer del describe para el conjunto de datos activity:

* El loyalty_number va de 100018.0 a 999986.0 y hay un total de 405624.0 loyalty_number.
* Los años van de 2017 a 2108 y los meses de 1 a 12.
* La cantidad mas alta de flights_booked es de 21.0 y un 50% de los datos está por debajo de 1 flights_booked.
* la cantidad mas alta de flights_with_companions es de 11.0 y un 75% de los datos está por debajo de 1 flights_with_companions.
* La cantidad mas alta de total_flights es de 32.0 y un 50% de los datos está por debajo de 1 total_flights.
* La distancia mas alta es de 6293.0 y un 50% de los datos tiene la distancia inferior a 488.
* La cantidad mas alta de points_accumulated es de 676.5 y un 50% de los datos es inferior a 50.0 points_accumulated.
* La cantidad mas alta de points_redeemed es de 876.0 y un 75% de los datos es inferior a 0 points_redeemed.
* La cantidad mas alta de dollar_cost_points_redeemed es de 71.0 y un 75% de los datos es inferior a 0 dollar_cost_points_redeemed.

### Los tipos de datos son coherentes y no hay valores nulos. 

In [408]:
df_history.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
clv,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
enrollment_year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
cancellation_year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
cancellation_month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0


### Conclusiones que podemos extraer del describe para el conjunto de datos history:

* El loyalty_number va de 100018.0 a 999986.0 y hay un total de 16737.0 loyalty_number.
* El salary tiene un conteo de 12499 valores, indicando que hay valores nulos, que también se pueden observar en el info(). El valor mínimo es negativo y el máximo es 407228.
* El clv va de 1898.01 a 83325.38 y un 50% de los datos son inferiores a 5780.18.
* El enrollment_year va de 2012 a 2018 y un 50% de los datos es inferior a 2015.
* El enrollment_month va de 1 a 12 y un 50% de los datos es inferior a 7.
* El cancellation_year va de 2013 a 2018 y un 50% de los datos es inferior a 2017. El conteo indica que hay valores nulos, lo que puede significar que estos clientes con valores nulos no han cancelado el plan de fidelización.
* El cancellation_month va de 1 a 12 y un 50% de los datos es inferior a 7. El conteo es igual que el cancellation year, lo que probablemente indica que los valores que hay representan los clientes que han cancelado el plan de fidelización.

Intentaremos confirmar suposiciones iniciales hechas a partir del describe

In [409]:
df_history[df_history.salary < 0].shape[0] # Usando el filtrado y el shape podemos ver que hay 20 valores negativos en la columna salary.

20

Tras verificar que los rangos de los salaries son compatibles con los demás rangos del conjunto de datos, interpretamos que esto ha sido un error a la hora de insertar estos datos. 
Al tratarse de 20 valores en mas de 12 mil, los convertiremos a valores absolutos.

In [410]:
df_history[df_history.salary < 0]['salary'] 

1082    -49830.0
1894    -12497.0
2471    -46683.0
3575    -45962.0
3932    -19325.0
4712    -43234.0
6560    -10605.0
6570    -17534.0
7373    -58486.0
8576    -31911.0
8767    -49001.0
10232   -34079.0
11635    -9081.0
12596   -46470.0
13564   -26322.0
14327   -47310.0
14355   -39503.0
15416   -19332.0
16431   -46303.0
16735   -57297.0
Name: salary, dtype: float64

In [411]:
df_history.salary.isnull().sum() # Usando el método isnull junto al sum podemos ver cuantos valores nulos hay en la columna salary. 

4238

Posteriormente analizaremos cuál es el impacto de estos nulos para decidir si hay que realizar imputaciones. 

In [412]:
print(f"El porcentaje de valores nulos de la variable salary es de: {round((df_history.salary.isnull().sum()/df_history.shape[0])*100, 2)}%")

El porcentaje de valores nulos de la variable salary es de: 25.32%


In [413]:
df_history.salary = abs(df_history.salary) # Convertimos los valores a absolutos

In [414]:
df_history[df_history.salary < 0]['salary'] # Confirmamos que se ha realizado el cambio correctamente

Series([], Name: salary, dtype: float64)

In [415]:
# Verificamos si el cancellation_year y el cancellation_month corresponden a las mismas filas
df_hist_filtered = df_history[(df_history.cancellation_year.notnull()) & (df_history.cancellation_month.notnull())][['cancellation_year', 'cancellation_month']]
df_hist_filtered.shape

(2067, 2)

Como la cantidad de filas que teníamos para estas 2 variables era igual y como este conteo se mantiene al unir las 2 variables sin valores nulos, concluimos que las filas con valores se corresponden.
* Concluimos que estos valores faltantes son clientes que no han cancelado el plan, mientras que los que tienen mes y año han cancelado el plan en esa fecha. 

El Dataframe activity no tiene variables de tipo object, pero el history sí las tiene.

In [416]:
# Usamos el describe con el include = 'O' para ver las estadísticas descriptivas de las variables de tipo object. 
df_history.describe(include='O').T

Unnamed: 0,count,unique,top,freq
country,16737,1,Canada,16737
province,16737,11,Ontario,5404
city,16737,29,Toronto,3351
postal_code,16737,55,V6E 3D9,911
gender,16737,2,Female,8410
education,16737,5,Bachelor,10475
marital_status,16737,3,Married,9735
loyalty_card,16737,3,Star,7637
enrollment_type,16737,2,Standard,15766


### Conclusiones del describe para datos de tipo Object:

* No hay valores nulos
* Solo hay un País en la columna country, que es Canada. Esta columna no aporta infomación útil, por lo cuál será eliminada.

In [417]:
# Eliminamos la columna country del DataFrama ya que todos los valores son iguales usando el método drop de pandas con el parámetro inplace = True para aplicar el cambio en el DataFrame original.
df_history.drop(columns=['country'], inplace=True)

In [418]:
# Verificamos que la columna ha sido eliminada correctamente
df_history.columns

Index(['loyalty_number', 'province', 'city', 'postal_code', 'gender',
       'education', 'salary', 'marital_status', 'loyalty_card', 'clv',
       'enrollment_type', 'enrollment_year', 'enrollment_month',
       'cancellation_year', 'cancellation_month'],
      dtype='object')

In [419]:
# Verificamos si hay valores atípicos en las columnas de tipo object que tienen pocos valores únicos
columns = ['gender', 'education', 'marital_status', 'loyalty_card', 'enrollment_type']
for col in columns:
    display(df_history[col].value_counts())

gender
Female    8410
Male      8327
Name: count, dtype: int64

education
Bachelor                10475
College                  4238
High School or Below      782
Doctor                    734
Master                    508
Name: count, dtype: int64

marital_status
Married     9735
Single      4484
Divorced    2518
Name: count, dtype: int64

loyalty_card
Star      7637
Nova      5671
Aurora    3429
Name: count, dtype: int64

enrollment_type
Standard          15766
2018 Promotion      971
Name: count, dtype: int64

De momento todos los valores son coherentes. Verificamos las demás columnas

In [420]:
df_history.province.value_counts()


province
Ontario                 5404
British Columbia        4409
Quebec                  3300
Alberta                  969
Manitoba                 658
New Brunswick            636
Nova Scotia              518
Saskatchewan             409
Newfoundland             258
Yukon                    110
Prince Edward Island      66
Name: count, dtype: int64

In [421]:
df_history.city.value_counts()


city
Toronto           3351
Vancouver         2582
Montreal          2059
Winnipeg           658
Whistler           582
Halifax            518
Ottawa             509
Trenton            486
Edmonton           486
Quebec City        485
Dawson Creek       444
Fredericton        425
Regina             409
Kingston           401
Tremblant          398
Victoria           389
Hull               358
West Vancouver     324
St. John's         258
Thunder Bay        256
Sudbury            227
Moncton            211
Calgary            191
Banff              179
London             174
Peace River        113
Whitehorse         110
Kelowna             88
Charlottetown       66
Name: count, dtype: int64

In [422]:
df_history.postal_code.value_counts()


postal_code
V6E 3D9    911
V5R 1W3    684
V6T 1Y8    582
V6E 3Z3    544
M2M 7K8    534
P1J 8T7    500
H2T 9K8    499
K8V 4B2    486
G1B 3L5    485
H2T 2J6    446
U5I 4F1    444
V1E 4R6    443
E3B 2H2    425
R2C 0M5    415
M9K 2P4    401
H5Y 2S9    398
V10 6T5    389
K1F 2R2    389
H2Y 2W2    365
J8Y 3Z5    358
M8Y 4K8    340
H4G 3T4    338
B3J 9S2    329
V6V 8Z3    324
P2T 6G3    322
H2Y 4R4    315
M1R 4K3    313
P1L 8X8    282
P1W 1K4    275
T9G 1W3    266
A1C 6H9    258
M2Z 4K1    257
K8T 5M5    256
P5S 6R4    246
M5V 1G5    227
S6J 3G0    226
T3G 6Y6    220
E1A 2A7    211
T3E 2V9    191
B3C 2M8    189
S1J 3C5    183
T4V 1D4    179
M5B 3E4    174
M2M 6J7    153
R6Y 4T5    143
M2P 4F6    126
K1G 4Z0    120
T9O 2W2    113
Y2K 6R0    110
R3R 3T4    100
H3T 8L4     89
V09 2E9     88
C1A 6E8     66
H3J 5I6      7
M3R 4K8      3
Name: count, dtype: int64

In [423]:
# El método duplicated asociado al sum y aplicado a un DataFrame nos permite verificar si hay filas duplicadas en el DataFrame
df_activity.duplicated().sum() 

1864

In [424]:
df_history.duplicated().sum() 

0

In [425]:
# El método isna asociado al sum aplicado a un DataFrame nos permite verificar el conteo de valores nulos por columna.
df_activity.isna().sum()

loyalty_number                 0
year                           0
month                          0
flights_booked                 0
flights_with_companions        0
total_flights                  0
distance                       0
points_accumulated             0
points_redeemed                0
dollar_cost_points_redeemed    0
dtype: int64

In [426]:
df_history.isna().sum()

loyalty_number            0
province                  0
city                      0
postal_code               0
gender                    0
education                 0
salary                 4238
marital_status            0
loyalty_card              0
clv                       0
enrollment_type           0
enrollment_year           0
enrollment_month          0
cancellation_year     14670
cancellation_month    14670
dtype: int64

In [427]:
# Con este bucle for verificamos la cantidad de valores duplicados por columna en el DataFrame activity
for col in df_activity.columns:
    print(f"{col} - {df_activity[col].duplicated().sum()}")

loyalty_number - 388887
year - 405622
month - 405612
flights_booked - 405602
flights_with_companions - 405612
total_flights - 405591
distance - 400878
points_accumulated - 404075
points_redeemed - 405037
dollar_cost_points_redeemed - 405575


In [428]:
# Con este bucle for verificamos la cantidad de valores duplicados por columna en el DataFrame history
for col in df_history.columns:
    print(f"{col} - {df_history[col].duplicated().sum()}")

loyalty_number - 0
province - 16726
city - 16708
postal_code - 16682
gender - 16735
education - 16732
salary - 10846
marital_status - 16734
loyalty_card - 16734
clv - 8753
enrollment_type - 16735
enrollment_year - 16730
enrollment_month - 16725
cancellation_year - 16730
cancellation_month - 16724


In [429]:
# Con este bucle for verificamos el conteo de valores únicos por columna en el DataFrame activity
for col in df_activity.columns:
    print(f"{col} - {df_activity[col].nunique()}")

loyalty_number - 16737
year - 2
month - 12
flights_booked - 22
flights_with_companions - 12
total_flights - 33
distance - 4746
points_accumulated - 1549
points_redeemed - 587
dollar_cost_points_redeemed - 49


In [430]:
# Con este bucle for verificamos el conteo de valores únicos por columna en el DataFrame history
for col in df_history.columns:
    print(f"{col} - {df_history[col].nunique()}")

loyalty_number - 16737
province - 11
city - 29
postal_code - 55
gender - 2
education - 5
salary - 5890
marital_status - 3
loyalty_card - 3
clv - 7984
enrollment_type - 2
enrollment_year - 7
enrollment_month - 12
cancellation_year - 6
cancellation_month - 12


### Nos damos cuenta de que el conteo de los números únicos de la columna loyalty_number en los 2 conjuntos de datos son iguales.

In [431]:
df_activity.loyalty_number.nunique()

16737

In [432]:
df_history.loyalty_number.nunique()

16737

Buscamos entender el significado de los valores duplicados en activity para la columna loyalty_number

In [433]:
df_activity.loyalty_number.value_counts()

loyalty_number
678205    72
989528    48
373638    48
684889    48
684881    48
          ..
428526    24
428536    24
428565    24
428590    24
999891    24
Name: count, Length: 16737, dtype: int64

Vemos que los valores unicos estraídos del value counts de esta columna son 3.

In [434]:
df_activity.loyalty_number.value_counts().unique()

array([72, 48, 24])

Intentamos buscar una explicación

Filtramos el DataFrame por el loyalty_number que mas se repite y miramos los resultados


In [435]:
df_activity[df_activity.loyalty_number == 678205].sort_values(by=['year', 'month'])[:10]
# Vemos que para este cliente que se repite 72 veces, hay 3 filas para cada mes, o sea, 12 meses al año x 3 filas = 36, x 2 años = 72.

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
10862,678205,2017,1,0,0,0,0,0.0,0,0
10863,678205,2017,1,0,0,0,0,0.0,0,0
10864,678205,2017,1,0,0,0,0,0.0,0,0
27763,678205,2017,2,0,0,0,0,0.0,0,0
27764,678205,2017,2,0,0,0,0,0.0,0,0
27765,678205,2017,2,0,0,0,0,0.0,0,0
44664,678205,2017,3,0,0,0,0,0.0,0,0
44665,678205,2017,3,0,0,0,0,0.0,0,0
44666,678205,2017,3,0,0,0,0,0.0,0,0
61565,678205,2017,4,0,0,0,0,0.0,0,0


Ahora veamos que ocurre con un loyalty number que repite 48 veces

In [436]:
df_activity[df_activity.loyalty_number == 989528].sort_values(by=['year', 'month'])[:10]
# Vemos que para este cliente que se repite 48 veces, hay 2 filas para cada mes, o sea, 12 meses al año x 2 filas = 24, x 2 años = 48.

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
16713,989528,2017,1,0,0,0,0,0.0,0,0
16714,989528,2017,1,0,0,0,0,0.0,0,0
33614,989528,2017,2,0,0,0,0,0.0,0,0
33615,989528,2017,2,0,0,0,0,0.0,0,0
50515,989528,2017,3,0,0,0,0,0.0,0,0
50516,989528,2017,3,0,0,0,0,0.0,0,0
67416,989528,2017,4,0,0,0,0,0.0,0,0
67417,989528,2017,4,0,0,0,0,0.0,0,0
84317,989528,2017,5,0,0,0,0,0.0,0,0
84318,989528,2017,5,0,0,0,0,0.0,0,0


Ahora veamos que ocurre con un loyalty number que repite 24 veces

In [437]:
df_activity[df_activity.loyalty_number == 428526].sort_values(by=['year', 'month'])[:10]
# Vemos que para este cliente que se repite 24 veces, hay 1 fila para cada mes, o sea, 12 meses al año x 1 filas = 12, x 2 años = 24.

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
6130,428526,2017,1,12,3,15,3105,310.0,0,0
23031,428526,2017,2,0,0,0,0,0.0,0,0
39932,428526,2017,3,0,0,0,0,0.0,0,0
56833,428526,2017,4,0,0,0,0,0.0,0,0
73734,428526,2017,5,0,0,0,0,0.0,0,0
90635,428526,2017,6,0,0,0,0,0.0,0,0
390119,428526,2017,7,13,5,18,1350,135.0,677,55
124437,428526,2017,8,0,0,0,0,0.0,0,0
141338,428526,2017,9,15,0,15,2025,202.0,0,0
158239,428526,2017,10,7,0,7,798,79.0,0,0


* Parece tratarse de un seguimiento mensual de la actividad de los clientes. Las filas con valores 0 indican que en estos meses el cliente no tuvo cambios en su actividad. 
* También vemos que parece haber un seguimiento que ocurre 1, 2 o 3 veces al mes para actualizar los datos de la actividad de los clientes.

Vamos a buscar diferencias entre estos 3 tipos de cliente para ver si encontramos algun patrón

In [438]:
clients = [678205, 989528, 428526]
df_history[(df_history.loyalty_number == 678205) | (df_history.loyalty_number == 989528) | (df_history.loyalty_number == 428526)]

Unnamed: 0,loyalty_number,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
5022,989528,Quebec,Montreal,H2T 2J6,Female,College,,Divorced,Nova,3370.07,Standard,2017,5,,
7608,428526,Ontario,Toronto,P2T 6G3,Male,College,,Married,Nova,7374.08,Standard,2018,11,,
9490,678205,Quebec,Hull,J8Y 3Z5,Male,Bachelor,67358.0,Married,Nova,20230.97,Standard,2015,9,,


Quizás estos duplicados puedan estar realcionados con el loyalty_card y el enrollment_type, el análisis podría seguir por este camino, pero antes, veremos el porcentaje de datos atípicos dentro del conjunto para decidir si merece la pena profundizar por este camino.

Calculamos el porcentaje de estos 3 valores dentro del conjunto de datos

In [439]:
round((df_activity.loyalty_number.value_counts().value_counts()/df_activity.loyalty_number.nunique())*100, 2)

count
24    99.03
48     0.97
72     0.01
Name: count, dtype: float64

* Vemos que el seguimiento mensual que ocurre 1 vez al mes es dominante
* Ya que hay un grupo dominante del seguimiento de la actividad que ocurre 1 vez al mes y los demás grupos tienen un porcentaje muy bajo, vamos a buscar un patrón para eliminar los duplicados y patronizar los datos.

In [440]:
loyalty_counts = df_activity.loyalty_number.value_counts()

# Identificar los loyalty_number con 48 y 72 ocurrencias
loyalty_48_72 = loyalty_counts[(loyalty_counts == 48) | (loyalty_counts == 72)].index

# Filtrar el DataFrame para obtener solo los registros de estos loyalty_number
df_loyalty_48_72 = df_activity[df_activity.loyalty_number.isin(loyalty_48_72)]
df_loyalty_48_72.sort_values(by=['loyalty_number', 'year', 'month'])[10:15]

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
84546,101902,2017,6,10,5,15,3015,301.0,0,0
84547,101902,2017,6,9,0,9,1521,152.0,0,0
101447,101902,2017,7,0,0,0,0,0.0,0,0
101448,101902,2017,7,0,0,0,0,0.0,0,0
118348,101902,2017,8,17,0,17,3893,389.0,0,0


* Hemos buscado un patrón para decidir las filas a eliminar pero no hay una posible razón que confirme esta decisión, así que decidimos hacer un drop duplicates para este grupo sabiendo que representan el 1% del total. De esta menera mantendremos todos los loyalty_numbers en el análisis ya que tienen relación con el df_history.

In [441]:
# Verificamos la cantidade de datos
df_activity.shape

(405624, 10)

In [442]:
# Eliminamos duplicados quedándonos con la última ocurrencia por cada combinación de loyalty_number, year y month
df_activity_cleaned = df_activity.drop_duplicates(subset=['loyalty_number', 'year', 'month'], keep='last')
df_activity_cleaned.shape

(401688, 10)

In [443]:
# Verificamos que tenemos 24 ocurrencias para cada loyalty_number
df_activity_cleaned.loyalty_number.value_counts()

loyalty_number
100018    24
762446    24
762485    24
762562    24
762671    24
          ..
427444    24
427733    24
427804    24
427919    24
999891    24
Name: count, Length: 16737, dtype: int64

In [444]:
# Verificamos que no se han eliminado loyalty_numbers
df_activity_cleaned.loyalty_number.nunique() == df_history.loyalty_number.nunique()

True