# Evaluación Final Módulo 3

## Fase 1: Exploración y Limpieza 

1. Exploración Inicial:
    * Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.
    * Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.
    * Une los dos conjuntos de datos de la forma más eficiente. 

2. LimpiezadeDatos:
    * Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos estén completos. Verifica la consistencia y corrección de los datos para asegurarte de que los datos se presenten de forma coherente.
    * Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar tipos de datos) para garantizar la adecuación de los datos para el análisis estadístico.

### importamos las librerías que necesitamos

In [None]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)

## Exploración Inicial

In [399]:
# Cargamos los datos con el método read_csv de pandas y guardamos los objetos de tipo DataFrame en variables 
df_activity = pd.read_csv('../data/Customer Flight Activity.csv')
df_history = pd.read_csv('../data/Customer Loyalty History.csv')

In [400]:
# Usamos el método info de pandas para ver el total de filas y columnas en el dataframe, la cantidad de valores no nulos y el tipo de dato por columna.
df_activity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [401]:
# Creamos un diccionario para cambiar los nombres de las columnas
col_names_activity = {col:col.lower().replace(' ', '_') for col in df_activity.columns}
col_names_activity

{'Loyalty Number': 'loyalty_number',
 'Year': 'year',
 'Month': 'month',
 'Flights Booked': 'flights_booked',
 'Flights with Companions': 'flights_with_companions',
 'Total Flights': 'total_flights',
 'Distance': 'distance',
 'Points Accumulated': 'points_accumulated',
 'Points Redeemed': 'points_redeemed',
 'Dollar Cost Points Redeemed': 'dollar_cost_points_redeemed'}

In [402]:
df_history.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [403]:
col_names_history = {col:col.lower().replace(' ', '_') for col in df_history.columns}
col_names_history

{'Loyalty Number': 'loyalty_number',
 'Country': 'country',
 'Province': 'province',
 'City': 'city',
 'Postal Code': 'postal_code',
 'Gender': 'gender',
 'Education': 'education',
 'Salary': 'salary',
 'Marital Status': 'marital_status',
 'Loyalty Card': 'loyalty_card',
 'CLV': 'clv',
 'Enrollment Type': 'enrollment_type',
 'Enrollment Year': 'enrollment_year',
 'Enrollment Month': 'enrollment_month',
 'Cancellation Year': 'cancellation_year',
 'Cancellation Month': 'cancellation_month'}

In [404]:
# Con el método rename de Pandas renombramos las columnas usando los diccionarios creados previamente
df_activity.rename(columns = col_names_activity, inplace = True)
df_history.rename(columns = col_names_history, inplace = True) # El inplace es un parámetro que altera el DataFrame original

In [405]:
# El método head nos permite ver las primeras 5 filas del DataFrame
df_activity.head()

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [406]:
df_history.head()

Unnamed: 0,loyalty_number,country,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [407]:
# El método describe nos permite ver las estadísticas descriptivas de las variables numéricas del DataFrame
df_activity.describe().T # La 'T' de transpose cambia las filas y columnas 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,405624.0,550037.873084,258935.286969,100018.0,326961.0,550834.0,772194.0,999986.0
year,405624.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
month,405624.0,6.5,3.452057,1.0,3.75,6.5,9.25,12.0
flights_booked,405624.0,4.115052,5.225518,0.0,0.0,1.0,8.0,21.0
flights_with_companions,405624.0,1.031805,2.076869,0.0,0.0,0.0,1.0,11.0
total_flights,405624.0,5.146858,6.521227,0.0,0.0,1.0,10.0,32.0
distance,405624.0,1208.880059,1433.15532,0.0,0.0,488.0,2336.0,6293.0
points_accumulated,405624.0,123.692721,146.599831,0.0,0.0,50.0,239.0,676.5
points_redeemed,405624.0,30.696872,125.486049,0.0,0.0,0.0,0.0,876.0
dollar_cost_points_redeemed,405624.0,2.484503,10.150038,0.0,0.0,0.0,0.0,71.0


### Conclusiones que podemos extraer del describe para el conjunto de datos activity:

* El loyalty_number va de 100018.0 a 999986.0 y hay un total de 405624.0 loyalty_number.
* Los años van de 2017 a 2108 y los meses de 1 a 12.
* La cantidad mas alta de flights_booked es de 21.0 y un 50% de los datos está por debajo de 1 flights_booked.
* la cantidad mas alta de flights_with_companions es de 11.0 y un 75% de los datos está por debajo de 1 flights_with_companions.
* La cantidad mas alta de total_flights es de 32.0 y un 50% de los datos está por debajo de 1 total_flights.
* La distancia mas alta es de 6293.0 y un 50% de los datos tiene la distancia inferior a 488.
* La cantidad mas alta de points_accumulated es de 676.5 y un 50% de los datos es inferior a 50.0 points_accumulated.
* La cantidad mas alta de points_redeemed es de 876.0 y un 75% de los datos es inferior a 0 points_redeemed.
* La cantidad mas alta de dollar_cost_points_redeemed es de 71.0 y un 75% de los datos es inferior a 0 dollar_cost_points_redeemed.

### Los tipos de datos son coherentes y no hay valores nulos. 

In [408]:
df_history.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
clv,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
enrollment_year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
cancellation_year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
cancellation_month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0


### Conclusiones que podemos extraer del describe para el conjunto de datos history:

* El loyalty_number va de 100018.0 a 999986.0 y hay un total de 16737.0 loyalty_number.
* El salary tiene un conteo de 12499 valores, indicando que hay valores nulos, que también se pueden observar en el info(). El valor mínimo es negativo y el máximo es 407228.
* El clv va de 1898.01 a 83325.38 y un 50% de los datos son inferiores a 5780.18.
* El enrollment_year va de 2012 a 2018 y un 50% de los datos es inferior a 2015.
* El enrollment_month va de 1 a 12 y un 50% de los datos es inferior a 7.
* El cancellation_year va de 2013 a 2018 y un 50% de los datos es inferior a 2017. El conteo indica que hay valores nulos, lo que puede significar que estos clientes con valores nulos no han cancelado el plan de fidelización.
* El cancellation_month va de 1 a 12 y un 50% de los datos es inferior a 7. El conteo es igual que el cancellation year, lo que probablemente indica que los valores que hay representan los clientes que han cancelado el plan de fidelización.

Intentaremos confirmar suposiciones iniciales hechas a partir del describe

In [409]:
df_history[df_history.salary < 0].shape[0] # Usando el filtrado y el shape podemos ver que hay 20 valores negativos en la columna salary.

20

Tras verificar que los rangos de los salaries son compatibles con los demás rangos del conjunto de datos, interpretamos que esto ha sido un error a la hora de insertar estos datos. 
Al tratarse de 20 valores en mas de 12 mil, los convertiremos a valores absolutos.

In [410]:
df_history[df_history.salary < 0]['salary'] 

1082    -49830.0
1894    -12497.0
2471    -46683.0
3575    -45962.0
3932    -19325.0
4712    -43234.0
6560    -10605.0
6570    -17534.0
7373    -58486.0
8576    -31911.0
8767    -49001.0
10232   -34079.0
11635    -9081.0
12596   -46470.0
13564   -26322.0
14327   -47310.0
14355   -39503.0
15416   -19332.0
16431   -46303.0
16735   -57297.0
Name: salary, dtype: float64

In [411]:
df_history.salary.isnull().sum() # Usando el método isnull junto al sum podemos ver cuantos valores nulos hay en la columna salary. 

4238

Posteriormente analizaremos cuál es el impacto de estos nulos para decidir si hay que realizar imputaciones. 

In [412]:
print(f"El porcentaje de valores nulos de la variable salary es de: {round((df_history.salary.isnull().sum()/df_history.shape[0])*100, 2)}%")

El porcentaje de valores nulos de la variable salary es de: 25.32%


In [413]:
df_history.salary = abs(df_history.salary) # Convertimos los valores a absolutos

In [414]:
df_history[df_history.salary < 0]['salary'] # Confirmamos que se ha realizado el cambio correctamente

Series([], Name: salary, dtype: float64)