In [None]:
# Los datos: EXPLORACIÓN Y LIMPIEZA
# 1. Customer flight Analisys.csv (actividad de vuelo de los clientes)
# 2. Customer Loyalty History.csv (perfil de los clientes)
# Ejercicio:
# FASE 1 - EXPLORACIÓN Y LIMPIEZA
# 1.1 Exploracion inicial: nulos, valores atipicos, datos faltantes...(Pandas)
# 1.2 Unión de los conjuntos
# 2.1 Eliminación o imputación de nulos
# 2.2 Verificar consistencia y correlacion
# 2.3 Ajustes y conversiones necesarias para el análisis estadístico

In [2]:
# Impotación de librterias necesarias para el ejercicio
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [3]:
# Lectura de ficheros - Voy a utilizar distintos métodos para el EDA
df_cf = pd.read_csv("files/customer_flight_activity.csv")
df_cf.head() # ver las primeras filas
df_cf.sample(8) # ver filas aleatorias

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
239478,470022,2018,2,11,2,13,2314,249.48,0,0
139885,349670,2017,9,6,0,6,1218,121.0,0,0
116889,924469,2017,7,4,0,4,3512,351.0,0,0
154238,212735,2017,10,0,0,0,0,0.0,0,0
401117,756967,2018,12,4,0,4,2240,224.0,0,0
392291,290964,2018,12,17,0,17,3570,357.0,0,0
68145,956438,2017,9,7,5,12,3204,320.0,423,34
64507,833765,2017,4,0,0,0,0,0.0,0,0


In [4]:
df_cl = pd.read_csv("files/customer_loyalty_history.csv")
df_cl.head() # 
df_cl.sample(8) # Me llama la atención que el país es siempre Canadá
df_cl["Country"].unique() # Compruebo que en esa columna solo está Canadá

array(['Ontario', 'Alberta', 'British Columbia', 'Quebec', 'Yukon',
       'New Brunswick', 'Manitoba', 'Nova Scotia', 'Saskatchewan',
       'Newfoundland', 'Prince Edward Island'], dtype=object)

In [6]:
# Para seguir voy a unificar ambos csv en uno solo. Para ello comprueblo que la columna para realizar esta unión es:
# "Loyalty Number" ya que es compartida por ambos csv y se refiere al identificador del cliente. 
# Aplico el método .merge() que permite combinar 2 DataFrame basándose en una o varias columnas comunes.
df = df_cf.merge(df_cl, how = "inner", on = "Loyalty Number")

In [8]:
df.shape # el tamaño

(405624, 25)

In [43]:
df.columns # Las columnas. Creo que será más ágil cambiarles el nombre para evitar malos entendidos

Index(['ID_fidelidad', 'ano', 'mes', 'total_vuelos_mes',
       'vuelos_con_acompañantes', 'total_vuelos', 'distancia_total_mes',
       'puntos_acumulados_mes', 'puntos_canjeados',
       'valor_puntos_canjeados_dollar', 'pais', 'provincia', 'ciudad',
       'codigo_postal', 'genero', 'estudios', 'salario', 'estado_civil',
       'tarjeta_fidelidad', 'valor_total_cliente', 'inscripcion', 'alta_año',
       'alta_mes', 'baja_año', 'baja_mes'],
      dtype='object')

In [21]:
# Creo una nueva variable con un diccionario con las columnas y su traduccion.
columnas = {
    'Loyalty Number': "ID_fidelidad", 
    'Year': "ano",
    'Month': "mes", 
    'Flights Booked': "total_vuelos_mes",
    'Flights with Companions': "vuelos_con_acompañantes", 
    'Total Flights': "total_vuelos", 
    'Distance': "distancia_total_mes",
    'Points Accumulated': "puntos_acumulados_mes", 
    'Points Redeemed': "puntos_canjeados", 
    'Dollar Cost Points Redeemed': "valor_puntos_canjeados_dollar",
    'Country': "pais", 
    'Province': "provincia", 
    'City': "ciudad", 
    'Postal Code': "codigo_postal", 
    'Gender': "genero", 
    'Education': "estudios",
    'Salary' : "salario", 
    'Marital Status': "estado_civil", 
    'Loyalty Card': "tarjeta_fidelidad" , 
    'CLV': "valor_total_cliente", 
    'Enrollment Type': "inscripcion",
    'Enrollment Year': "alta_año", 
    'Enrollment Month': "alta_mes", 
    'Cancellation Year': "baja_año",
    'Cancellation Month' : "baja_mes"}
# Utilizo el metodo rename para cambiar el nombre de las columnas y compruebo
df.rename(columns= columnas, inplace=True)
df.sample(20)

Unnamed: 0,ID_fidelidad,ano,mes,total_vuelos_mes,vuelos_con_acompañantes,total_vuelos,distancia_total_mes,puntos_acumulados_mes,puntos_canjeados,valor_puntos_canjeados_dollar,pais,provincia,ciudad,codigo_postal,genero,estudios,salario,estado_civil,tarjeta_fidelidad,valor_total_cliente,inscripcion,alta_año,alta_mes,baja_año,baja_mes
108536,360868,2017,9,0,0,0,0,0.0,0,0,Canada,Quebec,Montreal,H2Y 4R4,Female,Bachelor,86987.0,Married,Star,4122.57,Standard,2018,5,,
141362,441128,2017,2,6,0,6,2346,234.0,0,0,Canada,British Columbia,Vancouver,V1E 4R6,Male,Bachelor,83259.0,Married,Star,9336.34,Standard,2015,6,,
261297,740422,2017,9,8,8,16,2544,254.0,0,0,Canada,Ontario,Toronto,M8Y 4K8,Female,College,,Divorced,Star,29412.29,Standard,2013,6,,
371596,577322,2017,5,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1J 8T7,Male,College,,Married,Star,2746.08,Standard,2012,4,,
30012,172345,2018,1,0,0,0,0,0.0,0,0,Canada,Quebec,Tremblant,H5Y 2S9,Male,Bachelor,57311.0,Married,Nova,2760.95,Standard,2017,4,,
233864,671628,2017,9,0,0,0,0,0.0,0,0,Canada,Yukon,Whitehorse,Y2K 6R0,Female,College,,Single,Star,2897.78,Standard,2017,10,,
282836,793619,2018,10,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V6E 3D9,Female,Bachelor,61373.0,Married,Star,9320.09,Standard,2017,5,,
116080,379446,2018,5,1,0,1,1584,158.0,0,0,Canada,Ontario,Thunder Bay,K8T 5M5,Female,Bachelor,55593.0,Married,Aurora,9150.14,Standard,2017,10,,
298269,833801,2018,10,11,5,16,3536,353.0,0,0,Canada,British Columbia,Vancouver,V6E 3D9,Male,Bachelor,71134.0,Married,Nova,4944.09,Standard,2017,7,,
295448,827275,2017,8,0,0,0,0,0.0,0,0,Canada,Manitoba,Winnipeg,R2C 0M5,Male,Bachelor,78974.0,Divorced,Nova,30442.54,Standard,2015,6,,


In [33]:
# LIMPIEZA: compruebo si hay filas duplicadas en el df
df.duplicated().sum()

1864

In [34]:
#  # Hay 1864. Las elimino
df = df.drop_duplicates()

In [35]:
df.info() # Información sobre el data frame

<class 'pandas.core.frame.DataFrame'>
Index: 403760 entries, 0 to 405623
Data columns (total 25 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   ID_fidelidad                   403760 non-null  int64  
 1   ano                            403760 non-null  int64  
 2   mes                            403760 non-null  int64  
 3   total_vuelos_mes               403760 non-null  int64  
 4   vuelos_con_acompañantes        403760 non-null  int64  
 5   total_vuelos                   403760 non-null  int64  
 6   distancia_total_mes            403760 non-null  int64  
 7   puntos_acumulados_mes          403760 non-null  int64  
 8   puntos_canjeados               403760 non-null  int64  
 9   valor_puntos_canjeados_dollar  403760 non-null  int64  
 10  pais                           403760 non-null  object 
 11  provincia                      403760 non-null  object 
 12  ciudad                         4037

In [None]:
# Examino las columnas con nulos
df.isna().sum()

In [None]:
# Para visualizar solo las columnas con nulos
df.isnull().sum()[df.isnull().sum() > 0]

In [37]:
# Examino el porcentaje de nulos que tengo para valorar que hacer con ellos.
# El alto porcentaje de nulos en la baja indica que siguen activos.

df.isnull().sum()[df.isnull().sum() > 0]/df.shape[0]*100

salario     25.326927
baja_año    87.703091
baja_mes    87.703091
dtype: float64

In [42]:
# Voy llenar los nulos en las bajas con el valor 0, es que siguen activos por eso no ay nada.
df [["baja_año", "baja_mes"]] = df[["baja_año", "baja_mes"]].fillna(0)
df["baja_año"]

0            0.0
1            0.0
2            0.0
3            0.0
4            0.0
           ...  
405619    2017.0
405620    2017.0
405621    2017.0
405622    2017.0
405623    2017.0
Name: baja_año, Length: 403760, dtype: float64

In [None]:
# Los nulos en el salario.

In [None]:
# Los nulos en el salario. Considero que el salario es un dato relevante asi que voy a imputarlo.
# Entiendo que el salario tiene que ver con el trabajo que uno hace y este está relacionado también con el nivel de estudios, y
# y otros datos de los que disponemos (genero, estado civil,valor_total_cliente incluso la provincia). 
# Entre los métodos de los que dispongo me parece que el más adecuado es Iterative Imputer ya que es 
# una técnica que utiliza un modelo de regresión para estimar los valores faltantes en nuestros datos.

In [27]:
df[["puntos_acumulados_mes"]] = df[['puntos_acumulados_mes']].astype(int)

In [28]:
# Unificar los datos - Voy a ir unificando y limpiando los datos susceptibles a ello.
# Pasar valores float a int
df[["puntos_acumulados_mes", 'baja_año', "baja_mes", "salario"]] = df[['puntos_acumulados_mes', 'baja_año', "baja_mes", "salario"]].astype(int)
# comprobamos
df.types()


IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [None]:
## Replace: reemplazar valores en una columna
df['pdays'] = df['pdays'].replace(999, np.nan)

In [None]:
# Map: aplicar una función a cada valor de una columna

df['loan'] = df['loan'].map({0.0: "No", 1.0: "Si"})
df.head()

In [None]:
# Cuestión: datos mensuales excepto total_vuelos... 
# ¿tiene sentido mantenerlo si no sabemos si se actualiza o no, pudiendo consultar ese dato de otra forma?

In [None]:
# Unificar tipos de datos y textos

In [None]:
df2 = df.drop(columns=["title"])

In [15]:
df_cl.sample(10)
# para generar un nuevo csv. df_unido.to_csv("files/unido.csv")

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
11928,819077,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,63952.0,Married,Star,2842.82,Standard,2015,5,,
15839,369646,Canada,Alberta,Peace River,T9O 2W2,Female,Master,85959.0,Divorced,Star,12168.74,Standard,2017,4,,
1654,215314,Canada,Alberta,Edmonton,T3G 6Y6,Female,College,,Single,Aurora,6277.01,Standard,2016,1,2016.0,3.0
10116,624216,Canada,Ontario,Toronto,M2M 7K8,Female,College,,Single,Star,2310.88,Standard,2017,2,,
10430,427354,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,High School or Below,74537.0,Married,Star,2429.28,Standard,2017,12,,
5837,220244,Canada,British Columbia,Vancouver,V5R 1W3,Female,College,,Single,Nova,4446.74,Standard,2014,7,,
5415,261426,Canada,Ontario,Toronto,P1J 8T7,Male,Bachelor,67680.0,Divorced,Nova,3788.65,Standard,2017,7,2018.0,3.0
14513,246722,Canada,Ontario,Toronto,P1L 8X8,Male,Bachelor,64680.0,Married,Star,7285.03,Standard,2017,9,,
16274,148753,Canada,Quebec,Montreal,H2Y 4R4,Male,College,,Divorced,Star,17497.52,Standard,2016,4,,
16702,465347,Canada,Newfoundland,St. John's,A1C 6H9,Female,College,,Married,Star,38055.21,Standard,2015,8,,
