In [None]:
# Los datos: EXPLORACIÓN Y LIMPIEZA
# 1. Customer flight Analisys.csv (actividad de vuelo de los clientes)
# 2. Customer Loyalty History.csv (perfil de los clientes)
# Ejercicio:
# FASE 1 - EXPLORACIÓN Y LIMPIEZA
# 1.1 Exploracion inicial: nulos, valores atipicos, datos faltantes...(Pandas)
# 1.2 Unión de los conjuntos
# 2.1 Eliminación o imputación de nulos
# 2.2 Verificar consistencia y correlacion
# 2.3 Ajustes y conversiones necesarias para el análisis estadístico

In [60]:
# Impotación de librterias necesarias para el ejercicio
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [61]:
# Lectura de ficheros - Voy a utilizar distintos métodos para el EDA
df_cf = pd.read_csv("files/customer_flight_activity.csv")
df_cf.head() # ver las primeras filas
df_cf.sample(8) # ver filas aleatorias

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
156420,330741,2017,10,0,0,0,0,0.0,0,0
146644,708258,2017,9,0,0,0,0,0.0,0,0
305415,164794,2018,7,6,5,11,4356,435.0,0,0
24810,521384,2017,2,0,0,0,0,0.0,0,0
19159,220538,2017,2,0,0,0,0,0.0,0,0
125827,500115,2017,8,0,0,0,0,0.0,0,0
302081,884089,2018,6,0,0,0,0,0.0,0,0
198531,768959,2017,12,0,0,0,0,0.0,0,0


In [62]:
df_cl = pd.read_csv("files/customer_loyalty_history.csv")
df_cl.head() # 
df_cl.sample(8) # Me llama la atención que el país es siempre Canadá
df_cl["Country"].unique() # Compruebo que en esa columna solo está Canadá

array(['Canada'], dtype=object)

In [63]:
# Para seguir voy a unificar ambos csv en uno solo. Para ello comprueblo que la columna para realizar esta unión es:
# "Loyalty Number" ya que es compartida por ambos csv y se refiere al identificador del cliente. 
# Aplico el método .merge() que permite combinar 2 DataFrame basándose en una o varias columnas comunes.
df = df_cf.merge(df_cl, how = "inner", on = "Loyalty Number")

In [64]:
df.shape # el tamaño

(405624, 25)

In [65]:
df.columns # Las columnas. Creo que será más ágil cambiarles el nombre para evitar malos entendidos

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed',
       'Country', 'Province', 'City', 'Postal Code', 'Gender', 'Education',
       'Salary', 'Marital Status', 'Loyalty Card', 'CLV', 'Enrollment Type',
       'Enrollment Year', 'Enrollment Month', 'Cancellation Year',
       'Cancellation Month'],
      dtype='object')

In [66]:
# Creo una nueva variable con un diccionario con las columnas y su traduccion.
columnas = {
    'Loyalty Number': "ID_fidelidad", 
    'Year': "ano",
    'Month': "mes", 
    'Flights Booked': "total_vuelos_mes",
    'Flights with Companions': "vuelos_con_acompañantes", 
    'Total Flights': "total_vuelos", 
    'Distance': "distancia_total_mes",
    'Points Accumulated': "puntos_acumulados_mes", 
    'Points Redeemed': "puntos_canjeados", 
    'Dollar Cost Points Redeemed': "valor_puntos_canjeados_dollar",
    'Country': "pais", 
    'Province': "provincia", 
    'City': "ciudad", 
    'Postal Code': "codigo_postal", 
    'Gender': "genero", 
    'Education': "estudios",
    'Salary' : "salario", 
    'Marital Status': "estado_civil", 
    'Loyalty Card': "tarjeta_fidelidad" , 
    'CLV': "valor_total_cliente", 
    'Enrollment Type': "inscripcion",
    'Enrollment Year': "alta_año", 
    'Enrollment Month': "alta_mes", 
    'Cancellation Year': "baja_año",
    'Cancellation Month' : "baja_mes"}
# Utilizo el metodo rename para cambiar el nombre de las columnas y compruebo
df.rename(columns= columnas, inplace=True)
df.sample(20)

Unnamed: 0,ID_fidelidad,ano,mes,total_vuelos_mes,vuelos_con_acompañantes,total_vuelos,distancia_total_mes,puntos_acumulados_mes,puntos_canjeados,valor_puntos_canjeados_dollar,pais,provincia,ciudad,codigo_postal,genero,estudios,salario,estado_civil,tarjeta_fidelidad,valor_total_cliente,inscripcion,alta_año,alta_mes,baja_año,baja_mes
322053,896651,2018,10,0,0,0,0,0.0,0,0,Canada,Quebec,Montreal,H3T 8L4,Female,College,,Single,Star,2430.96,Standard,2018,1,,
3168,444931,2017,9,11,7,18,4428,442.0,343,28,Canada,Manitoba,Winnipeg,R2C 0M5,Female,Doctor,144697.0,Married,Aurora,5452.63,Standard,2015,1,,
260184,737791,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1J 8T7,Male,College,,Single,Star,4722.24,Standard,2014,1,,
290944,815603,2018,5,0,0,0,0,0.0,0,0,Canada,New Brunswick,Moncton,E1A 2A7,Male,Bachelor,82545.0,Single,Star,2379.83,Standard,2014,9,2016.0,11.0
136006,428526,2017,7,13,5,18,1350,135.0,677,55,Canada,Ontario,Toronto,P2T 6G3,Male,College,,Married,Nova,7374.08,Standard,2018,11,,
23851,157816,2018,8,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,M8Y 4K8,Female,Bachelor,98569.0,Single,Nova,8528.29,Standard,2015,11,,
228115,656027,2018,8,10,0,10,3230,323.0,0,0,Canada,Ontario,Toronto,M2Z 4K1,Male,Doctor,258786.0,Married,Nova,4550.86,2018 Promotion,2018,3,,
297781,832810,2018,2,0,0,0,0,0.0,0,0,Canada,Nova Scotia,Halifax,B3J 9S2,Male,Bachelor,63575.0,Married,Star,2721.59,Standard,2018,12,,
46483,211043,2018,8,16,7,23,3358,335.0,0,0,Canada,Yukon,Whitehorse,Y2K 6R0,Female,College,,Single,Star,4566.12,Standard,2012,7,,
97818,335964,2017,5,2,1,3,912,91.0,362,29,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,Bachelor,47643.0,Divorced,Nova,11660.57,Standard,2014,1,,


In [67]:
# LIMPIEZA: compruebo si hay filas duplicadas en el df
df.duplicated().sum()

1864

In [52]:
#  # Hay 1864. Las elimino y compruebo (antes 405624/ahora 403760)
df = df.drop_duplicates()
df.shape

In [54]:
df.info() # Información sobre el data frame

<class 'pandas.core.frame.DataFrame'>
Index: 403760 entries, 0 to 405623
Data columns (total 25 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               403760 non-null  int64  
 1   Year                         403760 non-null  int64  
 2   Month                        403760 non-null  int64  
 3   Flights Booked               403760 non-null  int64  
 4   Flights with Companions      403760 non-null  int64  
 5   Total Flights                403760 non-null  int64  
 6   Distance                     403760 non-null  int64  
 7   Points Accumulated           403760 non-null  float64
 8   Points Redeemed              403760 non-null  int64  
 9   Dollar Cost Points Redeemed  403760 non-null  int64  
 10  Country                      403760 non-null  object 
 11  Province                     403760 non-null  object 
 12  City                         403760 non-null  object 
 13  Post

In [92]:
# Examino las columnas con nulos
df.isna().sum()

ID_fidelidad                          0
ano                                   0
mes                                   0
total_vuelos_mes                      0
vuelos_con_acompañantes               0
total_vuelos                          0
distancia_total_mes                   0
puntos_acumulados_mes                 0
puntos_canjeados                      0
valor_puntos_canjeados_dollar         0
pais                                  0
provincia                             0
ciudad                                0
codigo_postal                         0
genero                                0
estudios                              0
salario                          102672
estado_civil                          0
tarjeta_fidelidad                     0
valor_total_cliente                   0
inscripcion                           0
alta_año                              0
alta_mes                              0
baja_año                         355560
baja_mes                         355560


In [56]:
# Para visualizar solo las columnas con nulos
df.isnull().sum()[df.isnull().sum() > 0]

Salary                102260
Cancellation Year     354110
Cancellation Month    354110
dtype: int64

In [37]:
# Examino el porcentaje de nulos que tengo para valorar que hacer con ellos.
# El alto porcentaje de nulos en las bajas indica que siguen activos.

df.isnull().sum()[df.isnull().sum() > 0]/df.shape[0]*100

salario     25.326927
baja_año    87.703091
baja_mes    87.703091
dtype: float64

In [42]:
# Voy llenar los nulos en las bajas con el valor 0, es que siguen activos
df [["baja_año", "baja_mes"]] = df[["baja_año", "baja_mes"]].fillna(0)
df["baja_año"]

0            0.0
1            0.0
2            0.0
3            0.0
4            0.0
           ...  
405619    2017.0
405620    2017.0
405621    2017.0
405622    2017.0
405623    2017.0
Name: baja_año, Length: 403760, dtype: float64

In [104]:
# Los nulos en el salario. Primero voy a inspeccionar esta columna para entender mejor que pasa.
df["salario"].unique()
df["salario"].max() # El valor del salario máximo es 407228.0
df["salario"].min() # El valor minimo es -58486.0
# ¿Por qué hay valores negativos en salario? ¿Es un error o es que deben dinero?
num_negativos = df["salario"] < 0
num_negativos_suma = (df["salario"] < 0).sum()
print(f"Cantidad de valores negativos en 'salario': {num_negativos_suma}")


# Voy a comparar el salario con los datos de la columna "valor total cliente"
# print(df[["salario","valor_total_cliente" ]].sample(20))
# print(df[num_negativos_suma,"valor_total_cliente"])
num_negativos = df["valor_total_cliente"] < 0
print (num_negativos)
df[["valor_total_cliente"] < 0].unique()

Cantidad de valores negativos en 'salario': 480
0         False
1         False
2         False
3         False
4         False
          ...  
405619    False
405620    False
405621    False
405622    False
405623    False
Name: valor_total_cliente, Length: 405624, dtype: bool


TypeError: '<' not supported between instances of 'list' and 'int'

In [None]:
# Salario negativo.
# Tras una inspección de los datos y antes de imputar me aventuro con 2 hipótesis sobre el salario negativo.
# 1.salario negativo relacionado con el valor_total_cliente


In [114]:
# ¿Podría ser que el salario negativo indique que ha canjeado demasiados puntos?
# Vamos a comprobarlo antes de imputar
# print(df[["salario","puntos_canjeados" ]].sample(25))
# negativos_salario = df[df['salario'] < 0] # Creo una variable con los salarios negativos.
# puntos_canjeados_mas = df[df["puntos_canjeados"]<0]


# muestras_negativas = negativos_salario[['salario', 'puntos_acumulados_mes', 'puntos_canjeados']]
muestras_negativas = negativos_salario[['salario']] ,puntos_canjeados_mas[[ 'puntos_acumulados_mes']], puntos_acumulados_mas[['puntos_canjeados']]
# Mostrar el resultado
print(muestras_negativas)
# assert (muestras_negativas['salario'] < 0).all(), "Hay valores positivos en la muestra"
# df[(condicion1) & (condicion2) | (condicion3)]



(        salario
6408   -10605.0
6409   -10605.0
6410   -10605.0
6411   -10605.0
6412   -10605.0
...         ...
387691 -46470.0
387692 -46470.0
387693 -46470.0
387694 -46470.0
387695 -46470.0

[480 rows x 1 columns],         puntos_acumulados_mes
2                       311.0
8                       420.0
13                      253.0
30                      354.0
45                      180.0
...                       ...
405525                   70.0
405546                  216.0
405567                  115.0
405594                   86.0
405603                  252.0

[24181 rows x 1 columns],         puntos_canjeados
0                      0
1                      0
2                    385
3                      0
5                      0
...                  ...
405581                 0
405582                 0
405583                 0
405594               361
405603               414

[207632 rows x 1 columns])


In [108]:
puntos_acumulados_mas = df[df["puntos_acumulados_mes"]>0]
print (puntos_acumulados_mas)


        ID_fidelidad   ano  mes  total_vuelos_mes  vuelos_con_acompañantes  \
0             100018  2017    1                 3                        0   
1             100018  2017    2                 2                        2   
2             100018  2018   10                 6                        4   
3             100018  2017    4                 4                        0   
5             100018  2017    6                 4                        1   
...              ...   ...  ...               ...                      ...   
405581        999788  2017    6                 5                        3   
405582        999788  2017    7                 7                        0   
405583        999788  2017    8                11                        0   
405594        999788  2017   10                 4                        3   
405603        999891  2017    1                 1                        1   

        total_vuelos  distancia_total_mes  puntos_acumulados_me

In [109]:
puntos_acumulados_mas.shape

(207632, 25)

In [71]:
valores_unicos = df["salario"].unique()
print(valores_unicos)

[92552.    nan 63253. ... 23160. 97206. 56345.]


In [112]:
puntos_canjeados_mas = df[df["puntos_canjeados"]>0]
puntos_canjeados_mas.shape

(24181, 25)

In [None]:
# Los nulos en el salario. Considero que el salario es un dato relevante asi que voy a imputarlo.
# Entiendo que el salario tiene que ver con el trabajo que uno hace y este está relacionado también con el nivel de estudios, y
# y otros datos de los que disponemos (genero, estado civil,valor_total_cliente incluso la provincia). 
# Entre los métodos de los que dispongo me parece que el más adecuado es Iterative Imputer ya que es 
# una técnica que utiliza un modelo de regresión para estimar los valores faltantes en nuestros datos.

In [27]:
df[["puntos_acumulados_mes"]] = df[['puntos_acumulados_mes']].astype(int)

In [28]:
# Unificar los datos - Voy a ir unificando y limpiando los datos susceptibles a ello.
# Pasar valores float a int
df[["puntos_acumulados_mes", 'baja_año', "baja_mes", "salario"]] = df[['puntos_acumulados_mes', 'baja_año', "baja_mes", "salario"]].astype(int)
# comprobamos
df.types()


IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [None]:
## Replace: reemplazar valores en una columna
df['pdays'] = df['pdays'].replace(999, np.nan)

In [None]:
# Map: aplicar una función a cada valor de una columna

df['loan'] = df['loan'].map({0.0: "No", 1.0: "Si"})
df.head()

In [None]:
# Cuestión: datos mensuales excepto total_vuelos... 
# ¿tiene sentido mantenerlo si no sabemos si se actualiza o no, pudiendo consultar ese dato de otra forma?

In [None]:
# Unificar tipos de datos y textos

In [None]:
df2 = df.drop(columns=["title"])

In [15]:
df_cl.sample(10)
# para generar un nuevo csv. df_unido.to_csv("files/unido.csv")

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
11928,819077,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,63952.0,Married,Star,2842.82,Standard,2015,5,,
15839,369646,Canada,Alberta,Peace River,T9O 2W2,Female,Master,85959.0,Divorced,Star,12168.74,Standard,2017,4,,
1654,215314,Canada,Alberta,Edmonton,T3G 6Y6,Female,College,,Single,Aurora,6277.01,Standard,2016,1,2016.0,3.0
10116,624216,Canada,Ontario,Toronto,M2M 7K8,Female,College,,Single,Star,2310.88,Standard,2017,2,,
10430,427354,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,High School or Below,74537.0,Married,Star,2429.28,Standard,2017,12,,
5837,220244,Canada,British Columbia,Vancouver,V5R 1W3,Female,College,,Single,Nova,4446.74,Standard,2014,7,,
5415,261426,Canada,Ontario,Toronto,P1J 8T7,Male,Bachelor,67680.0,Divorced,Nova,3788.65,Standard,2017,7,2018.0,3.0
14513,246722,Canada,Ontario,Toronto,P1L 8X8,Male,Bachelor,64680.0,Married,Star,7285.03,Standard,2017,9,,
16274,148753,Canada,Quebec,Montreal,H2Y 4R4,Male,College,,Divorced,Star,17497.52,Standard,2016,4,,
16702,465347,Canada,Newfoundland,St. John's,A1C 6H9,Female,College,,Married,Star,38055.21,Standard,2015,8,,
