### FASE 1: EXPLORACIÓN Y LIMPIEZA

1. Exploración Inicial:
    - Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.
    - Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísEcas básicas de las columnas involucradas.
    - Une los dos conjuntos de datos de la forma más eficiente.

2. Limpieza de Datos:
    - Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos estén completos.
    - Verifica la consistencia y corrección de los datos para asegurarte de que los datos se presenten de forma coherente.
    - Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar Epos de datos) para garanEzar la adecuación de los datos para el análisis estadísEco.


In [1]:
#importamos librerias
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', None)

### 1. Exploración inicial Customer Flight Activity.csv

Cargamos datos de Customer Flight Activity.csv a DataFrame:

In [2]:
#leemos el primer .csv, lo convertimos a DataFrame:
df_custom_flight_activity = pd.read_csv("Customer Flight Activity.csv")

Revisamos filas y columnas:

In [3]:
#primero visualizamos las primeras filas (con .head() se muestran las primeras 5 filas):
df_custom_flight_activity.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [4]:
#observamos las últimas filas. En este caso también se muestran 5 filas:
df_custom_flight_activity.tail()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405619,999902,2018,12,0,0,0,0,0.0,0,0
405620,999911,2018,12,0,0,0,0,0.0,0,0
405621,999940,2018,12,3,0,3,1233,123.0,0,0
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


In [5]:
#vamos a explorar filas al azar para visualizar la información:
#no se observan a primera vista valores nulos.
df_custom_flight_activity.sample(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
283951,819842,2018,5,16,6,22,4004,400.0,0,0
117453,371079,2018,8,0,0,0,0,0.0,0,0
161764,613747,2017,10,13,0,13,1976,197.0,0,0
403701,896790,2018,12,2,2,4,2340,234.0,0,0
3477,286225,2017,1,6,0,6,1080,108.0,0,0


In [6]:
#vamos a sacar número de filas y columnas:
df_custom_flight_activity.shape

(405624, 10)

In [7]:
#mostramos todas las columnas:
df_custom_flight_activity.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

Estructura de los datos y comprobamos si hay valores nulos:

In [8]:
#mostramos la cantidad de entradas no nulas y el tipo de dato de cada columna.
#no tenemos valores nulos y están correctos los tipos de dato. También se puede usar .dtypes() para comprobar el tipo de dato.
df_custom_flight_activity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


Estadísticas descriptivas:

In [9]:
#con .describe() tenemos un resumen estadístico de las columnas numéricas. En este caso todas las columnas son numéricas.
"""
    count: Cantidad de entradas no nulas.
    mean: Promedio de los valores.
    std: Desviación estándar, que mide la dispersión de los datos.
    min: Valor mínimo en la columna.
    25%, 50%, 75%: Percentiles. El percentil 50 es equivalente a la mediana.
    max: Valor máximo en la columna.
"""
#sacamos de las estadísticas descriptivas la columna Loyalty Number porque porque es un identificador único.
df_custom_flight_activity.drop(columns=['Loyalty Number']).describe().round(2)

Unnamed: 0,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
count,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0
mean,2017.5,6.5,4.12,1.03,5.15,1208.88,123.69,30.7,2.48
std,0.5,3.45,5.23,2.08,6.52,1433.16,146.6,125.49,10.15
min,2017.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2017.0,3.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2017.5,6.5,1.0,0.0,1.0,488.0,50.0,0.0,0.0
75%,2018.0,9.25,8.0,1.0,10.0,2336.0,239.0,0.0,0.0
max,2018.0,12.0,21.0,11.0,32.0,6293.0,676.5,876.0,71.0


- Year:
    Valores de 2017 a 2018.
- Month:
    Datos de todos los meses del año.
- Flights Booked:
    Promedio 4 vuelos por mes, algunos clientes llegaron a 21.
- Flights with Companions:
    La mayoría no vuelan acompañados. Algunos han realizado hasta 11 vuelos con alguien en un mes.
- Total Flights:
    El númeor total varía de 0 a 32 vuelos.
- Distance:
    Los clietes vuean un promedio de 1208 km por mes, algunos llegan a 6293 km.
- Points Accumulated:
    Acumulan promedio de 123 puntos por mes, algunos alcanzan los 676 puntos.
- Points Redeemed:
    La mayoría no canjea sus puntos regularmente. Algunos llegan a 876 al mes.
- Dollar Cost Points Redeemed:
    el valor promedio de puntos canjeados es de 2,48 dolare, máximo de 71 dolares en puntos canjeados.


A nivel general, se observa que la mayoría de los usuarios realiza un número reducido de vuelos y muchos no acumulan puntos. No obstante, existe una minoría que lleva a cabo numerosos vuelos, recorre grandes distancias y acumula más puntos.

Las estadísticas indican que la actividad está concentrada en los años 2017 y 2018, con una distribución uniforme a lo largo de ambos años.

Valores nulos:

In [10]:
#volvemos a revisar que no haya valores nulos en las columnas.
df_custom_flight_activity.isnull().sum()

Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

Valores únicos y duplicados:

In [11]:
#valores únicos por columna:
df_custom_flight_activity.nunique()

Loyalty Number                 16737
Year                               2
Month                             12
Flights Booked                    22
Flights with Companions           12
Total Flights                     33
Distance                        4746
Points Accumulated              1549
Points Redeemed                  587
Dollar Cost Points Redeemed       49
dtype: int64

In [12]:
#comprobamos duplicados:
df_custom_flight_activity.duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
405619    False
405620    False
405621    False
405622    False
405623    False
Length: 405624, dtype: bool

In [13]:
#tenemos 1864 duplicados
df_custom_flight_activity.duplicated().sum()

1864

In [14]:
#como tenemos duplicados, tenemos que ver qué hacemos con ellos
#con 'keep = False' mostramos todos lso duplicados:
duplicated_custom_flight_activity = df_custom_flight_activity[df_custom_flight_activity.duplicated(keep = False)]
print(duplicated_custom_flight_activity)

        Loyalty Number  Year  Month  Flights Booked  Flights with Companions  \
41              101902  2017      1               0                        0   
42              101902  2017      1               0                        0   
226             112142  2017      1               0                        0   
227             112142  2017      1               0                        0   
477             126100  2017      1               0                        0   
...                ...   ...    ...             ...                      ...   
405111          971370  2018     12               0                        0   
405409          988392  2018     12               0                        0   
405410          988392  2018     12               0                        0   
405436          989528  2018     12               0                        0   
405437          989528  2018     12               0                        0   

        Total Flights  Distance  Points

In [15]:
#tenemos misma info en varias filas, vamos a eliminarlas.
#'inplace = True' para guardar los cambios en el DataFrame:
df_custom_flight_activity.drop_duplicates(inplace = True)

#con reset, reseteamos el índice del DataFrame para ordenarlos.
#'drop = True' para eliminar índice actual:
df_custom_flight_activity.reset_index(drop = True)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
403755,999902,2018,12,0,0,0,0,0.0,0,0
403756,999911,2018,12,0,0,0,0,0.0,0,0
403757,999940,2018,12,3,0,3,1233,123.0,0,0
403758,999982,2018,12,0,0,0,0,0.0,0,0


In [16]:
#comprobamos si ya no quedan nulos:
df_custom_flight_activity.duplicated().sum()

0

### Resultado de la exploración de "Customer Flight Activity.csv":
 1) No hay valores nulos.
 2) Sólo tenemos columnas numéricas y están correctas.
 3) Tenemos dupicados en Loyalty Number. Eliminamos porque no aportan info relevante (misma info en varias filas).

### 2. Exploración inicial Customer Loyalty History.csv

Cargamos datos de Customer Loyalty History.csv a DataFrame:

In [17]:
#leemos el primer .csv, lo convertimos a DataFrame y vemos las primeras filas:
df_custom_loyalty_history = pd.read_csv("Customer Loyalty History.csv")

Revisamos filas y columnas:

In [18]:
#visualizamos las primeras filas:
df_custom_loyalty_history.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [19]:
#observamos las últimas filas:
df_custom_loyalty_history.tail()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
16732,823768,Canada,British Columbia,Vancouver,V6E 3Z3,Female,College,,Married,Star,61850.19,Standard,2012,12,,
16733,680886,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,89210.0,Married,Star,67907.27,Standard,2014,9,,
16734,776187,Canada,British Columbia,Vancouver,V5R 1W3,Male,College,,Single,Star,74228.52,Standard,2014,3,,
16735,906428,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,-57297.0,Married,Star,10018.66,2018 Promotion,2018,4,,
16736,652627,Canada,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,75049.0,Married,Star,83325.38,Standard,2015,12,2016.0,8.0


In [20]:
#vamos a explorar filas al azar:
#se observan valores nulos a primera vista en columna en 'Salary' 'Cancelation Year' y 'Cancelation Month'.
df_custom_loyalty_history.sample(5)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
1695,260838,Canada,Quebec,Montreal,H2Y 4R4,Female,College,,Married,Aurora,6382.58,Standard,2016,1,,
2409,566961,Canada,Manitoba,Winnipeg,R3R 3T4,Female,Doctor,175678.0,Married,Aurora,8084.33,Standard,2015,7,,
5029,289472,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,81116.0,Divorced,Nova,3386.19,Standard,2017,4,,
10917,918112,Canada,Manitoba,Winnipeg,R2C 0M5,Male,Bachelor,97363.0,Single,Star,2530.71,Standard,2014,12,,
7819,666572,Canada,Alberta,Banff,T4V 1D4,Female,High School or Below,64194.0,Married,Nova,7771.16,Standard,2017,8,,


In [21]:
#número de filas y columnas:
df_custom_loyalty_history.shape

(16737, 16)

In [22]:
#estas son las columnas:
df_custom_loyalty_history.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

Estructura de los datos y comprobamos si hay valores nulos:

In [23]:
#mostramos la cantidad de entradas no nulas y el tipo de dato de cada columna.
#Cancellation Year y Cancellation Month debemos cambiarlos a int 
df_custom_loyalty_history.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

Estadísticas descriptivas:

Columnas numéricas:

In [24]:
#con .describe() tenemos un resumen estadístico de las columnas numéricas.
"""
    count: Cantidad de entradas no nulas.
    mean: Promedio de los valores.
    std: Desviación estándar, que mide la dispersión de los datos.
    min: Valor mínimo en la columna.
    25%, 50%, 75%: Percentiles. El percentil 50 es equivalente a la mediana.
    max: Valor máximo en la columna.
"""
#sacamos de las estadísticas descriptivas la columna Loyalty Number porque porque es un identificador único.
df_custom_loyalty_history.drop(columns=['Loyalty Number']).describe().round(2)

Unnamed: 0,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
count,12499.0,16737.0,16737.0,16737.0,2067.0,2067.0
mean,79245.61,7988.9,2015.25,6.67,2016.5,6.96
std,35008.3,6860.98,1.98,3.4,1.38,3.46
min,-58486.0,1898.01,2012.0,1.0,2013.0,1.0
25%,59246.5,3980.84,2014.0,4.0,2016.0,4.0
50%,73455.0,5780.18,2015.0,7.0,2017.0,7.0
75%,88517.5,8940.58,2017.0,10.0,2018.0,10.0
max,407228.0,83325.38,2018.0,12.0,2018.0,12.0


Anomalías: Visualizamos valores negativos en 'Salary'.

Columnas categóricas:

In [25]:
# hagamos lo mismo para las columnas categóricas, para eso tendremos que incluir entre los paréntesis el parámetro include = "object"
df_custom_loyalty_history.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


Conclusión estadísticas descriptivas:

- No vemos valores faltantes. Número de valores no nulos: 16737 en cada columna.
- Country: los valores únicos 'unqie' especifican que solo hay un país, Canadá. Candidata a desaparecer.
- freq: indica las veces que el valor 'top' aparece en la columna.

------------


- País: Canadá.
- Género predominante: Mujeres.
- Nivel educativo: Mayoría con licenciatura.
- Estado civil: La mayoría están casadas.
- Provincia más común: Ontario.
- Ciudad más frecuente: Toronto.
- Tarjeta de fidelización: La mayoría tienen la tarjeta 'Star'.
- Tipo de inscripción: Inscripción estándar.

Valores nulos:

In [26]:
#volvemos a revisar que no haya valores nulos en las columnas.
#tenemos tres columnas con valores nulos.
df_custom_loyalty_history.isnull().sum()

Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

Valores únicos y frecuencias:

In [27]:
#valores únicos por columna:
#si comparamos con el otro dataframe, vemos que tienen el mismo número de Loyalty Number (16737).
df_custom_loyalty_history.nunique()

Loyalty Number        16737
Country                   1
Province                 11
City                     29
Postal Code              55
Gender                    2
Education                 5
Salary                 5890
Marital Status            3
Loyalty Card              3
CLV                    7984
Enrollment Type           2
Enrollment Year           7
Enrollment Month         12
Cancellation Year         6
Cancellation Month       12
dtype: int64

In [28]:
#empezamos creando un DataFrame con todas las columnas categóricas
df_custom_loyalty_history_cat = df_custom_loyalty_history.select_dtypes(include = "object")
df_custom_loyalty_history_cat.head()

Unnamed: 0,Country,Province,City,Postal Code,Gender,Education,Marital Status,Loyalty Card,Enrollment Type
0,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,Married,Star,Standard
1,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,Divorced,Star,Standard
2,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,Single,Star,Standard
3,Canada,Ontario,Toronto,P1W 1K4,Male,College,Single,Star,Standard
4,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,Married,Star,Standard


In [29]:
# creo una variable con los nombres de las columnas de las variables categóricas del df_loyalty
columnas_custom_loyalty_history = df_custom_loyalty_history_cat.columns
columnas_custom_loyalty_history

Index(['Country', 'Province', 'City', 'Postal Code', 'Gender', 'Education',
       'Marital Status', 'Loyalty Card', 'Enrollment Type'],
      dtype='object')

In [30]:
#sacamos info para visualizar valores únicos y frecuencias
for columna in columnas_custom_loyalty_history:
    print(f" \n----------- ANÁLISIS DE LA COLUMNA: '{columna.upper()}' -----------\n")
    print(f"Varoles únicos: {df_custom_loyalty_history_cat[columna].unique()}\n")
    #array con valores únicos de la columna.
    print(f"Frecuencia de valores únicos: {df_custom_loyalty_history_cat[columna].value_counts()} ")

 
----------- ANÁLISIS DE LA COLUMNA: 'COUNTRY' -----------

Varoles únicos: ['Canada']

Frecuencia de valores únicos: Country
Canada    16737
Name: count, dtype: int64 
 
----------- ANÁLISIS DE LA COLUMNA: 'PROVINCE' -----------

Varoles únicos: ['Ontario' 'Alberta' 'British Columbia' 'Quebec' 'Yukon' 'New Brunswick'
 'Manitoba' 'Nova Scotia' 'Saskatchewan' 'Newfoundland'
 'Prince Edward Island']

Frecuencia de valores únicos: Province
Ontario                 5404
British Columbia        4409
Quebec                  3300
Alberta                  969
Manitoba                 658
New Brunswick            636
Nova Scotia              518
Saskatchewan             409
Newfoundland             258
Yukon                    110
Prince Edward Island      66
Name: count, dtype: int64 
 
----------- ANÁLISIS DE LA COLUMNA: 'CITY' -----------

Varoles únicos: ['Toronto' 'Edmonton' 'Vancouver' 'Hull' 'Whitehorse' 'Trenton' 'Montreal'
 'Dawson Creek' 'Quebec City' 'Fredericton' 'Ottawa' 'Tremblant

In [31]:
#comprobamos duplicados:
df_custom_loyalty_history.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
16732    False
16733    False
16734    False
16735    False
16736    False
Length: 16737, dtype: bool

In [32]:
#pero en este caso no tenemos duplicados:
df_custom_loyalty_history.duplicated().sum()

0

In [33]:
#y no tenemos duplicados en Loyalty Number:
df_custom_loyalty_history.duplicated(subset  = "Loyalty Number").sum() 

0

### Resultado de la exploración de "Customer Loyalty History.csv":
 - La columna 'salary' tiene 4238 valores nulos.
 - 'Cancellation Year' y 'Cancellation Month' tienen valores nulos. Es normal ya que estas dos columnas aplican a customers que cancelaron su suscripción.
 - Valores negativos en 'Salary'.
 - Todo gira en torno a Canadá.

### 3. UNIÓN CONJUNTO DE DATOS

In [34]:
#unimos datasets usando el identificador único 'Loyalty Number'.
#'how = right' para asegurarnos de mantener todos los registros del fichero de vuelos.
#incluso si tenemos clientes sin historial.
#es importante porque el cliente puede realizr vuelos sin tener un registro en el historial.
df_customer = pd.merge(df_custom_loyalty_history, df_custom_flight_activity, on='Loyalty Number', how='right')
df_customer.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,,2017,1,3,0,3,1521,152.0,0,0
1,100102,Canada,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3,,,2017,1,10,4,14,2030,203.0,0,0
2,100140,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7,,,2017,1,6,0,6,1200,120.0,0,0
3,100214,Canada,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8,,,2017,1,0,0,0,0,0.0,0,0
4,100272,Canada,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1,,,2017,1,0,0,0,0,0.0,0,0


In [35]:
df_customer.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month', 'Year', 'Month',
       'Flights Booked', 'Flights with Companions', 'Total Flights',
       'Distance', 'Points Accumulated', 'Points Redeemed',
       'Dollar Cost Points Redeemed'],
      dtype='object')

In [36]:
df_customer.shape

(403760, 25)

### 4. LIMPIEZA DE DATOS

In [37]:
#comenzamos con la columna 'Country'. El valor único es Canadá.
#no nos aporta nada como comentamos anteriormente en la exploración.
#procedemos a eliminarla:
df_customer.drop("Country", axis = 1, inplace = True)

In [38]:
#vamos a modificar los registros de las columnas 'Enrollment Month' y 'Month'.
#los tenemso en números, vamos a cambiarlos a los nombres de los meses:
#apply: para aplicar función a cada valor de las dos columnas.
#lambda: función para realizar el reemplazo
modificacion_meses = {
        1: 'January', 2: 'February', 3: 'March', 4: 'April',
        5: 'May', 6: 'June', 7: 'July', 8: 'August',
        9: 'September', 10: 'October', 11: 'November', 12: 'December'}

df_customer['Enrollment Month'] = df_customer['Enrollment Month'].apply(lambda x: modificacion_meses.get(x, x))

In [39]:
df_customer['Month'] = df_customer['Month'].apply(lambda x: modificacion_meses.get(x, x))

In [40]:
#filtramos las columnas 'Salary', 'Cancellation Month' y 'Cancellation Year' que tenían valores nulos.
columnas_con_nan = ['Salary', 'Cancellation Month', 'Cancellation Year']
df_customer[columnas_con_nan].isnull().sum() / len(df_customer) * 100

Salary                25.326927
Cancellation Month    87.703091
Cancellation Year     87.703091
dtype: float64

In [41]:
#observamos más de un 80% de nulos en'Cancellation Month' y 'Cancellation Year'.
#columnas no relevantes para nuestro análisis, las eliminamos:
df_customer.drop("Cancellation Month", axis = 1, inplace = True)

In [42]:
df_customer.drop("Cancellation Year", axis = 1, inplace = True)

In [43]:
df_customer.columns

Index(['Loyalty Number', 'Province', 'City', 'Postal Code', 'Gender',
       'Education', 'Salary', 'Marital Status', 'Loyalty Card', 'CLV',
       'Enrollment Type', 'Enrollment Year', 'Enrollment Month', 'Year',
       'Month', 'Flights Booked', 'Flights with Companions', 'Total Flights',
       'Distance', 'Points Accumulated', 'Points Redeemed',
       'Dollar Cost Points Redeemed'],
      dtype='object')

In [44]:
#seguimos con la columna 'Salary'.
#recordamos que tenía valores negativos y esto debemos modificarlo.
#usamos np.where de NumPy para evaluar la siguiente condición: si 'Salary' es negativo, lo convierte en positivo. Si no lo es, lo deja tal cual:
df_customer['Salary'] = np.where(df_customer['Salary'] < 0, -df_customer['Salary'], df_customer['Salary'])

In [45]:
#calculamos la mediana para imputar los valores nulos.
#es menos sensible a valores atípicos que la media:
mediana_salary = df_customer['Salary'].median()
mediana_salary

73479.0

In [46]:
#así nos aseguramos de que los salarios imputados reflejen mejor la tendencia central de los datos.
df_customer['Salary'].fillna(mediana_salary, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_customer['Salary'].fillna(mediana_salary, inplace=True)


In [47]:
#revisamos que todos esté actualizado:
df_customer.isnull().sum() 

Loyalty Number                 0
Province                       0
City                           0
Postal Code                    0
Gender                         0
Education                      0
Salary                         0
Marital Status                 0
Loyalty Card                   0
CLV                            0
Enrollment Type                0
Enrollment Year                0
Enrollment Month               0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

In [48]:
df_customer.sample(6)

Unnamed: 0,Loyalty Number,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
44858,702478,Alberta,Edmonton,T3G 6Y6,Male,Bachelor,50895.0,Married,Star,7851.9,Standard,2015,February,2017,March,5,0,5,1850,185.0,0,0
151496,450735,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,87804.0,Married,Nova,5450.57,2018 Promotion,2018,February,2017,March,0,0,0,0,0.0,0,0
112109,702327,Nova Scotia,Halifax,B3J 9S2,Male,Bachelor,92705.0,Married,Star,5670.13,Standard,2015,June,2017,July,11,6,17,4845,484.0,0,0
394302,934134,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,53168.0,Married,Aurora,7724.68,Standard,2012,September,2018,January,8,5,13,923,92.0,563,46
194951,634423,New Brunswick,Fredericton,E3B 2H2,Female,Master,128352.0,Single,Star,4650.06,Standard,2016,September,2017,December,0,0,0,0,0.0,0,0
290340,340604,Quebec,Quebec City,G1B 3L5,Male,Bachelor,85038.0,Married,Nova,6521.37,Standard,2012,November,2018,June,0,0,0,0,0.0,0,0


In [49]:
#guardamos en un nuevo .csv nuestro dataset final:
df_customer.to_csv('customer_dataset.csv', index=False)