In [1]:
# Librerías:
# ----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Función de pandas para mostrar todas las columnas del DataFrame

pd.set_option('display.max_columns', None)

In [2]:
# Paso los CSV's a DataFrames para poder observar en una tabla las columnas y sus registros

customer_flight = pd.read_csv('Customer Flight Activity.csv')
customer_info = pd.read_csv('Customer Loyalty History.csv')

# Fase 1: Exploración y Limpieza

1. Exploración Inicial:
   - Realiza una exploración inicial de los datos para identificar posibles problemas, como valores
 nulos, atípicos o datos faltantes en las columnas relevantes.
   - Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la
 presencia de valores nulos y estadísticas básicas de las columnas involucradas.
   - Une los dos conjuntos de datos de la forma más eficiente.

2. Limpieza de Datos:
   - Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos
 estén completos.
   - Verifica la consistencia y corrección de los datos para asegurarte de que los datos se
 presenten de forma coherente.
   - Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar tipos de
 datos) para garantizar la adecuación de los datos para el análisis estadístico.

1.1. EXPLORACIÓN DE DATOS

In [3]:
# EDA de Customer Flight

# Vamos a observar las 5 primeras filas con un head

print(f'Aquí se observan las 5 primeras filas con todas sus columnas:')
customer_flight.head()

Aquí se observan las 5 primeras filas con todas sus columnas:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [4]:
# Ahora vamos a observar las ultimas 5 filas con un tail

print(f'Aquí se observan las ultimas 5 filas con todas sus columnas:')
customer_flight.tail()

Aquí se observan las ultimas 5 filas con todas sus columnas:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405619,999902,2018,12,0,0,0,0,0.0,0,0
405620,999911,2018,12,0,0,0,0,0.0,0,0
405621,999940,2018,12,3,0,3,1233,123.0,0,0
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


In [5]:
# Se va a realizar exploración del primer Data Frame con el shape para ver el número de filas y columnas

print(f'El DataFrame tiene {customer_flight.shape[0]} filas y {customer_flight.shape[1]} columnas')

El DataFrame tiene 405624 filas y 10 columnas


In [6]:
# Se realiza una búsqueda sobre información general para ver de qué tipo son

customer_flight.info()

print(f'Se observa que todas las columnas son de tipo numérico siendo int menos la columa 7 que es un float')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB
Se observa que todas las columnas son de tipo numérico siendo int menos la columa 7 que es un float


In [7]:
# A continuación se comprueban los nulos y el total de ellos 

print(f'La suma de todos los nulos es {customer_flight.isnull().sum()}')

La suma de todos los nulos es Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64


In [8]:
# Es hora de comprobar su hay valores duplicados

print(f'El total de los valores duplicados es: {customer_flight.duplicated().sum()}')

El total de los valores duplicados es: 1864


In [9]:
# Mostrar los 10 primeros duplicados en el DataFrame
customer_flight[customer_flight.duplicated(keep = False)].sort_values('Loyalty Number').head(10)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
101448,101902,2017,7,0,0,0,0,0.0,0,0
101447,101902,2017,7,0,0,0,0,0.0,0,0
185952,101902,2017,12,0,0,0,0,0.0,0,0
185953,101902,2017,12,0,0,0,0,0.0,0,0
16942,101902,2017,2,0,0,0,0,0.0,0,0
16943,101902,2017,2,0,0,0,0,0.0,0,0
33843,101902,2017,3,0,0,0,0,0.0,0,0
33844,101902,2017,3,0,0,0,0,0.0,0,0
42,101902,2017,1,0,0,0,0,0.0,0,0
41,101902,2017,1,0,0,0,0,0.0,0,0


In [10]:
# Se estudian los parámetros estadísticos

print(f'A continuación los parámetros estadísticos:')
customer_flight.describe()

A continuación los parámetros estadísticos:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
count,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0
mean,550037.873084,2017.5,6.5,4.115052,1.031805,5.146858,1208.880059,123.692721,30.696872,2.484503
std,258935.286969,0.500001,3.452057,5.225518,2.076869,6.521227,1433.15532,146.599831,125.486049,10.150038
min,100018.0,2017.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,326961.0,2017.0,3.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,550834.0,2017.5,6.5,1.0,0.0,1.0,488.0,50.0,0.0,0.0
75%,772194.0,2018.0,9.25,8.0,1.0,10.0,2336.0,239.0,0.0,0.0
max,999986.0,2018.0,12.0,21.0,11.0,32.0,6293.0,676.5,876.0,71.0


In [11]:
# Calcular los valores atípicos de todas las columnas mediante una función

def detectar_valores_atipicos(customer_flight):
    val_atip = {}
    for col in customer_flight.select_dtypes(include=np.number).columns:  # Iterar solo en columnas numéricas
        Q1 = customer_flight[col].quantile(0.25)  # Primer cuartil
        Q3 = customer_flight[col].quantile(0.75)  # Tercer cuartil
        IQR = Q3 - Q1  # Rango intercuartílico
        # Límites para considerar valores atípicos
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR

        # Identificar valores atípicos
        outliers = customer_flight[col][(customer_flight[col] < limite_inferior) | (customer_flight[col] > limite_superior)]
        # Guardar en el diccionario
        val_atip[col] = outliers.tolist()

    return val_atip

In [12]:
valores_atipicos = detectar_valores_atipicos(customer_flight)

print("Los valores atípicos por columna son:")
for columna, outliers in valores_atipicos.items():
    print(f"{columna}: {outliers}")

Los valores atípicos por columna son:
Loyalty Number: []
Year: []
Month: []
Flights Booked: [21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21,

Se observa diferencia entre el primer cuartil (25%) y el último cuartil (75%)

In [13]:
# EDA de Customer info

# Vamos a observar las 5 primeras filas con un head

print(f'Aquí se observan las 5 primeras filas con todas sus columnas:')
customer_info.head()

Aquí se observan las 5 primeras filas con todas sus columnas:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [14]:
# Ahora vamos a observar las ultimas 5 filas con un tail

print(f'Aquí se observan las ultimas 5 filas con todas sus columnas:')
customer_info.tail()

Aquí se observan las ultimas 5 filas con todas sus columnas:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
16732,823768,Canada,British Columbia,Vancouver,V6E 3Z3,Female,College,,Married,Star,61850.19,Standard,2012,12,,
16733,680886,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,89210.0,Married,Star,67907.27,Standard,2014,9,,
16734,776187,Canada,British Columbia,Vancouver,V5R 1W3,Male,College,,Single,Star,74228.52,Standard,2014,3,,
16735,906428,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,-57297.0,Married,Star,10018.66,2018 Promotion,2018,4,,
16736,652627,Canada,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,75049.0,Married,Star,83325.38,Standard,2015,12,2016.0,8.0


In [15]:
# Se va a realizar exploración del primer Data Frame con el shape para ver el número de filas y columnas

print(f'El DataFrame tiene {customer_info.shape[0]} filas y {customer_info.shape[1]} columnas')

El DataFrame tiene 16737 filas y 16 columnas


In [16]:
# Se realiza una búsqueda sobre información general para ver de qué tipo son

customer_info.info()

print(f'Se observa que hay columnas categóricas y otras numéricas')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [17]:
# A continuación se comprueban los nulos y el total de ellos 

print(f'La suma de todos los nulos es {customer_info.isnull().sum()}')

La suma de todos los nulos es Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64


In [18]:
# Mostrar solo las columnas con los valores nulos y el total de ellos
customer_info.isna().sum()[customer_info.isna().sum() > 0]

Salary                 4238
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

In [19]:
# Se van a mostar los valores nulos y sus respectivos porcentajes

columnas = ['Salary', 'Cancellation Year', 'Cancellation Month']

for col in columnas:
    procentajes_nulos = (customer_info[col].isna().sum() / len(customer_info)) * 100
    print(f'La columna {col.upper()} {customer_info[col].isnull().sum()} tiene valores nulos lo que es igual a {procentajes_nulos.round()} %')

La columna SALARY 4238 tiene valores nulos lo que es igual a 25.0 %
La columna CANCELLATION YEAR 14670 tiene valores nulos lo que es igual a 88.0 %
La columna CANCELLATION MONTH 14670 tiene valores nulos lo que es igual a 88.0 %


In [20]:
# Mostrar las filas con salarios negativos

negativos = customer_info[customer_info['Salary'] < 0].shape[0]
negativos

20

In [21]:
customer_info[customer_info['Salary'] < 0]

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
1082,542976,Canada,Quebec,Montreal,H2Y 4R4,Male,High School or Below,-49830.0,Divorced,Star,24127.5,2018 Promotion,2018,3,,
1894,959977,Canada,British Columbia,Vancouver,V5R 1W3,Female,Bachelor,-12497.0,Married,Aurora,9453.0,2018 Promotion,2018,3,,
2471,232755,Canada,British Columbia,Vancouver,V1E 4R6,Female,Bachelor,-46683.0,Single,Nova,4787.81,2018 Promotion,2018,3,,
3575,525245,Canada,British Columbia,Victoria,V10 6T5,Male,Bachelor,-45962.0,Married,Star,2402.33,2018 Promotion,2018,3,,
3932,603070,Canada,British Columbia,West Vancouver,V6V 8Z3,Female,Bachelor,-19325.0,Single,Star,2893.74,2018 Promotion,2018,3,,
4712,491242,Canada,British Columbia,Dawson Creek,U5I 4F1,Male,Bachelor,-43234.0,Married,Star,7597.91,2018 Promotion,2018,3,,
6560,115505,Canada,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,-10605.0,Married,Nova,5860.17,2018 Promotion,2018,4,,
6570,430398,Canada,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,-17534.0,Married,Nova,49423.8,2018 Promotion,2018,3,,
7373,152016,Canada,Ontario,Toronto,P1J 8T7,Female,Bachelor,-58486.0,Married,Aurora,5067.21,2018 Promotion,2018,2,,
8576,194065,Canada,Ontario,Sudbury,M5V 1G5,Female,Bachelor,-31911.0,Married,Nova,2888.85,2018 Promotion,2018,2,,


In [22]:
# Mostrar los valores de 'Enrollment Type' por si hubiese conexión con los salarios negativos

customer_info['Enrollment Type'].value_counts()

Enrollment Type
Standard          15766
2018 Promotion      971
Name: count, dtype: int64

In [23]:
# Comprobar de qué tipo son las columnas con nulos

customer_info['Salary'].dtype

dtype('float64')

In [24]:
customer_info['Cancellation Year'].dtype

dtype('float64')

In [25]:
customer_info['Cancellation Month'].dtype

dtype('float64')

In [26]:
# Se observó al principio que cuando hay valores nulos en 'Salary' los registros de 'Education' son College
# Como no se pueden ver todas las filas se va a reazliar un recuento de los colleges de 'Education' por si es igual que el recuento de los nulos de 'Salary'

total_college = customer_info[customer_info['Education'] == 'College'].shape[0]
total_nulos_salary = customer_info['Salary'].isnull().sum()

print(f'El total de registros Collage en Education son : {total_college}')
print(f'El total de nulos de Salary son: {total_nulos_salary}')

El total de registros Collage en Education son : 4238
El total de nulos de Salary son: 4238


In [27]:
# Es hora de comprobar su hay valores duplicados

print(f'El total de los valores duplicados es: {customer_info.duplicated().sum()}')

El total de los valores duplicados es: 0


In [28]:
# Se estudian los parámetros estadísticos

print(f'A continuación los parámetros estadísticos:')
customer_info.describe()

A continuación los parámetros estadísticos:


Unnamed: 0,Loyalty Number,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
count,16737.0,12499.0,16737.0,16737.0,16737.0,2067.0,2067.0
mean,549735.880445,79245.609409,7988.896536,2015.253211,6.669116,2016.503145,6.962748
std,258912.132453,35008.297285,6860.98228,1.979111,3.398958,1.380743,3.455297
min,100018.0,-58486.0,1898.01,2012.0,1.0,2013.0,1.0
25%,326603.0,59246.5,3980.84,2014.0,4.0,2016.0,4.0
50%,550434.0,73455.0,5780.18,2015.0,7.0,2017.0,7.0
75%,772019.0,88517.5,8940.58,2017.0,10.0,2018.0,10.0
max,999986.0,407228.0,83325.38,2018.0,12.0,2018.0,12.0


In [29]:
# Se observan las variables categóricas

customer_info.describe(include=object).T

Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


In [30]:
# Al observar que en 'Country' solo est´´a Canadá se va a hacer un recuento de sus ciudades

customer_info['Province'].value_counts().reset_index()

Unnamed: 0,Province,count
0,Ontario,5404
1,British Columbia,4409
2,Quebec,3300
3,Alberta,969
4,Manitoba,658
5,New Brunswick,636
6,Nova Scotia,518
7,Saskatchewan,409
8,Newfoundland,258
9,Yukon,110


In [31]:
# Calcular los valores atípicos de todas las columnas mediante una función

def detectar_valores_atipicos(customer_info):
    val_atipico = {}
    for col in customer_info.select_dtypes(include=np.number).columns:  # Iterar solo en columnas numéricas
        Q1 = customer_info[col].quantile(0.25)  # Primer cuartil
        Q3 = customer_info[col].quantile(0.75)  # Tercer cuartil
        IQR = Q3 - Q1  # Rango intercuartílico
        # Límites para considerar valores atípicos
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR

        # Identificar valores atípicos
        outliers = customer_info[col][(customer_info[col] < limite_inferior) | (customer_info[col] > limite_superior)]
        # Guardar en el diccionario
        val_atipico[col] = outliers.tolist()

    return val_atipico

In [32]:
valores_atipicos = detectar_valores_atipicos(customer_info)

print("Los valores atípicos por columna son:")
for columna, outliers in valores_atipicos.items():
    print(f"{columna}: {outliers}")

Los valores atípicos por columna son:
Loyalty Number: []
Salary: [163974.0, 152955.0, 152955.0, 152955.0, 152955.0, 152955.0, 217538.0, 237245.0, 218703.0, 245427.0, 245427.0, 269011.0, 269011.0, 148510.0, 222764.0, 288934.0, 175830.0, 219564.0, 219184.0, 241906.0, 299560.0, 299560.0, 162087.0, 254243.0, 244110.0, 150410.0, 187913.0, 192498.0, 192498.0, 168331.0, 228861.0, 203301.0, 179094.0, 239728.0, 210090.0, 210090.0, 210090.0, 210090.0, 210090.0, 259461.0, 206024.0, 256940.0, -49830.0, 299953.0, 299953.0, 144697.0, 207468.0, 170041.0, 164418.0, 232255.0, 220729.0, 223427.0, 279093.0, 199894.0, 199894.0, 199894.0, 199894.0, 239677.0, 197007.0, 257485.0, 187647.0, 187647.0, 244617.0, 244617.0, 274508.0, 256041.0, -12497.0, 276623.0, 199426.0, 295545.0, 236637.0, 249151.0, 249151.0, 195398.0, 213168.0, 221274.0, 297762.0, 139352.0, 175678.0, 236612.0, 236612.0, -46683.0, 221857.0, 221857.0, 221857.0, 221857.0, 262729.0, 187963.0, 250253.0, 250253.0, 250152.0, 217943.0, 237790.0, 1354

In [33]:
# Se observó que havia salarios negativos. Se realzia la diferencia

diferencia = customer_info['Salary'].max() - customer_info['Salary'].min()

print(f'La diferencia entre el salario máximo y el mínimo es: {diferencia}')

La diferencia entre el salario máximo y el mínimo es: 465714.0


In [34]:
# Como se observa hay valores atípicos en 'Salary' y 'CLV'"Customer Flight Activity.csv
# Se va a realizar la media, mediana y desviación típica

salario = customer_info['Salary'].agg(['mean', 'median', 'std'])
clv = customer_info['CLV'].agg(['mean', 'median', 'std'])

print(f'La media, mediana y desviación tìca de Salary es {salario}')

print(f'La media, mediana y desviación tìca de Salary es {clv}')

La media, mediana y desviación tìca de Salary es mean      79245.609409
median    73455.000000
std       35008.297285
Name: Salary, dtype: float64
La media, mediana y desviación tìca de Salary es mean      7988.896536
median    5780.180000
std       6860.982280
Name: CLV, dtype: float64


# Conclusiones del EDA

CUSTOMER FLIGHT
- Al observar que hay valores atípicos, en este caso, bastante diferencia entre la media y la mediana se escogería el uso de la mediana
- Tiene 1864 duplicados --> se procede a eliminarlos de este DataFrame antes de la unión de ambos

CUSTOMER INFO 
- En la columna 'Country' el único país es Canadá --> se podría eliminar ya que no da información relevante
- Se comprueba que todos los nulos de 'Salary' corresponde con los registros de Collage de 'Education'. Se puede deducir que que no hubo un buen registro de los salarios del grupo collage.
- Las tres columnas de nulos ('Salary', 'Cantellation Year' y 'Cancellation Month') son de tipo float, mientras que el resto de columnas numéricas son int. 
- Los nulos de 'Cancellation Year' y 'Cancellation Month' indican los clientes que no han cancelado sus membresía.
- Los nulos de 'Salary' son un 25% por lo que se realizará una imputación.
- En 'Salary' hay salarios negativos --> se interpreta que ha sido un error al insertar los datos. Se cambia a positivo.
- Hay gran diferencia entre el salario máximo y el mínimo. 

GENERAL 
- Se observa que ambos DataFrames tienen una columna en común : 'Loyalty Number'

1.2. LIMPIEZA 
   - Customer Flight
   - Customer Info

In [35]:
# Existen 1864 duplicados que se comprobaron en el EDA
# Otra comprobación

customer_flight.duplicated().sum()

np.int64(1864)

In [36]:
# Eliminamos los duplicados del DataFrame de Customer Flight
customer_flight.drop_duplicates(inplace = True)

print(f'Ahora el número de duplicados es: {customer_flight.duplicated().sum()}')

Ahora el número de duplicados es: 0


In [37]:
# Se comprueba cuantas filas tiene ahora

print(f'El DataFrame tiene {customer_flight.shape[0]} filas y {customer_flight.shape[1]} columnas')

El DataFrame tiene 403760 filas y 10 columnas


In [38]:
# Se podría eliminar la columna 'Country' ya que todos los registros son Canadá ?????????

customer_info = customer_info.drop(columns=['Country'])

In [39]:
# Comrprobamos

customer_info.columns

Index(['Loyalty Number', 'Province', 'City', 'Postal Code', 'Gender',
       'Education', 'Salary', 'Marital Status', 'Loyalty Card', 'CLV',
       'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [40]:
# De la columna 'Salary' se pasan los valores negativos a positivos porque no le encuentro el sentido que un cliente deba
# dinero en este caso. Se oaga por un servicio

customer_info['Salary'] = customer_info['Salary'].abs()

In [41]:
# Comprobamos que ya no hayan valores negativos

customer_info[customer_info['Salary'] < 0]

Unnamed: 0,Loyalty Number,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month


In [42]:
# Volvemos a observar los pocentajes y el número de nulos

for col in columnas:
    procentajes_nulos = (customer_info[col].isna().sum() / len(customer_info)) * 100
    print(f'La columna {col.upper()} {customer_info[col].isnull().sum()} tiene valores nulos lo que es igual a {procentajes_nulos.round()} %')

La columna SALARY 4238 tiene valores nulos lo que es igual a 25.0 %
La columna CANCELLATION YEAR 14670 tiene valores nulos lo que es igual a 88.0 %
La columna CANCELLATION MONTH 14670 tiene valores nulos lo que es igual a 88.0 %


In [43]:
# Al haber mucha desviación típica en 'Salary' se va a imputar los nulos usando la mediana

mediana_salary = customer_info['Salary'].median()
customer_info['Salary'] = customer_info['Salary'].fillna(mediana_salary)

In [44]:
# Se comprueba si hay nulos en 'Salary'"Customer Flight Activity.csv"

print(f'Ahora los nulos de Salary son: {customer_info['Salary'].isnull().sum()}')

Ahora los nulos de Salary son: 0


In [45]:
# Una vez transformados los datos se guardan los DataFrames limpios

customer_flight_limpio = customer_flight.to_csv('Customer Flight Limpio.csv', index = False)

In [46]:
customer_info_limpio = customer_info.to_csv('Customer Loyalty Limpio.csv', index = False)

1.3. UNIÓN DE LOS DATAFRAMES

In [48]:
customer_flight_limpio  = pd.read_csv('Customer Flight Limpio.csv')
customer_info_limpio = pd.read_csv('Customer Loyalty Limpio.csv')

In [49]:
# Se usa el merge copn la columna en común que tienen
customer_total_limpio = customer_info_limpio.merge(customer_flight_limpio, how = 'inner', on = 'Loyalty Number')

In [None]:
# Se guarda el DataFrame 

customer_total_limpio.to_csv('Customer Total.csv', index=False)

In [51]:
# Se muestran las filas y columnas totales

print(f'El DataFrame tiene {customer_total_limpio.shape[0]} filas y {customer_total_limpio.shape[1]} columnas')

El DataFrame tiene 403760 filas y 24 columnas


In [52]:
# Se muestran las 5 primeras filas

customer_total_limpio.head()

Unnamed: 0,Loyalty Number,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,480934,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,,2017,1,0,0,0,0,0.0,0,0
1,480934,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,,2017,2,3,0,3,2823,282.0,0,0
2,480934,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,,2017,3,0,0,0,0,0.0,0,0
3,480934,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,,2017,4,0,0,0,0,0.0,0,0
4,480934,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,,2018,10,6,2,8,3352,335.0,465,38


In [53]:
customer_total_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 403760 entries, 0 to 403759
Data columns (total 24 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               403760 non-null  int64  
 1   Province                     403760 non-null  object 
 2   City                         403760 non-null  object 
 3   Postal Code                  403760 non-null  object 
 4   Gender                       403760 non-null  object 
 5   Education                    403760 non-null  object 
 6   Salary                       403760 non-null  float64
 7   Marital Status               403760 non-null  object 
 8   Loyalty Card                 403760 non-null  object 
 9   CLV                          403760 non-null  float64
 10  Enrollment Type              403760 non-null  object 
 11  Enrollment Year              403760 non-null  int64  
 12  Enrollment Month             403760 non-null  int64  
 13 