In [1]:
import pandas as pd
import numpy as np

Perfil detallado de los clientes, incluyendo su ubicación, nivel educativo, ingresos, estado civil, y detalles sobre su membresía en el programa de lealtad (como el tipo de tarjeta, valor de vida del cliente, y fechas de inscripción y cancelación)

- Loyalty Number: Identificador único del cliente dentro del programa de lealtad. Este número permite correlacionar la información de este archivo con el archivo de actividad de vuelos.
- Country: País de residencia del cliente.
- Province: Provincia o estado de residencia del cliente (aplicable a países con divisiones provinciales o estatales, como Canadá).
- City: Ciudad de residencia del cliente.
- Postal Code: Código postal del cliente.
- Gender: Género del cliente (ej. Male para masculino y Female para femenino).
- Education: Nivel educativo alcanzado por el cliente (ej. Bachelor para licenciatura, College para estudios universitarios o técnicos, etc.).
- Salary: Ingreso anual estimado del cliente.
- Marital Status: Estado civil del cliente (ej. Single para soltero, Married para casado, Divorced para divorciado, etc.).
- Loyalty Card: Tipo de tarjeta de lealtad que posee el cliente. Esto podría indicar distintos niveles o categorías dentro del programa de lealtad.
- CLV (Customer Lifetime Value): Valor total estimado que el cliente aporta a la empresa durante toda la relación que mantiene con ella.
- Enrollment Type: Tipo de inscripción del cliente en el programa de lealtad (ej. Standard).
- Enrollment Year: Año en que el cliente se inscribió en el programa de lealtad.
- Enrollment Month: Mes en que el cliente se inscribió en el programa de lealtad.
- Cancellation Year: Año en que el cliente canceló su membresía en el programa de lealtad, si aplica.
- Cancellation Month: Mes en que el cliente canceló su membresía en el programa de lealtad, si aplica.

In [2]:
df_loyalty = pd.read_csv("Customer Loyalty History.csv")
df_loyalty.head(2)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,


In [3]:
print(f"El número de filas que tenemos es {df_loyalty.shape[0]}, y el número de columnas es {df_loyalty.shape[1]}")

El número de filas que tenemos es 16737, y el número de columnas es 16


In [4]:
df_loyalty.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [5]:
# Para facilitar el análisis cambio los nombres por miníscula y espacios por _

df_loyalty.columns = (df_loyalty.columns.str.strip().str.lower().str.replace(' ', '_'))
df_loyalty.columns

Index(['loyalty_number', 'country', 'province', 'city', 'postal_code',
       'gender', 'education', 'salary', 'marital_status', 'loyalty_card',
       'clv', 'enrollment_type', 'enrollment_year', 'enrollment_month',
       'cancellation_year', 'cancellation_month'],
      dtype='object')

In [6]:
df_loyalty.info()

#En este caso tenemos columnas categóricas, numéricas enteras y float

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   loyalty_number      16737 non-null  int64  
 1   country             16737 non-null  object 
 2   province            16737 non-null  object 
 3   city                16737 non-null  object 
 4   postal_code         16737 non-null  object 
 5   gender              16737 non-null  object 
 6   education           16737 non-null  object 
 7   salary              12499 non-null  float64
 8   marital_status      16737 non-null  object 
 9   loyalty_card        16737 non-null  object 
 10  clv                 16737 non-null  float64
 11  enrollment_type     16737 non-null  object 
 12  enrollment_year     16737 non-null  int64  
 13  enrollment_month    16737 non-null  int64  
 14  cancellation_year   2067 non-null   float64
 15  cancellation_month  2067 non-null   float64
dtypes: f

In [7]:
# Cambiamos algunas columnas de float a int:

lista_columnas = ['salary', 'cancellation_year', 'cancellation_month']

for col in lista_columnas:
    df_loyalty[col] = df_loyalty[col].astype('Int64')

In [8]:
df_loyalty.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   loyalty_number      16737 non-null  int64  
 1   country             16737 non-null  object 
 2   province            16737 non-null  object 
 3   city                16737 non-null  object 
 4   postal_code         16737 non-null  object 
 5   gender              16737 non-null  object 
 6   education           16737 non-null  object 
 7   salary              12499 non-null  Int64  
 8   marital_status      16737 non-null  object 
 9   loyalty_card        16737 non-null  object 
 10  clv                 16737 non-null  float64
 11  enrollment_type     16737 non-null  object 
 12  enrollment_year     16737 non-null  int64  
 13  enrollment_month    16737 non-null  int64  
 14  cancellation_year   2067 non-null   Int64  
 15  cancellation_month  2067 non-null   Int64  
dtypes: I

In [9]:
# Entendemos columnas numéricas
df_loyalty.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
clv,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
enrollment_year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
cancellation_year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
cancellation_month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0


In [10]:
# - Mucha diferencia entre CLV promedio y máximo (posible que contemos con VIP Customers)
# Salario con datos negativos, que exploraremos más adelante 

In [11]:
# En este caso si tenemos columnas categóricas
df_loyalty.describe(include = "O").T

# No nulos en las columnas categóricas 

Unnamed: 0,count,unique,top,freq
country,16737,1,Canada,16737
province,16737,11,Ontario,5404
city,16737,29,Toronto,3351
postal_code,16737,55,V6E 3D9,911
gender,16737,2,Female,8410
education,16737,5,Bachelor,10475
marital_status,16737,3,Married,9735
loyalty_card,16737,3,Star,7637
enrollment_type,16737,2,Standard,15766


In [12]:
# - Todos los clientes son canadienses, la mayoría de Ontario, con Toronto como ciudad principal, por lo que debe tratarse de una aerolínea canadiense.
df_loyalty["country"].unique()

array(['Canada'], dtype=object)

In [13]:
# Elimino la columna de country ya que no me aporta nada más
df_loyalty.drop(columns=["country"], inplace=True)

In [14]:
df_loyalty["province"].value_counts()

province
Ontario                 5404
British Columbia        4409
Quebec                  3300
Alberta                  969
Manitoba                 658
New Brunswick            636
Nova Scotia              518
Saskatchewan             409
Newfoundland             258
Yukon                    110
Prince Edward Island      66
Name: count, dtype: int64

In [15]:
df_loyalty["city"].value_counts()

city
Toronto           3351
Vancouver         2582
Montreal          2059
Winnipeg           658
Whistler           582
Halifax            518
Ottawa             509
Trenton            486
Edmonton           486
Quebec City        485
Dawson Creek       444
Fredericton        425
Regina             409
Kingston           401
Tremblant          398
Victoria           389
Hull               358
West Vancouver     324
St. John's         258
Thunder Bay        256
Sudbury            227
Moncton            211
Calgary            191
Banff              179
London             174
Peace River        113
Whitehorse         110
Kelowna             88
Charlottetown       66
Name: count, dtype: int64

In [16]:
#En 2018 es cuando más clientes se inscribieron en el programa, probablemente por una Promotion
df_loyalty['enrollment_year'].value_counts()

enrollment_year
2018    3010
2017    2487
2016    2456
2013    2397
2014    2370
2015    2331
2012    1686
Name: count, dtype: int64

In [17]:
df_loyalty['enrollment_type'].value_counts()

enrollment_type
Standard          15766
2018 Promotion      971
Name: count, dtype: int64

In [18]:
#Probablemente esta promoción se deba a que ese año también se perdieron más clientes
df_loyalty['cancellation_year'].value_counts()

cancellation_year
2018    645
2017    506
2016    427
2015    265
2014    181
2013     43
Name: count, dtype: Int64

-- Estudio duplicados

In [19]:
#No tenemos 
df_loyalty.duplicated().sum()

0

In [20]:
#compruebo con el subset que es cierto que no se duplican los clientes:
df_loyalty.duplicated(subset="loyalty_number").sum()

0

-- Estudio Nulos

In [21]:
df_loyalty.isna().sum()

loyalty_number            0
province                  0
city                      0
postal_code               0
gender                    0
education                 0
salary                 4238
marital_status            0
loyalty_card              0
clv                       0
enrollment_type           0
enrollment_year           0
enrollment_month          0
cancellation_year     14670
cancellation_month    14670
dtype: int64

In [22]:
#PORCENTAJE
porc_nulos = round(df_loyalty.isna().sum()/df_loyalty.shape[0]*100, 2)
porc_nulos

loyalty_number         0.00
province               0.00
city                   0.00
postal_code            0.00
gender                 0.00
education              0.00
salary                25.32
marital_status         0.00
loyalty_card           0.00
clv                    0.00
enrollment_type        0.00
enrollment_year        0.00
enrollment_month       0.00
cancellation_year     87.65
cancellation_month    87.65
dtype: float64

In [23]:
#tengo valores nulos numéricos; los convierto en DF para verlos más concretamente
df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])

# filtramos el DataFrame para quedarnos solo con aquellas columnas que tengan nulos
df_nulos[df_nulos["%_nulos"] > 0]

Unnamed: 0,%_nulos
salary,25.32
cancellation_year,87.65
cancellation_month,87.65


- Estudio columna salario: Negativos, nulos

In [24]:
negativos = df_loyalty[df_loyalty['salary'] < 0]
negativos

Unnamed: 0,loyalty_number,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
1082,542976,Quebec,Montreal,H2Y 4R4,Male,High School or Below,-49830,Divorced,Star,24127.5,2018 Promotion,2018,3,,
1894,959977,British Columbia,Vancouver,V5R 1W3,Female,Bachelor,-12497,Married,Aurora,9453.0,2018 Promotion,2018,3,,
2471,232755,British Columbia,Vancouver,V1E 4R6,Female,Bachelor,-46683,Single,Nova,4787.81,2018 Promotion,2018,3,,
3575,525245,British Columbia,Victoria,V10 6T5,Male,Bachelor,-45962,Married,Star,2402.33,2018 Promotion,2018,3,,
3932,603070,British Columbia,West Vancouver,V6V 8Z3,Female,Bachelor,-19325,Single,Star,2893.74,2018 Promotion,2018,3,,
4712,491242,British Columbia,Dawson Creek,U5I 4F1,Male,Bachelor,-43234,Married,Star,7597.91,2018 Promotion,2018,3,,
6560,115505,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,-10605,Married,Nova,5860.17,2018 Promotion,2018,4,,
6570,430398,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,-17534,Married,Nova,49423.8,2018 Promotion,2018,3,,
7373,152016,Ontario,Toronto,P1J 8T7,Female,Bachelor,-58486,Married,Aurora,5067.21,2018 Promotion,2018,2,,
8576,194065,Ontario,Sudbury,M5V 1G5,Female,Bachelor,-31911,Married,Nova,2888.85,2018 Promotion,2018,2,,


-  Casualmente los salarios negativos corresponden a clientes que se unieron durante la promoción de 2018, por lo que puede que los datos se cargaran de forma errónea.
- La mayoría de estos clientes se unieron en los primeros meses del año (enrollment_month) - en el primer trimestre 
- También encontramos patrones en education, la mayoría menos uno tienen estudios universitarios.
- La mayoría de estos clientes no se dieron de baja del programa de fidelidad.

In [25]:
# En base a estos resultados calculo los salarios negativos por la media de salario de los clientes que se unieron en dicha promoción

# Primero obtenemos los clientes de 2018 promotion con salario positivo creando una máscara/filtro
mascara = (df_loyalty['enrollment_type'] == '2018 Promotion') & (df_loyalty['salary'] >= 0)
media_salario = round(df_loyalty.loc[mascara, 'salary'].mean())              #round porque si no nos da error porque sería float

# Reemplazamos los salarios negativos dentro de ese grupo
df_loyalty.loc[(df_loyalty['enrollment_type'] == '2018 Promotion') & (df_loyalty['salary'] < 0),'salary'] = media_salario

In [26]:
# Verificamos que no nos quedan salarios negativos:
print("Salarios negativos:", len(df_loyalty[df_loyalty['salary'] < 0]))

Salarios negativos: 0


In [27]:
# Ahora nos falta solucionar los salarios nulos. Buscamos patrones:

salario_nulo = df_loyalty[df_loyalty['salary'].isna()]
salario_nulo

Unnamed: 0,loyalty_number,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
1,549612,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018,1
3,608370,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
6,927943,Ontario,Toronto,P5S 6R4,Female,College,,Single,Star,3857.95,Standard,2014,6,,
13,988178,Quebec,Montreal,H4G 3T4,Male,College,,Single,Star,3871.07,Standard,2013,10,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16721,632951,Alberta,Edmonton,T9G 1W3,Female,College,,Married,Star,44771.30,Standard,2018,7,,
16727,546773,British Columbia,Vancouver,V6E 3D9,Male,College,,Married,Star,52811.49,Standard,2015,9,,
16731,900501,Ontario,Sudbury,M5V 1G5,Male,College,,Single,Star,61134.68,Standard,2012,9,,
16732,823768,British Columbia,Vancouver,V6E 3Z3,Female,College,,Married,Star,61850.19,Standard,2012,12,,


In [28]:
df_loyalty[(df_loyalty['education']=='College') & (df_loyalty['salary'].notna())]

Unnamed: 0,loyalty_number,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month


In [29]:
salario_nulo_total = df_loyalty['salary'].isna().sum()
salario_nulo_total

4238

In [30]:
# Parece que todos los salarios nulos provienen de clientes cuyo nivel educativo es "College". Comprobamos:
college = (df_loyalty['education'] == 'College') & (df_loyalty['salary'].isna())
college_nulos = df_loyalty[college]

porcentaje = (len(college_nulos)/salario_nulo_total)*100
print(f"Porcentaje de nulos para nivel educativo'College': {porcentaje}%")

Porcentaje de nulos para nivel educativo'College': 100.0%


In [31]:
# Ya que todos los valores para salario, nivel educativo "Colleage" son nulos, podemos aproximar según la media salarial general.
media = round(df_loyalty['salary'].mean())

# Buscamos nivel educativo "Colleage" y salario nulo, reemplazándolo por la media
df_loyalty.loc[(df_loyalty['education'] == 'College') & (df_loyalty['salary'].isna()),'salary'] = media

In [32]:
df_loyalty['salary'].isna().sum()

0

- Columnas cancellation:

- Rate alto de nulos (87.65%), lo cual quiere decir que retenemos a la mayoría de nuestros clientes. Cancelaron el 12.35%.
- Cambio NA por 0 en cancellation_year y cancellation_month


In [33]:
filas = len(df_loyalty)
cancelados = df_loyalty[df_loyalty['cancellation_year'].notna()]
porcentaje_c = (len(cancelados) / filas) * 100

print(f"Clientes que cancelaron: {len(cancelados)}, {round(porcentaje_c,2)}%")

Clientes que cancelaron: 2067, 12.35%


In [34]:
df_loyalty['cancellation_year'].fillna(0, inplace=True)
df_loyalty['cancellation_month'].fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_loyalty['cancellation_year'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_loyalty['cancellation_month'].fillna(0, inplace=True)


In [36]:
df_loyalty.sample(5)

Unnamed: 0,loyalty_number,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
27,557752,Ontario,Toronto,P1L 8X8,Female,Bachelor,98629,Married,Star,3890.87,Standard,2017,10,0,0
2136,557633,British Columbia,Vancouver,V6E 3D9,Male,College,79422,Married,Aurora,7498.82,Standard,2017,5,0,0
6620,148486,Manitoba,Winnipeg,R2C 0M5,Male,Bachelor,97100,Divorced,Nova,5383.67,Standard,2017,6,0,0
9940,127645,British Columbia,Whistler,V6T 1Y8,Male,College,79422,Single,Star,2195.3,Standard,2016,4,0,0
16605,907858,Quebec,Hull,J8Y 3Z5,Female,College,79422,Single,Star,28435.64,Standard,2013,2,0,0


In [37]:
#Guardo el CSV limpio

df_loyalty.to_csv('Customer Loyalty History Clean.csv', index=False)


- Unir los DF

- Cambiar nombre columnas una vez unidos

- Visualizaciones, interpretaciones y respuesta a preguntas

- README