In [57]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import chi2_contingency, ttest_ind

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# FASE I
### 1. EXPLORACIÓN DE DATOS:EDA

In [58]:
# 1. EXPLORAR DATOS
# lo primero es trabajar con las librerias correctas para esta fase NUMPY y PANDAS ya estan ejecutadas

In [59]:
## EDA : Exploratory Data Analysis (Analisis Exploratorio de Datos)
# en esta fase voy a realizar lo siguiente: 
# 1. Explorar datos: Revisar las tablas, revisar columnas, que tipo de valores, 
# 2. Preguntas: Haremos preguntas para tomar decisiones en la preparación de los datos
# 3. Preparar los datos: hacemos un análisis 

In [61]:
# cargar el ARCHIVO 1 Analisis de vuelos de los clientes fidelizados
# vamos a mostrar las 5 primeras filas del DataFrame

df = pd.read_csv("Customer Flight Activity.csv")
df.head(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [60]:
#vamos a ver las 5 últimas filas del DataFrame
df.tail(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405619,999902,2018,12,0,0,0,0,0.0,0,0
405620,999911,2018,12,0,0,0,0,0.0,0,0
405621,999940,2018,12,3,0,3,1233,123.0,0,0
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


In [6]:
# vamos a ver 5 filas aleatorias del DataFrame
df.sample(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
326609,394715,2018,8,14,0,14,2562,256.0,0,0
361711,462974,2018,10,1,0,1,856,85.0,0,0
258734,413815,2018,4,11,2,13,2834,353.75,0,0
129301,684691,2017,8,1,0,1,2180,218.0,0,0
366734,214661,2017,2,1,1,2,504,50.0,484,39


In [7]:
# CONCLUSIONES DEL USO DE ESTOS MÉTODOS
# podemos concluir que son los datos de los clientes fidelizados de dos años todo el 2017 y todo el 2018
df['Year'].value_counts()

2017    202812
2018    202812
Name: Year, dtype: int64

In [62]:
#1. EDA: Lo primero es ver cuantas (filas, columnas)
# 405624 filas y 10 columnas
df.shape

(405624, 10)

In [63]:
# podemos usar un print para explicar el resultado
print(f"El número de filas que tenemos es {df.shape[0]}, y el número de columnas es {df.shape[1]}")

El número de filas que tenemos es 405624, y el número de columnas es 10


In [64]:
#1. EDA: 
# en este caso vamos a hacer una analisis completo de DataFrame
# todos los datos de las columnas son integer excepto la columna "Points Accumulated" que es un float
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [65]:
# Es para mostrar los nombres de las columnas es algo rápido y lo podemos usar para ir trabajando en el análisis
df.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [66]:
# con esto confirmamos que esta tabla no tiene valores nulos
df.isna().sum()

Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

In [67]:
# vamos a realizar un analisis de los duplicados probablemente no tenga duplicados con esto lo comprobamos
# y vemos efectivamente que ninguna de las filas está duplicada
df.duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
405619    False
405620    False
405621    False
405622    False
405623    False
Length: 405624, dtype: bool

In [68]:
# vamos hacer una comprobación este dato me tendría que salir 0 y como esto no ocurre entiendo que puede ser por varios motivos
# pueden ser filas que tienen los mismos valores en todas las columnas, es decir, por ejemplo los clientes que no han hecho ningun vuelo
df.duplicated().sum()

1864

In [69]:
# hacemos una revisión de las filas y parece que tenemos como duplicadas las filas en las que no se ha realizado ningun vuelo
# Cuando las columnas son cero y coinciden con el mes se considera fila duplicada 
# he comprobado las 5 últimas filas con el método "tail" que corresponderian al mes 12 del año 2018 y efectivamente hay filas duplicadas
duplicated_rows = df[df.duplicated()]
df.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [70]:
duplicated_rows = df[df.duplicated()]
df.tail(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405619,999902,2018,12,0,0,0,0,0.0,0,0
405620,999911,2018,12,0,0,0,0,0.0,0,0
405621,999940,2018,12,3,0,3,1233,123.0,0,0
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


In [71]:
df['Flights Booked'].unique()


array([ 3, 10,  6,  0,  8, 11,  9,  4,  7,  5,  2,  1, 12, 13, 14, 16, 15,
       17, 18, 19, 20, 21])

In [18]:
# REVISAR me salen los 3 valores primeros y los 3 ultimos
df['Distance'].unique()

array([1521, 2030, 1200, ..., 1217,  617, 4135])

In [72]:
# LO TENGO QUE REVISAR 
# hago una lista con todos los valores distintos que hay en la columna de 
# valor de los puntos canjeados el valor mayor 70$ y el menor 28$
unique_dollar = df['Dollar Cost Points Redeemed'].unique().tolist()
print(unique_dollar)


[0, 28, 30, 25, 36, 32, 24, 26, 37, 33, 35, 27, 31, 54, 42, 29, 38, 34, 39, 55, 41, 49, 40, 48, 45, 53, 58, 44, 43, 46, 52, 47, 63, 57, 62, 51, 50, 64, 56, 61, 65, 60, 68, 59, 66, 69, 67, 71, 70]


In [73]:
# vamos a explorar dos columnas que parecen tener relación
# podemos ver que la distancia del vuelo es el equivalente en puntos y se redondea a los multiplos de 10 mas cercano
# sin embargo por azar he visto que cuando la distancia es 606 son 60 puntos voy a hacer una comprobación si la distancia es mayor a 1000
# si es menor a 1000
# efectivamente en las comprobaciones he podido observar que a partir de 1000 es cuando empiezan a contar 

df[df['Distance'] > 1000][['Distance', 'Points Accumulated']].head(10)


Unnamed: 0,Distance,Points Accumulated
0,1521,152.0
1,2030,203.0
2,1200,120.0
10,2037,203.0
11,4245,424.0
16,1144,114.0
18,3264,326.0
19,2340,234.0
20,1236,123.0
21,3124,312.0


In [21]:
df[df['Distance'] > 0][['Distance', 'Points Accumulated']].head(10)

Unnamed: 0,Distance,Points Accumulated
0,1521,152.0
1,2030,203.0
2,1200,120.0
8,606,60.0
10,2037,203.0
11,4245,424.0
16,1144,114.0
18,3264,326.0
19,2340,234.0
20,1236,123.0


In [74]:
df[df['Distance'] < 1000][['Distance', 'Points Accumulated']].head(6)

Unnamed: 0,Distance,Points Accumulated
3,0,0.0
4,0,0.0
5,0,0.0
6,0,0.0
7,0,0.0
8,606,60.0


In [75]:
df[df['Distance'] > 1000][['Distance', 'Points Accumulated','Points Redeemed','Dollar Cost Points Redeemed' ]].head(5)

Unnamed: 0,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,1521,152.0,0,0
1,2030,203.0,0,0
2,1200,120.0,0,0
10,2037,203.0,0,0
11,4245,424.0,341,28


In [76]:
# ESTO SON NOTAS 
# Ordenar el DataFrame por la columna "Points Accumulated" en orden ascendente
#df_sorted = df.sort_values(by="Points Accumulated", ascending=True)

# Mostrar las primeras filas, que corresponden a los valores más bajos
#df_sorted.head(10)

In [25]:
## REVISAR ESTO SON NOTAS 

# Filtrar los registros donde "Points Accumulated" es mayor a 0
#df_filtered = df[df['Points Accumulated'] > 64]

# Encontrar el valor mínimo de "Points Accumulated" en este subconjunto
#min_points = df_filtered['Points Accumulated'].min()

# Filtrar los registros que tienen ese valor mínimo
#min_points_records = df_filtered[df_filtered['Points Accumulated'] == min_points]

# Mostrar los registros
#min_points_records

In [26]:
# cargar el ARCHIVO 2 Historial de fidelización del cliente

df2 = pd.read_csv("Customer Loyalty History.csv")
df2.head(5)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [27]:
df2.shape
print(f"El número de filas que tenemos es {df2.shape[0]}, y el número de columnas es {df2.shape[1]}")

El número de filas que tenemos es 16737, y el número de columnas es 16


In [28]:
#vamos a ver las 5 últimas filas del DataFrame
df2.tail(5)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
16732,823768,Canada,British Columbia,Vancouver,V6E 3Z3,Female,College,,Married,Star,61850.19,Standard,2012,12,,
16733,680886,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,89210.0,Married,Star,67907.27,Standard,2014,9,,
16734,776187,Canada,British Columbia,Vancouver,V5R 1W3,Male,College,,Single,Star,74228.52,Standard,2014,3,,
16735,906428,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,-57297.0,Married,Star,10018.66,2018 Promotion,2018,4,,
16736,652627,Canada,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,75049.0,Married,Star,83325.38,Standard,2015,12,2016.0,8.0


In [29]:
# vamos a ver 5 filas aleatorias del DataFrame
df2.sample(5)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
7907,493775,Canada,Ontario,Toronto,M2M 7K8,Female,Bachelor,64702.0,Divorced,Nova,7956.15,Standard,2014,11,,
14603,673192,Canada,British Columbia,Vancouver,V6E 3D9,Female,Bachelor,83322.0,Married,Star,7462.93,Standard,2014,3,,
12619,923406,Canada,British Columbia,Vancouver,V6E 3D9,Female,College,,Single,Star,4152.65,Standard,2017,10,,
633,636505,Canada,Quebec,Montreal,H2T 9K8,Female,Bachelor,51831.0,Married,Star,4865.37,Standard,2015,6,,
14082,156870,Canada,Ontario,Toronto,M1R 4K3,Female,Bachelor,46831.0,Married,Star,6047.03,Standard,2018,7,,


In [30]:
# con este método contamos los varoes únicos en la columna por lo que vemos que los datos 
# del historial de fidelidad van desde el 2012 al 2018
df2['Enrollment Year'].value_counts()

2018    3010
2017    2487
2016    2456
2013    2397
2014    2370
2015    2331
2012    1686
Name: Enrollment Year, dtype: int64

In [31]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

In [32]:
df2.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [33]:
# Seleccionar todas las columnas de tipo categorico
df2.select_dtypes(include=['object'])

Unnamed: 0,Country,Province,City,Postal Code,Gender,Education,Marital Status,Loyalty Card,Enrollment Type
0,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,Married,Star,Standard
1,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,Divorced,Star,Standard
2,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,Single,Star,Standard
3,Canada,Ontario,Toronto,P1W 1K4,Male,College,Single,Star,Standard
4,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,Married,Star,Standard
...,...,...,...,...,...,...,...,...,...
16732,Canada,British Columbia,Vancouver,V6E 3Z3,Female,College,Married,Star,Standard
16733,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,Married,Star,Standard
16734,Canada,British Columbia,Vancouver,V5R 1W3,Male,College,Single,Star,Standard
16735,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,Married,Star,2018 Promotion


In [34]:
df2.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


**Entendamos los resultados para las columnas **


- `count`: El número de observaciones no nulas en las columnas.Por lo que vemos no hay ningún nulo

- `unique`: La cantidad de valores únicos en las columnas. Los datos son del Pais Canada

- `top`: El valor más común en las columnas (en este caso, "admin.").

- `freq`: La frecuencia del valor más común.Por ejemplo en la columna Enrollment Type el tipo de inscripción es Standard se hizo una promoción en el 2018(971)


In [35]:
df2['Education'].value_counts()

Bachelor                10475
College                  4238
High School or Below      782
Doctor                    734
Master                    508
Name: Education, dtype: int64

In [36]:
df2['Loyalty Card'].value_counts()

Star      7637
Nova      5671
Aurora    3429
Name: Loyalty Card, dtype: int64

In [37]:
df2['Marital Status'].value_counts()

Married     9735
Single      4484
Divorced    2518
Name: Marital Status, dtype: int64

In [38]:
# Seleccionar todas las columnas numéricas
df2.select_dtypes(include=['int', 'float'])

Unnamed: 0,Loyalty Number,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,83236.0,3839.14,2016,2,,
1,549612,,3839.61,2016,3,,
2,429460,,3839.75,2014,7,2018.0,1.0
3,608370,,3839.75,2013,2,,
4,530508,103495.0,3842.79,2014,10,,
...,...,...,...,...,...,...,...
16732,823768,,61850.19,2012,12,,
16733,680886,89210.0,67907.27,2014,9,,
16734,776187,,74228.52,2014,3,,
16735,906428,-57297.0,10018.66,2018,4,,


In [39]:
df2['Cancellation Year'].value_counts()

2018.0    645
2017.0    506
2016.0    427
2015.0    265
2014.0    181
2013.0     43
Name: Cancellation Year, dtype: int64

In [40]:
df2['Enrollment Type'].value_counts()

Standard          15766
2018 Promotion      971
Name: Enrollment Type, dtype: int64

In [41]:
clientes_especific = df2[df2['Enrollment Type'].isin(['2018 Promotion'])][['Loyalty Number']]

# Mostrar los resultados
print(clientes_especific)

       Loyalty Number
18             172755
36             938981
65             386082
69             112522
73             330694
...               ...
16673          368435
16676          828109
16698          909547
16706          409984
16735          906428

[971 rows x 1 columns]


In [42]:
clientes_especific = df2[df2['Loyalty Number'].isin([595658,721456])][['Enrollment Type']]

# Mostrar los resultados
print(clientes_especific)

      Enrollment Type
8814         Standard
15127        Standard


In [43]:
df2['Enrollment Type'].unique()

array(['Standard', '2018 Promotion'], dtype=object)

In [44]:
# El resultado arroja un valor negativo en el salario y no le encuentro lógica voy averiguar si es un error
df2['Salary'].value_counts()

 101933.0    23
 62283.0     14
 61809.0     14
 51573.0     14
 64001.0     13
             ..
 95907.0      1
 72440.0      1
 88633.0      1
 100572.0     1
-57297.0      1
Name: Salary, Length: 5890, dtype: int64

In [45]:
# Vamos a intentar contar los salarios negativos que hay en la base de datos
salario_negativo = df2[df2['Salary'] < 0]
cuenta_salario_negativo = salario_negativo.shape[0]
print(f"Número de salarios negativos: {cuenta_salario_negativo}")


Número de salarios negativos: 20


In [46]:
# quiero ver las columnas no sé si sirve pero me ayuda
# ¡¡¡¡¡decision!!! tendre que hacerlos nulos o darles valor +
salario_negativo

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
1082,542976,Canada,Quebec,Montreal,H2Y 4R4,Male,High School or Below,-49830.0,Divorced,Star,24127.5,2018 Promotion,2018,3,,
1894,959977,Canada,British Columbia,Vancouver,V5R 1W3,Female,Bachelor,-12497.0,Married,Aurora,9453.0,2018 Promotion,2018,3,,
2471,232755,Canada,British Columbia,Vancouver,V1E 4R6,Female,Bachelor,-46683.0,Single,Nova,4787.81,2018 Promotion,2018,3,,
3575,525245,Canada,British Columbia,Victoria,V10 6T5,Male,Bachelor,-45962.0,Married,Star,2402.33,2018 Promotion,2018,3,,
3932,603070,Canada,British Columbia,West Vancouver,V6V 8Z3,Female,Bachelor,-19325.0,Single,Star,2893.74,2018 Promotion,2018,3,,
4712,491242,Canada,British Columbia,Dawson Creek,U5I 4F1,Male,Bachelor,-43234.0,Married,Star,7597.91,2018 Promotion,2018,3,,
6560,115505,Canada,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,-10605.0,Married,Nova,5860.17,2018 Promotion,2018,4,,
6570,430398,Canada,Newfoundland,St. John's,A1C 6H9,Male,Bachelor,-17534.0,Married,Nova,49423.8,2018 Promotion,2018,3,,
7373,152016,Canada,Ontario,Toronto,P1J 8T7,Female,Bachelor,-58486.0,Married,Aurora,5067.21,2018 Promotion,2018,2,,
8576,194065,Canada,Ontario,Sudbury,M5V 1G5,Female,Bachelor,-31911.0,Married,Nova,2888.85,2018 Promotion,2018,2,,


In [47]:
# corregir los salarios negativos
# las correcciones pueden ser pasarlos a nulos o pasarlos a positivos
#df2['Salary'] = df2['Salary'].apply(lambda x: abs(x) if x < 0 else x)
#df2['Salary'] = df2['Salary'].apply(lambda x: None if x < 0 else x)



In [48]:
df2['Cancellation Year'].value_counts()

2018.0    645
2017.0    506
2016.0    427
2015.0    265
2014.0    181
2013.0     43
Name: Cancellation Year, dtype: int64

In [49]:
df2['Cancellation Month'].value_counts()

12.0    213
11.0    212
8.0     208
7.0     186
10.0    180
9.0     176
6.0     165
1.0     155
3.0     149
5.0     148
2.0     139
4.0     136
Name: Cancellation Month, dtype: int64

In [50]:
# No entiendo muy bien porque "Cancellation Year" y ""Cancellation Month" son Float si es mas comprensible si fuesen int
# voy a transformarlos 
# fillna remplaza el valor Nan con 0 y el astype(int) convierte la columna en entero este metodo lo he buscado en internet
#df2['Cancellation Year'] = df2['Cancellation Year'].fillna(0).astype(int)
#df2['Cancellation Month'] = df2['Cancellation Month'].fillna(0).astype(int)

#print(df2[['Cancellation Year', 'Cancellation Month']].dtypes)




# ESTUDIO DE NULOS

In [51]:
# Utilizando este método nos dará el número de nulos que hay por columna en todo el DataFrame
df2.isnull().sum()

Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

In [52]:
# Como sólo hay 3 columnas de las 16 que tienen nulos vamos hacer que se impriman solo las nulas
# por lo que le vamos a decir que me imprima sólo las que sean mayor a cero
# que la cancelación de año y mes tengan la misma cantidad de nulos podemos deducir xxxx
columnas_con_nulos = df2.isnull().sum()
columnas_con_nulos = columnas_con_nulos[columnas_con_nulos > 0]
print(columnas_con_nulos)


Salary                 4238
Cancellation Year     14670
Cancellation Month    14670
dtype: int64


In [53]:
# me gustaría comparar si los nulos de ambas columnas son nulos en las mismas filas
# Le voy a pedir que me compare las dos columnas y que me diga si son coincidentes (== significa que me las compare para ver si coinciden)
# Me arrojará un valor Booleano
nulos_coinciden = df2['Cancellation Year'].isnull() == df2['Cancellation Month'].isnull()
print(nulos_coinciden.all())

True


In [54]:
# si busco los nulos que no coinciden en alguna de las filas y arriba me ha dicho que es True esto me tendría que dar algo 
# que me de como resultado cero o nada para ver que algo es dirente usamos !=
nulos_NO_coinciden = df2[df2['Cancellation Year'].isnull() != df2['Cancellation Month'].isnull()]
print(nulos_NO_coinciden[['Cancellation Year', 'Cancellation Month']])


Empty DataFrame
Columns: [Cancellation Year, Cancellation Month]
Index: []


In [55]:
# vamos a explorar los nulos de la columna "Salary"


In [56]:
# creamos una variable con los nombres de las columnas del DataFrame de las variables categóricas utilizando el método '.columns'
columnas_categoricas = df2.columns
print(f"Las columnas del DataFrame de variables categóricas son {columnas_categoricas}")

# empezamos a iterar por cada una de las columnas para sacar sus valores únicos y sus frecuencias
for columna in columnas_categoricas:
    print(f" \n----------- ESTAMOS ANALIZANDO LA COLUMNA: '{columna.upper()}' -----------\n")
    print(f"Sus valores únicos son: {df2.columns[columna].unique()}\n")
    print(f"Las frecuencias de los valores únicos de las categorías son: {df2.columns[columna].value_counts()} ")

Las columnas del DataFrame de variables categóricas son Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'LOYALTY NUMBER' -----------



IndexError: only integers, slices (`:`), ellipsis (`...`), numpy.newaxis (`None`) and integer or boolean arrays are valid indices

In [None]:
# ESTUDIO DE NULOS

In [None]:
df2.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
16732    False
16733    False
16734    False
16735    False
16736    False
Length: 16737, dtype: bool

In [None]:
df2.duplicated().sum()

0

In [None]:
#df2.duplicated(subset = "date").sum()

In [None]:
#df2.isna().sum()[df.isna().sum()>0]