In [19]:
#Carga de Librerías 📚

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [20]:

def eda_flight(df_flight):
   
    # Cargar el archivo CSV como un DataFrame
    df_flight = pd.read_csv("Customer Flight Activity.csv")

    # Nombre de columnas
    print("Columnas:")
    display(df_flight.columns)
    print("----"*10)

    # Primeras filas
    print("Primeras filas:")
    display(df_flight.head(2))
    print("----"*10)

    # Últimas filas
    print("Últimas filas:")
    display(df_flight.tail(2))
    print("----"*10)

    # Filas aleatorias
    print("Filas aleatorias:")
    display(df_flight.sample())
    print("----"*10)

    # Información general
    print("Información general:")
    display(df_flight.info())
    print("----"*10)

    # Estadísticas descriptivas
    print("Estadísticas descriptivas:")
    display(df_flight.describe().T)
    print("----"*10)

    # Verificación de valores nulos
    print("Valores nulos por columna:")
    display(df_flight.isnull().sum())
    print("----"*10)

    # Porcentaje de valores nulos
    print("Porcentaje de valores nulos por columna:")
    display((df_flight.isnull().sum() / len(df_flight)) * 100)
    print("----"*10)

    # Verificación de valores duplicados
    print("Número de filas duplicadas:")
    display(df_flight.duplicated().sum())
    print("----"*10)

    # Conteo de valores únicos
    print("Número de valores únicos por columna:")
    display(df_flight.nunique())
    print("----"*10)

    # Diferenciación entre variables categóricas y numéricas
    print("Variables categóricas:")
    display(df_flight.select_dtypes(include='object').columns)
    print("----"*10)
    print("Variables numéricas:")
    display(df_flight.select_dtypes(include=['int64', 'float64']).columns)
    print("----"*10)

    # Dimensiones del DataFrame
    print("Shape del DataFrame:")
    display(df_flight.shape)




In [21]:
#Main
archivo = "Customer Flight Activity.csv"
df_flight = eda_flight(archivo)

Columnas:


Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

----------------------------------------
Primeras filas:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0


----------------------------------------
Últimas filas:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


----------------------------------------
Filas aleatorias:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
270991,130823,2018,5,11,0,11,1573,157.0,0,0


----------------------------------------
Información general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


None

----------------------------------------
Estadísticas descriptivas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,405624.0,550037.873084,258935.286969,100018.0,326961.0,550834.0,772194.0,999986.0
Year,405624.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
Month,405624.0,6.5,3.452057,1.0,3.75,6.5,9.25,12.0
Flights Booked,405624.0,4.115052,5.225518,0.0,0.0,1.0,8.0,21.0
Flights with Companions,405624.0,1.031805,2.076869,0.0,0.0,0.0,1.0,11.0
Total Flights,405624.0,5.146858,6.521227,0.0,0.0,1.0,10.0,32.0
Distance,405624.0,1208.880059,1433.15532,0.0,0.0,488.0,2336.0,6293.0
Points Accumulated,405624.0,123.692721,146.599831,0.0,0.0,50.0,239.0,676.5
Points Redeemed,405624.0,30.696872,125.486049,0.0,0.0,0.0,0.0,876.0
Dollar Cost Points Redeemed,405624.0,2.484503,10.150038,0.0,0.0,0.0,0.0,71.0


----------------------------------------
Valores nulos por columna:


Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

----------------------------------------
Porcentaje de valores nulos por columna:


Loyalty Number                 0.0
Year                           0.0
Month                          0.0
Flights Booked                 0.0
Flights with Companions        0.0
Total Flights                  0.0
Distance                       0.0
Points Accumulated             0.0
Points Redeemed                0.0
Dollar Cost Points Redeemed    0.0
dtype: float64

----------------------------------------
Número de filas duplicadas:


np.int64(1864)

----------------------------------------
Número de valores únicos por columna:


Loyalty Number                 16737
Year                               2
Month                             12
Flights Booked                    22
Flights with Companions           12
Total Flights                     33
Distance                        4746
Points Accumulated              1549
Points Redeemed                  587
Dollar Cost Points Redeemed       49
dtype: int64

----------------------------------------
Variables categóricas:


Index([], dtype='object')

----------------------------------------
Variables numéricas:


Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

----------------------------------------
Shape del DataFrame:


(405624, 10)

In [22]:

def eda_customers(df_customer):
   
    # Cargar el archivo CSV como un DataFrame
    df_customer = pd.read_csv("Customer Loyalty History.csv")

    # Nombre de columnas
    print("Columnas:")
    display(df_customer.columns)
    print("----"*10)

    # Primeras filas
    print("Primeras filas:")
    display(df_customer.head(2))
    print("----"*10)

    # Últimas filas
    print("Últimas filas:")
    display(df_customer.tail(2))
    print("----"*10)

    # Filas aleatorias
    print("Filas aleatorias:")
    display(df_customer.sample())
    print("----"*10)

    # Información general
    print("Información general:")
    display(df_customer.info())
    print("----"*10)

    # Estadísticas descriptivas
    print("Estadísticas descriptivas:")
    display(df_customer.describe().T)
    print("----"*10)

    # Verificación de valores nulos
    print("Valores nulos por columna:")
    display(df_customer.isnull().sum())
    print("----"*10)

    # Porcentaje de valores nulos
    print("Porcentaje de valores nulos por columna:")
    display(round(df_customer.isnull().sum() / len(df_customer)) * 100)
    print("----"*10)

    # Verificación de valores duplicados
    print("Número de filas duplicadas:")
    display(df_customer.duplicated().sum())
    print("----"*10)

    # Conteo de valores únicos
    print("Número de valores únicos por columna:")
    display(df_customer.nunique())
    print("----"*10)

    # Diferenciación entre variables categóricas y numéricas
    print("Variables categóricas:")
    display(df_customer.select_dtypes(include='object').columns)
    print("----"*10)
    print("Variables numéricas:")
    display(df_customer.select_dtypes(include=['int64', 'float64']).columns)
    print("----"*10)

    # Dimensiones del DataFrame
    print("Shape del DataFrame:")
    display(df_customer.shape)




In [23]:
#Main
archivo = "Customer Loyalty History.csv"
df_flight = eda_customers(archivo)

Columnas:


Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

----------------------------------------
Primeras filas:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,


----------------------------------------
Últimas filas:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
16735,906428,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,-57297.0,Married,Star,10018.66,2018 Promotion,2018,4,,
16736,652627,Canada,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,75049.0,Married,Star,83325.38,Standard,2015,12,2016.0,8.0


----------------------------------------
Filas aleatorias:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
15490,910056,Canada,Yukon,Whitehorse,Y2K 6R0,Female,Bachelor,57458.0,Single,Star,9547.71,Standard,2014,11,,


----------------------------------------
Información general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   floa

None

----------------------------------------
Estadísticas descriptivas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
Salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
CLV,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
Enrollment Year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
Enrollment Month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
Cancellation Year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
Cancellation Month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0


----------------------------------------
Valores nulos por columna:


Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

----------------------------------------
Porcentaje de valores nulos por columna:


Loyalty Number          0.0
Country                 0.0
Province                0.0
City                    0.0
Postal Code             0.0
Gender                  0.0
Education               0.0
Salary                  0.0
Marital Status          0.0
Loyalty Card            0.0
CLV                     0.0
Enrollment Type         0.0
Enrollment Year         0.0
Enrollment Month        0.0
Cancellation Year     100.0
Cancellation Month    100.0
dtype: float64

----------------------------------------
Número de filas duplicadas:


np.int64(0)

----------------------------------------
Número de valores únicos por columna:


Loyalty Number        16737
Country                   1
Province                 11
City                     29
Postal Code              55
Gender                    2
Education                 5
Salary                 5890
Marital Status            3
Loyalty Card              3
CLV                    7984
Enrollment Type           2
Enrollment Year           7
Enrollment Month         12
Cancellation Year         6
Cancellation Month       12
dtype: int64

----------------------------------------
Variables categóricas:


Index(['Country', 'Province', 'City', 'Postal Code', 'Gender', 'Education',
       'Marital Status', 'Loyalty Card', 'Enrollment Type'],
      dtype='object')

----------------------------------------
Variables numéricas:


Index(['Loyalty Number', 'Salary', 'CLV', 'Enrollment Year',
       'Enrollment Month', 'Cancellation Year', 'Cancellation Month'],
      dtype='object')

----------------------------------------
Shape del DataFrame:


(16737, 16)

In [33]:

def eda_columnas_flight(archivo):
 
    
    # Cargar datos desde el archivo CSV
    df_flight = pd.read_csv(archivo)
    print("Archivo cargado exitosamente")
    
           
    # Explorar cada columna del DataFrame
    for columna in df_flight.columns:
        print(f"Exploración de la columna: {columna}")
        datos_columna = df_flight[columna]  # Extrae los datos de la columna específica

        # Descripción estadística
        print("Descripción estadística:")
        display(datos_columna.describe(include='all'))
        
        # valores nulos
        print("Conteo de valores nulos:")
        print(datos_columna.isnull().sum())
        
        # valores duplicados
        print("Número de filas duplicadas:")
        display(df_flight.duplicated(subset=[columna]).sum())
       
        #  valores únicos
        print("Conteo de valores únicos:")
        print(datos_columna.nunique())
        
                
        # conteo de cada valor
        print("Conteo de valores:")
        display(datos_columna.value_counts())
        
        # valor más frecuente (moda)
        if not datos_columna.mode().empty:
            print("Valor más frecuente (moda):")
            display(datos_columna.mode().iloc[0])
        
        print("-" * 30)

# Llamada a la función
archivo = 'Customer Flight Activity.csv'  
eda_columnas_flight(archivo)


Archivo cargado exitosamente
Exploración de la columna: Loyalty Number
Descripción estadística:


count    405624.000000
mean     550037.873084
std      258935.286969
min      100018.000000
25%      326961.000000
50%      550834.000000
75%      772194.000000
max      999986.000000
Name: Loyalty Number, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(388887)

Conteo de valores únicos:
16737
Conteo de valores:


Loyalty Number
678205    72
642020    48
130331    48
903359    48
776466    48
          ..
428305    24
428249    24
428162    24
428152    24
428520    24
Name: count, Length: 16737, dtype: int64

Valor más frecuente (moda):


np.int64(678205)

------------------------------
Exploración de la columna: Year
Descripción estadística:


count    405624.000000
mean       2017.500000
std           0.500001
min        2017.000000
25%        2017.000000
50%        2017.500000
75%        2018.000000
max        2018.000000
Name: Year, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405622)

Conteo de valores únicos:
2
Conteo de valores:


Year
2017    202812
2018    202812
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(2017)

------------------------------
Exploración de la columna: Month
Descripción estadística:


count    405624.000000
mean          6.500000
std           3.452057
min           1.000000
25%           3.750000
50%           6.500000
75%           9.250000
max          12.000000
Name: Month, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405612)

Conteo de valores únicos:
12
Conteo de valores:


Month
1     33802
9     33802
2     33802
3     33802
11    33802
4     33802
5     33802
7     33802
6     33802
8     33802
10    33802
12    33802
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(1)

------------------------------
Exploración de la columna: Flights Booked
Descripción estadística:


count    405624.000000
mean          4.115052
std           5.225518
min           0.000000
25%           0.000000
50%           1.000000
75%           8.000000
max          21.000000
Name: Flights Booked, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405602)

Conteo de valores únicos:
22
Conteo de valores:


Flights Booked
0     197992
3      18228
11     15705
5      15084
7      14561
8      14357
9      14164
6      13847
2      13641
10     13363
4      12821
1      12667
13     10782
12     10382
14      7057
15      6582
16      4354
17      3899
18      2958
19      1496
20      1156
21       528
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(0)

------------------------------
Exploración de la columna: Flights with Companions
Descripción estadística:


count    405624.000000
mean          1.031805
std           2.076869
min           0.000000
25%           0.000000
50%           0.000000
75%           1.000000
max          11.000000
Name: Flights with Companions, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405612)

Conteo de valores únicos:
12
Conteo de valores:


Flights with Companions
0     296887
2      19272
3      19015
1      17905
4      13665
5      13424
6       9911
7       7089
8       3965
9       2944
10      1071
11       476
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(0)

------------------------------
Exploración de la columna: Total Flights
Descripción estadística:


count    405624.000000
mean          5.146858
std           6.521227
min           0.000000
25%           0.000000
50%           1.000000
75%          10.000000
max          32.000000
Name: Total Flights, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405591)

Conteo de valores únicos:
33
Conteo de valores:


Total Flights
0     197992
6      15273
10     14393
8      14056
4      13656
2      13032
12     12409
11     12300
9      10688
13     10499
14     10310
7       9873
3       9783
5       9309
15      8544
16      7727
17      6198
1       6106
18      5757
19      4002
20      3417
21      2610
22      1981
23      1616
24      1209
25       900
26       722
27       504
28       306
29       214
30       150
31        61
32        27
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(0)

------------------------------
Exploración de la columna: Distance
Descripción estadística:


count    405624.000000
mean       1208.880059
std        1433.155320
min           0.000000
25%           0.000000
50%         488.000000
75%        2336.000000
max        6293.000000
Name: Distance, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(400878)

Conteo de valores únicos:
4746
Conteo de valores:


Distance
0       197992
2520       410
2880       401
1680       389
2160       365
         ...  
2963         1
4997         1
947          1
3187         1
671          1
Name: count, Length: 4746, dtype: int64

Valor más frecuente (moda):


np.int64(0)

------------------------------
Exploración de la columna: Points Accumulated
Descripción estadística:


count    405624.000000
mean        123.692721
std         146.599831
min           0.000000
25%           0.000000
50%          50.000000
75%         239.000000
max         676.500000
Name: Points Accumulated, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(404075)

Conteo de valores únicos:
1549
Conteo de valores:


Points Accumulated
0.00      197992
180.00       763
270.00       734
288.00       717
189.00       709
           ...  
649.50         1
471.96         1
565.50         1
474.12         1
556.25         1
Name: count, Length: 1549, dtype: int64

Valor más frecuente (moda):


np.float64(0.0)

------------------------------
Exploración de la columna: Points Redeemed
Descripción estadística:


count    405624.000000
mean         30.696872
std         125.486049
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max         876.000000
Name: Points Redeemed, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405037)

Conteo de valores únicos:
587
Conteo de valores:


Points Redeemed
0      381443
447       103
523       100
443        98
516        97
        ...  
858         1
869         1
834         1
859         1
862         1
Name: count, Length: 587, dtype: int64

Valor más frecuente (moda):


np.int64(0)

------------------------------
Exploración de la columna: Dollar Cost Points Redeemed
Descripción estadística:


count    405624.000000
mean          2.484503
std          10.150038
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max          71.000000
Name: Dollar Cost Points Redeemed, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(405575)

Conteo de valores únicos:
49
Conteo de valores:


Dollar Cost Points Redeemed
0     381443
36      1037
38      1001
40       993
42       983
39       943
44       923
41       913
37       887
43       877
35       852
34       844
32       817
33       800
45       779
30       772
46       753
31       722
47       675
48       638
28       598
29       596
50       595
49       568
52       482
51       435
27       421
54       402
26       379
53       377
56       365
55       343
57       274
58       265
60       260
59       219
25       209
61       175
63       175
62       155
64       152
24       110
66       106
65        90
68        85
67        68
70        38
69        28
71         2
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(0)

------------------------------


In [34]:
def eda_columnas_customers(archivo):
 
    
    # Cargar datos desde el archivo CSV
    df_customer = pd.read_csv(archivo)
    print("Archivo cargado exitosamente")
    
           
    # Explorar cada columna del DataFrame
    for columna in df_customer.columns:
        print(f"Exploración de la columna: {columna}")
        datos_columna = df_customer[columna]  # Extrae los datos de la columna específica

        # Descripción estadística
        print("Descripción estadística:")
        display(datos_columna.describe(include='all'))
        
        # valores nulos
        print("Conteo de valores nulos:")
        print(datos_columna.isnull().sum())
        
        # valores duplicados
        print("Número de filas duplicadas:")
        display(df_customer.duplicated(subset=[columna]).sum())
       
        # valores únicos
        print("Conteo de valores únicos:")
        print(datos_columna.nunique())
        
                
        # conteo de cada valor
        print("Conteo de valores:")
        display(datos_columna.value_counts())
        
        # valor más frecuente (moda)
        if not datos_columna.mode().empty:
            print("Valor más frecuente (moda):")
            display(datos_columna.mode().iloc[0])
        
        print("-" * 30)

# Llamada a la función
archivo = 'Customer Loyalty History.csv'  
eda_columnas_customers(archivo)


Archivo cargado exitosamente
Exploración de la columna: Loyalty Number
Descripción estadística:


count     16737.000000
mean     549735.880445
std      258912.132453
min      100018.000000
25%      326603.000000
50%      550434.000000
75%      772019.000000
max      999986.000000
Name: Loyalty Number, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(0)

Conteo de valores únicos:
16737
Conteo de valores:


Loyalty Number
652627    1
118864    1
310700    1
795743    1
702528    1
         ..
193662    1
530508    1
608370    1
429460    1
549612    1
Name: count, Length: 16737, dtype: int64

Valor más frecuente (moda):


np.int64(100018)

------------------------------
Exploración de la columna: Country
Descripción estadística:


count      16737
unique         1
top       Canada
freq       16737
Name: Country, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16736)

Conteo de valores únicos:
1
Conteo de valores:


Country
Canada    16737
Name: count, dtype: int64

Valor más frecuente (moda):


'Canada'

------------------------------
Exploración de la columna: Province
Descripción estadística:


count       16737
unique         11
top       Ontario
freq         5404
Name: Province, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16726)

Conteo de valores únicos:
11
Conteo de valores:


Province
Ontario                 5404
British Columbia        4409
Quebec                  3300
Alberta                  969
Manitoba                 658
New Brunswick            636
Nova Scotia              518
Saskatchewan             409
Newfoundland             258
Yukon                    110
Prince Edward Island      66
Name: count, dtype: int64

Valor más frecuente (moda):


'Ontario'

------------------------------
Exploración de la columna: City
Descripción estadística:


count       16737
unique         29
top       Toronto
freq         3351
Name: City, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16708)

Conteo de valores únicos:
29
Conteo de valores:


City
Toronto           3351
Vancouver         2582
Montreal          2059
Winnipeg           658
Whistler           582
Halifax            518
Ottawa             509
Trenton            486
Edmonton           486
Quebec City        485
Dawson Creek       444
Fredericton        425
Regina             409
Kingston           401
Tremblant          398
Victoria           389
Hull               358
West Vancouver     324
St. John's         258
Thunder Bay        256
Sudbury            227
Moncton            211
Calgary            191
Banff              179
London             174
Peace River        113
Whitehorse         110
Kelowna             88
Charlottetown       66
Name: count, dtype: int64

Valor más frecuente (moda):


'Toronto'

------------------------------
Exploración de la columna: Postal Code
Descripción estadística:


count       16737
unique         55
top       V6E 3D9
freq          911
Name: Postal Code, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16682)

Conteo de valores únicos:
55
Conteo de valores:


Postal Code
V6E 3D9    911
V5R 1W3    684
V6T 1Y8    582
V6E 3Z3    544
M2M 7K8    534
P1J 8T7    500
H2T 9K8    499
K8V 4B2    486
G1B 3L5    485
H2T 2J6    446
U5I 4F1    444
V1E 4R6    443
E3B 2H2    425
R2C 0M5    415
M9K 2P4    401
H5Y 2S9    398
K1F 2R2    389
V10 6T5    389
H2Y 2W2    365
J8Y 3Z5    358
M8Y 4K8    340
H4G 3T4    338
B3J 9S2    329
V6V 8Z3    324
P2T 6G3    322
H2Y 4R4    315
M1R 4K3    313
P1L 8X8    282
P1W 1K4    275
T9G 1W3    266
A1C 6H9    258
M2Z 4K1    257
K8T 5M5    256
P5S 6R4    246
M5V 1G5    227
S6J 3G0    226
T3G 6Y6    220
E1A 2A7    211
T3E 2V9    191
B3C 2M8    189
S1J 3C5    183
T4V 1D4    179
M5B 3E4    174
M2M 6J7    153
R6Y 4T5    143
M2P 4F6    126
K1G 4Z0    120
T9O 2W2    113
Y2K 6R0    110
R3R 3T4    100
H3T 8L4     89
V09 2E9     88
C1A 6E8     66
H3J 5I6      7
M3R 4K8      3
Name: count, dtype: int64

Valor más frecuente (moda):


'V6E 3D9'

------------------------------
Exploración de la columna: Gender
Descripción estadística:


count      16737
unique         2
top       Female
freq        8410
Name: Gender, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16735)

Conteo de valores únicos:
2
Conteo de valores:


Gender
Female    8410
Male      8327
Name: count, dtype: int64

Valor más frecuente (moda):


'Female'

------------------------------
Exploración de la columna: Education
Descripción estadística:


count        16737
unique           5
top       Bachelor
freq         10475
Name: Education, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16732)

Conteo de valores únicos:
5
Conteo de valores:


Education
Bachelor                10475
College                  4238
High School or Below      782
Doctor                    734
Master                    508
Name: count, dtype: int64

Valor más frecuente (moda):


'Bachelor'

------------------------------
Exploración de la columna: Salary
Descripción estadística:


count     12499.000000
mean      79245.609409
std       35008.297285
min      -58486.000000
25%       59246.500000
50%       73455.000000
75%       88517.500000
max      407228.000000
Name: Salary, dtype: float64

Conteo de valores nulos:
4238
Número de filas duplicadas:


np.int64(10846)

Conteo de valores únicos:
5890
Conteo de valores:


Salary
101933.0    23
51573.0     14
61809.0     14
62283.0     14
64001.0     13
            ..
59314.0      1
104138.0     1
73400.0      1
65798.0      1
30767.0      1
Name: count, Length: 5890, dtype: int64

Valor más frecuente (moda):


np.float64(101933.0)

------------------------------
Exploración de la columna: Marital Status
Descripción estadística:


count       16737
unique          3
top       Married
freq         9735
Name: Marital Status, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16734)

Conteo de valores únicos:
3
Conteo de valores:


Marital Status
Married     9735
Single      4484
Divorced    2518
Name: count, dtype: int64

Valor más frecuente (moda):


'Married'

------------------------------
Exploración de la columna: Loyalty Card
Descripción estadística:


count     16737
unique        3
top        Star
freq       7637
Name: Loyalty Card, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16734)

Conteo de valores únicos:
3
Conteo de valores:


Loyalty Card
Star      7637
Nova      5671
Aurora    3429
Name: count, dtype: int64

Valor más frecuente (moda):


'Star'

------------------------------
Exploración de la columna: CLV
Descripción estadística:


count    16737.000000
mean      7988.896536
std       6860.982280
min       1898.010000
25%       3980.840000
50%       5780.180000
75%       8940.580000
max      83325.380000
Name: CLV, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(8753)

Conteo de valores únicos:
7984
Conteo de valores:


CLV
8564.77     13
4770.55     12
10963.96    12
3731.50     12
8879.79     12
            ..
37939.49     1
36168.34     1
33288.16     1
31864.86     1
31758.35     1
Name: count, Length: 7984, dtype: int64

Valor más frecuente (moda):


np.float64(8564.77)

------------------------------
Exploración de la columna: Enrollment Type
Descripción estadística:


count        16737
unique           2
top       Standard
freq         15766
Name: Enrollment Type, dtype: object

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16735)

Conteo de valores únicos:
2
Conteo de valores:


Enrollment Type
Standard          15766
2018 Promotion      971
Name: count, dtype: int64

Valor más frecuente (moda):


'Standard'

------------------------------
Exploración de la columna: Enrollment Year
Descripción estadística:


count    16737.000000
mean      2015.253211
std          1.979111
min       2012.000000
25%       2014.000000
50%       2015.000000
75%       2017.000000
max       2018.000000
Name: Enrollment Year, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16730)

Conteo de valores únicos:
7
Conteo de valores:


Enrollment Year
2018    3010
2017    2487
2016    2456
2013    2397
2014    2370
2015    2331
2012    1686
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(2018)

------------------------------
Exploración de la columna: Enrollment Month
Descripción estadística:


count    16737.000000
mean         6.669116
std          3.398958
min          1.000000
25%          4.000000
50%          7.000000
75%         10.000000
max         12.000000
Name: Enrollment Month, dtype: float64

Conteo de valores nulos:
0
Número de filas duplicadas:


np.int64(16725)

Conteo de valores únicos:
12
Conteo de valores:


Enrollment Month
5     1503
12    1480
7     1473
11    1446
10    1444
8     1430
6     1412
9     1391
4     1388
3     1358
2     1220
1     1192
Name: count, dtype: int64

Valor más frecuente (moda):


np.int64(5)

------------------------------
Exploración de la columna: Cancellation Year
Descripción estadística:


count    2067.000000
mean     2016.503145
std         1.380743
min      2013.000000
25%      2016.000000
50%      2017.000000
75%      2018.000000
max      2018.000000
Name: Cancellation Year, dtype: float64

Conteo de valores nulos:
14670
Número de filas duplicadas:


np.int64(16730)

Conteo de valores únicos:
6
Conteo de valores:


Cancellation Year
2018.0    645
2017.0    506
2016.0    427
2015.0    265
2014.0    181
2013.0     43
Name: count, dtype: int64

Valor más frecuente (moda):


np.float64(2018.0)

------------------------------
Exploración de la columna: Cancellation Month
Descripción estadística:


count    2067.000000
mean        6.962748
std         3.455297
min         1.000000
25%         4.000000
50%         7.000000
75%        10.000000
max        12.000000
Name: Cancellation Month, dtype: float64

Conteo de valores nulos:
14670
Número de filas duplicadas:


np.int64(16724)

Conteo de valores únicos:
12
Conteo de valores:


Cancellation Month
12.0    213
11.0    212
8.0     208
7.0     186
10.0    180
9.0     176
6.0     165
1.0     155
3.0     149
5.0     148
2.0     139
4.0     136
Name: count, dtype: int64

Valor más frecuente (moda):


np.float64(12.0)

------------------------------
