![hackio](https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_celeste@4x.png?raw=true)


# Laboratorio A/B Testing No Paramétricos

**Aerolínea:** 
Alas del Mundo

**Descripción de la Aerolínea**

Alas del Mundo es una aerolínea internacional que opera una amplia red de rutas a nivel mundial. La compañía se enorgullece de ofrecer vuelos cómodos y asequibles a una variedad de destinos, atrayendo a una diversa gama de clientes.

**Objetivo del Análisis**

El objetivo de este ejercicio es determinar si existe una diferencia significativa en el número de vuelos reservados entre pasajeros con diferentes niveles educativos y si existe una diferencia significativa entre el género de sus clientes y su salario. La aerolínea desea entender mejor a sus clientes para poder personalizar sus campañas de marketing y mejorar sus estrategias de ventas.

**Set de datos**

El conjunto de datos *alas_del_mundo.csv* contiene información sobre clientes de la aerolínea Alas del Mundo. A continuación, tenemos una descripción de lo que nos podemos encontrar en el conjunto de datos:

- **Loyalty Number**: Número de registro de cada uno de los clientes.

- **Province**: Provincia de residencia del cliente.

- **City**: Ciudad de residencia del cliente.

- **Gender**: Género con el que se identifica el cliente.

- **Education**: Nivel educativo del cliente.

- **Salary**: Salario anual del cliente.

- **Loyalty Card**: Nivel que tiene el cliente dentro del programa de fidelización de la aerolínea.

- **CLV**: Valor total del cliente para la aerolínea a lo largo de toda su relación.

- **Enrollment Type**: Forma de registro del cliente a la aerolínea.

- **Enrollment Year**: Año de inscripción.

- **Enrollment Month**: Mes de inscripción. 

- **Year**: Año en el que se realizan los vuelos.

- **Month**: Mes en el que se realizan los vuelos.

- **Flights Booked**: Vuelos reservados por el cliente en un mes y año concretos.

- **Distance**: Distancia de vuelo del cliente en un mes y año concreto

- **Points Accumulated**: Puntos acumulados por el cliente en un mes y año concretos.

## Ejercicio 1:

Antes de realizar el experimento A/B y formular hipótesis, es fundamental comprender a fondo el conjunto de datos y sus características. Para lograr esto, debes llevar a cabo un análisis exploratorio detallado de los datos (EDA), con el fin de familiarizarte con ellos y entender la información disponible.



In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
import sys

sys.path.append('..') #pongo los 2 puntos para que salga de la carpeta
import src.support as s

In [2]:
df = pd.read_csv('C:\\Users\\DELL\\Git\\LAB_AB_no_parametrico\\datos\\alas_del_mundo.csv')

In [3]:
df.head()

Unnamed: 0,Loyalty Number,Province,City,Gender,Education,Salary,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Year,Month,Flights Booked,Distance,Points Accumulated
0,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,1,0,0,0.0
1,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,2,3,2823,282.0
2,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,3,0,0,0.0
3,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,4,0,0,0.0
4,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2018,10,6,3352,335.0


In [4]:
nuevas_columnas = {columna: columna.strip().lower().replace(' ', '_') for columna in df.columns}
df.rename(columns=nuevas_columnas, inplace=True)

In [5]:
df.head()

Unnamed: 0,loyalty_number,province,city,gender,education,salary,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,year,month,flights_booked,distance,points_accumulated
0,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,1,0,0,0.0
1,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,2,3,2823,282.0
2,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,3,0,0,0.0
3,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2017,4,0,0,0.0
4,480934,Ontario,Toronto,Female,Bachelor,83236.0,Star,3839.14,Standard,2016,2,2018,10,6,3352,335.0


## Primera exploración
- Tenemos 405624 filas, distribuidas en 16 columnas.
- Tenemos 1864 duplicados, que me he cargado.
- Tenemos valores negativos en la columna de salarios, voy a convertirlos a valor absoluto para que sean unos datos que me sumen a la media.
- Tengo toda una columna de de grupo educativo que no se conoce su educación (College). Al no conocer estos datos, pasamos por alto su trabajo ya que no podemos sacar dicha información de otra parte.
- Contaba con valores negativos en mis salarios, por lo que decidí convertir a positivos
- Después de convertir los negativos a positivos, mi media salarial es de 79371 anualmente.
- Cabe destacar que mis datos se reparten entre 2017-2018
- La mayor parte de vuelos lo hacen las mujeres.
- La residencia de los clientes de la aerolínea, son mayormente residentes en Toronto, Ontario.

In [36]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,403760.0,549875.383713,258961.514684,100018.0,326699.0,550598.0,772152.0,999986.0
salary,301500.0,79371.732902,34726.433958,9081.0,59262.0,73479.0,88606.0,407228.0
clv,403760.0,7990.864857,6863.31716,1898.01,3981.78,5776.34,8937.12,83325.38
enrollment_year,403760.0,2015.250716,1.979427,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,403760.0,6.667555,3.398829,1.0,4.0,7.0,10.0,12.0
year,403760.0,2017.500352,0.5,2017.0,2017.0,2018.0,2018.0,2018.0
month,403760.0,6.501335,3.451982,1.0,4.0,7.0,10.0,12.0
flights_booked,403760.0,4.13405,5.230064,0.0,0.0,1.0,8.0,21.0
distance,403760.0,1214.460979,1434.098521,0.0,0.0,525.0,2342.0,6293.0
points_accumulated,403760.0,124.263761,146.696179,0.0,0.0,53.0,240.0,676.5


In [37]:
df.describe().median().T

loyalty_number        476817.691857
salary                 76425.366451
clv                     7427.091008
enrollment_year         2015.125358
enrollment_month           6.833777
year                    2017.750176
month                      6.750667
flights_booked             4.682057
distance                1324.279750
points_accumulated       135.479970
dtype: float64

In [7]:
df.select_dtypes('O').describe()

Unnamed: 0,province,city,gender,education,loyalty_card,enrollment_type
count,405624,405624,405624,405624,405624,405624
unique,11,29,2,5,3,2
top,Ontario,Toronto,Female,Bachelor,Star,Standard
freq,130896,81096,203640,253752,184224,382200


In [13]:
df[df.duplicated()]

Unnamed: 0,loyalty_number,province,city,gender,education,salary,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,year,month,flights_booked,distance,points_accumulated
121,193662,Yukon,Whitehorse,Male,Bachelor,51124.0,Star,3844.57,Standard,2012,5,2017,1,0,0,0.0
160,193662,Yukon,Whitehorse,Male,Bachelor,51124.0,Star,3844.57,Standard,2012,5,2018,8,0,0,0.0
165,193662,Yukon,Whitehorse,Male,Bachelor,51124.0,Star,3844.57,Standard,2012,5,2018,11,0,0,0.0
2977,746226,British Columbia,Whistler,Female,Bachelor,63501.0,Star,4089.04,Standard,2018,1,2017,1,0,0,0.0
2979,746226,British Columbia,Whistler,Female,Bachelor,63501.0,Star,4089.04,Standard,2018,1,2017,2,0,0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381799,373638,Ontario,Thunder Bay,Female,Bachelor,92501.0,Star,11073.11,Standard,2014,10,2018,4,0,0,0.0
381801,373638,Ontario,Thunder Bay,Female,Bachelor,92501.0,Star,11073.11,Standard,2014,10,2018,5,0,0,0.0
381803,373638,Ontario,Thunder Bay,Female,Bachelor,92501.0,Star,11073.11,Standard,2014,10,2018,6,0,0,0.0
381805,373638,Ontario,Thunder Bay,Female,Bachelor,92501.0,Star,11073.11,Standard,2014,10,2018,7,0,0,0.0


In [15]:
df = df.drop_duplicates()

In [16]:
df.shape

(403760, 16)

In [25]:
df.isnull().sum()

loyalty_number             0
province                   0
city                       0
gender                     0
education                  0
salary                102260
loyalty_card               0
clv                        0
enrollment_type            0
enrollment_year            0
enrollment_month           0
year                       0
month                      0
flights_booked             0
distance                   0
points_accumulated         0
dtype: int64

In [26]:
dfprueba = df[df['salary'].isna()]

In [28]:
dfprueba['education'].unique()

array(['College'], dtype=object)

## Ejercicio 2:
Determina si existe una diferencia significativa en el número de vuelos reservados entre los diferentes niveles educativos.

 Pasos a seguir:

   - Definición de la hipótesis.
   - Prueba de hipótesis
   - Análisis de resultados
   - Conclusiones
   


### H0: no existe una diferencia significativa en el número de vuelos reservados entre los diferentes niveles educativos
### H1: existe una diferencia significativa en el número de vuelos reservados entre los diferentes niveles educativos

#### Segunda exploración: vuelos y educación
- En cuanto a educación, tenemos 5 valores únicos.

- En cuanto a la cantidad de vuelos, el mínimo es 0 y el máximo es 21 vuelos. Su media es de 4.13 medias y su mediana es de 4.68. Por lo que su distribución es normal.

- El grupo de educación que tiene un mayor conteo de vuelos es el de Bachelor, dejando en último lugar al grupo de Máster. A la vez, el grupo educativo con mayor frecuencia es el de Bachelor.


In [19]:
df['education'].unique()

array(['Bachelor', 'College', 'Master', 'High School or Below', 'Doctor'],
      dtype=object)

In [21]:
df.groupby('education')['flights_booked'].count()

education
Bachelor                252567
College                 102260
Doctor                   17731
High School or Below     18915
Master                   12287
Name: flights_booked, dtype: int64

In [33]:
df[df['salary'] < 0].head()

Unnamed: 0,loyalty_number,province,city,gender,education,salary,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,year,month,flights_booked,distance,points_accumulated
26328,542976,Quebec,Montreal,Male,High School or Below,-49830.0,Star,24127.5,2018 Promotion,2018,3,2017,1,0,0,0.0
26329,542976,Quebec,Montreal,Male,High School or Below,-49830.0,Star,24127.5,2018 Promotion,2018,3,2017,2,0,0,0.0
26330,542976,Quebec,Montreal,Male,High School or Below,-49830.0,Star,24127.5,2018 Promotion,2018,3,2017,3,0,0,0.0
26331,542976,Quebec,Montreal,Male,High School or Below,-49830.0,Star,24127.5,2018 Promotion,2018,3,2017,4,0,0,0.0
26332,542976,Quebec,Montreal,Male,High School or Below,-49830.0,Star,24127.5,2018 Promotion,2018,3,2017,5,0,0,0.0


In [None]:
df['salary'] =  df['salary'].apply(lambda x: abs(x) if x < 0 else x) # tenemos aqui la forma de reconvertir los alarios negativos a positivos

In [35]:
df[df['salary'] < 0].head()

Unnamed: 0,loyalty_number,province,city,gender,education,salary,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,year,month,flights_booked,distance,points_accumulated


In [11]:
s.exploracion_dataframe(df, 'education')

El número de datos es 405624 y el de columnas es 16

 ..................... 

Los duplicados que tenemos en el conjunto de datos son: 1864

 ..................... 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos
salary,25.312112



 ..................... 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
loyalty_number,int64
province,object
city,object
gender,object
education,object
salary,float64
loyalty_card,object
clv,float64
enrollment_type,object
enrollment_year,int64



 ..................... 

Los valores que tenemos para las columnas categóricas son: 
La columna province tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
province,Unnamed: 1_level_1
Ontario,130896
British Columbia,106848
Quebec,79968
Alberta,23400
Manitoba,15984
New Brunswick,15432
Nova Scotia,12576
Saskatchewan,9936
Newfoundland,6312
Yukon,2688


La columna city tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
Toronto,81096
Vancouver,62520
Montreal,49920
Winnipeg,15984
Whistler,14040
Halifax,12576
Ottawa,12312
Edmonton,11808
Trenton,11760
Quebec City,11760


La columna gender tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
Female,203640
Male,201984


La columna education tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
education,Unnamed: 1_level_1
Bachelor,253752
College,102672
High School or Below,19008
Doctor,17856
Master,12336


La columna loyalty_card tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
loyalty_card,Unnamed: 1_level_1
Star,184224
Nova,137568
Aurora,83832


La columna enrollment_type tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
enrollment_type,Unnamed: 1_level_1
Standard,382200
2018 Promotion,23424



 ..................... 

Los principales estadísticos de las columnas categóricas para el Bachelor son: 


Unnamed: 0,count,unique,top,freq
province,253752,11,Ontario,81192
city,253752,29,Toronto,51120
gender,253752,2,Female,127872
education,253752,1,Bachelor,253752
loyalty_card,253752,3,Star,108336
enrollment_type,253752,2,Standard,238488



 ..................... 

Los principales estadísticos de las columnas numéricas para el Bachelor son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,253752.0,548236.928024,260404.939311,100018.0,323424.0,548238.0,772484.0,999986.0
salary,253752.0,72476.21186,17205.712889,-58486.0,58711.0,71971.0,85848.0,105563.0
clv,253752.0,8215.816801,7061.053007,2255.31,4150.84,5867.13,9082.83,83325.38
enrollment_year,253752.0,2015.263407,1.988988,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,253752.0,6.649295,3.381761,1.0,4.0,7.0,10.0,12.0
year,253752.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
month,253752.0,6.5,3.452059,1.0,3.75,6.5,9.25,12.0
flights_booked,253752.0,4.091093,5.216995,0.0,0.0,1.0,8.0,21.0
distance,253752.0,1202.803284,1432.310025,0.0,0.0,450.0,2326.0,6262.0
points_accumulated,253752.0,123.156014,146.619868,0.0,0.0,46.0,238.0,675.0



 ..................... 

Los principales estadísticos de las columnas categóricas para el College son: 


Unnamed: 0,count,unique,top,freq
province,102672,11,Ontario,33624
city,102672,29,Toronto,20280
gender,102672,2,Male,52104
education,102672,1,College,102672
loyalty_card,102672,3,Star,51072
enrollment_type,102672,2,Standard,96936



 ..................... 

Los principales estadísticos de las columnas numéricas para el College son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,102672.0,549515.87237,255302.043587,100102.0,331184.0,547637.0,765252.0,999982.0
salary,0.0,,,,,,,
clv,102672.0,7575.448806,6546.384983,1898.01,3744.58,5568.95,8489.84,74228.52
enrollment_year,102672.0,2015.27022,1.962468,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,102672.0,6.666199,3.434345,1.0,4.0,7.0,10.0,12.0
year,102672.0,2017.5,0.500002,2017.0,2017.0,2017.5,2018.0,2018.0
month,102672.0,6.5,3.452069,1.0,3.75,6.5,9.25,12.0
flights_booked,102672.0,4.153012,5.242136,0.0,0.0,1.0,8.0,21.0
distance,102672.0,1215.317672,1432.353262,0.0,0.0,531.0,2345.0,6293.0
points_accumulated,102672.0,124.229162,146.380332,0.0,0.0,54.0,240.0,655.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el Master son: 


Unnamed: 0,count,unique,top,freq
province,12336,11,Ontario,4128
city,12336,29,Toronto,2496
gender,12336,2,Female,6456
education,12336,1,Master,12336
loyalty_card,12336,3,Star,6696
enrollment_type,12336,2,Standard,11880



 ..................... 

Los principales estadísticos de las columnas numéricas para el Master son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,12336.0,548875.406615,264617.066194,100644.0,315869.0,548212.0,781463.0,998072.0
salary,12336.0,103767.494163,17514.343573,56414.0,88120.0,105487.0,118530.0,133080.0
clv,12336.0,7524.240117,5924.737304,2174.11,3600.93,5205.88,10083.49,30591.61
enrollment_year,12336.0,2015.233463,1.943833,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,12336.0,6.826848,3.38975,1.0,4.0,7.0,10.0,12.0
year,12336.0,2017.5,0.50002,2017.0,2017.0,2017.5,2018.0,2018.0
month,12336.0,6.5,3.452192,1.0,3.75,6.5,9.25,12.0
flights_booked,12336.0,4.184014,5.210294,0.0,0.0,1.0,8.0,21.0
distance,12336.0,1233.865678,1436.885423,0.0,0.0,627.0,2364.25,6180.0
points_accumulated,12336.0,126.005763,146.745494,0.0,0.0,64.0,241.94,625.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el High School or Below son: 


Unnamed: 0,count,unique,top,freq
province,19008,11,Ontario,6312
city,19008,29,Toronto,3888
gender,19008,2,Female,9720
education,19008,1,High School or Below,19008
loyalty_card,19008,3,Star,9672
enrollment_type,19008,2,Standard,17808



 ..................... 

Los principales estadísticos de las columnas numéricas para el High School or Below son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,19008.0,558216.804293,258662.751947,101148.0,332180.75,561366.0,782612.75,994541.0
salary,19008.0,60986.544192,12723.916043,-49830.0,52044.75,61806.0,71344.0,93875.0
clv,19008.0,7722.940328,6657.946709,2272.34,3707.28,5269.28,8991.98,43290.5
enrollment_year,19008.0,2015.193182,1.984666,2012.0,2013.0,2015.0,2017.0,2018.0
enrollment_month,19008.0,6.609848,3.457341,1.0,4.0,7.0,10.0,12.0
year,19008.0,2017.5,0.500013,2017.0,2017.0,2017.5,2018.0,2018.0
month,19008.0,6.5,3.452143,1.0,3.75,6.5,9.25,12.0
flights_booked,19008.0,4.155777,5.234551,0.0,0.0,1.0,8.0,21.0
distance,19008.0,1225.585543,1435.875594,0.0,0.0,580.0,2363.25,6032.0
points_accumulated,19008.0,125.17677,146.493283,0.0,0.0,59.5,242.0,661.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el Doctor son: 


Unnamed: 0,count,unique,top,freq
province,17856,11,Ontario,5640
city,17856,29,Toronto,3312
gender,17856,2,Female,9024
education,17856,1,Doctor,17856
loyalty_card,17856,3,Star,8448
enrollment_type,17856,2,Standard,17088



 ..................... 

Los principales estadísticos de las columnas numéricas para el Doctor son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,17856.0,570729.143817,253980.381625,101594.0,359104.5,581403.5,785276.25,999911.0
salary,17856.0,178335.439516,70307.642502,48109.0,124343.75,180440.0,235069.25,407228.0
clv,17856.0,7815.538978,6466.157567,2119.89,4056.4125,5619.19,8580.735,58207.13
enrollment_year,17856.0,2015.072581,1.949028,2012.0,2013.0,2015.0,2017.0,2018.0
enrollment_month,17856.0,6.896505,3.389085,1.0,4.0,7.0,10.0,12.0
year,17856.0,2017.5,0.500014,2017.0,2017.0,2017.5,2018.0,2018.0
month,17856.0,6.5,3.452149,1.0,3.75,6.5,9.25,12.0
flights_booked,17856.0,4.146281,5.250093,0.0,0.0,1.0,8.0,21.0
distance,17856.0,1223.176131,1443.825996,0.0,0.0,534.5,2368.0,6293.0
points_accumulated,17856.0,125.057556,147.555733,0.0,0.0,54.0,241.0,676.5


## Ejercicio 3:
Determina si existe una diferencia significativa en el salario de los clientes en función del género de los mismos.

Pasos a seguir:
   - Definición de la hipótesis.
   - Prueba de hipótesis
   - Análisis de resultados
   - Conclusiones

H0: no existe una diferencia significativa en el salario de los clientes en función del género de los mismos
H1: existe una diferencia significativa en el salario de los clientes en función del género de los mismos

In [12]:
s.exploracion_dataframe(df, 'gender')

El número de datos es 405624 y el de columnas es 16

 ..................... 

Los duplicados que tenemos en el conjunto de datos son: 1864

 ..................... 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos
salary,25.312112



 ..................... 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
loyalty_number,int64
province,object
city,object
gender,object
education,object
salary,float64
loyalty_card,object
clv,float64
enrollment_type,object
enrollment_year,int64



 ..................... 

Los valores que tenemos para las columnas categóricas son: 
La columna province tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
province,Unnamed: 1_level_1
Ontario,130896
British Columbia,106848
Quebec,79968
Alberta,23400
Manitoba,15984
New Brunswick,15432
Nova Scotia,12576
Saskatchewan,9936
Newfoundland,6312
Yukon,2688


La columna city tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
Toronto,81096
Vancouver,62520
Montreal,49920
Winnipeg,15984
Whistler,14040
Halifax,12576
Ottawa,12312
Edmonton,11808
Trenton,11760
Quebec City,11760


La columna gender tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
Female,203640
Male,201984


La columna education tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
education,Unnamed: 1_level_1
Bachelor,253752
College,102672
High School or Below,19008
Doctor,17856
Master,12336


La columna loyalty_card tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
loyalty_card,Unnamed: 1_level_1
Star,184224
Nova,137568
Aurora,83832


La columna enrollment_type tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
enrollment_type,Unnamed: 1_level_1
Standard,382200
2018 Promotion,23424



 ..................... 

Los principales estadísticos de las columnas categóricas para el Female son: 


Unnamed: 0,count,unique,top,freq
province,203640,11,Ontario,64440
city,203640,29,Toronto,40272
gender,203640,1,Female,203640
education,203640,5,Bachelor,127872
loyalty_card,203640,3,Star,91848
enrollment_type,203640,2,Standard,191736



 ..................... 

Los principales estadísticos de las columnas numéricas para el Female son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,203640.0,548039.56759,259443.515793,100018.0,324364.0,547500.0,773593.0,999986.0
salary,153072.0,79260.219034,34384.857094,-58486.0,59265.0,73663.5,88978.0,407228.0
clv,203640.0,7999.52237,6888.41938,1898.01,3980.84,5757.44,8982.85,83325.38
enrollment_year,203640.0,2015.276841,1.972972,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,203640.0,6.661049,3.401924,1.0,4.0,7.0,10.0,12.0
year,203640.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
month,203640.0,6.5,3.452061,1.0,3.75,6.5,9.25,12.0
flights_booked,203640.0,4.090542,5.214236,0.0,0.0,1.0,8.0,21.0
distance,203640.0,1204.586987,1434.339525,0.0,0.0,447.0,2328.0,6240.0
points_accumulated,203640.0,123.293699,146.788139,0.0,0.0,46.0,238.0,676.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el Male son: 


Unnamed: 0,count,unique,top,freq
province,201984,11,Ontario,66456
city,201984,29,Toronto,40824
gender,201984,1,Male,201984
education,201984,5,Bachelor,125880
loyalty_card,201984,3,Star,92376
enrollment_type,201984,2,Standard,190464



 ..................... 

Los principales estadísticos de las columnas numéricas para el Male son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,201984.0,552052.562025,258406.878328,100102.0,329004.5,553404.0,770470.0,999982.0
salary,149880.0,79277.616173,35601.765489,-57297.0,59262.0,73277.0,88270.0,381124.0
clv,201984.0,7984.368213,6838.623275,1898.01,4004.1275,5792.14,8901.215,83325.38
enrollment_year,201984.0,2015.228018,1.985618,2012.0,2014.0,2015.0,2017.0,2018.0
enrollment_month,201984.0,6.675024,3.397583,1.0,4.0,7.0,10.0,12.0
year,201984.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
month,201984.0,6.5,3.452061,1.0,3.75,6.5,9.25,12.0
flights_booked,201984.0,4.139764,5.236766,0.0,0.0,1.0,8.0,21.0
distance,201984.0,1213.208328,1431.950935,0.0,0.0,526.0,2343.0,6293.0
points_accumulated,201984.0,124.095014,146.408997,0.0,0.0,54.0,240.0,675.0
