### Fase 3: Evaluación de Diferencias en Reservas de Vuelos por Nivel Educativo
Utilizando un conjunto de datos que hemos compartido, se busca evaluar si existen diferencias significativas en el número de vuelos reservados según el nivel educativo de los clientes. Para ello, los pasos a seguir son:

1.	Preparación de Datos: Filtra el conjunto de datos para incluir únicamente las columnas relevantes: 'Flights Booked' y 'Education'.

2.	Análisis Descriptivo: Agrupa los datos por nivel educativo y calcula estadísticas descriptivas básicas (como el promedio, la desviación estándar, los percentiles…) del número de vuelos reservados para cada grupo.

3.	Prueba Estadística: Realiza una prueba A/B Testing para determinar si existe una diferencia significativa en el número de vuelos reservados entre los diferentes niveles educativos.


In [22]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', None)


1.	Preparación de Datos: Filtra el conjunto de datos para incluir únicamente las columnas relevantes: 'Flights Booked' y 'Education'.

In [23]:
df_information = pd.read_csv("csv/customer_information_airline_merged.csv", index_col = 0)
df_information.head()

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed,country,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100018,2017,2,2,2,4,1320,132.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
2,100018,2018,10,6,4,10,3110,311.0,385,31,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
3,100018,2017,4,4,0,4,924,92.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
4,100018,2017,5,0,0,0,0,0.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,


In [24]:
# filtramos del data frame con las dos variables
df_fligh_education = df_information[['flights_booked', 'education']]
df_fligh_education

Unnamed: 0,flights_booked,education
0,3,Bachelor
1,2,Bachelor
2,6,Bachelor
3,4,Bachelor
4,0,Bachelor
...,...,...
405619,0,Bachelor
405620,0,Bachelor
405621,0,Bachelor
405622,0,Bachelor


In [25]:
# agrupamos el data frame por nivel educativo

df_fligh_education_agrupado =df_information.groupby("education")['flights_booked'].count().reset_index()
df_fligh_education_agrupado


Unnamed: 0,education,flights_booked
0,Bachelor,253752
1,College,102672
2,Doctor,17856
3,High School or Below,19008
4,Master,12336


2.	Análisis Descriptivo: Agrupa los datos por nivel educativo y calcula estadísticas descriptivas básicas (como el promedio,la media, la desviación estándar,valor minimo, valor maximo y los percentiles) del número de vuelos reservados para cada grupo.

In [26]:
promedio = df_fligh_education_agrupado["flights_booked"].mean()
mediana = df_fligh_education_agrupado["flights_booked"].median()
desviacion_estandar = df_fligh_education_agrupado["flights_booked"].std()
varianza = df_fligh_education_agrupado["flights_booked"].var()
valor_minimo = df_fligh_education_agrupado["flights_booked"].min()
valor_maximo = df_fligh_education_agrupado["flights_booked"].max()
percentiles = df_fligh_education_agrupado["flights_booked"].quantile([0.25, 0.5, 0.75])



print(f"El promedio o la media de vuelos reservados según el nivel educativo es: {promedio}")
print(f"La mediana de vuelos reservados según el nivel educativo es: {mediana}")
print(f"La desviación estandar de vuelos reservados según el nivel educativo es: {desviacion_estandar}")
print(f"La varianza de vuelos reservados según el nivel educativo es: {varianza}")
print(f"El valor minimo de vuelos reservados según el nivel educativo es: {valor_minimo}")
print(f"El valor maximo de vuelos reservados según el nivel educativo es: {valor_maximo}")
print(f"Los percentiles de vuelos reservados según el nivel educativo es: \n{percentiles}")





El promedio o la media de vuelos reservados según el nivel educativo es: 81124.8
La mediana de vuelos reservados según el nivel educativo es: 19008.0
La desviación estandar de vuelos reservados según el nivel educativo es: 103510.58992779435
La varianza de vuelos reservados según el nivel educativo es: 10714442227.2
El valor minimo de vuelos reservados según el nivel educativo es: 12336
El valor maximo de vuelos reservados según el nivel educativo es: 253752
Los percentiles de vuelos reservados según el nivel educativo es: 
0.25     17856.0
0.50     19008.0
0.75    102672.0
Name: flights_booked, dtype: float64


3.	Prueba Estadística: Realiza una prueba A/B Testing para determinar si existe una diferencia significativa en el número de vuelos reservados entre los diferentes niveles educativos.

#### HIPOTESIS
- H0 o Hipótesis Nula: no hay diferencia significativa entre el nº de vuelos reservados ('Flights Booked') con los diferentes niveles educativos ('Education').
- H1 o Hipótesis Alternativa: Hay al menos una diferencia  significativa entre el nº de vuelos reservados entre los niveles educativos.

#### TIPO DE PRUEBA

- Como se trata de comparar más de dos grupos es decir distintos niveles educativos, realizaremos una ANOVA.


