# 📌  Fase 3 - Análisis Inferencial



Utilizando un conjunto de datos que hemos compartido, se busca evaluar si existen diferencias significativas en el número de vuelos reservados según el nivel educativo de los clientes. 

Para ello, los pasos que deberás seguir son:

1. Preparación de Datos
Filtra el conjunto de datos para incluir únicamente las columnas relevantes:  
`Flights Booked` y `Education`.

2. Análisis Descriptivo
Agrupa los datos por nivel educativo y calcula estadísticas descriptivas básicas del número de vuelos reservados para cada grupo.

3. Prueba Estadística
Realiza una prueba significativa en el número de vuelos reserva
de hipótesis para determinar si existe una dos entre los diferentes niveles educativos.



1. **Library imports** 

In [14]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import warnings
warnings.filterwarnings("ignore")

2. **Dataset loading and configuration**  


In [4]:
df = pd.read_csv("Customer Loyalty Program & Flight Data – Canada.csv")

pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)


#### 1. Preparación de Datos
Filtra el conjunto de datos para incluir únicamente las columnas relevantes:  
`Flights Booked` y `Education`.


In [9]:
# Atualizar o DataFrame original df para conter apenas as colunas solicitadas
df_merge = df[['Flights Booked', 'Education']]

# Exibir as primeiras linhas para confirmar
df_merge


Unnamed: 0,Flights Booked,Education
0,3,Bachelor
1,10,College
2,6,College
3,0,Bachelor
4,0,Bachelor
...,...,...
401683,0,College
401684,0,Doctor
401685,3,Bachelor
401686,0,College


#### 2. Análisis Descriptivo
Agrupa los datos por nivel educativo y calcula estadísticas descriptivas básicas del número de vuelos reservados para cada grupo.



In [None]:
# Agrupar por nível educacional e calcular estatísticas descritivas do número de voos reservados
df_stats = df_merge.groupby('Education')['Flights Booked'].describe()
df_stats
# A pesar de que las medias parecen ligeramente diferentes, los valores son muy similares.

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bachelor,251400.0,4.090354,5.214194,0.0,0.0,1.0,8.0,21.0
College,101712.0,4.145656,5.237434,0.0,0.0,1.0,8.0,21.0
Doctor,17616.0,4.149296,5.246376,0.0,0.0,1.0,8.0,21.0
High School or Below,18768.0,4.14221,5.229254,0.0,0.0,1.0,8.0,21.0
Master,12192.0,4.167815,5.2041,0.0,0.0,1.0,8.0,21.0


#### 3. Prueba Estadística
Realiza una prueba de hipótesis para determinar so existe una diferencia signficativa en el número de vuelos reservados entre los diferentes niveles educativos.

En teoría, como estamos comparando más de dos grupos (por ejemplo: College, High School or Doctor), el test estadístico sería una ANOVA de un solo factor. Sin embargo, en clase usamos una función llamada prueba_hipotesis() que implementa un t-test, que está diseñado para comparar solo dos grupos a la vez. Por esta razon hice una demo por pares usando esta función. 

In [17]:
# Definimos la función que va a realizar la prueba de hipótesis
def prueba_hipotesis(*args):  # *args permite pasar dos o más grupos como argumentos
     
    # Primero verificamos si estamos comparando solo dos grupos
    if len(args) == 2:
        # Si hay dos grupos, usamos la prueba de Levene para comprobar si las varianzas son iguales
        p_valor_varianza = stats.levene(*args, center = "median")[1]  # Extraemos solo el p-valor (índice 1 del resultado)
    else:
        # Si hay más de dos grupos, usamos la prueba de Bartlett
        p_valor_varianza = stats.bartlett(*args)[1]
    
    # Según el resultado del test de varianzas, decidimos si asumimos varianzas iguales o no
    if p_valor_varianza > 0.05:
        # Si las varianzas son iguales (p > 0.05), usamos el test t con varianzas iguales
        t_stat, p_valor = stats.ttest_ind(*args, equal_var=True)
    else:
        # Si las varianzas son diferentes (p <= 0.05), usamos el test t con varianzas distintas
        t_stat, p_valor = stats.ttest_ind(*args, equal_var=False)
        
    # Establecemos el nivel de significancia (alfa) en 0.05
    alfa = 0.05

    # Comparamos el p-valor con el nivel de significancia para tomar la decisión
    if p_valor < alfa:
        # Si el p-valor es menor que 0.05, rechazamos la hipótesis nula
        print("Rechazamos la hipótesis nula.")
        print("Hay una diferencia significativa en los ingresos promedio entre los dos grupos.")
    else:
        # Si el p-valor es mayor o igual que 0.05, no podemos rechazar la hipótesis nula
        print("No podemos rechazar la hipótesis nula.")
        print("No hay evidencia suficiente para afirmar una diferencia significativa en los ingresos promedio entre los dos grupos.")

# Hipótesis Nula (H0):
# No hay diferencia significativa en el número promedio de vuelos reservados entre los dos niveles educativos comparados.

# Hipótesis Alternativa (H1):
# Existe una diferencia significativa en el número promedio de vuelos reservados entre los dos niveles educativos comparados.

In [None]:
# Filtra el DataFrame para obtener solo las filas donde el nivel educativo es 'College'
# y selecciona la columna 'Flights Booked' con los valores individuales de vuelos reservados.
grupo_college = df_merge[df_merge['Education'] == 'College']['Flights Booked']
grupo_college.reset_index()

Unnamed: 0,index,Flights Booked
0,1,10
1,2,6
2,17,0
3,20,6
4,21,11
...,...,...
101707,401675,11
101708,401677,14
101709,401680,1
101710,401683,0


In [None]:
grupo_college = df_merge[df_merge['Education'] == 'College']['Flights Booked']
# Filtra el DataFrame para obtener solo las filas donde el nivel educativo es 'College'
# y selecciona la columna 'Flights Booked' con los valores individuales de vuelos reservados.

grupo_hs = df_merge[df_merge['Education'] == 'High School or Below']['Flights Booked']
# Filtra las filas donde la educación es 'High School or Below' (secundaria o inferior)
# y selecciona la columna de vuelos reservados.

grupo_doctor = df_merge[df_merge['Education'] == 'Doctor']['Flights Booked']
# Filtra las personas con título de doctorado y extrae sus valores de vuelos reservados.

grupo_bachelor = df_merge[df_merge['Education'] == 'Bachelor']['Flights Booked']
# Filtra las personas con título universitario de grado ('Bachelor') y toma sus vuelos reservados.

grupo_master = df_merge[df_merge['Education'] == 'Master']['Flights Booked']
# Filtra las personas con título de maestría ('Master') y obtiene sus datos de vuelos reservados.


# Comparações por pares (todas 10 combinações possíveis)
print("🔎 Comparando: Bachelor vs College")
prueba_hipotesis(grupo_bachelor, grupo_college)

print("\n🔎 Comparando: Bachelor vs Doctor")
prueba_hipotesis(grupo_bachelor, grupo_doctor)

print("\n🔎 Comparando: Bachelor vs High School or Below")
prueba_hipotesis(grupo_bachelor, grupo_hs)

print("\n🔎 Comparando: Bachelor vs Master")
prueba_hipotesis(grupo_bachelor, grupo_master)

print("\n🔎 Comparando: College vs High School or Below")
prueba_hipotesis(grupo_college, grupo_hs)

print("\n🔎 Comparando: College vs Doctor")
prueba_hipotesis(grupo_college, grupo_doctor)

print("\n🔎 Comparando: College vs Master")
prueba_hipotesis(grupo_college, grupo_master)

print("\n🔎 Comparando: Doctor vs High School or Below")
prueba_hipotesis(grupo_doctor, grupo_hs)

print("\n🔎 Comparando: Doctor vs Master")
prueba_hipotesis(grupo_doctor, grupo_master)

print("\n🔎 Comparando: High School or Below vs Master")
prueba_hipotesis(grupo_hs, grupo_master)

🔎 Comparando: Bachelor vs College
Rechazamos la hipótesis nula.
Hay una diferencia significativa en los ingresos promedio entre los dos grupos.

🔎 Comparando: Bachelor vs Doctor
No podemos rechazar la hipótesis nula.
No hay evidencia suficiente para afirmar una diferencia significativa en los ingresos promedio entre los dos grupos.

🔎 Comparando: Bachelor vs High School or Below
No podemos rechazar la hipótesis nula.
No hay evidencia suficiente para afirmar una diferencia significativa en los ingresos promedio entre los dos grupos.

🔎 Comparando: Bachelor vs Master
No podemos rechazar la hipótesis nula.
No hay evidencia suficiente para afirmar una diferencia significativa en los ingresos promedio entre los dos grupos.

🔎 Comparando: College vs High School or Below
No podemos rechazar la hipótesis nula.
No hay evidencia suficiente para afirmar una diferencia significativa en los ingresos promedio entre los dos grupos.

🔎 Comparando: College vs Doctor
No podemos rechazar la hipótesis nul