In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols
from scipy.stats import chi2_contingency

# Cargar los datos
data = pd.read_csv('flights.csv')

# Hipótesis 1:
H0: No hay diferencia significativa en los retrasos de salida (DepDelay) entre las diferentes aerolíneas (Carrier).

H1: Hay una diferencia significativa en los retrasos de salida (DepDelay) entre las diferentes aerolíneas (Carrier).

In [None]:
# ANOVA entre DepDelay y Carrier
anova_model1 = ols('DepDelay ~ C(Carrier)', data=data).fit()
anova_table1 = sm.stats.anova_lm(anova_model1, typ=2)
print("ANOVA Resultados - Hipótesis 1 (DepDelay vs Carrier):\n", anova_table1)


## Interpretación:
Si el valor p de la prueba ANOVA es menor a 0.05, rechazamos la hipótesis nula, concluyendo que hay diferencias significativas entre los retrasos de salida dependiendo de la aerolínea.
Si el valor p es mayor a 0.05, no podemos rechazar la hipótesis nula, es decir, no hay evidencia de diferencias significativas.

# Hipótesis 2:
H0: No hay diferencia significativa en el retraso promedio de llegada (ArrDelay) entre los aeropuertos de origen (OriginAirportID).
H1: Hay una diferencia significativa en el retraso promedio de llegada (ArrDelay) entre los aeropuertos de origen (OriginAirportID).

Estadístico de prueba: t-Student para dos grupos de aeropuertos principales (o prueba ANOVA si son múltiples grupos)

In [None]:
# Filtramos dos aeropuertos para aplicar t-Student
airport_1 = data[data['OriginAirportID'] == 'XXX']  # Reemplaza con un ID válido
airport_2 = data[data['OriginAirportID'] == 'YYY']  # Reemplaza con un ID válido

# t-Student entre ArrDelay de dos aeropuertos
t_stat, p_value = ttest_ind(airport_1['ArrDelay'], airport_2['ArrDelay'])
print(f"t-Student Resultados - Hipótesis 2 (ArrDelay vs OriginAirportID): t-stat={t_stat}, p-value={p_value}")


## Interpretación:
Si el valor p es menor a 0.05, rechazamos la hipótesis nula y concluimos que hay diferencias significativas en los retrasos de llegada entre los aeropuertos.
Si el valor p es mayor a 0.05, no podemos rechazar la hipótesis nula, es decir, no hay evidencia de diferencias significativas.

# Hipótesis 3:
H0: El porcentaje de vuelos cancelados (Cancelled) es independiente del mes del año (Month).
H1: El porcentaje de vuelos cancelados (Cancelled) depende del mes del año (Month).

Estadístico de prueba: Chi-Cuadrada

In [None]:
# Chi-Cuadrada entre Month y Cancelled
contingency_table6 = pd.crosstab(data['Month'], data['Cancelled'])
chi2_6, p6, dof6, expected6 = chi2_contingency(contingency_table6)
print(f"Chi-Cuadrada - Hipótesis 3 (Month vs Cancelled): chi2={chi2_6}, p-value={p6}")


Interpretación:
Si el valor p es menor a 0.05, rechazamos la hipótesis nula y concluimos que el porcentaje de vuelos cancelados depende del mes del año.
Si el valor p es mayor a 0.05, no podemos rechazar la hipótesis nula, lo que indica que el porcentaje de cancelaciones es independiente del mes.