In [9]:
import pandas as pd
from scipy import stats
import numpy as np

# Datos: Nombre, Altura y Sexo
data = {'Nombre': ['Fer', 'Ale', 'Alex Muñoz', 'Gael', 'Erick', 'Angie', 'Karla', 'Angel', 'Derik', 'Jose Jacal', 
                   'Leo Dorantes', 'Lalo', 'Antonio', 'Luis Hurtado', 'Cristian', 'Juve'],
        'Altura': [180, 170, 170, 168, 165, 168, 170, 175, 174, 175, 175, 172, 170, 177, 170, 176],
        'Sexo': ['M', 'M', 'M', 'M', 'M', 'F', 'F', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M']}

df = pd.DataFrame(data)

# Separar datos por género
mujeres = df[df['Sexo'] == 'F']['Altura']
hombres = df[df['Sexo'] == 'M']['Altura']

In [10]:
# Hipótesis 1: Estatura media de las mujeres comparada con 175 cm
media_mujeres = mujeres.mean()
t_stat, p_value = stats.ttest_1samp(mujeres, 175)
print(f"Hipótesis 1 - Estatura media de las mujeres:")
print(f"Media observada: {media_mujeres}")
print(f"t-statistic: {t_stat}, p-value: {p_value}\n")

Hipótesis 1 - Estatura media de las mujeres:
Media observada: 169.0
t-statistic: -6.0, p-value: 0.10513691342250685



In [11]:
# Hipótesis 2: Desviación estándar de la estatura de las mujeres
desviacion_estandar_mujeres = mujeres.std()
n_mujeres = len(mujeres)
chi2_stat = (n_mujeres - 1) * (desviacion_estandar_mujeres**2) / (10**2)
p_value_chi2 = 1 - stats.chi2.cdf(chi2_stat, n_mujeres - 1)
print(f"Hipótesis 2 - Desviación estándar de las mujeres:")
print(f"Desviación estándar observada: {desviacion_estandar_mujeres}")
print(f"Chi2-statistic: {chi2_stat},\n p-value: {p_value_chi2}\n")

Hipótesis 2 - Desviación estándar de las mujeres:
Desviación estándar observada: 1.4142135623730951
Chi2-statistic: 0.020000000000000004,
 p-value: 0.887537083981715



In [12]:
# Hipótesis 3: Diferencia en la estatura promedio entre hombres y mujeres
t_stat_gender, p_value_gender = stats.ttest_ind(hombres, mujeres)
print(f"Hipótesis 3 - Comparación entre estatura promedio de hombres y mujeres:")
print(f"t-statistic: {t_stat_gender},\n p-value: {p_value_gender}")

Hipótesis 3 - Comparación entre estatura promedio de hombres y mujeres:
t-statistic: 1.2348580371278692,
 p-value: 0.23720767897804637


### Conclusiones

#### Hipótesis 1: Estatura media de las mujeres
- **Media observada:** 169.0 cm
- **t-statistic:** -6.0
- **p-value:** 0.1051

El análisis indica que la media observada de 169.0 cm para la estatura de las mujeres es considerablemente menor que el valor de referencia de 175 cm. Sin embargo, el p-value de 0.1051 es mayor que el nivel de significancia comúnmente utilizado de 0.05, lo que sugiere que no hay suficiente evidencia estadística para rechazar la hipótesis nula. Por lo tanto, no se puede concluir que la estatura media de las mujeres sea significativamente diferente de 175 cm.

#### Hipótesis 2: Desviación estándar de las mujeres
- **Desviación estándar observada:** 1.41 cm
- **Chi2-statistic:** 0.02
- **p-value:** 0.8875

La desviación estándar observada de 1.41 cm es significativamente menor que el valor de referencia de 10 cm. El p-value de 0.8875 también es mucho mayor que 0.05, indicando que no hay evidencia suficiente para rechazar la hipótesis nula de que la desviación estándar es igual o menor que 10 cm. Esto sugiere que la variabilidad en las estaturas de las mujeres es baja y no es estadísticamente significativa.

#### Hipótesis 3: Comparación entre estatura promedio de hombres y mujeres
- **t-statistic:** 1.23
- **p-value:** 0.2372

El p-value de 0.2372 indica que no hay suficiente evidencia para rechazar la hipótesis nula que establece que no hay diferencia significativa entre la estatura promedio de hombres y mujeres. Por lo tanto, no se puede concluir que exista una diferencia en las alturas promedio entre ambos géneros en la muestra analizada.


In [13]:
# Importamos las bibliotecas necesarias
import pandas as pd
from scipy import stats

# Cargamos la base de datos de vuelos
df = pd.read_csv('C:/Users/LENOVO/OneDrive/Documentos/IA/VG2024-2025/Examen Primer Parcial/flights.csv')

# Convertimos las horas a formato datetime (HHMM)
df['CRSDepTime'] = pd.to_datetime(df['CRSDepTime'].astype(str).str.zfill(4), format='%H%M', errors='coerce')
df['CRSArrTime'] = pd.to_datetime(df['CRSArrTime'].astype(str).str.zfill(4), format='%H%M', errors='coerce')

# Calculamos la duración de los vuelos (en minutos)
df['flight_duration'] = (df['CRSArrTime'] - df['CRSDepTime']).dt.total_seconds() / 60

# Eliminamos filas con valores nulos en la duración
df = df.dropna(subset=['flight_duration'])

# Calculamos la media de la duración de los vuelos
duracion_media = df['flight_duration'].mean()
print(f"Duración media de los vuelos: {duracion_media} minutos")

# Realizamos la prueba t de una muestra con una duración hipotética de 150 minutos
t_stat, p_value = stats.ttest_1samp(df['flight_duration'], 150, alternative='greater')
print(f"t-statistic: {t_stat}, p-value: {p_value}")


Duración media de los vuelos: 108.64204603956755 minutos
t-statistic: -98.35328725868298, p-value: 1.0


### Hipótesis 1: La duración media de los vuelos es mayor a 150 minutos.

- **Duración media observada:** 108.64 minutos
- **t-statistic:** -98.35
- **p-value:** 1.0

**Conclusión**:  
Dado que el valor p es **mayor** a 0.05, no podemos rechazar la hipótesis nula. Esto significa que no hay suficiente evidencia para concluir que la duración media de los vuelos es significativamente mayor a 150 minutos. De hecho, la duración media es menor a 150 minutos.


In [16]:
# Crear una columna 'DepDelay15' si no existe
df['DepDelay15'] = df['DepDelay'] > 15
df['DepDelay15'] = df['DepDelay15'].astype(int)  # Convertimos a 1 y 0

# Crear una columna 'ArrDelay15' si no existe
df['ArrDelay15'] = df['ArrDelay'] > 15
df['ArrDelay15'] = df['ArrDelay15'].astype(int)

# Filtramos los vuelos con más de 15 minutos de retraso en la salida
vuelos_retraso_salida = df[df['DepDelay15'] == 1]

# Calculamos la proporción de esos vuelos que también llegan con más de 15 minutos de retraso
proporcion_llegan_tarde = vuelos_retraso_salida['ArrDelay15'].mean() * 100
print(f"Proporción de vuelos que salen tarde y también llegan tarde: {proporcion_llegan_tarde:.2f}%")

# Creación de tabla de contingencia para vuelos que salen tarde y llegan tarde
tabla_contingencia = pd.crosstab(df['DepDelay15'], df['ArrDelay15'])

# Realizamos la prueba chi-cuadrado
chi2_stat, p_val, dof, expected = stats.chi2_contingency(tabla_contingencia)
print(f"Chi-cuadrado: {chi2_stat}, p-value: {p_val}")


Proporción de vuelos que salen tarde y también llegan tarde: 80.27%
Chi-cuadrado: 148931.5733700368, p-value: 0.0


### Hipótesis 2: La proporción de vuelos que salen tarde y también llegan tarde.

- **Proporción observada de vuelos que salen tarde y también llegan tarde:** 80.27%
- **Chi-cuadrado:** 148931.57
- **p-value:** 0.0

**Conclusión**:  
Dado que el valor p es **0.0**, que es mucho menor a 0.05, rechazamos la hipótesis nula. Esto indica que existe una **asociación significativa** entre los vuelos que salen tarde y los que llegan tarde. En otras palabras, es muy probable que los vuelos que salen tarde también lleguen tarde.


In [15]:
# Hipótesis 3: Las aerolíneas tienen un porcentaje diferente de vuelos cancelados
# Calculamos la tasa de cancelación por aerolínea
cancelaciones_por_aerolinea = df.groupby('Carrier')['Cancelled'].mean()

# Imprimimos la tasa de cancelación por aerolínea
print("Tasa de cancelación por aerolínea:")
print(cancelaciones_por_aerolinea)

# Prueba de chi para comparar las cancelaciones entre aerolíneas
cancelaciones_contingencia = pd.crosstab(df['Carrier'], df['Cancelled'])
chi2_stat, p_val, dof, ex = stats.chi2_contingency(cancelaciones_contingencia)
print(f"Chi-cuadrado: {chi2_stat}, p-value: {p_val}")


Tasa de cancelación por aerolínea:
Carrier
9E    0.032153
AA    0.013132
AS    0.001922
B6    0.003472
DL    0.002105
EV    0.027571
F9    0.001413
FL    0.006714
HA    0.001064
MQ    0.038185
OO    0.016933
UA    0.008260
US    0.007886
VX    0.001131
WN    0.006516
YV    0.021963
Name: Cancelled, dtype: float64
Chi-cuadrado: 2328.818847866179, p-value: 0.0


### Hipótesis 3: La tasa de cancelación varía significativamente entre las aerolíneas.

- **Tasa de cancelación por aerolínea:** (Ejemplo)
  - MQ: 3.82%
  - 9E: 3.22%
  - EV: 2.76%
  - YV: 2.20%
  - AA: 1.31%
  - DL: 0.21%
  - Otros: Varían entre 0.1% y 1.7%
- **Chi-cuadrado:** 2328.82
- **p-value:** 0.0

**Conclusión**:  
Dado que el valor p es extremadamente bajo (0.0), rechazamos la hipótesis nula y concluimos que **existe una diferencia significativa en las tasas de cancelación entre las distintas aerolíneas**. Algunas aerolíneas tienen una tasa de cancelación significativamente mayor que otras.