#**Justificación de la elección del dataset.**

Explicar por qué este dataset es adecuado para resolver el problema de negocio y de ML, y para construir el target.

---

### **1. Criterios de Elección.**

A la hora de seleccionar un dataset para la predicción de retrasos operativos, buscamos las siguientes características:

*  Registros históricos de vuelos comerciales.
*  Variables que permitan observar directamente el resultado operativo del vuelo.

*   Variables explicativas disponibles antes del despegue que habilite la predicción real.

*   Aseguramos que el target solo registre el resultado del vuelo.

*   Consistencia en los datos con los estándares operativos de puntualidad usados por la industria.
*   Volumen y diversidad suficientes para capturar la complejidad del retraso operativo en vuelos comerciales.


---

###**2. Verificación de criterios.**

**2.1. Registros históricos de vuelos comerciales.✅**

Contiene información de vuelos operados por distintas aerolíneas, en diferentes aeropuertos y fechas, permitiendo representar diversidad temporal y operativa.

*   Variables relevantes: `year`, `month`, `day_of_month`, `day_of_week`, `fl_date`, `op_unique_carrier`, `op_carrier_fl_num`.


**2.2. Observación directa del resultado operativo. ✅**

Permite definir el target de retraso operativo en salida y llegada y excluir vuelos cancelados o desviados según la regla establecida.

*   Variables relevantes: `dep_delay`, `arr_delay`, `cancelled`, `cancellation_code`, `diverted`.

**2.3. Variables explicativas disponibles antes del despegue.⚠️**

Solo las variables disponibles antes de la salida del vuelo se consideran válidas como features; otras se usan para cálculo del target o análisis posterior.

*   Cumple parcialmente: `crs_dep_time`, `origin`, `origin_city_name`, `origin_state_nm`, `dest`, `dest_city_name`, `dest_state_nm`, `op_unique_carrier`, `op_carrier_fl_num`, `crs_arr_time`, `crs_elapsed_time`, `distance`.

*   No cumple: `dep_time`, `arr_time`, `actual_elapsed_time`, `air_time`, `taxi_out, wheels_off`, `wheels_on`, `taxi_in` → ocurren durante o después del vuelo, por lo que **no deben usarse como features para predecir el target**.





**2.4. Separación temporal y causal clara entre features y target.✅**

Se asegura la integridad causal, evitando data leakage conceptual.


*   Target definido a partir de: `dep_delay` (retraso en salida) y `arr_delay` (retraso en llegada), excluyendo `cancelled` y `diverted`.

*   Variables explicativas seleccionadas: solo aquellas previas al despegue.


**2.5. Consistencia con estándares operativos de puntualidad.✅**

Permite aplicar el umbral de 15 minutos alineado con estándares BTS/FAA/ICAO para la medición de puntualidad operativa.

*   Todas las variables mencionadas cumplan con los estándares BTS/FAA alineados a ICAO (**Reporte obligatorio 14 CFR Part 234**).

*   Además: `dep_delay`, `arr_delay`, `cancelled`, `diverted`.


**2.6. Volumen y diversidad suficientes.✅**

Contiene múltiples aeropuertos, aerolíneas, días, meses y condiciones operativas, permitiendo capturar la complejidad del retraso operativo.

* ariables relevantes: `origin`, `dest`, `op_unique_carrier`, `op_carrier_fl_num`, `day_of_week`, `month`, `distance`.

### **3. Elección del dataset.**

Se encuentra dataset con información histórica de vuelos comerciales domésticos de Estados Unidos, correspondiente al año 2024, con ubicación en la plataforma Kaggle. El dataset consolida registros oficiales de puntualidad de vuelos reportados por las aerolíneas bajo el estándar obligatorio de reporte del Bureau of Transportation Statistics (BTS).

*   **Fuente**: Kaggle
*   **Dataset**: Flight Data 2024 (Flight Delay Dataset — 2024)
*   **Archivo**: flight_data_2024.csv
*   **URL de descarga**: https://www.kaggle.com/datasets/hrishitpatil/flight-data-2024/data


**Nota sobre el origen de los datos.**


Los datos contenidos en este archivo provienen del sistema oficial de reporte de puntualidad de vuelos de Estados Unidos (BTS On-Time Performance Dataset), regulado bajo 14 CFR Part 234, y fueron recopilados y publicados en Kaggle como una tabla consolidada para facilitar su uso en análisis exploratorio y modelos de Machine Learning.

---

> **Nota:**  
> La justificación de la elección del dataset en este documento se sustenta en definiciones y estándares internacionales en la industria de la aviación previamente analizadas y documentadas.  
>
>Para consultas puedes acceder a ellas desde el siguiente enlace:
>[Estándares de retrasos en vuelos.](https://github.com/EuniceGarcia503/FlightOnTime-DS/blob/main/docs/justificacion/01_estandares_retrasos_vuelos.ipynb)