#**Descripción y comprensión del dataset.**

El objetivo de esta sección es describir y comprender el dataset que se utilizará en el proyecto FlightOnTime, detallando su contenido, estructura y características principales; y comprender qué rol cumplen dentro del problema de Machine Learning.

###**1. Descripción general del dataset.**

**1.1. Fuente del dataset.**

Se utilizó un dataset de referencia con información histórica de vuelos comerciales domésticos de Estados Unidos, correspondiente al año 2024, descargado desde la plataforma Kaggle. El dataset consolida registros oficiales de puntualidad de vuelos reportados por las aerolíneas bajo el estándar obligatorio de reporte del Bureau of Transportation Statistics (BTS).




*   **Fuente**: Kaggle
*   **Dataset**: Flight Data 2024 (Flight Delay Dataset — 2024)
*   **Archivo**: flight_data_2024.csv
*   **URL de descarga**: https://www.kaggle.com/datasets/hrishitpatil/flight-data-2024/data


**Nota sobre el origen de los datos.**


Los datos contenidos en este archivo provienen del sistema oficial de reporte de puntualidad de vuelos de Estados Unidos (BTS On-Time Performance Dataset), regulado bajo 14 CFR Part 234, y fueron recopilados y publicados en Kaggle como una tabla consolidada para facilitar su uso en análisis exploratorio y modelos de Machine Learning.

---



**1.2. Tipo de datos.**

 Este dataset proporciona información histórica detallada de vuelos domésticos comerciales correspondientes al año 2024, incluyendo tiempos programados y reales de salida y llegada, indicadores de retrasos y duraciones, así como información de cancelación y desvíos.

 Los datos están reunidos integrando las fuentes oficiales de reporte de puntualidad de vuelos de los Estados Unidos, tales como los archivos BTS TranStats mensuales para 2024, concadenados en una sola tabla para facilitar el análisis, la exploración de datos (EDA) y la construcción de modelos de Machine Learning.

 ---

**1.3. Nivel del dataset.**

Dataset utilizado para el modelado (datos brutos límpios / dataset procesados).

---

**1.4. Unidad de análisis.**

ada fila representa un **vuelo comercial individual.**

---

**1.5. Periodo cubierto.**

*   Fecha mínima: 2024-01-01.
*   Fecha máxima: 2024-12-31.
*   Formato de meses: 1 al 12.
*   Formato en días: 1 al 31.

---

**1.6. Cobertura geográfica.**




*   **País**: Estados Unidos de Norte América.
*   **Aeropuerto**: (Colocar el número de aeropuertos)

---

###**2. Estructura del dataset.**

---



**2.1. Dimensiones del dataset.**

*   Número de registros (filas):
*   Número de variables (columnas):
---

**2.2. Tipos de variables.**

El dataset contiene variables de distinta naturaleza, que pueden clasificarse tanto por su **tipo de dato** como por su **rol dentro de la operación del vuelo**.

**a) Según tipo de dato.**

* **Variables numéricas.**  
Representan cantidades continuas o discretas, como tiempos, distancias y retrasos medidos en minutos.

* **Variables categóricas.**  
Representan identificadores o clasificaciones, como aerolíneas, aeropuertos, ciudades o estados.

* **Variables temporales y de calendario.**  
Representan información asociada a la fecha u hora del vuelo, como año, mes, día y fecha completa.

**b) Según rol operacional de la variable**

- **Variables de identificación del vuelo y aerolínea**
- **Variables de origen y destino**
- **Variables de tiempo programado**
- **Variables de tiempo real y operación del vuelo**
- **Variables de estado del vuelo**
- **Variables de causas de retraso (post-operación)**
---

### **3. Descripción de las variables.**

**3.1. Listado de variables.**

**Variables Temporales y de calendario.**

| Variable       | Tipo de dato   | Descripción                                 |
| -------------- | -------------- | ------------------------------------------- |
| `year`         | Numérico (int) | Año de operación del vuelo                  |
| `month`        | Numérico (int) | Mes de operación del vuelo                  |
| `day_of_month` | Numérico (int) | Día del mes en que opera el vuelo           |
| `day_of_week`  | Numérico (int) | Día de la semana (codificado numéricamente) |
| `fl_date`      | Fecha (object) | Fecha calendario del vuelo                  |


**Variables de identificación del vuelo y aerolínea.**

| Variable            | Tipo de dato | Descripción                               |
| ------------------- | ------------ | ----------------------------------------- |
| `op_unique_carrier` | Categórico   | Código único de la aerolínea operadora    |
| `op_carrier_fl_num` | Numérico     | Número de vuelo asignado por la aerolínea |


**Variables de origen y destino.**

| Variable           | Tipo de dato | Descripción                      |
| ------------------ | ------------ | -------------------------------- |
| `origin`           | Categórico   | Código del aeropuerto de origen  |
| `origin_city_name` | Categórico   | Ciudad del aeropuerto de origen  |
| `origin_state_nm`  | Categórico   | Estado del aeropuerto de origen  |
| `dest`             | Categórico   | Código del aeropuerto de destino |
| `dest_city_name`   | Categórico   | Ciudad del aeropuerto de destino |
| `dest_state_nm`    | Categórico   | Estado del aeropuerto de destino |


**Variables de tiempo programado.**

| Variable           | Tipo de dato   | Descripción                                 |
| ------------------ | -------------- | ------------------------------------------- |
| `crs_dep_time`     | Numérico (int) | Hora programada de salida (CRS)             |
| `crs_arr_time`     | Numérico (int) | Hora programada de llegada (CRS)            |
| `crs_elapsed_time` | Numérico       | Tiempo total programado del vuelo (minutos) |


**Variables de tiempo real y operación de vuelo.**

| Variable              | Tipo de dato | Descripción                           |
| --------------------- | ------------ | ------------------------------------- |
| `dep_time`            | Numérico     | Hora real de salida                   |
| `dep_delay`           | Numérico     | Minutos de retraso en la salida       |
| `taxi_out`            | Numérico     | Tiempo de rodaje previo al despegue   |
| `wheels_off`          | Numérico     | Hora en que el avión despega          |
| `wheels_on`           | Numérico     | Hora en que el avión aterriza         |
| `taxi_in`             | Numérico     | Tiempo de rodaje tras el aterrizaje   |
| `arr_time`            | Numérico     | Hora real de llegada                  |
| `arr_delay`           | Numérico     | Minutos de retraso en la llegada      |
| `actual_elapsed_time` | Numérico     | Tiempo total real del vuelo (minutos) |
| `air_time`            | Numérico     | Tiempo efectivo en el aire (minutos)  |
| `distance`            | Numérico     | Distancia del vuelo                   |



**Variables de estado del vuelo.**

| Variable            | Tipo de dato  | Descripción                      |
| ------------------- | ------------- | -------------------------------- |
| `cancelled`         | Binaria (int) | Indica si el vuelo fue cancelado |
| `cancellation_code` | Categórico    | Código del motivo de cancelación |
| `diverted`          | Binaria (int) | Indica si el vuelo fue desviado  |


**Variables de causas de retraso (post-operación).**

| Variable              | Tipo de dato   | Descripción                                     |
| --------------------- | -------------- | ----------------------------------------------- |
| `carrier_delay`       | Numérico (int) | Retraso atribuible a la aerolínea               |
| `weather_delay`       | Numérico (int) | Retraso atribuible a condiciones meteorológicas |
| `nas_delay`           | Numérico (int) | Retraso atribuible al sistema nacional aéreo    |
| `security_delay`      | Numérico (int) | Retraso atribuible a seguridad                  |
| `late_aircraft_delay` | Numérico (int) | Retraso por llegada tardía de la aeronave       |


**Variable objetivo (target).**

| Variable                 | Tipo de dato | Descripción                                                                           |
| ------------------------ | ------------ | ------------------------------------------------------------------------------------- |
| `operational_delay_flag` | Binaria      | Indica si el vuelo presenta retraso operativo según el umbral definido (≥ 15 minutos) |


###**4. Ejemplos de registros.**

A continuación se muestra un ejemplo representativo de algunas filas del dataset, con el objetivo de ilustrar el formato y contenido de los datos:

###**5. Estadísticas descriptivas.**

**5.1. Variables numéricas.**

* Rangos (mínimo / máximo).  
* Media y mediana.
* Presencia de valores atípicos (si aplica).  



**5.2. Variables categóricas.**


*   Número de categorías.
*   Categorías más frecuentes.
*   Distribución aproximada

**5.3. Valores nulos y faltantes.**

*   Variables con valores nulos.
*   Porcentaje aproximado de valores faltantes.
*   Observaciones relevantes (si los nulos tienen significado operativo).



### **6. Identificación de variables para el modelado.**

**6.1. Variable objetivo (Target).**



*   **Target definido**:
Retraso operativo en salida (D15)

*   **Variable base**: `dep_delay`
*   **Definición**:

     1 — Retrasado: dep_delay ≥ 15
     
     0 — Puntual: dep_delay < 15

La definición del target se aplica **únicamente a vuelos operados**, por lo que se excluyen explicitamente:

Vuelos cancelados (cancelled = 1)

*   Vuelos cancelados (cancelled = 1).
*   Vuelos desviados (diverted = 1)


**6.2. Variables explicativas candidatas a features.**

Las variables explicativas corresponden a información disponible antes del despegue, por lo que pueden ser utilizadas para la predicción sin introducir fuga de información (data leakage).


Estas variables describen el contexto operacional, temporal y geográfico del vuelo

**Variables temporales y de calendario.**

`year`,`month`,`day_of_month`,`day_of_week`,`fl_date`

Estas variables permiten capturar patrones asociados a estacionalidad, ciclos semanales y comportamiento temporal de la operación aérea.

**Variables de programación del vuelo.**

`crs_dep_time`, `crs_arr_time`,`crs_elapsed_time`, `distance`

Estas variables representan la planificación original del vuelo y son conocidas antes de la operación.

**Variables operativas y geográficas.**

`op_unique_carrier`,`op_carrier_fl_num`, `origin`,`origin_city_name`,`origin_state_nm`,`dest`,`dest_city_name`,`dest_state_nm`.


Estas variables permiten capturar diferencias estructurales entre aerolíneas, aeropuertos y rutas, que influyen en el riesgo de retraso.

**6.3. Variables excluidas del modelado**

Las siguientes variables no deben utilizarse como features, ya que describen eventos posteriores al inicio de la operación o explican directamente el retraso una vez ocurrido.

**Variables de estado del vuelo (solo para exclusión)**

`cancelled`, `diverted`, `cancellation_code`.


Estas variables se utilizan únicamente para filtrar vuelos no operados, pero no forman parte del modelo predictivo.

**Variables temporales internas del proceso de vuelo.**

`dep_time`, `taxi_out`, `wheels_off`, `wheels_on`, `taxi_in`, `arr_time`, `actual_elapsed_time`, `air_time`.

Estas variables ocurren durante o después del proceso operativo, por lo que no están disponibles al momento de la predicción.

**Variables causales del retraso.**


`carrier_delay`, `weather_delay`,`nas_delay`, `security_delay`, `late_aircraft_delay`.

Estas variables explican por qué ocurrió el retraso y solo existen cuando el retraso ya se materializó, por lo que su uso introduciría label leakage.

###**7. Observaciones relevantes.**



*   **Particularidades del dataset.**
*   **Limitaciones detectadas**
*   **Decisiones preliminares que impactan el modelado.**
*   **Consideraciones para la etapa de preparación de datos.**

>Nota:
>El dataset acá descrito corresponde al dataset previamente analizado y seleccionado.
>
>Para consultas puedes acceder a ellas desde el siguiente enlace:[Justificación de la elección del dataset.](https://github.com/EuniceGarcia503/FlightOnTime-DS/blob/main/docs/justificacion/05_justificacion_eleccion_dataset.ipynb)