#**Descripción y comprensión del dataset.**

El objetivo de esta sección es describir y comprender el dataset que se utilizará en el proyecto FlightOnTime, detallando su contenido, estructura y principales características, así como el rol que cumplen sus variables dentro del problema de Machine Learning.

###**1. Descripción general del dataset.**

**1.1. Fuente del dataset.**



*   **Fuente**: Kaggle
*   **Dataset**: Flight Data 2024 (Flight Delay Dataset — 2024)
*   **Archivo**: flight_data_2024.csv
*   **URL de descarga**: https://www.kaggle.com/datasets/hrishitpatil/flight-data-2024/data





**1.2. Tipo de datos.**

El dataset contiene **datos estructurados de tipo tabular**, compuestos por registros históricos de vuelos comerciales domésticos. Cada fila representa un vuelo individual y sus características operacionales, incluyendo información temporal, geográfica, operativa y de estado del vuelo.

Los datos provienen del sistema oficial de reporte de puntualidad de vuelos de Estados Unidos (BTS On-Time Performance Dataset), el cual está regulado por la normativa 14 CFR Part 234, que define los criterios de reporte para vuelos retrasados, cancelados y desviados.

**1.3. Nivel del dataset.**

Dataset utilizado para el modelado (datos brutos límpios / dataset procesados).



**1.4. Periodo cubierto.**

El dataset contiene registros correspondientes al período comprendido entre:

- **Fecha mínima**: 2024-01-01  
- **Fecha máxima**: 2024-12-31  

Las variables temporales se representan de la siguiente forma:

- **Mes (`month`)**: valores enteros de **1 a 12**, donde 1 corresponde a enero y 12 a diciembre.
- **Día del mes (`day_of_month`)**: valores enteros de **1 a 31**, según el calendario.
- **Día de la semana (`day_of_week`)**: valor entero que representa el día de la semana (codificado numéricamente).


**1.6. Cobertura geográfica.**

El dataset contiene registros de vuelos comerciales domésticos dentro de:

- **País**: Estados Unidos de América.  
- **Aeropuertos de origen**: 348 aeropuertos  
- **Aeropuertos de destino**: 38 aeropuertos  

Todos los aeropuertos incluidos corresponden a ubicaciones dentro de Estados Unidos y fueron verificados mediante sus **códigos IATA**, lo que asegura la consistencia geográfica de los registros.


###**2. Estructura del dataset.**

---



**2.1. Dimensiones.**

*   **Número de registros**:   7,079,081 filas.

*   **Número de variables**: 35 columnas.
---

**2.2. Tipos de variables.**

El dataset contiene variables de distinta naturaleza, que pueden clasificarse tanto por su **tipo de dato** como por su **rol dentro de la operación del vuelo**.

**a) Según tipo de dato.**

* **Variables numéricas.**  
Representan cantidades continuas o discretas, como tiempos, distancias y retrasos medidos en minutos.

* **Variables categóricas.**  
Representan identificadores o clasificaciones, como aerolíneas, aeropuertos, ciudades o estados.

* **Variables temporales y de calendario.**  
Representan información asociada a la fecha u hora del vuelo, como año, mes, día y fecha completa.


**b) Según rol operacional:**

- **Variables Temporales y de calendario.**

- **Variables de identificación del vuelo y aerolínea.**

- **Variables de origen y destino.**

- **Variables de tiempo programado.**

- **Variables de tiempo real y operación de vuelo.**

- **Variables de estado del vuelo.**

- **Variables de causas de retraso (post-operación).**


### **3. Descripción de las variables.**

**3.1. Listado de variables.**

**Variables Temporales y de calendario.**

| Variable         | Tipo de dato        | Formato / Codificación          | Descripción                                                  |
|------------------|---------------------|----------------------------------|--------------------------------------------------------------|
| `year`           | Numérico (int)      | YYYY                             | Año calendario en que se opera el vuelo                      |
| `month`          | Numérico (int)      | 1–12                             | Mes calendario de operación del vuelo                        |
| `day_of_month`   | Numérico (int)      | 1–31                             | Día del mes calendario en que opera el vuelo                 |
| `day_of_week`    | Numérico (int)      | 1–7                              | Día de la semana codificado numéricamente                    |
| `fl_date`        | Fecha (object)      | YYYY-MM-DD                       | Fecha calendario completa del vuelo                          |



**Variables de identificación del vuelo y aerolínea.**

| Variable              | Tipo de dato        | Formato / Codificación | Descripción                                                         |
|-----------------------|---------------------|------------------------|---------------------------------------------------------------------|
| `op_unique_carrier`   | Categórico (string) | Código IATA (2 letras) | Código de la aerolínea operadora del vuelo                          |
| `op_carrier_fl_num`   | Numérico (float)    | Hasta 4 dígitos        | Número de vuelo asignado por la aerolínea operadora                 |


Los valores que observas (`'AA'`, `'DL'`, `'UA'`, `'WN'`, etc.) corresponden al estándar IATA de códigos de aerolínea, definido por la International Air Transport Association.

Este estándar utiliza **códigos de dos caracteres** para identificar aerolíneas comerciales a nivel mundial.

**Variables de origen y destino.**

| Variable             | Tipo de dato        | Formato / Codificación           | Descripción                                                        |
|----------------------|---------------------|----------------------------------|--------------------------------------------------------------------|
| `origin`             | Categórico (string) | Código IATA (3 letras)           | Código del aeropuerto de origen                                   |
| `origin_city_name`   | Categórico (string) | Ciudad, Estado abreviado (US)    | Ciudad donde se ubica el aeropuerto de origen                      |
| `origin_state_nm`    | Categórico (string) | Nombre completo del estado (US)  | Estado o provincia del aeropuerto de origen                        |
| `dest`               | Categórico (string) | Código IATA (3 letras)           | Código del aeropuerto de destino                                  |
| `dest_city_name`     | Categórico (string) | Ciudad, Estado abreviado (US)    | Ciudad donde se ubica el aeropuerto de destino                     |
| `dest_state_nm`      | Categórico (string) | Nombre completo del estado (US)  | Estado o provincia del aeropuerto de destino                       |



**`origin`**

Los valores como 'JFK', 'MSP', 'DTW', 'LGA' corresponden a códigos IATA de aeropuertos, definidos por la International Air Transport Association.

* Son códigos de 3 letras.
* Identifican aeropuertos comerciales a nivel internacional.

**`origin_city_name` y `dest_city_name`**

Formato real: Nombre de ciudad + coma + abreviatura del estado. Es consistente con el estándar postal de EE.UU. (USPS).


**Variables de tiempo programado.**

| Variable             | Tipo de dato        | Formato / Unidad              | Descripción                                                        |
|----------------------|---------------------|-------------------------------|--------------------------------------------------------------------|
| `crs_dep_time`       | Numérico (int)      | Hora local en formato HHMM    | Hora programada de salida del vuelo según el itinerario (CRS)     |
| `crs_arr_time`       | Numérico (int/float)| Hora local en formato HHMM    | Hora programada de llegada del vuelo según el itinerario (CRS)    |
| `crs_elapsed_time`   | Numérico (float)    | Minutos                       | Duración total programada del vuelo, en minutos                   |


**Formato HHMM**

* 1252 → 12:52
* 047 → 00:47

Aunque algunas aparecen como float, conceptualmente son horas, no cantidades continuas.

Esto es típico en datasets aeronáuticos y no implica decimales de tiempo.

**Variables de tiempo real y operación de vuelo.**

| Variable                | Tipo de dato        | Formato / Unidad              | Descripción                                                            |
|-------------------------|---------------------|-------------------------------|------------------------------------------------------------------------|
| `dep_time`              | Numérico (float)    | Hora local en formato HHMM    | Hora real en que el vuelo inicia el despegue                          |
| `dep_delay`             | Numérico (float)    | Minutos                       | Diferencia en minutos entre la hora real y la hora programada de salida |
| `taxi_out`              | Numérico (float)    | Minutos                       | Tiempo de rodaje desde la puerta hasta el despegue                    |
| `wheels_off`            | Numérico (float)    | Hora local en formato HHMM    | Momento en que el avión despega                                       |
| `wheels_on`             | Numérico (float)    | Hora local en formato HHMM    | Momento en que el avión aterriza                                      |
| `taxi_in`               | Numérico (float)    | Minutos                       | Tiempo de rodaje desde el aterrizaje hasta la puerta                  |
| `arr_time`              | Numérico (float)    | Hora local en formato HHMM    | Hora real de llegada del vuelo                                        |
| `arr_delay`             | Numérico (float)    | Minutos                       | Diferencia en minutos entre la hora real y la hora programada de llegada |
| `actual_elapsed_time`   | Numérico (float)    | Minutos                       | Duración total real del vuelo                                         |
| `air_time`              | Numérico (float)    | Minutos                       | Tiempo efectivo que el avión estuvo en el aire                        |
| `distance`              | Numérico (float)    | Millas                        | Distancia entre el aeropuerto de origen y destino                     |


**Formato HHMM**

* dep_time = 1247.0 → 12:47
* dep_delay = -5.0 → salida 5 minutos antes del horario programado.
* wheels_off = 1318.0 → despegue a las 13:18
* wheels_on = 1442.0 → aterrizaje a las 14:42
* arr_delay = -19.0 → llegada 19 minutos antes de lo programado.
* distance = 509.0 → distancia del vuelo en millas.

Las horas están codificadas en HHMM, aunque se almacenen como float.

Valores negativos en dep_delay y arr_delay indican adelantos, no errores.

**Variables de estado del vuelo.**


| Variable              | Tipo de dato      | Formato / valores | Descripción                                                                 |
|-----------------------|-------------------|-------------------|------------------------------------------------------------------------------|
| `cancelled`           | Binaria (int)     | 0 = No, 1 = Sí    | Indica si el vuelo fue cancelado y no llegó a operar entre origen y destino |
| `cancellation_code`   | Categórico        | A, B, C, D        | Código que identifica el motivo de la cancelación del vuelo                 |
| `diverted`            | Binaria (int)     | 0 = No, 1 = Sí    | Indica si el vuelo fue desviado a un aeropuerto distinto al planificado     |



El campo `cancellation_code` solo contiene valores cuando `cancelled = 1` y describe la causa administrativa de la cancelación.

**Códigos oficiales del motivo de cancelación.**

Cuando un vuelo es cancelado, la aerolínea debe informar una causa principal, codificada según el estándar del BTS (DOT, EE. UU.):

| Código | Significado (origen normativo)                                                                                         |
| ------ | ---------------------------------------------------------------------------------------------------------------------- |
| **A**  | Cancelación atribuible a la **aerolínea** (operaciones, tripulación, mantenimiento, logística interna)                 |
| **B**  | Cancelación por **condiciones meteorológicas**                                                                         |
| **C**  | Cancelación por causas del **sistema nacional de aviación** (congestión ATC, infraestructura, capacidad aeroportuaria) |
| **D**  | Cancelación por **razones de seguridad**                                                                               |


Estos códigos no representan causas múltiples, sino la causa dominante declarada por la aerolínea.

**Variables de causas de retraso (post-operación).**



| Variable                | Tipo de dato     | Formato / valores | Descripción                                                       |
|-------------------------|------------------|-------------------|-------------------------------------------------------------------|
| `carrier_delay`         | Numérico (int)   | Minutos (≥ 0)     | Minutos de retraso atribuibles a causas propias de la aerolínea   |
| `weather_delay`         | Numérico (int)   | Minutos (≥ 0)     | Minutos de retraso atribuibles a condiciones meteorológicas       |
| `nas_delay`             | Numérico (int)   | Minutos (≥ 0)     | Minutos de retraso atribuibles al sistema nacional aéreo (NAS)    |
| `security_delay`        | Numérico (int)   | Minutos (≥ 0)     | Minutos de retraso atribuibles a controles o eventos de seguridad |
| `late_aircraft_delay`   | Numérico (int)   | Minutos (≥ 0)     | Minutos de retraso por llegada tardía de la aeronave              |


Nota:
Las variables de causas de retraso (carrier_delay, weather_delay, nas_delay, security_delay, late_aircraft_delay) corresponden a la desagregación oficial del retraso total en llegada, definida por la industria aeronáutica de EE. UU. y utilizada en los reportes estadísticos del
Bureau of Transportation Statistics (BTS), organismo dependiente del
U.S. Department of Transportation (DOT).

Esta clasificación forma parte del Airline On-Time Performance Reporting y se basa en lineamientos operativos coordinados entre el DOT, la
Federal Aviation Administration (FAA) y las aerolíneas comerciales, con el objetivo de atribuir retrospectivamente el retraso total a una causa principal, una vez finalizado el vuelo.

Cada valor representa **minutos efectivos de retraso** asociados a una causa específica, y solo se registra cuando el vuelo presenta retraso en llegada.  
Si una causa no contribuyó al retraso, su valor es 0.


**Variable objetivo (target).**

| Variable                  | Tipo de dato  | Descripción                                                                                 |
| ------------------------- | ------------- | ------------------------------------------------------------------------------------------- |
| `operational_delay_flag`  | Binaria (int) | Indica si el vuelo presenta retraso operativo según el umbral definido (≥ 15 minutos).     |


###**4. Ejemplos de registros.**

A continuación se muestra un ejemplo representativo de algunas filas del dataset, con el objetivo de ilustrar el formato y contenido de los datos.

El registro se presenta en dos vistas para facilitar la lectura.

| year | month | day_of_month | day_of_week | fl_date    | op_unique_carrier | op_carrier_fl_num | origin | origin_city_name | origin_state_nm | dest | dest_city_name | dest_state_nm | crs_dep_time | dep_time | dep_delay | taxi_out |
|------|-------|--------------|-------------|------------|-------------------|-------------------|--------|------------------|-----------------|------|----------------|---------------|--------------|----------|-----------|----------|
| 2024 | 1     | 1            | 1           | 2024-01-01 | 9E                | 4815              | MSP    | Minneapolis, MN  | Minnesota       | CLE  | Cleveland, OH  | Ohio          | 1015         | 1001     | -14       | 20       |


| wheels_off | wheels_on | taxi_in | crs_arr_time | arr_time | arr_delay | cancelled | cancellation_code | diverted | crs_elapsed_time | actual_elapsed_time | air_time | distance | carrier_delay | weather_delay | nas_delay | security_delay |
|------------|-----------|---------|--------------|----------|-----------|-----------|-------------------|----------|------------------|---------------------|----------|----------|---------------|---------------|-----------|----------------|
| 1021       | 1249      | 6       | 1325         | 1255     | -30       | 0         | NaN               | 0        | 130              | 114                 | 88       | 622      | 0             | 0             | 0         | 0              |


###**5. EDA conceptual.**

El EDA conceptual tuvo como objetivo comprender la naturaleza de las variables numéricas y categóricas del dataset, identificando rangos típicos, presencia de valores atípicos, distribución de categorías, valores faltantes y su posible significado operativo, con el fin de informar decisiones posteriores de feature engineering y modelado.

En un EDA conceptual (previo al EDA técnico), el objetivo no es explorar exhaustivamente cada variable, sino:

Entender qué tipos de señales existen

Detectar riesgos conceptuales (leakage, post-operativas, redundancias)

Anticipar qué variables tienen sentido analizar más adelante

Rangos esperados

Signo (pueden ser negativos o no)

Si representan resultado, contexto o proceso

Si existen antes o después del evento a predecir

**5.1. Variables numéricas.**

**Estadísticas descriptivas sirven para**:
Detección de valores imposibles, escalas incorrectas, errores de carga.

* Rangos (mínimo / máximo).  
* Media y mediana.




**resencia de valores atípicos (si aplica).**

Conceptualmente debemos preguntarnos ¿Este valor representa un caso real pero extremo? ¿O es un error de medición/registro?
En aviación, eventos extremos ocurren.
Solo debemos identificar y entender.

**5.2. Variables categóricas.**

**Número de categorías.**

* ¿La variable tiene pocas categorías o muchas?

* ¿Es manejable para un modelo?

* Sirve para anticipar necesidades de agrupación.

* Posibles problemas de dimensionalidad.

**Categoría más frecuente.**

* Qué valores dominan el set.

* Hay sesgo natural en los datos.


**Distribución aproximada.**

Nos ayuda a decidir si una categoría aporta información, detecta ruido o sparsity.

* Las categorías están balanceadas.

* Hay categorías raras o muy poco frecuentes.

**5.3. Valores nulos y faltantes.**

*   Variables con valores nulos.
*   Porcentaje aproximado de valores faltantes.

      1–2% → probablemente manejable

      40–50% → variable problemática

*   Observaciones relevantes (si los nulos tienen significado operativo).

Esta es una de las partes más importantes del EDA conceptual.

No todos los nulos significan “dato faltante”.

Ejemplo en vuelos:

weather_delay = null

puede significar “no hubo retraso por clima”

no “no sabemos el valor”

Entonces te preguntas:

¿el nulo representa ausencia del evento?

¿o representa información perdida?

Esto define:

* Si se imputa,

* si se transforma o

* si se deja como está.



4️⃣ Observaciones relevantes (conocimiento de dominio)

Aquí conectas datos con realidad operacional:

¿Esta variable existe solo cuando ocurre algo?

¿Este valor cero tiene sentido?

¿Este patrón refleja cómo funciona la industria?

Este punto:

no es técnico

es interpretativo

demuestra comprensión del negocio

### **6. Identificación de variables para el modelado.**

**6.1. Variable objetivo (Target).**



*   **Target definido**:
Retraso operativo en salida (D15)

*   **Variable base**: `dep_delay`
*   **Definición**:

     1 — Retrasado: dep_delay ≥ 15
     
     0 — Puntual: dep_delay < 15

La definición del target se aplica **únicamente a vuelos operados**, por lo que se excluyen explicitamente:

Vuelos cancelados (cancelled = 1)

*   Vuelos cancelados (cancelled = 1).
*   Vuelos desviados (diverted = 1)


**6.2. Variables explicativas candidatas a features.**

Las variables explicativas corresponden a información disponible antes del despegue, por lo que pueden ser utilizadas para la predicción sin introducir fuga de información (data leakage).


Estas variables describen el contexto operacional, temporal y geográfico del vuelo

**Variables temporales y de calendario.**

`year`,`month`,`day_of_month`,`day_of_week`,`fl_date`

Estas variables permiten capturar patrones asociados a estacionalidad, ciclos semanales y comportamiento temporal de la operación aérea.

**Variables de programación del vuelo.**

`crs_dep_time`, `crs_arr_time`,`crs_elapsed_time`, `distance`

Estas variables representan la planificación original del vuelo y son conocidas antes de la operación.

**Variables operativas y geográficas.**

`op_unique_carrier`,`op_carrier_fl_num`, `origin`,`origin_city_name`,`origin_state_nm`,`dest`,`dest_city_name`,`dest_state_nm`.


Estas variables permiten capturar diferencias estructurales entre aerolíneas, aeropuertos y rutas, que influyen en el riesgo de retraso.

**6.3. Variables excluidas del modelado.**

Las siguientes variables no deben utilizarse como features, ya que describen eventos posteriores al inicio de la operación o explican directamente el retraso una vez ocurrido.

**Variables de estado del vuelo (solo para exclusión).**

`cancelled`, `diverted`, `cancellation_code`.


Estas variables se utilizan únicamente para filtrar vuelos no operados, pero no forman parte del modelo predictivo.

**Variables temporales internas del proceso de vuelo.**

`dep_time`, `taxi_out`, `wheels_off`, `wheels_on`, `taxi_in`, `arr_time`, `actual_elapsed_time`, `air_time`.

Estas variables ocurren durante o después del proceso operativo, por lo que no están disponibles al momento de la predicción.

**Variables causales del retraso.**


`carrier_delay`, `weather_delay`,`nas_delay`, `security_delay`, `late_aircraft_delay`.

Estas variables explican por qué ocurrió el retraso y solo existen cuando el retraso ya se materializó, por lo que su uso introduciría label leakage.

Estas variables:
- Se generan **después de ocurrido el vuelo**.
- Explican **por qué ocurrió el retraso**, no si ocurrirá.
- No están disponibles antes del despegue.

No deben utilizarse como variables explicativas ni para la definición del target, ya que su inclusión introduciría data leakage, incorporando información que solo está disponible una vez materializado el retraso.

###**7. Observaciones relevantes.**



*   **Particularidades del dataset.**
*   **Limitaciones detectadas**
*   **Decisiones preliminares que impactan el modelado.**
*   **Consideraciones para la etapa de preparación de datos.**

**Limitaciones detectadas**

**Decisiones preliminares que impactan el modelado.**

**Consideraciones para la etapa de preparación de datos.**

**Supuestos del modelo**

>Nota:
>El dataset acá descrito corresponde al dataset previamente analizado y seleccionado.
>
>Para consultas puedes acceder a ellas desde el siguiente enlace:[Justificación de la elección del dataset.](https://github.com/EuniceGarcia503/FlightOnTime-DS/blob/main/docs/justificacion/05_justificacion_eleccion_dataset.ipynb)