#**PROBLEMA DE NEGOCIO Y DE MACHINE LEARNING.**

##**1. Diferencia entre problema de negocio y problema de Machine Learning.**

### **Problema de negocio.**
Define:

- qué necesidad existe y

- para qué sirve la predicción.

### **Problema de Machine Learning.**
Define:

- qué tarea aprende el modelo,  
- con qué datos,  
- con qué métricas se evalúa,  
- y bajo qué supuestos técnicos.

---

## **2. Definición del problema de negocio.**

### **Definición propuesta.**
Estimar la probabilidad de que un vuelo comercial experimente **demora operativa**, utilizando información conocida antes de su salida, con el fin de apoyar la toma de decisiones de distintos actores del ecosistema aeronáutico, así como de otros actores vinculados a industrias relacionadas o dependientes del riesgo operativo del transporte aéreo.

---

## **2.1 Justificación del problema de negocio.**

### **2.1.1 Puntos clave para entender la definición.**

#### **Necesidad del negocio.**
La definición parte de una necesidad real: **anticipar el riesgo de demora operativa en vuelos**.  
El objetivo no es explicar causas específicas ni optimizar procesos internos, sino **estimar riesgo de manera anticipada**.

---


#### **Uso del concepto “demora operativa”.**
La demora operativa integra los eventos de **salida y llegada**.

---

#### **Uso de información conocida antes de la salida.**
El uso exclusivo de información disponible antes de la salida garantiza un uso real en un ambiente de producción y asegura que el modelo esté alineado con una futura simulación de consulta, evitando el uso de información que no estaría disponible en el momento de la predicción.

---

#### **Alcance de la predicción.**
La estimación del riesgo de demora operativa está orientada a **apoyar la toma de decisiones**.  
No se promete optimización automática, recomendaciones prescriptivas ni explicaciones causales en tiempo real.

---

#### **Actores beneficiados (aclaración conceptual)**
La definición distingue entre dos grandes grupos de actores:

- el núcleo del ecosistema aeronáutico,  
- y actores de industrias relacionadas o dependientes del riesgo operativo del transporte aéreo.

Esta distinción es **conceptual** y no implica diseñar el modelo para un stakeholder específico.

---

#### **Compatibilidad con un modelo baseline estándar.**
No se definen stakeholders, features ni decisiones específicas en el problema de negocio, con el objetivo de construir un modelo que estime riesgo operativo de forma **general, reutilizable y adaptable** a distintos contextos, sin necesidad de reentrenar el modelo para cada actor.


**Resumen mental:**

| Aspecto        | Acción            | Importancia                     |
|---------------|-------------------|---------------------------------|
| Stakeholders  | No se nombran     | Reutilización                   |
| Features      | No se enumeran    | Adaptabilidad                   |
| Decisiones    | No se fijan       | Separación modelo–negocio       |


---

#### **Escalabilidad sin sobreprometer.**
El problema se diseña para ser **escalable**, sin afirmar capacidades que no pueden demostrarse con los datos disponibles actualmente.

El problema de negocio no está acotado a un país porque el retraso operativo es un fenómeno universal. Reconocemos que el dataset actual es limitado geográficamente, pero justificamos la escalabilidad del enfoque mediante el uso de estándares aeronáuticos ampliamente aceptados, no por la cobertura del dato disponible.

De esta manera diferenciamos con claridad lo que el modelo busca resolver, de los datos con los que será entrenado.

Los límites del dataset se pueden reconocer posteriormente, en la justificación metodológica, en los supuestos del modelo y en la sección de limitaciones.

---

## **3. Definición del problema de machine learning.**

### **Definición propuesta.**

Formular un modelo de aprendizaje supervisado de clasificación binaria que estime la probabilidad de retraso operativo de un vuelo (≥ 15 minutos), a partir de variables operacionales y contextuales conocidas antes de la salida, utilizando patrones aprendidos de datos históricos correspondientes a vuelos comerciales domésticos de Estados Unidos del año 2024, evaluando su desempeño mediante métricas

## **3.1 Justificación del problema de machine learning.**

### **3.1.1 Puntos clave para entender la definición.**

#### **Tarea y tipo de aprendizaje definido.**

La tarea es de **clasificación binaria** porque el fenómeno que se desea predecir se expresa como un evento discreto con dos estados mutuamente excluyentes:

- Vuelo con demora operativa.
- Vuelo sin demora operativa.


El tipo de aprendizaje es **supervisado** porque:

- El dataset contiene ejemplos históricos etiquetados.
- Cada vuelo tiene un resultado observado.
- El modelo aprende la relación entre variables de entrada y un resultado conocido.

Esta elección es coherente con el objetivo del problema de negocio: **estimar riesgo**, no predecir una magnitud exacta de tiempo.

#### **Target definido.**

**Retraso operativo ≥ 15 minutos.**

**Retraso operativo = 1**
- Salida retrasada ≥ 15.

- Llegada retrasada ≥ 15.

- Ambos retrasos.

**Retraso sin demora operativa = 0**



Al indagar sobre la normativa federal estadounidense, se observa que:

- No existe una única definición jurídica de "retraso" y

- La definición varia según el propósito regulatorio.

**Definiciones de vuelo:**


| Escenario                     | Norma aplicable | Criterio         | Umbral                                  | Finalidad                           |
| ----------------------------- | --------------- | ---------------- | --------------------------------------- | ----------------------------------- |
| Medición estadística oficial  | 14 CFR Part 234 | Llegada          | ≥ 15 min                                | Medición de puntualidad (BTS / DOT) |
| Información al pasajero       | 14 CFR §259.8   | Salida o llegada | ≥ 30 min                                | Deber de información                |
| Derechos legales del pasajero | 14 CFR §260.2   | Salida o llegada | ≥ 3h (doméstico) / ≥ 6h (internacional) | Reembolsos y cambios contractuales  |

Por otro lado, al indagar sobre la aplicación internacional de puntualidad, se observa:

- **Estándar de la Industria:** Organizaciones globales de análisis de datos como OAG y organismos como la IATA utilizan el margen de 15 minutos (a menudo llamado "A15" para llegadas o "D15" para salidas) para clasificar un vuelo como "a tiempo".

- **Finalidad:** El umbral de 15 minutos o más se utiliza principalmente para estadísticas, rankings de aerolíneas y análisis operativos, permitiendo comparar la eficiencia entre diferentes transportistas y aeropuertos a nivel mundial.

Por lo tanto se considera manejar como retraso operativo para este proyecto el umbral de los **≥ 15 minutos.**

Dado que corresponde a una definición operacional estándar ampliamente utilizada en la industria. No limita el modelo al contexto de Estados Unidos y permite construirlo sobre **estándares reales** y no bajo definiciones arbitrarias.

Las otras dos definiciones de retraso restantes, corresponden a umbrales legales para indemnizaciones que suelen cambiar de acuerdo con el país. Por tal razón quedan excluidas para cumplir con el objetivo de crear una baseline.


**Funcionamiento técnico del estándar.**

Medición independiente.

- Salida (D15): Un vuelo es puntual en su salida si el avión se retira de la puerta (push-back) antes de que pasen 15 minutos de la hora programada.

- Llegada (A15): Un vuelo es puntual en su llegada si el avión llega a la puerta de su destino antes de que pasen 15 minutos de la hora programada.

No es un evento acumulado.

No se suman porque un avión puede salir tarde pero recuperar tiempo durante el vuelo (por vientos a su favor o rutas más directas) y llegar a tiempo.

- Ejemplo A: Sale con 20 minutos de retraso (se marca como impuntual en salida) pero llega con solo 10 minutos de demora (se marca como puntual en llegada).

- Ejemplo B: Sale a tiempo (0 minutos de retraso) pero, debido a tráfico aéreo en el destino, aterriza 20 minutos tarde. Se considera impuntual en llegada.

Cuando las organizaciones de datos publican sus rankings de puntualidad de aerolineas, el indicador principal que utilizan es la **llegada a tiempo (A15)**, ya que es el dato que más impacta al pasajero. Por el contrario, para rankings de aeropuertos, se suele priorizar la **salida a tiempo (D15)**, ya que refleja la eficiencia operativa del aeropuerto.


**De manera que un vuelo puede ser puntual en una fase e imputual en otra.**

**Retraso en salida y retraso en llegada NO son mutuamente excluyentes, pueden coexistir en un mismo vuelo**

Un vuelo puede:

- salir retrasado y llegar a tiempo.

- salir a tiempo y llegar retrasado.

- salir retrasado y llegar retrasado.

- no tener retraso en niguna fase.

Dado que el objetivo del modelo es estimar el riesgo de demora operativa del vuelo como unidad, se define una única variable objetivo binaria que indica si el vuelo experimentó un retraso igual o superior a 15 min en cualquier fase. Las variables dep_delay y arr_delay se utilzan exclusivamente para la contrucción del target y no como variables de entrada, garantizando coherencia temporal y evitando fuga de información.