<a href="https://colab.research.google.com/github/yeraldinriscanevom-ui/-Regresion_Lineal/blob/main/Regresion_Lineal_ipynb_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Taller 3: Regresión Lineal y Conceptos Fundamentales




## Instrucciones Generales

**Fecha de entrega:** 20 de septiembre.
**Tiempo disponible:** Tienen dos clases y el fin de semana para completar el taller.

1.  **Trabajo en Grupo:** Este taller se debe realizar en los grupos previamente definidos.
2.  **Repositorio en GitHub:** Cada grupo debe crear un repositorio en GitHub.
    * Una sola persona del grupo es responsable de crearlo.
    * El repositorio debe llamarse **`Regresion_Lineal`**.
    * Este archivo debe ser subido al repositorio con el nombre **`Regresion_Lineal.ipynb`**.
    * **Alternativa:** Si tienen complicaciones con GitHub, pueden enviar el enlace del cuaderno de Google Colab al aula virtual.
3.  **Actividad a Mano (20% de la nota):**
    * La asistencia a clase es **obligatoria**.
    * Se realizará una actividad práctica de regresión lineal a mano.
    * Cada integrante del grupo deberá firmar la hoja de la actividad, la cual constituye el 20% de la nota de este taller.

---

## **Parte 1: Definición del Problema**

Piensa en tu experiencia académica o laboral en un área de operaciones y elige **un problema** relacionado con inventarios, calidad, mantenimiento o productividad.

1.  Indica cuál es tu variable dependiente **$Y$** (aquello que quieres predecir o clasificar).
2.  Lista entre 3 y 5 variables independientes **$X$** que medirías para predecir $Y$.
3.  Especifica si tu problema es de **regresión** (predecir un valor numérico) o de **clasificación**.

**Respuesta (escribe aquí):**
Problema (contexto): En la operación de una aerolínea/courier en El Dorado, queremos predecir si un vuelo de carga que sale de un aeropuerto origen va a tener un retraso significativo en su llegada (> 2 horas), para activar contingencias (reprogramar logística, avisar clientes, coordinar aduana).

**Respuesta 1:**
Variable dependiente Y (a predecir / clasificar):
1 = retraso significativo en llegada (> 2 horas)
0 = no (≤ 2 horas)

**Respuesta 2:**
Variables independientes X (3–5 sugeridas):

1.   CondicionClimaticaOrigen (categoría: Normal / Tormenta / BajaVisibilidad / VientoFuerte)

1.   HoraSalida (hora local, o codificada en franjas pico/no pico)

1.   CongestionAereaOrigen (número de movimientos en el slot, 0 % ocupación del aeropuerto)
2. NumeroEscalas (0,1,2,...)  Elemento de lista


2. TipoAeronave (categoría: narrowbody, widebody, carguero ligero — o características como velocidad crucero)

**Respuesta 3:** Tipo de problema: Clasificación binaria.

---

## **Parte 2: Preprocesamiento de Datos y *Leakage***

Basado en el caso que definiste en la Parte 1:

1.  Lista entre 3 y 5 **transformaciones** que aplicarías a tus datos (ej. imputación de valores faltantes, codificación de variables categóricas, escalado, creación de *lags*, etc.) y **justifica por qué** cada una es necesaria.
2.  Señala un posible riesgo de ***data leakage*** (fuga de datos) en tu plan y explica cómo lo evitarías usando un *pipeline* de preprocesamiento.

**Respuesta (escribe aquí):**


1.  ** Imputación de valores faltantes**

Método: imputación por categoría (modo) para categóricas o por mediana para numéricas (p. ej. CongestionAereaOrigen).

Justificación: los sensores o reportes meteorológicos pueden faltar; imputar evita perder filas útiles.

2.  **Codificación de variables categóricas**

Método: One-Hot Encoding para Condicion Climatica Origen y TipoAeronave; o Target Encoding si hay muchas categorías.

Justificación: los modelos (logistic regression, tree-based) necesitan transformar categorías a formato numérico.

3.  **Escalado de variables numéricas**

 (media 0, varianza 1) para CongestionAereaOrigen, NumeroEscalas si se usan modelos sensibles a escala (SVM, regresión logística regularizada).

Justificación: mejora convergencia y hace coeficientes comparables.

4.  **Creación de features temporales / binning**

Ej.: transformar HoraSalida a FranjaHora (Madrugada/Mañana/Tarde/Noche) o usar sen/cos para componente cíclico.

Justificación: captura efecto de horarios pico y comportamientos cíclicos.


5. **Features históricos (lags)**

Ej.: RetrasosPromedioUltimos7DiasOrigen, RetrasosMismoVueloUltimoMes.

Justificación: patrones históricos del aeropuerto/slot/vuelo son predictivos.

**Riesgo de data leakage (fuga) y cómo evitarlo con pipeline:**

**Riesgo típico:**
usar una variable que contiene información posterior al evento (por ejemplo, TiempoRealLlegada, o ReagendadoPorAduana) como predictor — o construir features que agreguen datos del futuro (p. ej. promedio móvil calculado usando toda la serie incluyendo la fecha objetivo).

**Evitación práctica con pipeline**


1.  Separación temporal train/test antes de cualquier transformación, sobre todo si los datos son temporales (usar split por fecha: últimos N días → test).
2.   Construir un Pipeline (ej. con scikit-learn) que encadene: imputador → codificador → scaler → modelo, y ajustar/fit sólo sobre el set de entrenamiento.


1.   Para features basadas en historial (lags), calcularlos usando sólo datos anteriores a la fecha de la observación (no usar future-looking windows).
2.   Usar ColumnTransformer y Pipeline para que transformaciones no vean el test.
Esto garantiza que información posterior no se filtre al entrenamiento ni a la validación.




---

## **Parte 3: Interpretación y Métricas de Regresión Simple**

Para esta sección, elige un caso simple de regresión (puede ser el tuyo o uno hipotético, como predecir la demanda de un producto según su precio).

1.  Define claramente las variables **$Y$** y **$X$** junto con sus **unidades** (ej. $Y$: número de unidades vendidas, $X$: precio en dólares).
2.  Supón que entrenas un modelo y obtienes una pendiente de **$\hat{\beta}_1 = -0.6$**. Escribe una interpretación clara y concisa de este coeficiente en el contexto de tu problema.
3.  ¿Qué **métrica** de evaluación usarías (MAE, RMSE, o MAPE) y **por qué** es la más adecuada para tu caso?
4.  Menciona **un supuesto** del modelo de regresión lineal que validarías (ej. linealidad, homocedasticidad) y explica **cómo** lo harías (usando un gráfico o una prueba estadística).

**Respuesta (escribe aquí):**

**Caso simple (regresión)**: Predecir minutos de retraso (DelayMinutes) en función de HoraSalida (en minutos desde medianoche) — unidad: minutos.


1. **Y**: DelayMinutes (minutos)
2. **X**: DepartureDelayScheduled (minutos que el vuelo salió tarde en origen) — por ejemplo, el retraso real en la salida del aeropuerto origen.
**Interpretación del coeficiente β̂¹ = 0.75:**
Por cada minuto adicional de retraso en la salida (en origen), el retraso en la llegada aumenta en 0.75 minutos, manteniendo otras variables constantes. Es decir, si un vuelo sale 10 minutos más tarde, esperamos que su llegada se retrase en 7.5 minutos adicionales en promedio.

**Métrica de evaluación (MAE, RMSE o MAPE) y justificación:**

**Elegiría MAE** (Error Absoluto Medio) porque da una medida en las mismas unidades (minutos), es robusta frente a outliers extremos (comparada con RMSE) y fácil de interpretar para operaciones (p.ej. “en promedio nos equivocamos X minutos”).

**RMSE** penaliza errores grandes (útil si errores grandes son críticamente costosos); MAPE no es apropiada si hay valores cercanos a cero de DelayMinutes.

**Supuesto del modelo de regresión lineal a validar:**

**Homoscedasticidad** (varianza constante de errores).

**Cómo validarlo**: graficar residuos vs valores predichos; buscar patrón en abanico (heterocedasticidad). También se puede aplicar la prueba de Breusch-Pagan para formalizar la detección.



---

## **Parte 4: Regresión Múltiple y Colinealidad**

Volviendo a tu caso de la Parte 1 (con múltiples variables).

1.  Escribe el **vector de variables** $\vec{X}$ y la **respuesta** $Y$.
2.  Explica cómo interpretarías el **coeficiente** de una de tus variables clave (incluyendo unidades y el sentido de la relación: positiva o negativa).
3.  Si sospecharas que existe **colinealidad** entre tus variables, menciona **dos acciones** que podrías tomar para mitigarla.





**Respuesta (escribe aquí):**

(Adaptado al caso multivariable de tiempo de entrega o minutos de retraso; aquí mantenemos foco en retraso.)

**Vector de variables X⃗ (ejemplo):**

** X: **= [ CondicionClimaticaOrigen_cat*, HoraSalida_fr, CongestionAereaOrigen (movimientos/h), NumeroEscalas, TipoAeronave_cat* ]
(* = variables categóricas codificadas como dummies)

**Respuesta Y:** RetrasoSignificativo (en el caso de regresión múltiple alternativa podríamos usar DelayMinutes).

**Interpretación de uno de los coeficientes** (ej.: NumeroEscalas en modelo de DelayMinutes):

Supongamos coeficiente β̂_escalas = +65 (unidades: minutos).

**Interpretación**: Manteniendo constantes las demás variables, cada escala adicional se asocia con un aumento promedio de 65 minutos en el retraso de llegada. Es una relación positiva: más escalas → más probabilidades de acumulación de retraso.

 **Si sospecho colinealidad entre variables, dos acciones para mitigarla**


1.   **Eliminar o combinar variables altamente correlacionadas**: p. ej. si CongestionAereaOrigen y NúmeroVuelosSlot miden lo mismo, mantener sólo una.
2.   **Regularización** (Ridge o Lasso) en la regresión logística/regresión lineal para estabilizar coeficientes; o usar técnicas como PCA para reducir dimensiones.



---

## **Parte 5: Interacciones y Multicolinealidad (VIF)**

1.  Plantea un caso con una variable $Y$ y entre 4 y 6 variables $X$. ¿Qué término de **interacción** entre dos variables podrías añadir al modelo y **por qué** crees que sería útil?
2.  Si al calcular el Factor de Inflación de la Varianza (VIF) para una variable, obtienes un valor alto (ej. > 10), menciona **dos acciones** que podrías tomar para solucionarlo.

**Respuesta (escribe aquí):**

Caso con 4–6 X (clasificación/regresión del retraso):

1.  Y: DelayMinutes (regresión) o RetrasoSignificativo (clasificación)
2.  X: [CongestionAereaOrigen, CondicionClimaticaOrigen_cat, HoraSalida_fr, NumeroEscalas, TipoAeronave_cat]

**Término de interacción propuesto:**



1.   CongestionAereaOrigen × CondicionClimaticaOrigen_Tormenta (es decir, interacción entre congestión y si hay tormenta).
2.  Por qué es útil: El efecto de la congestión en el retraso probablemente sea mayor cuando hay condiciones climáticas adversas; la congestión y la mala meteorología combinadas amplifican las demoras

**Si VIF > 10 para una variable (indica multicolinealidad alta): dos acciones a tomar:**

Eliminar o transformar la variable que causa colinealidad (por ejemplo, quitar

1. Eliminar o transformar la variable que causa colinealidad (por ejemplo, quitar una de las variables redundantes).
2. Usar regresión regularizada (Ridge reduce varianza de coeficientes correlacionados) o aplicar PCA y usar componentes en lugar de las variables originales.

---

## **Parte 6: Variables Categóricas e Interacciones**

1.  Define una **variable categórica** para tu caso (puedes inventarla si no la tenías). Elige una de sus categorías como el nivel **base** o de referencia y **justifica** tu elección.
2.  Crea una **interacción** entre una variable numérica y la variable categórica que definiste. Explica cómo se interpretaría el coeficiente de esta interacción.

**Respuesta (escribe aquí):**

**Variable categórica (definida):** TipoMercancia (General, Perecedera, Peligrosa, Documentos) — en logística aérea puede afectar inspecciones y tiempos.



*   Nivel base referencia: General
*   Justificación: es la categoría más frecuente; elegir base la categoría más común facilita interpretar coeficientes como "efecto adicional respecto a lo típico".

**Interacción entre variable numérica y categórica:**



*   Interacción: PesoEnvio X TipoMercancia_Perecedera

*   Interpretación del coeficiente de la interacción:

*   Supongamos coeficiente de interacción = +0.05 horas/kg.
*   Interpretación: para envíos perecederos, cada kg adicional incrementa el tiempo total de manipulación/entrega en 0.05 horas más (3 minutos) adicionales respecto al efecto por kg de un envío General. Es decir, el impacto del peso en el tiempo depende del tipo de mercancía; para perecederos el efecto es mayor por controles de temperatura y manejo especial.

---

## **Parte 7: Conceptos Clave de Clasificación**

Aunque el taller se centra en regresión, estos conceptos son fundamentales en Machine Learning.

1.  Explica qué es la **curva ROC** y para qué se utiliza en un problema de clasificación.
2.  Define el concepto de **accuracy** (exactitud) y menciona una situación en la que podría ser una métrica engañosa.
3.  Describe qué es una **matriz de confusión** y cómo se interpretan sus componentes (Verdaderos Positivos, Falsos Positivos, Verdaderos Negativos, Falsos Negativos).

**Respuesta (escribe aquí):**

1.   **Curva ROC (Receiver Operating Characteristic)**


*  **Qué es:** gráfico que muestra la tasa de verdaderos positivos (TPR, sensibilidad) frente a la tasa de falsos positivos (FPR) para distintos umbrales de clasificación.

*  **Uso** en nuestro problema: permite evaluar la capacidad del modelo para distinguir vuelos retrasados (positivos) de no retrasados, independientemente del umbral elegido. El AUC (área bajo la curva) resume el desempeño (AUC=1 perfecto, 0.5 aleatorio).

2.   **Accuracy (exactitud)**


*   **Definición:** proporción de predicciones correctas: (TP + TN) / total.
*   **Cuándo es engañosa:** si hay clase desbalanceada (p. ej. solo 5% vuelos con retraso >2h), un modelo que predice siempre “no retraso” tendrá 95% accuracy pero 0% sensibilidad — por eso debemos mirar precisión/recall/AUC


3.   **Matriz de confusión**
 **Componentes e interpretación:**

 *   **Verdaderos Positivos (VP / TP)** :modelo predijo retraso (1) y hubo retraso (>2h).

*   **Falsos Positivos (FP):** predijo retraso pero no lo hubo (alarmas innecesarias).

*  **Falsos Negativos (FN):** predijo no retraso pero sí hubo retraso (falló en detectar un problema).

Importancia operacional: en logística, FN puede ser costoso (no avisar a cliente, cadena rota). Dependiendo del costo relativo, ajustamos el umbral para priorizar recall (capturar la mayoría de retrasos) o precision (evitar falsas alarmas).

**Métricas recomendadas para evaluación en este caso**

*  **Recall (sensibilidad)** : importante si queremos detectar la mayoría de retrasos (minimizar FN).

*  **Precision:** importante si falsas alarmas tienen costo (reprogramaciones innecesarias).

*  **F1-score:**  compromiso entre precision y recall.

*  **AUC-ROC:** evaluar discriminación general.

*  **Matriz de confusión**  para ver números absolutos.

 *  **Curva Precision-Recall**  si la clase positiva es rara (más informativa que ROC en alto desbalance).