<a href="https://colab.research.google.com/github/nataliapuentesca-crypto/sistemas-avanzados-de-produccion/blob/main/NataliaPuentes_DennisCarrillo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Taller 3: Regresión Lineal y Conceptos Fundamentales



## Instrucciones Generales

**Fecha de entrega:** 20 de septiembre.
**Tiempo disponible:** Tienen dos clases y el fin de semana para completar el taller.

1.  **Trabajo en Grupo:** Este taller se debe realizar en los grupos previamente definidos.
2.  **Repositorio en GitHub:** Cada grupo debe crear un repositorio en GitHub.
    * Una sola persona del grupo es responsable de crearlo.
    * El repositorio debe llamarse **`Regresion_Lineal`**.
    * Este archivo debe ser subido al repositorio con el nombre **`Regresion_Lineal.ipynb`**.
    * **Alternativa:** Si tienen complicaciones con GitHub, pueden enviar el enlace del cuaderno de Google Colab al aula virtual.
3.  **Actividad a Mano (20% de la nota):**
    * La asistencia a clase es **obligatoria**.
    * Se realizará una actividad práctica de regresión lineal a mano.
    * Cada integrante del grupo deberá firmar la hoja de la actividad, la cual constituye el 20% de la nota de este taller.
    

## **Parte 1: Definición del Problema**

Piensa en tu experiencia académica o laboral en un área de operaciones y elige **un problema** relacionado con inventarios, calidad, mantenimiento o productividad.

1.  Indica cuál es tu variable dependiente **$Y$** (aquello que quieres predecir o clasificar).
2.  Lista entre 3 y 5 variables independientes **$X$** que medirías para predecir $Y$.
3.  Especifica si tu problema es de **regresión** (predecir un valor numérico) o de **clasificación**.

**Área de operaciones e inventarios**

**Problema: Sobreinventario en una bodega de distribución..**


**Respuesta 1** – Variable dependiente (Y):

Probabilidad de que ocurra un sobrestock de inventario:

Sí (exceso de inventario)

No (inventario en nivel adecuado)

Respuesta 2 – Variables independientes (X):

X1: Tiempo promedio de entrega del proveedor (días).

X2: Demanda promedio semanal del producto (unidades).

X3: Nivel de inventario de seguridad (unidades).

X4: Variabilidad de la demanda (desviación estándar de ventas).

X5: Precisión del pronóstico de ventas (%).

**Respuesta 3** – Tipo de problema:

Clasificación, porque la variable dependiente Y toma dos categorías (queremos predecir si habrá sobrestock: “sí” o “no”).

## **Parte 2: Preprocesamiento de Datos y *Leakage***

Basado en el caso que definiste en la Parte 1:

1.  Lista entre 3 y 5 **transformaciones** que aplicarías a tus datos (ej. imputación de valores faltantes, codificación de variables categóricas, escalado, creación de *lags*, etc.) y **justifica por qué** cada una es necesaria.
2.  Señala un posible riesgo de ***data leakage*** (fuga de datos) en tu plan y explica cómo lo evitarías usando un *pipeline* de preprocesamiento.


Imputación de valores faltantes

Justificación: Es posible que el tiempo de entrega del proveedor o la demanda semanal tengan valores faltantes por errores en los registros. La imputación (por media, mediana o métodos más avanzados) garantiza que no perdamos información valiosa en el entrenamiento.

Escalado de variables numéricas

Justificación: Variables como “tiempo de entrega (días)” y “demanda semanal (unidades)” tienen escalas diferentes. Escalarlas (por ejemplo, con StandardScaler o MinMaxScaler) evita que una variable con valores grandes domine el modelo.

Creación de variables derivadas (features engineering)

Ejemplo: Crear la relación inventario de seguridad / demanda promedio semanal para identificar si los niveles de inventario de seguridad son proporcionales al consumo real.

Justificación: Mejora la capacidad predictiva al capturar información relevante que no está explícita en las variables originales.

Reducción de variabilidad (suavizado de demanda)

Justificación: La demanda puede tener picos irregulares. Un promedio móvil o lags pueden ayudar a suavizar la serie, evitando que el modelo aprenda ruido en lugar de patrones reales.

Codificación de variables categóricas (si existieran)

Ejemplo: Si se incluye el tipo de producto o categoría ABC, se requeriría aplicar One-Hot Encoding o Target Encoding.

Justificación: Los algoritmos no entienden directamente categorías, por lo que deben transformarse en valores numéricos.

## **Parte 3: Interpretación y Métricas de Regresión Simple**

Para esta sección, elige un caso simple de regresión (puede ser el tuyo o uno hipotético, como predecir la demanda de un producto según su precio).

1.  Define claramente las variables **$Y$** y **$X$** junto con sus **unidades** (ej. $Y$: número de unidades vendidas, $X$: precio en dólares).
2.  Supón que entrenas un modelo y obtienes una pendiente de **$\hat{\beta}_1 = -0.6$**. Escribe una interpretación clara y concisa de este coeficiente en el contexto de tu problema.
3.  ¿Qué **métrica** de evaluación usarías (MAE, RMSE, o MAPE) y **por qué** es la más adecuada para tu caso?
4.  Menciona **un supuesto** del modelo de regresión lineal que validarías (ej. linealidad, homocedasticidad) y explica **cómo** lo harías (usando un gráfico o una prueba estadística).

**Caso** Predecir la demanda de un producto en función de su precio.

**Respuesta 1. Definición de variables**

* **Variable dependiente (Y):** número de unidades vendidas por semana (unidades).

* **Variable independiente (X):** precio del producto (USD).

**Respuesta 2. Interpretación del coeficiente β¹ = -0.6**

La pendiente negativa indica que por cada 1 dólar de aumento en el precio, la demanda del producto disminuye en 0.6 unidades por semana, manteniendo todo lo demás constante.

**Respuesta 3. Métrica de evaluación**

Escogería MAPE (Mean Absolute Percentage Error) porque:

Permite interpretar el error en términos de porcentaje relativo a las ventas reales, lo cual es más intuitivo para la gestión comercial.

Es útil en este caso, ya que los volúmenes de ventas pueden variar mucho según el precio, y no queremos que un error de 10 unidades pese igual cuando la demanda es de 50 que cuando es de 500.

** Respuesta 4. Supuesto a validar: Linealidad**

Supuesto: Linealidad entre X y Y.

Cómo validarlo:

Graficar un diagrama de dispersión (scatter plot) de precio vs. demanda y superponer la recta de regresión.

Si los puntos muestran una tendencia aproximadamente lineal (sin curvas o patrones no lineales), el supuesto se cumple.

Alternativamente, usar un test de Ramsey RESET para verificar si hay especificación incorrecta del modelo.

## **Parte 4: Regresión Múltiple y Colinealidad**

Volviendo a tu caso de la Parte 1 (con múltiples variables).

1.  Escribe el **vector de variables** $\vec{X}$ y la **respuesta** $Y$.
2.  Explica cómo interpretarías el **coeficiente** de una de tus variables clave (incluyendo unidades y el sentido de la relación: positiva o negativa).
3.  Si sospecharas que existe **colinealidad** entre tus variables, menciona **dos acciones** que podrías tomar para mitigarla.

**Respuesta 1: Vector de variables**

**X** = [ X1, X2, X3, X4, X5 ]

X1 = Tiempo promedio de entrega del proveedor (días)

X2 = Demanda promedio semanal del producto (unidades)

X3 = Nivel de inventario de seguridad (unidades)

X4 = Variabilidad de la demanda (desviación estándar en unidades)

X5 = Precisión del pronóstico de ventas (%)

$$
X = \begin{bmatrix}
X1 \\
X2 \\
X3 \\
X4 \\
X5
\end{bmatrix}=\begin{bmatrix}
Tiempo promedio de entrega del proveedor (días) \\
Demanda promedio semanal del producto (unidades) \\
Nivel de inventario de seguridad (unidades)\\
Variabilidad de la demanda (desviaciónestándarenunidades)\\
Precisión del pronóstico de ventas (Porcentaje)\\
\end{bmatrix}
$$


**Y** = Número de unidades faltantes por semana (unidades)

**Respuesta 2: Interpretación de un coeficiente ejemplo con $X_3 $**
Tomamos el coeficiente asociado a $X_3$ (nivel de inventario de seguridad). En un modelo lineal múltiple:
$\hat{Y}$ = $β_0$ + $β_1$$X_1$ + $β_2$$X_2$ + $β_3$$X_3$ + $β_4$$X_4$ + $β_5$$X_5$
Interpretación general de $β_3$:

$β_3$ es el cambio esperado en el número de unidades faltantes por semana (Y) por cada aumento de 1 unidad en el inventario de seguridad (X_3), manteniendo constantes todas las demás X.

Si $β_3$ < 0: un incremento en inventario de seguridad reduce las unidades faltantes (relación negativa — esperado en la práctica).

Si  $β_3$ > 0: un incremento en inventario de seguridad aumenta las unidades faltantes (contrario a la intuición; indicaría problema en datos/modelo).

**Respuesta 3: Si sospechara colinealidad: dos acciones para mitigarla**
**a) Diagnóstico y eliminación/selección de variables**

Calcular el **VIF (Variance Inflation Factor)** para cada X.

Si VIF de una variable > 5 (o 10, según criterio) indica colinealidad elevada.

Acción: eliminar la variable menos informativa o combinar variables muy correlacionadas (ej. si demanda promedio y variabilidad están fuertemente correlacionadas, evaluar cuál conservar o crear un indicador conjunto).

Pros: sencillo y directo; mantiene interpretabilidad.

Contras: pérdida potencial de información si se elimina una variable útil.

**b) Regularización o reducción de dimensión**

**Ridge regression** (penalización L2) o **PCA** sobre las X correlacionadas:

Ridge reduce la varianza de los coeficientes colineales (los “encoge”) sin eliminar variables, mejorando estabilidad predictiva.

PCA combina variables correlacionadas en componentes ortogonales; usar los primeros componentes como predictores.

Pros: mejora la estabilidad del modelo y la predicción en presencia de colinealidad.

Contras: Ridge mantiene todas las variables pero complica la interpretación; PCA reduce interpretabilidad porque los componentes son combinaciones lineales.

## **Parte 5: Interacciones y Multicolinealidad (VIF)**

1.  Plantea un caso con una variable $Y$ y entre 4 y 6 variables $X$. ¿Qué término de **interacción** entre dos variables podrías añadir al modelo y **por qué** crees que sería útil?
2.  Si al calcular el Factor de Inflación de la Varianza (VIF) para una variable, obtienes un valor alto (ej. > 10), menciona **dos acciones** que podrías tomar para solucionarlo.

Caso (Y  y entre 4 y 6 variables  X.)

Y: Unidades faltantes por semana (unidades)

X:

X1: Tiempo promedio de entrega del proveedor (días)

X2: Demanda promedio semanal (unidades)

X3: Nivel de inventario de seguridad (unidades)

X4: Variabilidad de la demanda (desviación estándar, unidades)

X5: Precisión del pronóstico de ventas (%)

(opcional X6): Número de proveedores activos (cantidad)

**Respuesta 1: Término de interacción propuesto (y por qué es útil)**

Término de interacción: ​$X_1$ x ​$X_4$ = (Tiempo de entrega) × (Variabilidad de la demanda)

Forma en el modelo:
$\hat{Y}$ = $β_0$ + $β_1$$X_1$ + $β_2$$X_2$ + $β_3$$X_3$ + $β_4$$X_4$ + $β_5$$X_5$ + $β_14$($X_1$⋅$X_4$) + ε

* Intuitivamente, el efecto de la variabilidad de la demanda sobre las unidades faltantes se amplifica cuando el tiempo de entrega es largo: si el lead time es corto, una subida repentina en demanda se puede absorber más fácilmente; si el lead time es largo, la misma variabilidad causa más faltantes.

* El término $X_1$ ⋅ $X_4$ permite al modelo capturar ese efecto no aditivo: cuando $X_1$ aumenta, el coeficiente efectivo de $X_4$ cambia, y viceversa. Esto mejora ajuste y interpretabilidad operacional (por ejemplo: "cuando el proveedor tarda 7 días, cada punto extra de desviación de demanda genera N faltantes adicionales").

**Respuesta 2 Si una variable tiene VIF alto (ej. >10): dos acciones para mitigar colinealidad**

**Acción A — Diagnóstico y selección / combinación de variables**
* Calcular VIF por variable; identificar pares/grupos altamente correlacionados (matriz de correlación).
* Si dos variables informan lo mismo (p. ej. X2 Demanda promedio y X4 Variabilidad muy correlacionadas en tu muestra), eliminar la menos relevante o combinar en un índice (por ejemplo: Demanda efectiva = α· X2 + (1−α)·X4)o usar una sola variable con fundamento empresarial.
* Ventaja: recuperas interpretabilidad y reduces varianza de los coeficientes.
* Contras: posible pérdida de información si se elimina mal.

## **Parte 6: Variables Categóricas e Interacciones**

1.  Define una **variable categórica** para tu caso (puedes inventarla si no la tenías). Elige una de sus categorías como el nivel **base** o de referencia y **justifica** tu elección.
2.  Crea una **interacción** entre una variable numérica y la variable categórica que definiste. Explica cómo se interpretaría el coeficiente de esta interacción.

**Respuesta 1:**


**Variable categórica**

Definimos la variable:

* X6 = Tipo de producto
* Categorías: A (alta rotación), B (media rotación), C (baja rotación)

**Nivel de referencia (base):** Categoría A (alta rotación)

* Es la categoría más común en inventarios y la que suele tener mayor impacto en la operación.

* Elegirla como referencia facilita interpretar cómo cambian las faltantes para productos de menor rotación respecto al caso estándar (alta rotación).

**Respuesta 2: Interacción entre variable numérica y categórica**

**Interacción propuesta:** $X_2$ x $X_6$ =(Demanda promedio semanal en unidades)× (Tipo de producto)
Cómo se interpretaría el coeficiente de esta interacción:

El coeficiente mide cuánto se modifica el efecto de la demanda promedio sobre las unidades faltantes (Y) dependiendo de la categoría del producto.

Ejemplo: Si el coeficiente de la interacción Demanda × C (baja rotación) es +0.3, significa que por cada unidad adicional de demanda semanal, los productos de baja rotación generan 0.3 faltantes más que los de alta rotación (categoría base), manteniendo las demás variables constantes.

En cambio, si el coeficiente fuera negativo, indicaría que la demanda afecta menos a esa categoría comparada con la base.

La interacción permite capturar que el impacto de la demanda sobre las faltantes no es igual en todos los tipos de producto

## **Parte 7: Conceptos Clave de Clasificación**

Aunque el taller se centra en regresión, estos conceptos son fundamentales en Machine Learning.

1.  Explica qué es la **curva ROC** y para qué se utiliza en un problema de clasificación.
2.  Define el concepto de **accuracy** (exactitud) y menciona una situación en la que podría ser una métrica engañosa.
3.  Describe qué es una **matriz de confusión** y cómo se interpretan sus componentes (Verdaderos Positivos, Falsos Positivos, Verdaderos Negativos, Falsos Negativos).

**Respuesta 1: Curva ROC**


* La curva ROC (Receiver Operating Characteristic) es una gráfica que muestra el rendimiento de un modelo de clasificación binaria en distintos umbrales de decisión.

* En el eje X se representa la tasa de falsos positivos (FPR) y en el eje Y la tasa de verdaderos positivos (TPR o sensibilidad).

* Se utiliza para evaluar qué tan bien un modelo distingue entre clases, sin depender de un solo punto de corte.


* El área bajo la curva (AUC) es una medida global de desempeño:

     * AUC = 1 → Clasificación perfecta.

     * AUC = 0.5 → Clasificación aleatoria.
**Respuesta 2 Accuracy (Exactitud)**

El accuracy mide el porcentaje de predicciones correctas sobre el total de predicciones:

Accuracy= $$ = \frac{TP \ - {TN}}{TP+TN+FP+FN}$$

* **Situación en la que es engañosa:**

  * Cuando las clases están desbalanceadas.

  * Ejemplo: si en un hospital solo el 1% de pacientes tiene una enfermedad, un modelo que siempre predice "sano" tendría 99% de accuracy, pero en realidad no detecta ningún enfermo.

  * En estos casos métricas como recall, precisión o F1-score son más informativas.

**Respuesta 3 Matriz de confusión**

Una matriz de confusión es una tabla que permite evaluar el desempeño de un modelo de clasificación mostrando cómo se comparan las predicciones del modelo con los valores reales.

Sus componentes son:

* **Verdaderos Positivos (TP):** casos en los que el modelo predijo “positivo” y efectivamente eran positivos.

* **Falsos Positivos (FP):** casos en los que el modelo predijo “positivo” pero en realidad eran negativos (también se les llama “falsas alarmas”).

* **Verdaderos Negativos (TN):** casos en los que el modelo predijo “negativo” y efectivamente eran negativos.

* **Falsos Negativos (FN):** casos en los que el modelo predijo “negativo” pero en realidad eran positivos (el modelo no detectó un caso positivo).
