# Taller 3: Regresión Lineal y Conceptos Fundamentales




## Instrucciones Generales

**Fecha de entrega:** 20 de septiembre.
**Tiempo disponible:** Tienen dos clases y el fin de semana para completar el taller.

1.  **Trabajo en Grupo:** Este taller se debe realizar en los grupos previamente definidos.
2.  **Repositorio en GitHub:** Cada grupo debe crear un repositorio en GitHub.
    * Una sola persona del grupo es responsable de crearlo.
    * El repositorio debe llamarse **`Regresion_Lineal`**.
    * Este archivo debe ser subido al repositorio con el nombre **`Regresion_Lineal.ipynb`**.
    * **Alternativa:** Si tienen complicaciones con GitHub, pueden enviar el enlace del cuaderno de Google Colab al aula virtual.
3.  **Actividad a Mano (20% de la nota):**
    * La asistencia a clase es **obligatoria**.
    * Se realizará una actividad práctica de regresión lineal a mano.
    * Cada integrante del grupo deberá firmar la hoja de la actividad, la cual constituye el 20% de la nota de este taller.

---

## **Parte 1: Definición del Problema**

Piensa en tu experiencia académica o laboral en un área de operaciones y elige **un problema** relacionado con inventarios, calidad, mantenimiento o productividad.

1.  Indica cuál es tu variable dependiente **$Y$** (aquello que quieres predecir o clasificar).
2.  Lista entre 3 y 5 variables independientes **$X$** que medirías para predecir $Y$.
3.  Especifica si tu problema es de **regresión** (predecir un valor numérico) o de **clasificación**.

**Respuesta (escribe aquí):**


**Respuesta 1:** Variable dependiente

Y: Nivel de inventario final en almacén (cantidad de unidades al cierre de cada ciclo operativo)


**Respuesta 2:** Variables independientes
X
X:

Demanda registrada por período (número de unidades solicitadas).

Tiempo de reposición (días que tarda el proveedor en entregar la mercancía).

Volumen de pedidos (cantidad ordenada en cada solicitud).

Frecuencia de errores en recepción (número de incidencias detectadas por ciclo).

Tipo de producto (categoría o familia del artículo)


**Respuesta 3:** Especificación del problema: Es un problema de regresión porque el objetivo es predecir un valor numérico (el nivel de inventario final).

---

## **Parte 2: Preprocesamiento de Datos y *Leakage***

Basado en el caso que definiste en la Parte 1:

1.  Lista entre 3 y 5 **transformaciones** que aplicarías a tus datos (ej. imputación de valores faltantes, codificación de variables categóricas, escalado, creación de *lags*, etc.) y **justifica por qué** cada una es necesaria.
2.  Señala un posible riesgo de ***data leakage*** (fuga de datos) en tu plan y explica cómo lo evitarías usando un *pipeline* de preprocesamiento.

**Respuesta (escribe aquí):** Transformaciones y Justificación
Imputación de valores faltantes: Es fundamental manejar valores nulos en variables como inventario, tiempo de procesamiento o demanda, ya que los modelos no aceptan valores vacíos y su ausencia podría sesgar los resultados.

Codificación de variables categóricas: Si existen variables como tipo de producto, turno de trabajo o categoría de almacén, deben convertirse en variables numéricas mediante técnicas como one-hot encoding para que el modelo pueda procesarlas.

Escalado de variables: Dado que variables como cantidad producida, tiempos logísticos y costos pueden estar en diferentes escalas, es necesario normalizarlas o estandarizarlas para que ninguna domine el entrenamiento del modelo.

Creación de variables de rezago (lags): Antecedentes de demanda o inventario ayudan a capturar patrones temporales, relevantes en la predicción de inventarios o demanda futura.

Transformación logarítmica: Si alguna variable presenta una distribución muy sesgada (por ejemplo, costos o volúmenes), aplicar logaritmo puede estabilizar la varianza y mejorar el desempeño del modelo.

Riesgo de Data Leakage y Prevención
Riesgo de data leakage: Un riesgo común sería imputar valores faltantes utilizando la media o mediana calculada sobre todo el conjunto de datos, incluyendo información del futuro respecto a las observaciones que se están prediciendo.

Cómo evitarlo: Para prevenir esta fuga, es indispensable construir un pipeline de preprocesamiento que realice la imputación y estandarización únicamente usando información disponible hasta ese momento (por ejemplo, usando fit solo en los datos de entrenamiento y aplicando después la transformación sobre el conjunto de prueba). Así, solo se utiliza información histórica, no datos futuros ni totales que inducirían una ventaja irreal en la predicción.

---

## **Parte 3: Interpretación y Métricas de Regresión Simple**

Para esta sección, elige un caso simple de regresión (puede ser el tuyo o uno hipotético, como predecir la demanda de un producto según su precio).

1.  Define claramente las variables **$Y$** y **$X$** junto con sus **unidades** (ej. $Y$: número de unidades vendidas, $X$: precio en dólares).
2.  Supón que entrenas un modelo y obtienes una pendiente de **$\hat{\beta}_1 = -0.6$**. Escribe una interpretación clara y concisa de este coeficiente en el contexto de tu problema.
3.  ¿Qué **métrica** de evaluación usarías (MAE, RMSE, o MAPE) y **por qué** es la más adecuada para tu caso?
4.  Menciona **un supuesto** del modelo de regresión lineal que validarías (ej. linealidad, homocedasticidad) y explica **cómo** lo harías (usando un gráfico o una prueba estadística).

**Respuesta (escribe aquí):** Aquí tienes una propuesta concreta para la Parte 3, usando un caso típico de inventarios y demanda.

### 1. Definición de Variables con Unidades

- $$ Y $$: Demanda mensual de un producto, medida en unidades vendidas.
- $$ X $$: Precio unitario del producto, medido en pesos colombianos (COP).

### 2. Interpretación de la Pendiente $$ \hat{\beta}_1 = -0.6 $$

Una pendiente de $$ \hat{\beta}_1 = -0.6 $$ indica que por cada aumento de un peso en el precio del producto, la demanda mensual disminuye, en promedio, 0.6 unidades. Esto refleja una relación inversa entre precio y demanda: al subir el precio, la cantidad vendida baja.

### 3. Métrica de Evaluación y Justificación

La métrica seleccionada sería **RMSE (Root Mean Squared Error)** porque penaliza más fuertemente los errores grandes, lo cual es útil en la gestión de inventarios para evitar estimaciones significativamente erróneas que pueden afectar la operación. Permite enfocar el modelo en minimizar las predicciones con mayor impacto.

### 4. Supuesto y Validación

Un supuesto a validar sería la homocedasticidad (igual varianza de los errores en todos los niveles de $ X $). Esto se puede revisar graficando los residuos del modelo frente a los valores predichos; en el gráfico, los residuos deberían dispersarse uniformemente en todo el rango sin formar patrones evidentes ni “embudos”. También podría realizarse una prueba estadística, como el test de Breusch-Pagan, para confirmar la homocedasticidad.



## **Parte 4: Regresión Múltiple y Colinealidad**

Volviendo a tu caso de la Parte 1 (con múltiples variables).

1.  Escribe el **vector de variables** $\vec{X}$ y la **respuesta** $Y$.
2.  Explica cómo interpretarías el **coeficiente** de una de tus variables clave (incluyendo unidades y el sentido de la relación: positiva o negativa).
3.  Si sospecharas que existe **colinealidad** entre tus variables, menciona **dos acciones** que podrías tomar para mitigarla.

**Respuesta (escribe aquí):** Aquí tienes un ejemplo completo para la Parte 4, siguiendo tu caso de predicción de inventarios con múltiples variables:

### 1. Vector de Variables $ \vec{X} $ y Respuesta $ Y $

- Vector de variables $ \vec{X} $:
  - Demanda registrada por período (unidades)
  - Tiempo de reposición (días)
  - Volumen de pedidos (unidades)
  - Frecuencia de errores en recepción (incidencias)
  - Tipo de producto (categórica)

- Respuesta $ Y $: Nivel de inventario final en almacén (unidades)

### 2. Interpretación del Coeficiente de una Variable Clave

Si el coeficiente de la variable “Demanda registrada por período” es, por ejemplo, $ -0.8 $, se interpreta así: por cada unidad adicional en la demanda registrada, el nivel de inventario final esperado disminuye en 0.8 unidades, manteniendo las demás variables constantes. La relación es negativa y las unidades corresponden a unidades de inventario por cada unidad de demanda.
### 3. Acciones para Mitigar la Colinealidad

Si se sospecha colinealidad entre variables:
- Eliminar o combinar variables altamente correlacionadas (por ejemplo, quedarse solo con una si “Volumen de pedidos” y “Demanda registrada” son muy similares).
- Aplicar técnicas de regularización como regresión Ridge o Lasso, que ayudan a reducir la sensibilidad a la multicolinealidad al penalizar los coeficientes de variables redundantes.

---

## **Parte 5: Interacciones y Multicolinealidad (VIF)**

1.  Plantea un caso con una variable $Y$ y entre 4 y 6 variables $X$. ¿Qué término de **interacción** entre dos variables podrías añadir al modelo y **por qué** crees que sería útil?
2.  Si al calcular el Factor de Inflación de la Varianza (VIF) para una variable, obtienes un valor alto (ej. > 10), menciona **dos acciones** que podrías tomar para solucionarlo.

**Respuesta (escribe aquí):** Parte 5: Interacciones y Multicolinealidad (VIF)
Interacción entre variables:

Caso: Variable dependiente
Y
Y: nivel de inventario final. Variables independientes
X
X: demanda registrada, tiempo de reposición, volumen de pedidos, frecuencia de errores, tipo de producto, temporada.

Término de interacción: Puedes agregar una interacción demanda registrada × temporada. Esto es útil porque puede capturar que el efecto de la demanda en el inventario varía según la época del año (temporada alta vs baja).

Acciones si el VIF es alto (>10):

Eliminar una de las variables independientes que estén muy correlacionadas entre sí para reducir la multicolinealidad.

Aplicar técnicas de regularización (como Ridge/Lasso) o resumir variables correlacionadas usando Análisis de Componentes Principales (PCA).

---

## **Parte 6: Variables Categóricas e Interacciones**

1.  Define una **variable categórica** para tu caso (puedes inventarla si no la tenías). Elige una de sus categorías como el nivel **base** o de referencia y **justifica** tu elección.
2.  Crea una **interacción** entre una variable numérica y la variable categórica que definiste. Explica cómo se interpretaría el coeficiente de esta interacción.

**Respuesta (escribe aquí):** Parte 6: Variables Categóricas e Interacciones
Variable categórica definida y justificación:

Variable categórica: Tipo de producto (A, B, C).

Nivel base: Producto tipo A. Se elige como base por ser el más vendido y más representativo de la operación, lo cual facilita la interpretación de los coeficientes de otras categorías en comparación a este.

Interacción y su interpretación:

Ejemplo: Interacción entre volumen de pedidos (numérica) y tipo de producto (categórica).

Interpretación: El coeficiente de la interacción muestra cuánto cambia el efecto del volumen de pedidos en el inventario final específicamente para un tipo de producto frente al producto base. Por ejemplo, si la interacción es positiva para tipo B, indica que aumentar el volumen de pedidos tiene un mayor impacto en el inventario final para productos tipo B comparado con el tipo A.

---

## **Parte 7: Conceptos Clave de Clasificación**

Aunque el taller se centra en regresión, estos conceptos son fundamentales en Machine Learning.

1.  Explica qué es la **curva ROC** y para qué se utiliza en un problema de clasificación.
2.  Define el concepto de **accuracy** (exactitud) y menciona una situación en la que podría ser una métrica engañosa.
3.  Describe qué es una **matriz de confusión** y cómo se interpretan sus componentes (Verdaderos Positivos, Falsos Positivos, Verdaderos Negativos, Falsos Negativos).

**Respuesta (escribe aquí):** 1. Curva ROC
La curva ROC (Receiver Operating Characteristic) es una herramienta gráfica usada para evaluar el desempeño de modelos de clasificación binaria. Representa la relación entre la tasa de verdaderos positivos (sensibilidad) y la tasa de falsos positivos para diferentes umbrales de decisión. Es útil porque permite comparar la capacidad de separación del modelo en distintos escenarios, ayudando a elegir el mejor umbral para maximizar la discriminación entre clases.

2. Accuracy
El concepto de accuracy (exactitud) se refiere a la proporción de predicciones correctas sobre el total de casos evaluados. Por ejemplo, en un problema de detección de fallas donde solo el 1% de los productos son defectuosos, un clasificador que marque todo como “no defectuoso” tendrá una accuracy del 99%, pero no será útil porque ignora los fallos reales—por eso puede ser una métrica engañosa en problemas desbalanceados.

3. Matriz de Confusión
La matriz de confusión es una tabla de doble entrada que resume el desempeño de un clasificador mostrando el número de aciertos y errores en cada clase. Sus componentes se interpretan así:

Verdaderos Positivos (VP): casos positivos correctamente identificados.

Falsos Positivos (FP): casos negativos incorrectamente identificados como positivos.

Verdaderos Negativos (VN): casos negativos correctamente identificados.

Falsos Negativos (FN): casos positivos no captados por el modelo.

Esta matriz ayuda a entender el tipo de errores que comete el modelo y a seleccionar métricas complementarias más precisas para cada situación.

