<img src=https://audiovisuales.icesi.edu.co/assets/custom/images/ICESI_logo_prin_descriptor_RGB_POSITIVO_0924.jpg width=200>

*Milton Orlando Sarria Paja, PhD.*

----

### **Práctica: Predicción del Valor de Mercado de Jugadores de Fútbol**

**Objetivo General:** Utilizar técnicas de regresión lineal para construir modelos que predigan el valor de mercado de un jugador (`Value_millions`) basándose en sus atributos de rendimiento y características personales.

---

### **Ejercicio 1: Identificación de Variables y Análisis de Dependencia 🔍**

El primer paso en cualquier proyecto de modelado es entender profundamente los datos con los que trabajamos.

**Tareas:**

1.  **Identificar Variables Relevantes:**
    * Del listado de columnas, crea una lista de **todas las variables numéricas** que podrían ser útiles para predecir el valor de un jugador.
    * Excluye explícitamente las variables que son identificadores (como `player_id`) o categóricas puras (como `player_name`, `country`, `position`, `club_name`, etc.).

2.  **Análisis de Correlación:**
    * Una vez cargados los datos, calcula la matriz de correlación entre todas las variables numéricas que identificaste y la variable objetivo `Value_millions`.
    * Visualiza esta matriz utilizando un **mapa de calor (heatmap)**. Esto te dará una visión rápida de las relaciones lineales más fuertes.

3.  **Análisis Visual:**
    * Crea **gráficos de dispersión (scatter plots)** para visualizar la relación entre `Value_millions` y las 3-4 variables que mostraron la correlación más alta en el paso anterior.

**Preguntas para Reflexión y Discusión:**

* **Pregunta 1.1:** Según el mapa de calor, ¿cuáles son las tres variables con la correlación positiva más fuerte con `Value_millions`?
* **Pregunta 1.2:** Observa el gráfico de dispersión de `age` vs. `Value_millions`. ¿La relación parece ser una línea recta? Describe la forma que observas. (Esta observación será clave para el Ejercicio 5).
* **Pregunta 1.3:** ¿Qué variable, si alguna, parece tener una relación lineal casi perfecta con `Value_millions`? ¿Podría esto ser un problema o es algo esperado?

---

### **Ejercicio 2: Regresión Lineal Simple y Verificación de Supuestos**

Ahora construiremos nuestro primer modelo predictivo utilizando solo la mejor variable predictora que encontramos.

**Tareas:**

1.  **Construir el Modelo:**
    * Selecciona la variable predictora que tuvo la correlación más alta con `Value_millions` en el ejercicio anterior (probablemente `overall` o `potential`).
    * Divide tus datos en un conjunto de entrenamiento (70%) y un conjunto de prueba (30%).
    * Entrena un modelo de Regresión Lineal Simple usando solo esta variable para predecir `Value_millions`.

2.  **Interpretar y Evaluar:**
    * Obtén e interpreta el intercepto ($\theta_0$) y el coeficiente ($\theta_1$) del modelo.
    * Calcula el coeficiente de determinación (R²) en el conjunto de prueba.

3.  **Verificar los Supuestos Teóricos:**
    * Calcula los **residuos** del modelo en el conjunto de prueba (valor real - valor predicho).
    * **Normalidad:** Crea un histograma de los residuos. ¿Siguen una distribución normal (forma de campana)?
    * **Homocedasticidad:** Crea un gráfico de dispersión con los valores predichos en el eje X y los residuos en el eje Y.

**Preguntas para Reflexión y Discusión:**

* **Pregunta 2.1:** Explica con tus propias palabras qué significa el coeficiente $\theta_1$ que obtuviste. Por ejemplo: "Por cada punto que aumenta [tu variable], el valor de mercado del jugador aumenta/disminuye en X millones de dólares".
* **Pregunta 2.2:** ¿Qué te dice el valor de R² sobre qué tan bien tu modelo de una sola variable puede explicar la variación en el valor de mercado de los jugadores?
* **Pregunta 2.3:** Observando el gráfico de residuos vs. valores predichos, ¿los puntos forman una nube aleatoria sin patrón alrededor de la línea cero, o ves alguna forma (como un cono o un embudo)? ¿Qué te dice esto sobre el supuesto de homocedasticidad?

---

### **Ejercicio 3: Regresión Lineal Múltiple 🏙️**

Un solo atributo no es suficiente para determinar el valor de un jugador. Usemos múltiples variables para crear un modelo más robusto.

**Tareas:**

1.  **Construir el Modelo Múltiple:**
    * Selecciona un conjunto de 4 a 6 de las variables predictoras numéricas más prometedoras (ej. `overall`, `potential`, `age`, `international_reputation`, `skill_moves`, etc.).
    * Entrena un nuevo modelo de Regresión Lineal Múltiple utilizando todas estas variables para predecir `Value_millions`. Asegúrate de usar los mismos conjuntos de entrenamiento y prueba.

2.  **Interpretar y Evaluar:**
    * Obtén e imprime los coeficientes para cada una de las variables.
    * Calcula el nuevo R² del modelo múltiple.

**Preguntas para Reflexión y Discusión:**

* **Pregunta 3.1:** Compara el R² del modelo múltiple con el del modelo simple. ¿Mejoró significativamente el modelo al añadir más información?
* **Pregunta 3.2:** Observa el coeficiente de la variable `age`. ¿Es positivo o negativo? ¿Qué te dice esto sobre cómo cambia el valor de un jugador con la edad, *manteniendo constantes todos los demás factores como su `overall` y `potential`*?
* **Pregunta 3.3:** ¿Es posible que una variable que parecía importante en el análisis de correlación inicial tenga un coeficiente pequeño o inesperado en el modelo múltiple? ¿Por qué podría ocurrir esto?

---


### **Ejercicio 4: Regresión Lineal Polinomial 🎢**

Recordemos la relación entre `age` y `Value_millions`. No era lineal. Vamos a intentar capturar esa curva.

**Tareas:**

1.  **Construir el Modelo Polinomial:**
    * Enfócate nuevamente en predecir `Value_millions` usando únicamente la variable `age`.
    * Crea un modelo de Regresión Polinomial de **grado 2**. Esto significa que usarás `age` y `age²` como tus características. (Sugerencia: usa `PolynomialFeatures` de Scikit-Learn dentro de un `Pipeline`).
    * Entrena el modelo.

2.  **Visualizar y Evaluar:**
    * Crea un gráfico de dispersión de `age` vs. `Value_millions`.
    * Superpón en el mismo gráfico la curva de tu modelo polinomial ajustado.
    * Compara el R² de este modelo con el R² del modelo de regresión simple que usaba solo `age`.

**Preguntas para Reflexión y Discusión:**

* **Pregunta 4.1:** Viendo el gráfico, ¿el modelo polinomial de grado 2 captura mejor la relación entre la edad y el valor de mercado que una simple línea recta?
* **Pregunta 4.2 (Reto):** Intenta construir un modelo polinomial de grado muy alto (ej. grado 10) usando `age`. ¿Qué le pasa a la curva? Explica con tus palabras por qué este modelo, aunque se ajuste muy bien a los datos de entrenamiento, es un mal modelo. ¿Cómo se llama este fenómeno?