# Pr√°ctica guiada

## Predicci√≥n de enfermedad card√≠aca con Random Forest

<img src="img/heart-health-tips-animation-thumbnail.gif" alt="hearth">


El hospital de Le√≥n quiere **predecir riesgo de enfermedad card√≠aca** a partir de datos cl√≠nicos b√°sicos de pacientes.


El objetivo **no es solo entrenar un modelo**, sino **decidir qu√© modelo es m√°s adecuado**, c√≥mo configurarlo y **explicar por qu√©**.

Trabajar√°s con:

* `heart.csv` ‚Üí dataset completo
* `heart_disease_4features.csv` ‚Üí versi√≥n reducida y m√°s interpretable

El cuaderno base utiliza **Random Forest**, b√∫squeda de hiperpar√°metros y visualizaci√≥n de √°rboles .

---

## Resultados de aprendizaje trabajados

* **RA2.c** Define el modelo a implementar
* **RA2.d** Implementa la aplicaci√≥n
* **RA2.e** Eval√∫a resultados

---

## Entrega

Un **notebook Jupyter** en formato PDF con:

* C√≥digo funcional
* Respuestas razonadas en Markdown
* Gr√°ficas y m√©tricas
* Conclusiones claras

---

## ¬øQu√© es Random Forest?

**Random Forest** es un algoritmo de **aprendizaje autom√°tico supervisado** que se utiliza tanto para **clasificaci√≥n** como para **regresi√≥n**.

La idea principal es sencilla:

> En lugar de tomar una decisi√≥n con un solo √°rbol de decisi√≥n, Random Forest entrena **muchos √°rboles distintos** y combina sus resultados para obtener una predicci√≥n m√°s fiable.

---

## ¬øC√≥mo funciona?

1. Se crean **muchos subconjuntos distintos** del conjunto de entrenamiento (muestreo con reemplazo).
2. Con cada subconjunto se entrena **un √°rbol de decisi√≥n diferente**.
3. En cada √°rbol, las divisiones se hacen usando **solo una parte aleatoria de las variables**.
4. Para clasificar un nuevo dato:

   * Cada √°rbol da su predicci√≥n.
   * El modelo final decide por **votaci√≥n mayoritaria**.

Este proceso reduce los errores debidos a:

* √°rboles demasiado complejos
* datos ruidosos
* sobreajuste al conjunto de entrenamiento

<img src="img/random-forest.png" alt="random forest">

---

## ¬øPor qu√© no usar un solo √°rbol de decisi√≥n?

Un √°rbol de decisi√≥n:

* es f√°cil de entender
* pero **muy sensible a los datos**
* puede memorizar el entrenamiento (overfitting)

Random Forest soluciona esto porque:

* combina muchos √°rboles simples
* promedia sus decisiones
* generaliza mejor a datos nuevos

---

## Ventajas de Random Forest

* Funciona bien con **datos tabulares**
* No necesita normalizaci√≥n de variables
* Captura relaciones **no lineales**
* Es robusto frente al ruido
* Permite estimar la **importancia de las variables**

Por eso es muy utilizado en:

* medicina
* banca
* detecci√≥n de fraude
* problemas reales con datos estructurados

---

## Inconvenientes

* Es menos interpretable que un solo √°rbol
* Consume m√°s tiempo y recursos
* No es ideal cuando se necesita un modelo muy simple o explicable al 100%

M√°s informaci√≥n

[Machine Learning Google](https://developers.google.com/machine-learning/decision-forests?hl=es-419)

[Videotutorial: Random Forests con Python](https://www.youtube.com/watch?v=VfMPslt2wgA)

---

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    accuracy_score, confusion_matrix, classification_report,
    roc_auc_score
)

## Parte 1 ‚Äì Exploraci√≥n y comprensi√≥n del dataset (obligatoria)

### 1.1 Carga de datos

Carga ambos datasets y responde:

<div style="background-color:green;color:white">

<br>

**Cuestiones (responde en Markdown):**

* ¬øCu√°ntas variables tiene cada dataset?


* ¬øCu√°l crees que ser√° m√°s f√°cil de explicar a un m√©dico?


* ¬øQu√© se pierde al reducir variables?


<br>

---

### 1.2 Variable objetivo

<div style="background-color:green;color:white">

<br>

* Identifica claramente la variable *objetivo*

* Explica qu√© significa *0* y *1*


* Comprueba si hay **desbalanceo de clases**


 <br>

## Parte 2 ‚Äì Primer modelo Random Forest (baseline)

### 2.1 Separaci√≥n train/test

Usa `train_test_split` con:

* `test_size=0.2`
* `random_state=42`



<div style="background-color:green;color:white">

<br>

Explica **por qu√© fijar la semilla es importante**.


<br>

---

### 2.2 Entrenamiento inicial

Entrena un **Random Forest controlado**, es decir, **no utilices el modelo con los valores por defecto**.

Para ello:

* Crea un `RandomForestClassifier` fijando **expl√≠citamente varios hiperpar√°metros**.
* Debes **limitar la complejidad del modelo** para evitar sobreajuste.
* Asegura que el entrenamiento sea **reproducible**.
* Evita que el modelo tome decisiones basadas en **muy pocos ejemplos**.
* (Opcional) Activa una estimaci√≥n interna del rendimiento.

El modelo debe entrenarse con los datos de entrenamiento (`X_train`, `y_train`).

üìå **Ayuda**
Consulta la documentaci√≥n oficial de [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) en *scikit-learn* para identificar qu√© hiperpar√°metros permiten:

* controlar la profundidad de los √°rboles,
* fijar el n√∫mero de √°rboles,
* imponer un tama√±o m√≠nimo en las hojas,
* y garantizar reproducibilidad.




---
## Parte 3 ‚Äì Evaluaci√≥n correcta del modelo

Una vez entrenado el modelo, es necesario **evaluar su rendimiento** para comprobar si es capaz de **generalizar correctamente** a datos que no ha visto durante el entrenamiento.

En esta parte no basta con obtener una predicci√≥n: se deben analizar **distintas m√©tricas**, ya que cada una aporta informaci√≥n diferente sobre el comportamiento del modelo.

---

### Qu√© se va a hacer

Se evaluar√° el modelo utilizando el conjunto de test y se mostrar√°n:

* **Accuracy**
* **Matriz de confusi√≥n**
* **Informe de clasificaci√≥n (classification report)**

Estas m√©tricas permiten analizar no solo cu√°ntas predicciones acierta el modelo, sino **qu√© tipo de errores comete**.

---

### Por qu√© no es suficiente una sola m√©trica

En problemas de clasificaci√≥n, especialmente en contextos reales como la medicina, **no todos los errores tienen el mismo impacto**.
Por ejemplo, clasificar como sano a un paciente enfermo puede ser mucho m√°s grave que el error contrario.

Por ello, es imprescindible analizar varias m√©tricas y no quedarse solo con la accuracy.

---

- Accuracy: Indica el **porcentaje total de predicciones correctas**.


- Matriz de confusi√≥n: Muestra el **n√∫mero de aciertos y errores por clase**, permite ver **qu√© tipo de errores son m√°s frecuentes**.

- Classification report: Resume varias m√©tricas clave para cada clase:

* **Precision**: de las predicciones positivas, cu√°ntas son correctas.
* **Recall (sensibilidad)**: de los casos reales, cu√°ntos detecta el modelo.
* **F1-score**: equilibrio entre precision y recall.

---




<div style="background-color:green;color:white">

<br>


- ¬øEl rendimiento del modelo es adecuado?
- ¬øQu√© clase se predice mejor y cu√°l peor?
- ¬øQu√© tipo de error consideras m√°s problem√°tico en este contexto y por qu√©?
- ¬øEs suficiente la accuracy en un problema m√©dico?
- Justifica con un ejemplo concreto.


<br>

---

## Parte 4 ‚Äì Optimizaci√≥n con GridSearchCV

En esta parte se va a **optimizar el modelo Random Forest entrenado anteriormente** utilizando **validaci√≥n cruzada**.

En lugar de fijar los hiperpar√°metros manualmente, se utilizar√° `GridSearchCV` para **probar distintas combinaciones** de valores y seleccionar autom√°ticamente la que **mejor rendimiento medio** obtenga en validaci√≥n cruzada.

Se repetir√° la **misma estrategia utilizada en el cuaderno base**:

* Se variar√° la **profundidad m√°xima de los √°rboles**.
* Se limitar√° el **n√∫mero m√≠nimo de muestras por hoja** para evitar decisiones basadas en pocos datos.
* Se probar√°n distintos **n√∫meros de √°rboles** en el bosque.
* El rendimiento se evaluar√° mediante **accuracy** y validaci√≥n cruzada.

El objetivo **no es solo mejorar la m√©trica**, sino **comparar el modelo optimizado con el modelo controlado anterior** y reflexionar sobre el coste computacional.

---


In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

param_grid = {
    "max_depth": [2, 3, 5, 10, 20],
    "min_samples_leaf": [5, 10, 20, 50, 100],
    "n_estimators": [10, 30, 50, 100]
}


rf = RandomForestClassifier(
    random_state=42,
    n_jobs=-1
)


A partir del modelo y del conjunto de hiperpar√°metros definidos anteriormente, configura un proceso de **b√∫squeda exhaustiva** de hiperpar√°metros utilizando `GridSearchCV`.

El proceso debe cumplir las siguientes condiciones:

* Utiliza como **estimador** el modelo `RandomForestClassifier` previamente definido.
* Emplea el conjunto de hiperpar√°metros almacenado en `param_grid`.
* Aplica **validaci√≥n cruzada** con un n√∫mero fijo de particiones.
* Eval√∫a el rendimiento usando una **m√©trica de clasificaci√≥n adecuada**.
* Aprovecha todos los n√∫cleos disponibles del sistema.
* Muestra informaci√≥n detallada del proceso de b√∫squeda.

Al finalizar:

* Identifica los **mejores hiperpar√°metros** encontrados.
* Recupera el **mejor modelo** entrenado.
* Eval√∫a dicho modelo sobre el conjunto de test.

üìå **Ayuda**
Consulta la documentaci√≥n oficial de [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) que permiten


* indicar el estimador,
* definir la rejilla de par√°metros,
* establecer el n√∫mero de particiones de la validaci√≥n cruzada,
* seleccionar la m√©trica de evaluaci√≥n,
* activar el uso de m√∫ltiples n√∫cleos,
* y mostrar el progreso del entrenamiento.




Fitting 4 folds for each of 100 candidates, totalling 400 fits
Mejores par√°metros: {'max_depth': 10, 'min_samples_leaf': 5, 'n_estimators': 100}
Mejor accuracy en CV: 0.8365853658536585


<div style="background-color:green;color:white">

<br>

- ¬øQu√© combinaci√≥n obtiene mejor resultado?


- ¬øHa mejorado realmente frente al modelo inicial?


- ¬øCu√°nto tiempo tarda y por qu√©?



<br>

---

## Parte 5 ‚Äì Interpretabilidad: dentro del bosque 

### 5.1 Visualizaci√≥n de un √°rbol

En esta parte se va a **analizar el interior del modelo Random Forest** para comprender **c√≥mo toma decisiones**.

Un Random Forest est√° formado por **muchos √°rboles de decisi√≥n**. El modelo final no se basa en uno solo, sino en la **combinaci√≥n de todos ellos**.
Sin embargo, para entender el funcionamiento interno del modelo, es √∫til **visualizar uno de esos √°rboles individuales**.

El objetivo **no es explicar el modelo completo**, sino:

* observar **qu√© variables utiliza**,
* entender **qu√© tipo de reglas aprende**,
* y reflexionar sobre **las limitaciones de la interpretabilidad** en modelos de conjunto.


---

### Pistas para la implementaci√≥n

* Un `RandomForestClassifier` almacena los √°rboles entrenados en un **atributo interno**.
* Cada √°rbol puede visualizarse usando una funci√≥n espec√≠fica de `sklearn.tree`.
* Es recomendable:

  * fijar el tama√±o de la figura,
  * limitar la profundidad del √°rbol representado,
  * mostrar los nombres de las variables,
  * y colorear los nodos para facilitar la interpretaci√≥n.

üìå **Ayuda**
Consulta la documentaci√≥n de:

* [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) para localizar d√≥nde se almacenan los √°rboles entrenados.
* [plot_tree](https://scikit-learn.org/stable/modules/generated/sklearn.tree.plot_tree.html) para identificar los par√°metros que controlan la visualizaci√≥n, los nombres de las variables y la profundidad m√°xima.



<div style="background-color:green;color:white">

<br>

**Explica:**

* Qu√© variable aparece primero


* Qu√© significa una condici√≥n tipo *chol <= 240*


* Por qu√© **no debemos mostrar este √°rbol a un m√©dico como modelo final**


<br>

---

### 5.2 Importancia de variables

En este apartado se va a analizar **qu√© variables son m√°s importantes para el modelo Random Forest** a la hora de realizar sus predicciones.

Un Random Forest toma decisiones combinando muchos √°rboles de decisi√≥n. En cada √°rbol, las variables no se usan todas por igual: algunas aparecen con m√°s frecuencia y generan **mejores divisiones** que reducen m√°s la incertidumbre del modelo.
A partir de esta informaci√≥n, el modelo puede estimar la **importancia relativa de cada variable**.

---


#### Pistas para la implementaci√≥n

* Los modelos `RandomForestClassifier` calculan autom√°ticamente la importancia de las variables tras el entrenamiento.
* Esta informaci√≥n se encuentra en un **atributo del modelo**.
* Para interpretarla correctamente:

  * es conveniente asociar cada valor con el nombre de su variable,
  * y ordenar los resultados para facilitar el an√°lisis.

üìå **Ayuda**
Consulta la documentaci√≥n de `RandomForestClassifier` para identificar el atributo que almacena la importancia de las variables y su significado.


<div style="background-color:green;color:white">

<br>

- ¬øCoincide con lo que esperar√≠as m√©dicamente?

- ¬øQu√© variable eliminar√≠as si quisieras simplificar a√∫n m√°s?

<br>

--

## Parte 6 ‚Äì Comparaci√≥n cr√≠tica de datasets

Entrena **el mismo modelo** con:

* dataset completo
* dataset de 4 variables


---

<div style="background-color:green;color:white">

<br>

Completa una tabla como esta:

| Dataset | Accuracy | Interpretabilidad | Riesgo de overfitting |
| ------- | -------- | ----------------- | --------------------- |
| ------- | -------- | ----------------- | --------------------- |
| ------- | -------- | ----------------- | --------------------- |

<br>



<div style="background-color:green;color:white">

<br>

¬øQu√© modelo recomendar√≠as *en un hospital peque√±o* y por qu√©?


<br>

---

## Parte 7 ‚Äì Reflexi√≥n final

Responde brevemente (5‚Äì6 l√≠neas cada una):

<div style="background-color:green;color:white">

<br>

1. ¬øPor qu√© Random Forest es una buena elecci√≥n aqu√≠?

2. ¬øCu√°ndo **no** usar√≠as Random Forest?


3. ¬øQu√© mejorar√≠as si tuvieras m√°s datos?


<br>
