# Clase 17: Introducci√≥n al Aprendizaje Supervisado


**MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos**

**Profesor: Mat√≠as Rojas**

## Objetivos de la clase: 
   
- Introducir al aprendizaje supervisado mediante el uso de ejemplos aplicados.
- Entender el framework utilizado para resolver la tarea de clasificaci√≥n y reforzar los contenidos asociados a la ingenier√≠a de caracter√≠sticas.
- Estudiar las m√©tricas de evaluaci√≥n m√°s comunes para la tarea seleccionada.
- Entender la idea de Holdout y K-Fold para evaluar modelos.
- Experimentar con los primeros modelos de clasificaci√≥n del curso.


## Panorama General Hasta el Momento

<div align='center'>
<img src='https://i.ibb.co/DRvgXs6/etapas.png'/>
</div>

---

<br>

<div align='center'>
<img src="https://i.ibb.co/BT3Dt2L/machine-learning.png" alt="Panorama General ML: Clasificaci√≥n supervisada, No supervisada y Aprendizaje Reforzado binario" width=700/>
</div>


El aprendizaje autom√°tico es el estudio de algoritmos que autom√°ticamente mejoran su rendimiento a trav√©s de la experiencia. Estos algoritmos construyen modelos basados en datos de muestra con la intenci√≥n de realizar predicciones sin ser expl√≠citamente programados para hacerlo.

## Aprendizaje Supervisado

El aprendizaje supervisado se basa en trabajar con datasets cuyas observaciones son **caracter√≠sticas** que describen a alg√∫n objeto. Estas observaciones adem√°s cuentan con una **etiqueta/valor real**, la cu√°l corresponde a una clase o valor que se le asigna a cada observaci√≥n.

Cuando el valor a predecir es un(a): 

- Categor√≠a/Etiqueta, el problema que se resuelve se denomina **Clasificaci√≥n**.
- Valor real, el problema que se resuelve se denomina **Regresi√≥n**.


En otras palabras, las etiquetas pertenecen a un n√∫mero finito de clases. Por ejemplo, en caso que estemos describiendo a una persona, el vector asociado a cada observaci√≥n puede contener los siguentes **features/caracter√≠sticas**:

- su altura en cm, 
- edad, 
- peso en kg, 
- residencia, 
- etc...

Mientras que la **etiqueta** puede ser si la persona *quiere o no contratar un servicio de internet*, es decir un valor boolenao, $\{ True, False\}$ 

In [None]:
import pandas as pd

# Ejemplo de un dataset con una etiqueta con un conjunto de datos discreto (clasificaci√≥n).
pd.DataFrame(
    [[177, 43, 72, "Maip√∫", True], [160, 16, 60, "Pudahuel", False]],
    columns=["Altura", "Edad", "Peso", "Residencia", "Posible cliente?"],
)

Como tambi√©n lo que est√° dispuesto a gastar en el plan.

In [None]:
# Ejemplo de un dataset con una etiqueta con un conjunto de datos continuo (regresi√≥n).
pd.DataFrame(
    [[177, 43, 72, "Maip√∫", 55000], [160, 16, 60, "Pudahuel", 0]],
    columns=["Altura", "Edad", "Peso", "Residencia", "Cu√°nto est√° dispuesto a pagar?"],
)

Dado un conjunto de datos etiquetados, el objetivo del aprendizaje supervisado es crear algoritmos/modelos que permitan **asignar de forma autom√°tica categor√≠as o valores a observaciones nuevas**. 

En t√©rminos pr√°cticos, dada una nueva observaci√≥n representada por su vector de caracter√≠sticas, el modelo generado debe ser capaz de asignar una etiqueta a dicha observaci√≥n.

### Framework General de Aprendizaje Supervisado Cl√°sico

La siguiente lista muestra las etapas que deber√≠a cumplir un algoritmo de aprendizaje supervisado cl√°sico (i.e., no red neuronal)

1. **Feature Engineering y Preprocesamiento**: Recolectar y preparar los datos.
2. **Entrenar** un algoritmo de clasificaci√≥n/regresi√≥n usando los datos.
3. **Evaluar** qu√© tan bien el clasificador puede clasificar nuevos ejemplos.
4. **Optimizar los modelos** modificando sus hiperpar√°metros.

### Feature Engineering

Feature Engineering/Ingenier√≠a de Caracter√≠sticas es la etapa en que se transforman los "datos raw/crudos" de entrada en un dataset, de manera que se tengan datos robustos para ser usados por el clasificador/regresor que desean entrenar.


Este proceso incluye: 

- **Creaci√≥n de nuevas Features** a partir de operaciones usando los datos disponibles.
- **Transformaciones** como las vistas en la clase de preprocesamiento (escalamiento, normalizaci√≥n, one hot encoding para variables categ√≥ricas etc...).
- **Reducci√≥n de Caracter√≠sticas** en la que se combinan/reducen caracter√≠sticas redundantes (usando por ejemplo, PCA).
- **Selecci√≥n de Caracter√≠sticas** en la que a partir de diversos criterios se seleccionan las caracter√≠sticas que m√°s aportan al modelo.

El proceso de generar y preprocesar las features requiere mucha creatividad y al mismo conocimiento del dominio del problema.

La creaci√≥n de nuevas caracter√≠sticas puede incluir: 

- **Generaci√≥n de features a partir de la combinaci√≥n de otras**: Sumar, restar, multiplicar y contar distintas features puede agregar m√°s informaci√≥n que ellas por si mismas. Esto tambi√©n incluye el preprocesar features independientemente con funciones no linales como $\log$, $\exp$, etc...
- **Discretizaci√≥n de una variable num√©rica a trav√©s de Binning**: Transformar una variable num√©rica a una variable categ√≥rica seg√∫n rangos usando bins o percentiles. Recordar el uso de los m√©todos `cut` y `qcut`. Ver tambi√©n `Binarizer` y `KBinsDiscretizer` en `sklearn.preprocessing`.
- **Clusters** generados a partir de las features (no incluir las labels! es la informaci√≥n que quieren predecir)
- **Bag-of-words para texto**. T√©cnica similar a One Hot encoding en donde cada palabra es una columna y se cuenta la cantidad de apariciones de cada palabra en una oraci√≥n.
- **Seno/Coseno** para codificar variables c√≠clicas, como las horas, d√≠as, meses o a√±os. Por ejemplo, para los d√≠as de la semana en donde $p \in \{1,2,3,4,5,6,7\}$, se pueden generar dos features usando 
$$
p_{sin} = \sin{\frac{2 \times \pi \times p}{\max{p}}} 
$$
y
$$
p_{cos} = \cos{\frac{2 \times \pi \times p}{\max{p}}} 
$$
- **Datos Temporales**: La idea aqu√≠ es transformar toda la secuencia temporal a un vector que la describa. Para esto, se pueden calcular descriptores como media, moda, tiempo entre valles, picos, diferencias entre valles y picos en un determinado tiempo, etc...  .Una librer√≠a √∫til para esto es tsfel: https://tsfel.readthedocs.io/en/latest/
- **Transformaciones polinomiales a variables num√©ricas**: Esto se basa en que en dimensiones m√°s altas/no lineales los datos pueden mostrar patrones que no se presentan en los datos originales y que pueden ser aprendidas por el algoritmo. Ver la transformaci√≥n `PolynomialFeatures` de `sklearn.preprocessing`.

Una feature buena cumple que: 

- **Tiene un alto poder predictivo**
- **Computabilidad r√°pida** 
- **No correlaci√≥n con otras features**

Este proceso debe ser determinista ya que al momento de predecir datos nuevos, las transformaciones y features calculadas sobre estos deben ser las mismas que las utilizadas en el proceso de entrenamiento. Para solucionar esto, es muy recomendable usar los `Pipelines`.

----



El modelo construido debe **generalizar**, es decir, debe ser capaz de realizar predicciones correctas en nuevas observaciones. Para esto es √∫til pensar que el modelo generado est√° separando los datos por clases a trav√©s de un *decision boundary*. Mientras m√°s holgado sea este *decision boundary*, mejor podr√° generalizar el modelo.

<div align='center'>
<img src='https://i.ibb.co/3mcx35c/overfitting.png' witdh=400/>

</div>

<div align='center'>
<a href='https://www.researchgate.net/figure/Example-of-overfitting-in-classification-a-Decision-boundary-that-best-fits-training_fig1_349186066'>Ejemplo de *Overfitting* en researchgate</a>
</div>
    
<br/>
 
### C√≥mo determinar que algorimo utilizar 
 
Muchas veces se piensa que lo m√°s importante es la **capacidad predictiva** del modelo.
Sin embargo, tambi√©n hay otros factores muy relevantes que determinar√°n que algoritmo predictivo utilizar: 

**Eficiencia**: 
  - ¬øQu√© tanto se est√° demorando mi modelo en entrenar? 
  - ¬øY en predecir? 
  - ¬øEs eficiente en memoria? 
  - ¬øDebe almacenar el dataset de entrenamiento para funcionar?
  - ¬øEs posible usarlo en tiempo real para alg√∫n tipo de soluci√≥n online?
  
**N√∫mero de Features y Ejemplos Requeridos**: 
  - ¬øCu√°ntos datos o features son requeridos para entrenar el modelo?
  - ¬øEs compatible con la cantidad que dispongo?
  - ¬øEl tipo de features (i.e., categor√≠cas, num√©ricas, combinaci√≥n de ambas, etc...) es compatible con el algoritmo?
  
**Explicabilidad**: 
  - ¬øPuedo explicar por qu√© el modelo est√° clasificando/regresionando de la manera que lo hace? 
  
***Fairness***: 
  - ¬øMi modelo es injusto con respecto a alg√∫n grupo social?


### ¬øC√≥mo saber si un modelo es bueno o no?

Resumimos la capacidad predictiva de un modelo mediante **m√©tricas de desempe√±o** (performance metrics).

Las m√©tricas se calculan contrastando los valores predichos versus los valores reales de la variable objetivo (con datos no usados durante entrenamiento)

##  Matriz de Confusi√≥n

<div align='center'>
    <img src="https://i.ibb.co/5sMqPDR/matriz-conf.png" alt="Ejemplo de una matriz de confusi√≥n para un problema de clasificaci√≥n binario" width=450/>
</div>

<center>Ejemplo de una matriz de confusi√≥n para un problema de clasificaci√≥n binario.</center>



---

> Ejemplo: Alergia a cierto medicamento en donde la clase `+` indica alergia.


Nuestro dataset tiene 10.000 observaciones distribuidos de la siguiente forma:

- Clase `+`: 100 observaciones.
- Clase `-`: 9900 observaciones.


Luego, creamos un modelo que clasific√≥ nuestro dataset y graficamos sus resultados a trav√©s de la siguiente matriz de confusi√≥n:


|                    | **Predicha (`+`)**  | **Predicha (`-`)** |
|--------------------|---------------------|--------------------|
| **Real (`+`)**     | 10                  | 90                 |
| **Real (`-`)**     | 100                 | 9800               |

---

> **Pregunta**: ¬øCuales m√©tricas de desempe√±o conocen para evaluar este caso?

### M√©tricas de desempe√±o

M√©tricas basadas en contar datos correcta e incorrectamente clasificados:

- **Accuracy (Exactitud)**: $$\text{accuracy} = \frac{\text{n√∫mero de predicciones correctas}}{\text{n√∫mero de predicciones totales}}$$

- **Error rate (Tasa de error)**: $$\text{error rate} = \frac{\text{n√∫mero de predicciones incorrectas}}{\text{n√∫mero de predicciones totales}}$$



- En nuestro ejemplo anterior: 

$$\text{accuracy} = \frac{9810}{10000} = 0.981$$

$$\text{error rate} = \frac{190}{10000} = 0.019$$


> **Pregunta ‚ùì:** ¬øCu√°l es el problema de `Accuracy` en nuestro ejemplo?



---


#### M√©tricas Basadas en la Matriz de Confusi√≥n

Una posible soluci√≥n a este problema son las m√©tricas basadas en la matriz de confusi√≥n:

<div align='center'>
    <img src="https://i.ibb.co/5sMqPDR/matriz-conf.png" alt="Ejemplo de una matriz de confusi√≥n para un problema de clasificaci√≥n binario" width=450/>
</div>

- **Precision**:  Fracci√≥n de ejemplos correctamente predichos como `+` con respecto a todos los predichos `+`.

$$P = \frac{\text{Clasificados correctamente como positivo}}{\text{Todos los predichos como positivos}} =\frac{TP}{(TP + FP)}$$


<br>

- **Recall**: Fracci√≥n de ejemplos `+` que son correctamente clasificados: 

$$R = \frac{\text{Clasificados correctamente como positivo}}{\text{Todos los que deber√≠a haber clasificado como positivos}}  = \frac{TP}{(TP+FN)}$$


<br>

- **F1 measure**: Combina precisi√≥n y recall usando una media arm√≥nica (i.e., media que castiga si ambos valores son muy diferentes).

$$F = \frac{2PR}{(P+R)}$$



|                    | **Predicha (`+`)**  | **Predicha (`-`)** |
|--------------------|---------------------|--------------------|
| **Real (`+`)**     | 10                  | 90                 |
| **Real (`-`)**     | 100                 | 9800               |

En nuestro ejemplo anterior:


$$P = \frac{10}{110} = 0.\bar{09}$$

$$R = \frac{10}{100} = 0.1$$

$$F = \frac{2 \cdot 0.1 \cdot 0.\bar{1}}{(0.1 + 0.\bar{1})} \approx 0.095$$ 

Ahora claramente se nota el problema.

In [None]:
p = 10 / 110
r = 10 / 100

f = 2 * p * r / (p + r)
f

#### Matriz de confusi√≥n multiclase

Cuando tenemos $k$ clases, la matriz de confusi√≥n es una matriz de $k \times k$.

<div align='center'>
<img src="https://i.ibb.co/Z2Strv9/matriz-conf-multiclase.png" alt="Ejemplo de una matriz de confusi√≥n para un problema de clasificaci√≥n binario" style="width: 500px;"/>
</div>

¬øC√≥mo calculamos las m√©tricas?


#### M√©tricas de Desempe√±o Generalizadas: 


- Precision: Fracci√≥n de ejemplos asignados a la clase `i` que son realmente de la clase `i`.

$$\text{precision} = \frac{c_{ii}}{\sum_{j}c_{ji}}$$


- Recall: Fracci√≥n de ejemplos de la clase `i` correctamente clasificados: 

$$\text{recall} = \frac{c_{ii}}{\sum_{j}c_{ij}}$$

- Accuracy: Fracci√≥n de ejemplos correctamente clasificados:

$$\text{accuracy} = \frac{\sum_{i}c_{ii}}{\sum_{j}\sum_{i}c_{ij}}$$

#### Estrategia de Agregaci√≥n

- **Macroaveraging**
    - Computar m√©trica para cada clase y luego promediar. 
    - Sobrerepresentan clases minoritarias al tratar a todas por igual.

- **Weighted**
    - Computar m√©trica para cada clase y luego hace un promedio ponderado por el n√∫mero de ejemplos de esa clase.
    - Al ser ponderado por el n√∫mero de casos, da m√°s prioridad a las clases frecuentes.


`Scikit` provee un acceso r√°pido a todas estas m√©tricas a trav√©s de su funci√≥n `sklearn.metrics.classification_report`

### Underfitting y Overfitting

Errores de entrenamiento o **Underfitting**. 
- Malos resultados sobre los datos de entrenamiento
- El clasificador no tiene capacidad de aprender el patr√≥n.

Errores de generalizaci√≥n o **Overfitting**. 
- Malos resultados sobre datos nuevos 
- El modelo se hace demasiado espec√≠fico a los datos de entrenamiento. 


<div align='center'>
<img src='https://i.ibb.co/Sc7SBs2/tipos-fit.png' width=800/>
</div>

<div align='center'>
    Fuente: The Hundred-Page Machine Learning Book.
</div>

## Nuestro problema de hoy: Ping√ºinos  üêß


Origen del dataset:

**Palmer Archipelago (Antarctica) penguin data**: 

*Data were collected and made available by Dr. Kristen Gorman and the Palmer Station, Antarctica LTER, a member of the Long Term Ecological Research Network.*

https://github.com/allisonhorst/palmerpenguins

![Pinguinos](https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/man/figures/lter_penguins.png)


    
    


### Atributos
 
- `culmen_length_mm`: Largo del culmen (v√©rtice o borde superior de la mand√≠bula)  (mm).
- `culmen_depth_mm`: Alto del culmen (v√©rtice o borde superior de la mand√≠bula) (mm).
- `flipper_length_mm`: Longitud de las aletas (mm).
- `body_mass_g`: Masa corporal (g).
- `island`: Isla de origen (Dream, Torgersen, or Biscoe) en el archipi√©lago de Palmer (Antarctica).
- `sex`: Sexo del pinguino.

![Detalle Variables](https://allisonhorst.github.io/palmerpenguins/reference/figures/culmen_depth.png)
    
<center>Cr√©ditos a Allison Horst por sus excelentes ilustraciones https://github.com/allisonhorst </center>    
    
    
### Variable a predecir

- `species`: Especie del pinguino (Chinstrap, Ad√©lie, or Gentoo)

## Exploraci√≥n y Preprocesamiento


In [None]:
# Instalar graphviz para visualizar el √°rbol generado
# Deben instalar antes graphviz: https://www.graphviz.org/download/

import sys

!pip install graphviz

In [None]:
import numpy as np
import pandas as pd
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
df = pd.read_csv("penguins.csv").dropna().reset_index(drop=True)
df

In [None]:
import plotly.express as px

fig = px.scatter_matrix(
    df, dimensions=df.iloc[:, 2:].columns, color="species", height=1000
)
fig.show()

In [None]:
px.parallel_categories(df, dimensions=["island", "species"])

In [None]:
df.head(2)

---

## Holdout

Consiste en particionar nuestro dataset en conjuntos de:

- **Training**: conjunto que se utiliza para **entrenar** el modelo.
- **Testing**: datos que se usa para **evaluar** qu√© tan bien predice el modelo (a trav√©s de las m√©tricas de evaluaci√≥n). 


Comunmente se dividen en proporci√≥n $2/3$ y $1/3$ del dataset respectivamente. Sin embargo, todo depende de la cantidad de datos que se posean: si se tiene millones de ejemplos, quizas puede dividirse en 95% train, 5% test sin problemas. 


La evaluaci√≥n puede variar mucho seg√∫n las particiones escogidas: 

- Training peque√±o -> modelo sesgado, 
- Testing peque√±o -> evaluaci√≥n poco confiable.


Esta t√©nica se puede **Random Subsampling** para seleccionar aleatoriamente las observaciones de cada uno de estos conjuntos.

Para ejecutar todo esto usaremos `train_test_split`. Veamos algunos de sus par√°metros:

- `test_size = 0.33` - indica el tama√±o del test de evaluaci√≥n.
- `shuffle = True` - indica que ejecutaremos Random Subsampling.
- `stratify = labels` - intenta manetener la distribuci√≥n de clases original en ambos conjuntos.


### Validation set:

Cuando se desea realizar una b√∫squeda de los mejores algoritmos y sus hiperpar√°metros, el dataset puede ser dividido en 3:


- **Training**: Se utiliza para entrenar los modelos.
- **Validation**: Se utiliza para seleccionar el mejor modelo al ir variando sus hiperpar√°metros.
- **Testing**: Se utiliza para evaluar el modelo previo a ser entregado o puesto en producci√≥n. Esta evaluaci√≥n solo se hace sobre el modelo final.


En este caso la divisi√≥n puede ser $70\%, 15\%, 15\%$ respectivamente.

In [None]:
# Holdout
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

features = df.drop(columns=["species"])
labels = df.loc[:, "species"]


X_train, X_test, y_train, y_test = train_test_split(
    features, labels, test_size=0.33, shuffle=True, stratify=labels
)

In [None]:
X_train

In [None]:
X_train.shape

In [None]:
y_train.shape

In [None]:
# distribuci√≥n original
labels.value_counts() / labels.count() * 100

In [None]:
# conjunto de entrenamiento
y_train.value_counts() / y_train.count() * 100

In [None]:
# conjunto de pruebas
y_test.value_counts() / y_test.count() * 100



### Otra Opci√≥n: `cross-validation`

Se particiona el dataset en k conjuntos disjuntos o folds:

---
    Para cada partici√≥n i:
        - Juntar todas las k-1 particiones restantes y entrenar el modelo sobre esos datos.
        - Evaluar el modelo en la partici√≥n i.
        
    El error total = suma de errores de todos los modelos  

---

<img src='https://i.ibb.co/Sc7SBs2/tipos-fit.png' width=400>


Veremos m√°s de esto en las pr√≥ximas clases

### Preprocesamiento y Data Leakage


Data Leakage o fuga de datos se refiere al uso de datos de prueba dentro del entrenamiento de un modelo predictivo (lo que ovbiamente es incorrecto).

Es muy importante que el **preprocesamiento y feature engineering lo hagan siempre sobre los datos de entrenamiento y no sobre todo el dataset**. De lo contrario, estar√≠an ocupando datos destinados a evaluar para entrenar el modelo (o el preprocesamiento) lo que puede inducir a resultados muy buenos cuando en verdad no deber√≠an serlos.


Mas informaci√≥n en [data-leakage de scikit-learn](https://scikit-learn.org/stable/common_pitfalls.html#data-leakage)

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, RobustScaler

In [None]:
ct = ColumnTransformer(
    [
        (
            "Scaler",
            RobustScaler(),
            [
                "culmen_length_mm",
                "culmen_depth_mm",
                "flipper_length_mm",
                "body_mass_g",
            ],
        ),
        ("OneHot", OneHotEncoder(sparse=False), ["island", "sex"]),
    ]
)

In [None]:
X_train_preprocessed = pd.DataFrame(
    ct.fit_transform(X_train),
    columns=np.concatenate(
        [ct.transformers_[0][2], ct.transformers_[1][1].get_feature_names()], axis=0
    ),
)

X_train_preprocessed

---

## √Årboles de Decisi√≥n

√Årboles que fragmentan el dataset en condiciones.

- Nodo ra√≠z: Sin arcos entrantes, 2 o m√°s salientes. Contienen una condici√≥n sobre alguna feature.
- Nodo interno: 1 arco entrante, 2 o m√°s salientes.  Contienen una condici√≥n sobre alguna feature.
- Nodo hoja/terminal: 1 arco entrante, nunguno saliente. Indican la clase.


Nota: `tree` de `Scikit-learn` solo implementa 2 ramas salientes en los nodos ra√≠z y interno.

Se entrenan recursivamente:

Estrategia: Top down (greedy) - Divide y vencer√°s:

---
    Seleccionar un atributo para el nodo ra√≠z y crear rama para cada valor posible del atributo.
    Luego: dividir las instancias del dataset en subconjuntos, uno para cada rama que se extiende desde el nodo.
    Por √∫ltimo: repetir de forma recursiva para cada rama, utilizando s√≥lo las instancias que llegan a √©sta.

---

In [None]:
import graphviz
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeClassifier, export_graphviz

tree_pipe = Pipeline(
    [("preprocesamiento", ct), ("tree", DecisionTreeClassifier(criterion="entropy"))]
)

# noten que aqu√≠ se pasa X_train ya que la etapa de
# preprocesamiento est√° incluida en el pipeline (primera etapa)

tree_pipe = tree_pipe.fit(X_train, y_train)

In [None]:
y_pred = tree_pipe.predict(X_test)
y_pred

### Evaluaci√≥n

In [None]:
print("Matriz de confusi√≥n\n\n", confusion_matrix(y_test, y_pred), "\n")
print(classification_report(y_test, y_pred))

### Visualizar el √°rbol

In [None]:
# con esto obtenemos los nombres de las columnas
# en el primer elemento del arreglo de obtienen las num√©ricas a partir
# de la lista de la primera transformaci√≥n y en la segunda se obtienen a partir
# de las columnas generadas por el one hot encoding.
cols_names = np.concatenate(
    [
        tree_pipe.steps[0][1].transformers_[0][2],
        tree_pipe.steps[0][1].transformers_[1][1].get_feature_names(),
    ]
)
cols_names

Para ejecutar la siguiente celda necesitar√°n tener instalado Graphviz:

https://graphviz.org/download/

In [None]:
dot_data = export_graphviz(
    tree_pipe.steps[1][1],
    out_file=None,
    feature_names=cols_names,
    class_names=labels.unique(),
    filled=True,
    rounded=True,
    special_characters=True,
)
graph = graphviz.Source(dot_data)
graph

> **Pregunta ‚ùì**: ¬øC√≥mo eligo los atributos y sus divisiones? 

- La idea es ir dividiendo el dataset en nodos a la vez que se crea el √°rbol m√°s peque√±o posible.
- Heur√≠stica: escoge el atributo cuya divisi√≥n que produce nodos lo m√°s ‚Äúpuros‚Äù posibles (es decir, que pertenezcan mayoritariamente a la misma clase). El criterio comunmente utilizado es Information Gain.


### Resumen √Årboles de decisi√≥n



| Ventajas                                | Deseventajas                                                                   |
|-----------------------------------------|--------------------------------------------------------------------------------|
| Simple de entender y interpretar.       | Se deben preprocesar las variables categ√≥ricas y ordinales antes de ser usadas |
| Pueden ser visualizados.                | No escala tan bien a muchas decisiones (crece mucho el √°rbol)                  |
| Al ser √°rbol, es muy r√°pido de evaluar. |                                                                                |

## Extra: Gu√≠a de Scikit-learn para Elegir el Modelo

<img src='https://i.ibb.co/1XkHvRC/ml-map.png' />