# Práctica de árboles y ajuste de hiperparámetros

La siguiente práctica consiste en crear un modelo usando árbol de decisión de los datos indios de diabetes encontrados en Kaggle y utilizados en la práctica anterior.

In [None]:
# Importación de bibliotecas de funciones
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn import tree
import matplotlib.pyplot as plt
# Etc.

## 1. Carga y preprocesamiento de datos

Haga la carga y las transformaciones necesarias en los datos.  No olvide dividir los datos en entrenamiento y pruebas.  Use una división 85%-15%.

## 2. Regresión lineal

Copie acá una versión de la regresión lineal para los datos indios de diabetes.  Puede ser la versión de LASSO, Ridge o Elastic Net, pero eso sí escoja el mejor modelo que obtuvo.

## 3. Primer árbol de decisión

### 3.1 Generación del modelo

Cree un árbol de decisión con los datos cargados utilizando `DecisionTreeClassifier`. Use los hiperparámetros por defecto de la clase. Obtenga la exactitud, la matriz de confusión y el informe de clasificación con las funciones `accuracy_score`, `confusion_matrix` y `classification_report` respectivamente.

### 3.2 Visualización del modelo (árbol de decisión)

Visualice el árbol usando un código similar a este:

```python
plt.figure(figsize=(15, 10))
tree.plot_tree(dt_classifier,
               feature_names=X.columns,
               class_names=['No Diabetes', 'Diabetes'],  # Ajuste según las etiquetas
               filled=True,
               rounded=True)
plt.savefig('arbol_decision_diabetes.png')
plt.show()
```



## 4. Afinamiento de hiperparámetros

Para las siguientes técnicas afine los hiperparámetros del modelo usando los siguientes parámetros de la clase `DecisionTreeClassifier`:


*   max_depth: None, 5, 10, 15, 20
*   min_samples_split: 2, 5, 10
*   min_samples_leaf: 1, 2, 4

### 4.1 *Latin Hypercube Sampling* (LHS)

Utilizando el script en [Latin Hypercube Sampling (LHS) - Integrated Computational Materials Engineering (ICME)](https://www.cavs.msstate.edu/icme/DesignOpt/LHS.php) genere un muestreo en el espacio de búsqueda de los hiperparámetros antes mencionados. Genere 90 muestras. Luego utilice dichas muestras para crear un experimento que permita afinar los hiperparámetros.

#### 4.1.1 Métricas

Obtenga la exactitud, la matriz de confusión y el informe de clasificación.

#### 4.1.2 Visualización del árbol

Visualice el árbol.

### 4.2 Optuna

Utilizando el marco de trabajo [Optuna](https://optuna.org/) genere ensayos en el espacio de búsqueda de los hiperparámetros antes mencionados. Genere 90 ensayos. Con esas especificaciones genere un experimento que permita afinar los hiperparámetros.

#### 4.2.1 Métricas

Obtenga la exactitud, la matriz de confusión y el informe de clasificación.

#### 4.2.2 Visualización del árbol

Visualice el árbol.

### 4.3 GridSearchCV de Scikit-Learn

Utilizando la clase GridSearchCV de Scikit-Learn genere una búsqueda en el espacio de antes mencionados.

#### 4.3.1 Métricas

Obtenga la exactitud, la matriz de confusión y el informe de clasificación.

#### 4.3.2 Visualización del árbol

Visualice el árbol.

## 5 Comparación de los modelos

Cree una tabla de métricas del mejor modelo de las técnicas de regresión lineal y de árbol de decisión. Compare, analice y haga una interpretación del resultado..