# Clasificación multiclase con Arboles de decisión 

Para realizar este ejercicio vamos a utilizar el dataset wine que se encuentra en la librería Scikit-Learn. El mismo consta de 13 parámetros diferentes del vino, como el contenido de alcohol, medidos en 178 muestras de vino. Estos vinos se cultivaron en la misma región de Italia pero se derivaron de tres cultivares diferentes; por lo tanto, hay tres clases diferentes de vino.

El objetivo es encontrar un modelo que pueda predecir la clase del vino dados los 13 parámetros observados y crear varios modelos de clasificación (Regresión Logistica y K-NN) y evaluar la precisión de cada uno de ellos.

Los features del dataset son:

    1) Alcohol
    2) Malic acid
    3) Ash
    4) Alcalinity of ash
    5) Magnesium
    6) Total phenols
    7) Flavanoids
    8) Nonflavanoid phenols
    9) Proanthocyanins
    10) Color intensity
    11) Hue
    12) OD280/OD315 of diluted wines
    13) Proline       

El label esta representado por los valores 1, 2 y 3 para identificar cada tipo de vino.

### Importar las librerías necesarias
**Ejercicio 1:**

Importar las librerías necesarias para realizar el ejercicio (ir incluyendo en esta celda las librerías y módulos que se vayan necesitando a lo largo de toda la actividad)

In [5]:
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

### Analisis de los datos

**Ejercicio 2:**

**a)** Cargar el dataset (wine dataset) de la libreria [Scikit-Learn](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html) y almacenar en la variable **X** los features y en la variable **y** los labels

In [6]:
ds = load_wine()

**b)** Dividir el dataset en dataset de entrenamiento y testeo con un tamaño de testeo del 20%. Utilizar las variables **X_train, X_test, y_train, y_test** para almacenar los datasets y los labels correspondientes.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(ds.data, ds.target, test_size=0.2)

### Modelos

**Ejercicio 3:**

**a)** Crear y entrenar al menos tres modelos de árboles de decisión diferentes: un árbol de decisión con criterio de division Gini, un árbol de decisión con poda y un árbol de decisión con criterio de división Entropia.

**Nota:** Para realizar la poda en el arbol se debe setear el parametro ccp_alpha con un valor entre 0 y 0.1 (se pueden probar distintos valores)


In [8]:
from sklearn.tree import DecisionTreeClassifier

tree_gini = DecisionTreeClassifier(criterion='gini')
tree_gini.fit(X_train, y_train)

tree_pruned = DecisionTreeClassifier(criterion='gini', ccp_alpha=0.01)
tree_pruned.fit(X_train, y_train)

tree_entropy = DecisionTreeClassifier(criterion='entropy')
tree_entropy.fit(X_train, y_train)


**b)** Crear y entrenar al menos dos modelos de ensamblado con 100 arboles cada uno: un Random Forest y un Gradient Boosting.


In [9]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier

rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)

gb = GradientBoostingClassifier(n_estimators=100)
gb.fit(X_train, y_train)

### Evaluación

**Ejercicio 4:**

**a)** Crear las predicciones para todos los modelos creados a partir del dataset de testeo

In [10]:
y_pred_tree_gini = tree_gini.predict(X_test)
y_pred_tree_pruned = tree_pruned.predict(X_test)
y_pred_tree_entropy = tree_entropy.predict(X_test)
y_pred_rf = rf.predict(X_test)
y_pred_gb = gb.predict(X_test)

**b)** Utilizar la función accuracy_score para obtener la precisión de los modelos creados e imprimirlas

In [11]:
from sklearn.metrics import accuracy_score

print(f'Accuracy Tree Gini: {accuracy_score(y_test, y_pred_tree_gini)}')
print(f'Accuracy Tree Pruned: {accuracy_score(y_test, y_pred_tree_pruned)}')
print(f'Accuracy Tree Entropy: {accuracy_score(y_test, y_pred_tree_entropy)}')
print(f'Accuracy Random Forest: {accuracy_score(y_test, y_pred_rf)}')
print(f'Accuracy Gradient Boosting: {accuracy_score(y_test, y_pred_gb)}')

Accuracy Tree Gini: 0.9166666666666666
Accuracy Tree Pruned: 0.9166666666666666
Accuracy Tree Entropy: 0.9722222222222222
Accuracy Random Forest: 0.9722222222222222
Accuracy Gradient Boosting: 0.9444444444444444


**c)** Utilizar la función classification_report para obtener un reporte de la clasificación realizada en cada uno de los modelos e imprimirlo

In [12]:
from sklearn.metrics import classification_report

print('Tree Gini')
print(classification_report(y_test, y_pred_tree_gini))
print('Tree Pruned')
print(classification_report(y_test, y_pred_tree_pruned))
print('Tree Entropy')
print(classification_report(y_test, y_pred_tree_entropy))
print('Random Forest')
print(classification_report(y_test, y_pred_rf))
print('Gradient Boosting')
print(classification_report(y_test, y_pred_gb))

Tree Gini
              precision    recall  f1-score   support

           0       0.92      0.92      0.92        12
           1       0.92      0.86      0.89        14
           2       0.91      1.00      0.95        10

    accuracy                           0.92        36
   macro avg       0.92      0.92      0.92        36
weighted avg       0.92      0.92      0.92        36

Tree Pruned
              precision    recall  f1-score   support

           0       0.92      0.92      0.92        12
           1       0.92      0.86      0.89        14
           2       0.91      1.00      0.95        10

    accuracy                           0.92        36
   macro avg       0.92      0.92      0.92        36
weighted avg       0.92      0.92      0.92        36

Tree Entropy
              precision    recall  f1-score   support

           0       0.92      1.00      0.96        12
           1       1.00      0.93      0.96        14
           2       1.00      1.00      1

**d)** Obtener e imprimir la matriz de confusion para cada modelo


In [13]:
from sklearn.metrics import confusion_matrix

print('Tree Gini')
print(confusion_matrix(y_test, y_pred_tree_gini))
print('Tree Pruned')
print(confusion_matrix(y_test, y_pred_tree_pruned))
print('Tree Entropy')
print(confusion_matrix(y_test, y_pred_tree_entropy))
print('Random Forest')
print(confusion_matrix(y_test, y_pred_rf))
print('Gradient Boosting')
print(confusion_matrix(y_test, y_pred_gb))


Tree Gini
[[11  1  0]
 [ 1 12  1]
 [ 0  0 10]]
Tree Pruned
[[11  1  0]
 [ 1 12  1]
 [ 0  0 10]]
Tree Entropy
[[12  0  0]
 [ 1 13  0]
 [ 0  0 10]]
Random Forest
[[12  0  0]
 [ 0 13  1]
 [ 0  0 10]]
Gradient Boosting
[[12  0  0]
 [ 0 12  2]
 [ 0  0 10]]


### Análisis de resultados

**Ejercicio 5:**

**a)** Analizar y explicar los resultados, comparando los valores de accuracy obtenidos en cada caso

El árbol gini sin poda tiene un accuracy del 92%. El árbol gini con poda tiene un accuracy del 92%. Es un accuracy importante em ambos casos. La poda no tuvo un impacto significativo.

El árbol de decisión con entropía tiene un accuracy del 97%, al igual que el random forest. Fueron los dos modelos con mejor accuracy.

El árbol de decisión boosting tuvo un accuracy del 94%, siendo el módelo intermedio de todos los evaluados.