## Introducción al Machine Learning 
### Ejemplos de árboles de decisión con evaluación entrenamiento/prueba

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
bankruptcy = pd.read_csv('../data/bankruptcy.csv', index_col='Company')

In [None]:
features = bankruptcy.loc[:, bankruptcy.columns != 'Bankrupt']
target = bankruptcy.Bankrupt

### Evaluación con partición de entrenamiento y prueba

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree

In [None]:
x_train, x_test, y_train, y_test = train_test_split(features.values,
                                                    target.values,
                                                    test_size=0.4,
                                                    stratify=target.values)

In [None]:
vals, counts = np.unique(y_train, return_counts=True)
dict(zip(vals, counts))

In [None]:
vals, counts = np.unique(y_test, return_counts=True)
dict(zip(vals, counts))

In [None]:
dTree = DecisionTreeClassifier(min_samples_leaf=4)

In [None]:
_ = dTree.fit(x_train, y_train)

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
_ = plot_tree(dTree, feature_names=features.columns,
                            class_names=dTree.classes_,
                            filled=True)

Predicción sobre los ejemplos de test

In [None]:
test_predicted = dTree.predict(x_test)

In [None]:
pd.DataFrame({'label': y_test, 
              'predicted': test_predicted})

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score

In [None]:
confusion_matrix(y_test, test_predicted)

In [None]:
def matriz_confusion(y_real, y_pred):
    real = pd.Series(y_real, name='Real')
    predicted = pd.Series(y_pred, name="Predicted")
    return pd.crosstab(predicted, real)
                 

In [None]:
matriz_confusion(y_test, test_predicted)

In [None]:
accuracy_score(y_test, test_predicted)

#### Propuesta Ejercicio

- Calcular el accuracy en test de un clasificador por defecto e interpretar su diferencia con el árbol entrenado.
- Hacer las predicciones sobre el propio conjunto de entrenamiento y luego:
  1. Construir la matriz de confusión en entrenamiento
  2. Calcular el accuracy en entrenamiento y comparar con test