# Aprendizaje Automático
## Segunda práctica guiada
---
Para la segunda práctica del curso de aprendizaje automático, se utilizará el mismo conjunto de datos que pertenece al repositorio especial de Machine Learning de la [UCI](https://archive.ics.uci.edu/ml). El conjunto de datos se llama "Adult" y toda la información correspondiente al mismo se encuentra [aquí](https://archive.ics.uci.edu/ml/datasets/Adult).

---
### Árboles de Decisión y Regresión

Un árbol de decisión es un árbol donde cada nodo representa una característica (atributo), cada enlace (rama) representa una decisión (regla) y cada hoja representa un resultado (valor categórico o continuo).

Los DT (Decision Trees) son ampliamente usados en Machine Learning para resolver problemas de clasificación y regresión. En la segunda práctica del curso de Aprendizaje Automático se construirán Árboles de Decisión en Python con la librería sci-kit learn y con el conjunto de datos suministrado.

En principio, importamos todas las librerías necesarias para trabajar Aprendizaje Automático con Python y Sci-kit learn

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#from sklearn.cross_validation import train_test_split
from sklearn.tree import DecisionTreeClassifier
import itertools
from sklearn import metrics
from sklearn import preprocessing
from sklearn import tree
from sklearn import svm
import io
import requests


Luego procedemos a importar los datos de entrenamiento y eliminar los valores faltantes, además de convertir los valores categóricos a enteros.

In [5]:
url="https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
ds_ = pd.read_csv(url, header=None, na_values=" ?")
ds = ds_.dropna()
ds = ds.rename(columns = {ds.columns.values[14]:'C'}) # Cambiamos el nombre de la última columna por "C" de clase
le = preprocessing.LabelEncoder() # Label encoder de sci-kit
ds = ds.apply(le.fit_transform) # Convertimos los valores de object a int
ds

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,C
0,22,5,2491,9,12,4,0,1,4,1,24,0,39,38,0
1,33,4,2727,9,12,2,3,0,4,1,0,0,12,38,0
2,21,2,13188,11,8,0,5,1,4,1,0,0,39,38,0
3,36,2,14354,1,6,2,5,0,2,1,0,0,39,38,0
4,11,2,18120,9,12,2,9,5,2,0,0,0,39,4,0
5,20,2,16567,12,13,2,3,5,4,0,0,0,39,38,0
6,32,2,7982,6,4,3,7,1,2,0,0,0,15,22,0
7,35,4,12746,11,8,2,3,0,4,1,0,0,44,38,1
8,14,2,1225,12,13,4,9,1,4,0,104,0,49,38,1
9,25,2,7908,9,12,2,3,0,4,1,78,0,39,38,1


Importamos los datos de prueba de la misma manera que importamos los datos de entrenamiento.

In [6]:
urltest = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test"
test_ = pd.read_csv(urltest, skiprows=1, header=None, na_values=" ?")
test = test_.dropna()
test = test.rename(columns = {test.columns.values[14]:'C'}) # Cambiamos el nombre de la última columna por "C" de clases = test.apply(le.fit_transform) # Convertimos los valores de object a int
test = test.apply(le.fit_transform) # Convertimos los valores de object a int
test

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,C
0,8,2,8315,1,6,4,6,3,2,1,0,0,39,37,0
1,21,2,1754,11,8,2,4,0,4,1,0,0,49,37,0
2,11,1,10750,7,11,2,10,0,4,1,0,0,39,37,1
3,27,2,4780,15,9,2,6,0,2,1,87,0,39,37,1
5,17,2,7091,0,5,4,7,1,4,1,0,0,29,37,0
7,46,4,2342,14,14,2,9,0,4,1,44,0,31,37,1
8,7,2,11153,15,9,4,7,4,4,0,0,0,39,37,0
9,38,2,2361,5,3,2,2,0,4,1,0,0,9,37,0
10,48,2,6199,11,8,2,6,0,4,1,77,0,39,37,1
11,19,0,7773,9,12,2,0,0,4,1,0,0,39,37,0


En la siguiente porción de código, entrenamos el clasificador y realizamos la respectiva predicción teniendo en cuenta los datos de prueba. Además, evaluamos el desempeño del clasificador teniendo en cuenta las métricas que provee el reporte de clasificación de sklearn

In [7]:

################################################################
#################### ÁRBOL DE DECISIÓN #########################
################################################################

x_train = ds.drop('C', axis = 1)
y_train = ds['C']

x_test = test.drop('C', axis = 1)
y_test = test['C']

class_names = ['Age', 'Workclass', 'Fnlwgt', 'Education', 'Education-num', 'Marital-status', 'Occupation',
              'Relationship', 'Race', 'Sex', 'Capital-gain', 'Capital-loss', 'Hpw', 'Country']

DT_clf = tree.DecisionTreeClassifier()
DT_clf.fit(x_train, y_train)


DT_predict = DT_clf.predict(x_test)

print("\n############## Accuracy DT##################")
print(metrics.accuracy_score(y_test, DT_predict))
print("\n############## Matriz de Confusion DT ##################")
print(metrics.confusion_matrix(y_test, DT_predict))  
print("\n############## Metricas DT ##################")
print(metrics.classification_report(y_test, DT_predict)) 


############## Accuracy DT##################
0.7983399734395751

############## Matriz de Confusion DT ##################
[[9871 1489]
 [1548 2152]]

############## Metricas DT ##################
              precision    recall  f1-score   support

           0       0.86      0.87      0.87     11360
           1       0.59      0.58      0.59      3700

   micro avg       0.80      0.80      0.80     15060
   macro avg       0.73      0.73      0.73     15060
weighted avg       0.80      0.80      0.80     15060



Ahora, realizamos el entrenamiento y predicción del árbol de regresión.

In [5]:
DT_reg = tree.DecisionTreeRegressor()  
DT_reg.fit(x_train, y_train)
DT_predict = DT_reg.predict(x_test) 
df=pd.DataFrame({'Actual':y_test, 'Predicted':DT_predict})  
df

Unnamed: 0,Actual,Predicted
0,0,0.0
1,0,0.0
2,1,0.0
3,1,1.0
5,0,0.0
7,1,1.0
8,0,0.0
9,0,0.0
10,1,0.0
11,0,1.0


Por último, podemos comprobar el desempeño del regresor con las métricas MAE, MSE y RMSE.

In [8]:
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, DT_predict))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, DT_predict))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, DT_predict))) 

Mean Absolute Error: 0.20166002656042498
Mean Squared Error: 0.20166002656042498
Root Mean Squared Error: 0.4490657263256961


In [11]:
DT_clf.fit

<bound method DecisionTreeClassifier.fit of DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')>