# Decison Trees

Primero, cargaremos algunos datos de prueba sobre contrataciones ficticios.

In [1]:
import pandas as pd
from sklearn import tree

input_file = "data/PastHires.csv"
df = pd.read_csv(input_file, header = 0)
df.head()

Unnamed: 0,Years Experience,Employed?,Previous employers,Level of Education,Top-tier school,Interned,Hired
0,10,Y,4,BS,N,N,Y
1,0,N,0,BS,Y,Y,Y
2,7,N,6,BS,N,N,N
3,2,Y,1,MS,Y,N,Y
4,20,N,2,PhD,Y,N,N


Scikit-learn necesita que todo sea numérico para que los árboles de decisión funcionen. Por lo tanto, mapearemos Y, N a 1, 0, y los niveles de educación a una escala de 0 a 2. En el mundo real, tendrías que pensar cómo manejar los datos inesperados o faltantes. Al usar map(), sabemos que obtendremos NaN (Not a Number) para los valores inesperados.

In [2]:
d = {'Y': 1, 'N': 0}
df['Hired'] = df['Hired'].map(d)
df['Employed?'] = df['Employed?'].map(d)
df['Top-tier school'] = df['Top-tier school'].map(d)
df['Interned'] = df['Interned'].map(d)
d = {'BS': 0, 'MS': 1, 'PhD': 2}
df['Level of Education'] = df['Level of Education'].map(d)

df.head()

Unnamed: 0,Years Experience,Employed?,Previous employers,Level of Education,Top-tier school,Interned,Hired
0,10,1,4,0,0,0,1
1,0,0,0,0,1,1,1
2,7,0,6,0,0,0,0
3,2,1,1,1,1,0,1
4,20,0,2,2,1,0,0


A continuación, necesitamos separar las características (features) de la columna objetivo (target) para la que estamos intentando construir un árbol de decisión.

In [3]:
features = list(df.columns[:6])
features

['Years Experience',
 'Employed?',
 'Previous employers',
 'Level of Education',
 'Top-tier school',
 'Interned']

Ahora, construyamos realmente el árbol de decisión:

In [4]:
y = df["Hired"]
X = df[features]
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(X,y)

... y muéstralo. Ten en cuenta que debes tener instalado pydotplus para que esto funcione. (!pip install pydotplus)

Para leer este árbol de decisión, cada condición se ramifica hacia la izquierda si es "verdadera" y hacia la derecha si es "falsa". Cuando terminas en un valor, la matriz de valor representa cuántas muestras existen en cada valor objetivo (o clase). Por lo tanto, value = [0. 5.] significa que hay 0 "no contrataciones" y 5 "contrataciones" en el momento en que llegamos a ese punto. value = [3. 0.] significa 3 "no contrataciones" y 0 "contrataciones".

In [5]:
from IPython.display import Image  
from io import StringIO  
import pydotplus

dot_data = StringIO()  
tree.export_graphviz(clf, out_file=dot_data,  
                         feature_names=features)  
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
Image(graph.create_png())  

InvocationException: GraphViz's executables not found

## Usando el Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(X, y)

#Predecir para una persona que tiene trabajo
print (clf.predict([[10, 1, 4, 0, 0, 0]]))
#...contra una que no tiene
print (clf.predict([[10, 0, 4, 0, 0, 0]]))