In [93]:
# Importamos las librerías necesarias.
import pandas as pd                                     # Para el manejo de datos
import numpy as np     
import matplotlib.pyplot as plt                         # Para la visualización de datos

from scipy.stats import entropy                         # Para calcular la entropía
from math import log

from sklearn.model_selection import train_test_split    # Para dividir los datos
from sklearn import tree                                # Para el árbol de decisión 

from sklearn import metrics                             # Para la evaluación del modelo

In [47]:
df_animales = pd.read_csv(
    "H:\FIUBA 2013\ORGANICION DE DATOS\Machine Learning - Organizacion de datos\Datasets\Animales.csv")
df_animales

Unnamed: 0,Animal,Vuela,Piel,Nacimiento,Clase
0,vaca,no,pelo,placenta,Mamifero
1,cerdo,no,pelo,placenta,Mamifero
2,paloma,si,pluma,huevo,Ave
3,murcielago,si,pelo,placenta,Mamifero
4,gallina,no,pluma,huevo,Ave
5,iguana,no,escamas,huevo,Retil
6,cocodrilo,no,escamas,huevo,Retil


- Calcular la entropia de cada clase.

In [48]:
def entropia(data):
    prob = pd.value_counts(data) / len(data)
    return sum(np.log2(prob) * prob * (-1)) 

In [49]:
for i in df_animales.columns:
    print(i, entropia(df_animales[i]))

Animal 2.807354922057604
Vuela 0.863120568566631
Piel 1.5566567074628228
Nacimiento 0.9852281360342515
Clase 1.5566567074628228


- Calculamos la ganacia de información

In [50]:
# data: dataframe
# target: columna objetivo o clase
# attribute: columna a evaluar o 

def information_gain(data, target, attribute):
    e1 = data.groupby(attribute).apply(lambda x: entropia(x[target]))
    p1 = pd.value_counts(data[attribute]) / len(data[attribute])
    e2 = sum(e1 * p1)
    return entropia(data[target]) - e2

In [43]:
# caclular la ganancia de informacion de cada atributo.
for i in df_animales.columns:
    if i != 'Clase' and i != 'Animal':
        # alinemos la salida usando el metodo format
        print('{0:10} {1:0.10f}'.format(i, information_gain(df_animales, 'Clase', i)))

Vuela      0.1838509254
Piel       1.5566567075
Nacimiento 0.9852281360


Viendo el resultado anterior el atributo que mayor información nos brinda es piel, este sera nuestro nodo raiz.

# Preparing the Data (Data Slicing)

In [86]:
# Los algoritmos de aprendizaje automático solo pueden aprender de números (int, float, doubles ..)
# así que codifiquémoslo a int
from sklearn import preprocessing

string_to_int = preprocessing.LabelEncoder()    # encode your data
df = df_animales.apply(string_to_int.fit_transform)    # fit and transform it
df

Unnamed: 0,Animal,Vuela,Piel,Nacimiento,Clase
0,6,0,1,1,1
1,0,0,1,1,1
2,5,1,2,0,0
3,4,1,1,1,1
4,2,0,2,0,0
5,3,0,0,0,2
6,1,0,0,0,2


In [95]:
# Dividir nuestros datos en conjuntos de entrenamiento y prueba:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df.loc[:, 'Animal':'Nacimiento'], df.Clase, test_size=0.10) 

# Training and Making Predictions

In [96]:
from sklearn.tree import DecisionTreeClassifier                             # import the classifier

classifier = DecisionTreeClassifier(criterion="entropy", random_state=100)     # create a classifier object
classifier.fit(X_train, y_train)       

In [97]:
#Predict the response for test dataset
y_pred = classifier.predict(X_test)  

In [98]:
# Precisión del modelo, ¿con qué frecuencia es correcto el clasificador?
from sklearn.metrics import accuracy_score

print("Accuracy:", metrics.accuracy_score(y_test, y_pred))

Accuracy: 1.0


In [99]:
# Mostramos los resultados.
pd.DataFrame({'Actual':y_test, 'Predicted':y_pred})

Unnamed: 0,Actual,Predicted
0,1,1


<BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR><BR>