# Árboles de Decisión, Proyecto Corto 3 Inteligencia Artificial

Enlace de Github: https://github.com/brayanfa07/IA-Proyecto-Corto-3

#### Integrantes

- Brayan Fajardo Alvarado
- Fabricio Castillo Alvarado
- Gerald Mora Mora

## Concepto


Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos surgidos a partir de una decisión asumida en cualquier momento. Estos árboles ayudan a tomar una decisión más acertada desde un punto de vista probabilístico ante una gran cantidad de posibles decisiones.
## Características de los árboles de decisión

-    Plantea el problema desde distintas perspectivas de acción.
-    Permite analizar de manera completa todas las posibles soluciones.
-    Ayuda a realizar las mejores decisiones con base a la información existente y a las mejores suposiciones.
-    Su estructura permite analizar las alternativas, los eventos, las probabilidades y los resultados.

## Como construir un árbol de decisión
### Se define el problema

Se debe analizar el caso en estudio y considerar si amerita la implementación de un árbol de decisión o de regresión.
### Se identifican todas las variables o atributos del problema a resolver

Una vez que se identifique cual es el problema a resolver, se debe reconocer cuales son los factores que lo componen.
### Se enumeran los criterios a tomar

Es importante priorizar cuales son los factores que componen el problema, para ello se deben seleccionar cuales son los que más influyen en el problema, así tener el problema limitado a los factores de mayor relevancia.
### Se dibuja el árbol de decisión

Se debe considerar la terminología de nodo de decisión, nodo de probabilidad y rama-

- Nodo de decisión: Indica que una decisión necesita tomarse en ese punto del proceso. Está representado por un cuadrado.
- Nodo de probabilidad: Indica que en ese punto del proceso ocurre un evento aleatorio. Está representado por un círculo.
- Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisión o bien ocurre algún evento aleatorio.

### Se selecciona una alternativa

Se analiza cuál es la opción más conveniente de acuerdo al árbol de decisiones, siempre se toma en cuenta la importancia de los criterios y cada una de sus alternativas. Luego de ello se estima los resultados para cada combinación de posible de alternativas.
### Se evalúa la efectividad de la decisión

Se resuelve el problema obteniendo como solución de la ruta que proporcione la política óptima.

## Como desarrollar un arbol de decision en python

Se cargan las librerias necesarias para el funcionamiento del codigo.
Se carga el fichero de datos llamado zoo.csv y se indican las variables predictoras omitiendo la primer columna.

## Como desarrollar un arbol de decision en python
Se cargan las librerias necesarias para el funcionamiento del codigo.
Se carga el fichero de datos llamado zoo.csv y se indican las variables predictoras omitiendo la primer columna.

In [1]:

import pandas as pd
import numpy as np
from pprint import pprint
#Import the dataset and define the feature as well as the target datasets / columns#
dataset = pd.read_csv('zoo.csv',
                      names=['animal_name','hair','feathers','eggs','milk',
                                                   'airbone','aquatic','predator','toothed','backbone',
                                                  'breathes','venomous','fins','legs','tail','domestic','catsize','class',])#Import all columns omitting the fist which consists the names of the animals
#We drop the animal names since this is not a good feature to split the data on
dataset=dataset.drop('animal_name',axis=1)

La funcion entropy calcula la entropia del set de datos.

**Entrada:** 
- target, este parametro representa la variable objetivo.

In [2]:
def entropy(target_col):

    
    elements,counts = np.unique(target_col,return_counts = True)
    entropy = np.sum([(-counts[i]/np.sum(counts))*np.log2(counts[i]/np.sum(counts)) for i in range(len(elements))])
    return entropy

### Algoritmo para la ganancia
La funcion InfoGain obtiene la ganacia del set de datos.

**Entradas:** 
- data, set de datos.

- split_attribute_name, el nombre del atributo cuyo valor de ganancia va a ser calculada.

- tarjet_name, target, este parametro representa la variable objetivo.

In [3]:
def InfoGain(data,split_attribute_name,target_name="class"):

    
    #Calculate the entropy of the total dataset
    total_entropy = entropy(data[target_name])
    
    ##Calculate the entropy of the dataset
    
    #Calculate the values and the corresponding counts for the split attribute 
    vals,counts= np.unique(data[split_attribute_name],return_counts=True)
    
    #Calculate the weighted entropy
    Weighted_Entropy = np.sum([(counts[i]/np.sum(counts))*entropy(data.where(data[split_attribute_name]==vals[i]).dropna()[target_name]) for i in range(len(vals))])
    
    #Calculate the information gain
    Information_Gain = total_entropy - Weighted_Entropy
    return Information_Gain

### Algoritmo arbol ID3
Esta funcion representa el algoritmo de arbol de decision ID3 visto en la **Figura 1**. 
https://fotos.subefotos.com/402c311ac839f43335aee53154159cf4o.png <center>**Figura 1.** El algoritmo de aprendizaje del árbol de decisión. [1]</center>

**Entradas:** 
- data, esta es la informacion sobre la cual el algoritmo va a actuar.

- originaldata, este es el conjunto de datos original necesario para calcular el valor de la 
característica de destino de modo del conjunto de datos original.

- features, es el espacio de atributos del conjunto de datos, el cual es necesario para la 
llamada recursiva, ya que durante el proceso de crecimiento del árbol.

- target_attribute_name,es el nombre de la variable objetivo.

In [4]:
def ID3(data,originaldata,features,target_attribute_name="class",parent_node_class = None):

    #Define los criterios de condiciones de parada de ejecución del algoritmo. Si uno de estos criterios se cumple, 
    #se debe retornar el nodo hoja
    
    #Si todos los valores objetivos poseen el mismo valor, se devuelve el mismo valor
    if len(np.unique(data[target_attribute_name])) <= 1:
        return np.unique(data[target_attribute_name])[0]
    
    #Si el conjunto de datos está vacío, se devuelve el valor objetivo del conjunto de datos original
    elif len(data)==0:
        return np.unique(originaldata[target_attribute_name])[np.argmax(np.unique(originaldata[target_attribute_name],return_counts=True)[1])]
        
    #Si la característica es vacía, devuelve el valor objetivo del valor del atributo del nodo padre.
    #Note que el nodo directo del padre el cual se llama desde la ejecución actual del algoritmo ID3, y por lo tanto, 
    #el valor objetivo del atributo  es almacenado en la clase del nodo padre
    elif len(features) ==0:
        return parent_node_class
    
    #Si el nodo de abajo se mantiene "verdadero", se continúa creciendo el árbol
    else:

        #Define el valor por defecto para este nodo, es decir, el valor objetivo del nodo actual
        parent_node_class = np.unique(data[target_attribute_name])[np.argmax(np.unique(data[target_attribute_name],return_counts=True)[1])]
        
        #Selecciona el atributo con la mejor división para el conjunto de datos
        item_values = [InfoGain(data,feature,target_attribute_name) for feature in features] #Devuelve la ganancia de la informaión para los atributos
        best_feature_index = np.argmax(item_values)
        best_feature = features[best_feature_index]
        
        
        #Crea la estructura del árbol. Se escoge la raíz como el atributo con la mejor ganancia de información y 
        #se inserta en la raíz
        tree = {best_feature:{}}
              
        #Remover el atributo con la mayor ganancia desde el espacio de atributos
        features = [i for i in features if i != best_feature]
        
        #Expandir una rama debajo del nodo raíz por cada posible valor de la los atributos de la raíz
        for value in np.unique(data[best_feature]):
            value = value

            #Divide el conjunto de datos a lo largo del valor de la característica con el mayor valor de
            #ganancia de información, y con esto crea otros subconjuntos
            sub_data = data.where(data[best_feature] == value).dropna()
            
            #Llama al algoritmo ID3 para cada uno de los subconjuntos con los nuevos parámetros. Se inicia con la recursióm
            subtree = ID3(sub_data,dataset,features,target_attribute_name,parent_node_class)
            
            #Añade el subárbol, crecido desde el subconjunto de datos hasta el nodo debajo del nodo raíz
            tree[best_feature][value] = subtree
            
        return(tree)    
    
def predict(query,tree,default = 1):
    #Se consulta en la lista de los tributos a consultar en el árbol.
    for key in list(query.keys()):
        if key in list(tree.keys()):
    
    
            try:
                result = tree[key][query[key]] 
            except:
                return default
  
            result = tree[key][query[key]]
            
            if isinstance(result,dict):
                return predict(query,result)
            else:
                return result
        

"""
Se comprueba la exactitud de la predicción. La función train_test_split toma el conjunto de datos como 
parámetros, la cual divide los datos para entrenamiento y para prueba, que se ingresan al modelo de árbol
"""

def train_test_split(dataset):
    
    #Se elimina el atributo inicial o el ubicado en la posición 0, para que no se produzccan errores debido a que se leen 
    #strings o cadenas de caracteres.
    training_data = dataset.iloc[:80].reset_index(drop=True)
    
    testing_data = dataset.iloc[80:].reset_index(drop=True)
    return training_data,testing_data

training_data = train_test_split(dataset)[0]
testing_data = train_test_split(dataset)[1] 

def test(data,tree):

    #Crea una nueva instancia de consulta removiendo el target de la columna 
    #de atributos desde el conjunto de datos original y lo convierte en un diccionario
    
    queries = data.iloc[:,:-1].to_dict(orient = "records")
    
    #Crea un Dataframe vacío en el cual se guardan las columnas de predicción
    predicted = pd.DataFrame(columns=["predicted"]) 
    
    #Calcula la precisión de predicción
    for i in range(len(data)):
        predicted.loc[i,"predicted"] = predict(queries[i],tree,1.0) 
    print('La exactitud de la precisión es: ',(np.sum(predicted["predicted"] == data["class"])/len(data))*100,'%')
    
    
"""
Se entrena y se imprime el árbol, y además se predice la exactitud
"""
tree = ID3(training_data,training_data,training_data.columns[:-1])
pprint(tree)
test(testing_data,tree)

{'legs': {0: {'fins': {0.0: {'toothed': {0.0: 7.0, 1.0: 3.0}},
                       1.0: {'eggs': {0.0: 1.0, 1.0: 4.0}}}},
          2: {'hair': {0.0: 2.0, 1.0: 1.0}},
          4: {'hair': {0.0: {'toothed': {0.0: 7.0, 1.0: 5.0}}, 1.0: 1.0}},
          6: {'aquatic': {0.0: 6.0, 1.0: 7.0}},
          8: 7.0}}
La exactitud de la precisión es:  85.71428571428571 %


Se entrena y se imprime el árbol, y además se predice la exactitud

## Random Forest

Es una técnica que combina una cantidad grande de arboles de decisión independientes probados sobre conjuntos de datos aleatorios con igual distribución.
## ¿Como construir un Random Forest?

Para el *proceso de aprendizaje* se empieza con la creación de varios arboles de decisión independientes, para los cuales cada uno tendrá un conjunto de datos ligeramente diferenciados. Osea que solamente se altera el set de datos iniciales.
Por lo tanto se debe considerar:
- Seleccionar aleatoria-mente un porcentaje de datos de la muestra total.
- En cada nodo, al seleccionar una partición optima, se tendrá en cuenta una sola partición de los atributos que se eligen al azar en cada ocasión.

Para el *proceso de clasificación* se llevara a cabo de la siguiente forma:
- Cada árbol se avaluara de forma independiente y la predicción sera la media de todos los arboles que se estén utilizando. La proporción de arboles que toman una misma respuesta se interpreta como la probabilidad de la misma.

``` python

# Lo primero que hay que hacer es incluir las librerias necesarias para realizar la ejecucion.
from pandas import Series, DataFrame
from matplotlib import pyplot
import pandas as pd
import numpy as np
import os
import matplotlib.pylab as plt
from sklearn.cross_validation import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
import sklearn.metrics
from sklearn import datasets
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import RandomForestClassifier

# Cargamos el fichero de datos para utilizar, el cual es un csv en este caso. archivo.csv contiene los datos necesarios para la creacion del arbol.
AH_data = pd.read_csv(“archivo.csv”)

# Se eliminan los datos con valores missing ya que Python presenta errores al hacer árboles con datos missing
data_clean = AH_data.dropna()

# Para comprobar que el archivo se ha leído bien, se puede listar las variables en el fichero
data_clean.dtypes
# Principales estadísticos
data_clean.describe()

#Se indican las variables predictoras y debajo la variable objetivo. Cada uno con los nombres de las variables que se tienen en el fichero csv. En este caso se intercambiaria VARPRED1, VARPRED2, VARPRED3 por los nombres de las variables del fichero.
predictors = data_clean[[‘VARPRED1’, ‘VARPRED2′,’VARPRED3’]] 

targets = data_clean.TREG1

# Se crea la muestra de entrenamiento y de test, tanto para predictores como para la variable objetivo, siendo test el 40%
pred_train, pred_test, tar_train, tar_test = train_test_split(predictors, targets, test_size=.4)

# Se inicializa el algoritmo Random Forest y se indica el número de árboles que se van a construir
classifier = RandomForestClassifier(n_estimators=25)

# Se construye el modelo sobre los datos de entrenamiento creados anteriormente
classifier = classifier.fit(pred_train,tar_train)

# Se realiza una prediccion para los valores del grupo Test
predictions=classifier.predict(pred_test)

# Se establece la matriz de confusión de las predicciones del grupo Test.
sklearn.metrics.confusion_matrix(tar_test,predictions)

# Se calcula el índice Accuracy Score, que resume la Matriz de Confusión y la cantidad de aciertos.
sklearn.metrics.accuracy_score(tar_test, predictions)

# Para obtener la importancia de cada variable se inicializa el ExtraTreesClassifier
model = ExtraTreesClassifier()

# Se ajusta el modelo
model.fit(pred_train,tar_train)

# Se puede solicitar y visualizar la importancia de cada variable
print(model.feature_importances_)

# En caso de que se tengan muchas variables, se pueben visualizar con el comando “list”
list(model.feature_importances_)

# Para dibujar todas las variables con su importancia respectiva
pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
pyplot.show()

# Para ver cuánto ha aportado cada nuevo árbol que se ha construido
trees=range(25)
accuracy=np.zeros(25)
for idx in range(len(trees)):
classifier=RandomForestClassifier(n_estimators=idx + 1)
classifier=classifier.fit(pred_train,tar_train)
predictions=classifier.predict(pred_test)
accuracy[idx]=sklearn.metrics.accuracy_score(tar_test, predictions)
plt.cla()
plt.plot(trees, accuracy)
```

## Referencias Bibliográficas

https://www.python-course.eu/Decision_Trees.php