# Actividad 3. _Decision Trees_
<hr/>

**Profesor:** 
- Mauricio Arriagada 

**Ayudantes:**
- Felipe Barrientos (fnbarrientos@uc.cl)
- Javier Dreves (jidreves@uc.cl)
- Joaquin Eichholz (jeichholz3@uc.cl)
- Astrid San Martín (aesanmar@uc.cl)


**Antes de comenzar:**

- Laboratorio debe ser realizado **de forma individual**. Obviamente, se pueden discutir ideas, pero cualquier intercambio de códigos **no está permitido**.
- Recuerda orientar tu programación a un paradigma funcional.
- **¡ Comenta todo tu código !**

**Instrucciones de entrega:**

- Debe entregar este laboratorio por `siding`, en sección `cuestionarios`. Descargar archivo ".ipynb" a su equipo y luego subirlo. (También pueden trabajarlo en colab)
- Plazo máximo de entrega: **Martes 1 de Octubre, 10.59 pm.**

**Evaluación:**
- La estructura del código = 0.5
- Salida exitosa = 0.5

### Actividad Decission Tree

En esta actividad deberan implementar desde cero el algoritmo decission Tree y clasificar la base de datos de la encuesta Cases2017 para clasificar la variable ytotcorh (Ingreso total del hogar corregido), luego deben evaluar la efectividad de su algoritmo con precision y recall. 

Se espera que propongan una o más soluciones para mejorar la efectividad de su algoritmo, pueden realizar una poda del arbol para evitar overfing y/o definir una regla de cuando detener las divisiones en un nodo 



#### Resumen Decission Tree
    
    1.- Todos los registros son iguales? 
        si -> nodo hoja 
        no -> contiuar en (2)
    2.- Tomar la feature que mejor separe los registros de la base de datos
    3.- Usar el atributo como nodo raiz
    4.- Dividir el set de entrenamiento segun este atributo 

## Vamos a programar `:)`


**Construcción de cada nodo del arbol**

   - Lo primero que vamos a hacer es generar cada nodo del árbol (que a su vez es la raíz de otro arbol). Es importante recordar que esta estructura de datos será recursiva. 
   - Cada nodo (sub-árbol) tendrá asociado una base de datos, una categoría, un valor, su padre y un array correspondientes a sus hijos (que son clase Node). 

In [2]:
from collections import defaultdict
import math
import pandas as pd
import numpy as np

In [2]:
def get_sum(valor, largo):
    prob = valor/largo 
    return (prob)*(math.log2(prob)) ##fucion matematica de entropía

In [3]:
def calculate_entropy(df, feature):
    columna = df[feature] #la columna de clasificacion
    total = len(columna) #el largo de la base de datos
    valores = columna.value_counts() #los valores diferentes que tiene y sus contadores
    suma = sum(valores.apply(get_sum, args = [total])) #suma de la entropia
    return suma*-1

In [4]:
class Node():
    
    def __init__(self, df, value=None, father=None, category=None):
        self.df = df
        #category será el nombre del nodo(atributo)
        self.category = category
        #value será los posibles valores de mi padre
        self.value = value
        self.father = father
        self.children = np.array([])                
          
          
    def append_children(self, Node):
        """ 
        Agregar un nuevo hijo al arbol nodo 
        """
        
        self.children = np.append(self.children, [Node] ,axis = 0)
        return None 
    
    
    def select_feature(self):
        """
        Este metodo calcula la entropia de la base de datos y retorna la feature que
        mejor separa los registos de las distintas claseldses
        """
        features = list(self.df.columns.values) #saco todos los atributos
        features.remove("Income")
        entropia = calculate_entropy(self.df, "Income") #entropia de la clase a clasificar
        largo = len(self.df) #largo del dataset
        (maximo, feat) = (0, "")
        
      
        for feature in features:
            sumatoria = 0 
            #para cada atributo saco sus diferentes valores y el contador de cuantas veces aparece
            valores = self.df[feature].value_counts()
            for elemento in valores.index.tolist():
                #por cada valor del atributo, saco las filas del data que tienen ese valor
                data = self.df[self.df[feature]== elemento]
                #calculo la entropia para ese valor de atributo
                entropia_clase = calculate_entropy(data, "Income")
                #lo multiplico por su frecuencia
                sumatoria += (valores[elemento]/largo)*entropia_clase
            #calculo la ganancia de información que me da el atributo
            ganancia = entropia-sumatoria
            #comparo con las anteriores
            if ganancia>maximo:
                maximo = ganancia
                feat = feature
        
        return feat
       
    
    def split_data_base(self, feature):
        """
        Este metodo recibe una feature y divide la base de datos en base a ella 
        generando los hijos del nodo.
        """
        
        self.category= feature

        for valor in self.df[feature].unique():
            #por cada valor de la feature, saco las filas que tienen ese valor
            dataframe = self.df[self.df[feature] == valor]
            nuevo_nodo = Node(dataframe, valor, self)
            self.append_children(nuevo_nodo)
        return None 

**Construcción de cada nodo del arbol**

   - Primero hay que crear una función que fitee el arbol dados los datos. 
   - Predict tiene que darnos una predicción de la feature buscada dados los valores de las otras features.  

In [56]:
def fit(dataset, min_data, max_deep, nodo):
    """
    Crear recursivamente el arbol con los datos. El algoritmo debe parar cuando se llega a una altura máxima
    o cuando queda un mínimo de datos en el set de datos de cada nodo. 
    
    Debe retonar el primer nodo del árbol completado
    """
        
    if (max_deep == 0) or  (len(nodo.df["Income"].unique()) ==1) or (len(nodo.df) <= min_data) :
        #si es una hoja el nodo, entonces le asigno una clasificacion en categoria
        clasificacion = nodo.df["Income"].value_counts().idxmax()
        nodo.category = clasificacion
        return None
    
    #selecciono la feature
    feature = nodo.select_feature()
    
    if feature == "":
        #si la entropía retorno " ", osea que es 0, le doy la clasificacion del que mas se repite
        clasificacion = nodo.df["Income"].value_counts().idxmax()
        nodo.category = clasificacion
        return None
    
    #spliteo y creo los nodos hijos
    nodo.split_data_base(feature)
    for children in nodo.children:
        fit(dataset, min_data, max_deep-1, children)
        
    return None 


def predict(tree, data_to_predict):
    """
    Predice el valor de un dato nuevo (data_to_predict)
    """
    #recibe una fila del dataframe
    
    # si no tiene hijos retorno category    
    if len(tree.children)==0:
        return tree.category
    
    # si tiene busco en el tree mas abajo.
    hijo = [children for children in tree.children if children.value == data_to_predict[tree.category]]
    
    if len(hijo)==0:
        #si el dataset que tree tenía no tenia todos los posibles valores de la variable, retorno el mas repetido 
        return tree.df["Income"].value_counts().idxmax()
    
    return predict(hijo[0], data_to_predict)

<hr/>
<center> <h1>Fin del laboratorio.</h1> </center>
​

In [40]:
frame = pd.read_csv("adult.data.csv", names = ["state_gov", "77516", "bachelors",
"Age", "Civil_state", "adm_clerical", "Family", "Race", "Sex", "2174",
"0", "40","Country","Income"])

frame = frame.drop(columns = ["Age", "2174", "0", "40", "77516"])

In [41]:
#limpia data
frame.replace({' ?': np.nan}, inplace = True)
frame.dropna(inplace = True)

In [42]:
frame.head()

Unnamed: 0,state_gov,bachelors,Civil_state,adm_clerical,Family,Race,Sex,Country,Income
39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,United-States,<=50K
50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,United-States,<=50K
38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,United-States,<=50K
53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,United-States,<=50K
28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,Cuba,<=50K


In [43]:
num = int(2*(len(frame)/3))
training_set = frame.iloc[0:num]
test_set = frame.iloc[num::]

In [44]:
Raiz = Node(training_set) #creo la raiz del arbol

In [45]:
fit(training_set, 30, 11, Raiz) #fiteo el arbol deacuerdo a un total de elementos maximo y una altura maxima

In [46]:
test_set.head()

Unnamed: 0,state_gov,bachelors,Civil_state,adm_clerical,Family,Race,Sex,Country,Income
57,Private,HS-grad,Married-civ-spouse,Craft-repair,Husband,White,Male,United-States,>50K
45,Private,HS-grad,Married-civ-spouse,Adm-clerical,Husband,White,Male,United-States,<=50K
42,Private,Some-college,Separated,Machine-op-inspct,Unmarried,Black,Female,United-States,<=50K
25,Private,Bachelors,Never-married,Exec-managerial,Own-child,White,Male,United-States,<=50K
56,Private,HS-grad,Married-civ-spouse,Exec-managerial,Husband,White,Male,United-States,>50K


In [57]:
contador = 0

for index, row in test_set.iterrows():
    obtenido = predict(Raiz, row)
    if row[8] == obtenido:
        contador += 1
print(f"Acertado {contador/len(test_set)}")

Acertado 0.8177839665804655


In [None]:
for elemento in valores:
                #por cada valor del atributo, saco las filas del data que son menores a ese valor
                # o mayores o igual a este
                
                izquierda = self.df[self.df[feature]< elemento]
                derecha = self.df[self.df[feature]>= elemento]
                
                #si el split no hace nada en verdad, ganancia de información  = 0
                
                if len(izquierda) == len(self.df) or len(derecha)==len(self.df):
                    #paso al siguiente
                    continue
                    
                #calculo la entropia para el split que produce ese atributo
                entropia_derecha = calculate_entropy(derecha, "Class")
                entropia_izquierda = calculate_entropy(izquierda, "Class")
                
                #sumatoria
                sumatoria = ((len(derecha)/largo)* entropia_derecha) +((len(izquierda)/largo)*entropia_izquierda )
                ganancia_split = entropia-sumatoria
                #si la ganancia que nos dio la particion anterior es peor que la que tenemos ahora
                # la cambiamos
                if mejores_split[feature]< ganancia_split:
                    mejores_split[feature] = ganancia_split
                    value_split[feature] = elemento

In [None]:
mejores_split = defaultdict(int)
        value_split = defaultdict(int)
        #para luego elegir el mejor de ellos.
      
        for feature in features:
            #para cada atributo, saco todos sus valores y decido cual será el mejor split
            val = list(self.df[feature].unique())
            
            if len(val)> 60:
                valores = pd.Series(random_values(int(0.05*len(val)), val))
            elif len(val)>20 and len(val)<=60:
                valores = pd.Series(random_values(int(0.7*len(val)), val))
            else:
                valores = pd.Series(val)
           
            ganancias = valores.apply(calculate_best_value, args=(feature, entropia, self.df, "Class",))
            max_gain = ganancias.idxmax()
            if max_gain != 0:
                mejores_split[feature] = max_gain
                valor_max_gain = valores[max_gain]
                value_split[feature] = valor_max_gain

In [None]:
def func_features(feature, dataset):
    val = list(dataset[feature[0]].unique())
    if len(val)> 60:
        valores = pd.Series(random_values(int(0.05*len(val)), val))
    elif len(val)>20 and len(val)<=60:
        valores = pd.Series(random_values(int(0.7*len(val)), val))
    else:
        valores = pd.Series(val)
    
    ganancias = valores.apply(calculate_best_value, args=(feature[0], entropia, self.df, "Class",))
    max_gain = ganancias.idxmax()
    
    mejores_split[feature[0]] = max_gain
    valor_max_gain = valores[max_gain]
    
    return pd.Series([feature[0], max_gain, valor_max_gain])
    

In [126]:
d = {'col1': [1, 2]}
f = pd.DataFrame(data=d)
def func(x, wea):
    print(wea)
    e = x[0]
    f = "hola"
    return pd.Series([e,f])

In [127]:
new = f.apply(func, axis=1, args = (2,))


2
2
2


In [128]:
new.columns = ["a", "b"]

In [131]:
1605*0.04

64.2

In [None]:
for feature in features:
            #para cada atributo, saco todos sus valores y decido cual será el mejor split
            val = list(self.df[feature].unique())
            
            if len(val)> 60:
                valores = pd.Series(random_values(int(0.05*len(val)), val))
            elif len(val)>20 and len(val)<=60:
                valores = pd.Series(random_values(int(0.5*len(val)), val))
            else:
                valores = pd.Series(val)
           
            ganancias = valores.apply(calculate_best_value, args=(feature, entropia, self.df, "Class",))
            max_gain = ganancias.idxmax()
            if max_gain != 0:
                mejores_split[feature] = max_gain
                valor_max_gain = valores[max_gain]
                value_split[feature] = valor_max_gain