# Tarea 5 - Árbol de Desición

***Inteligencia Artificial***

***II Semestre 2024***

***Tecnológico de Costa Rica***

Estudiantes: 
- Esteban Guzmán
- Rolando Mora

In [1]:
import pandas as pd
import numpy as np

## Actividad - Taller

1. Cree una clase nodo con atributos necesarios para un árbol de decisión: feature, umbral, gini, cantidad_muestras, valor, izquierda, derecha

In [2]:
class Nodo:
    # :param feature: Índice de la característica utilizada para la división en este nodo.
    # :param umbral: Valor del umbral utilizado para la división.
    # :param gini: Índice de Gini de este nodo.
    # :param cantidad_muestras: Número de muestras en este nodo.
    # :param valor: Valor de la clase para nodos hoja (puede ser el valor promedio o la clase más común).
    # :param izquierda: Nodo hijo izquierdo.
    # :param derecha: Nodo hijo derecho.
    def __init__(self, feature, umbral, gini, cantidad_muestras, valor, izquierda, derecha):
        self.feature = feature
        self.umbral = umbral
        self.gini = gini
        self.cantidad_muestras = cantidad_muestras
        self.valor = valor
        self.izquierda = izquierda
        self.derecha = derecha

2. Crea una clase que implementa un árbol de decisión, utilice las funciones presentadas en clase, además incluya los siguientes hyperparámetros:
- max_depth: Cantidad máxima de variables que se pueden explorar
- min_split_samples: Cantidad mínima de muestras que deberá tener un nodo para poder ser dividido
- criterio: función que se utilizará para calcular la impuridad.

In [11]:
class ArbolDecision:
    # :param max_depth: Profundidad máxima del árbol.
    # :param min_split_samples: Número mínimo de muestras necesarias para dividir un nodo.
    # :param criterio: Criterio utilizado para calcular la impureza ("gini" o "entropia").
    def __init__(self, max_depth=1, min_split_samples=2, criterio="gini"):
        self.max_depth = max_depth
        self.min_split_samples = min_split_samples
        self.criterio = criterio
        self.raiz = None

    # Función que calcula el coeficiente de Gini
    def gini_impurity(self, labels):
        # Calculamos la proporción de cada clase
        proportions = labels.value_counts() / len(labels)
        # Calculamos el coeficiente de Gini
        impurity = 1 - sum(proportions**2)
        return impurity
    
    # Función que calcula la entropía
    def entropy_impurity(self, labels):
        # Calculamos la proporción de cada clase
        proportions = labels.value_counts() / len(labels)
        # Calculamos la entropía
        impurity = sum(-proportions * np.log2(proportions))
        return impurity
    
    # Función que calcula la ganancia de información
    def ganancia_informacion(self, y, y_mask, impurity_func=entropy_impurity):
        # Obtenemos las cardinalidades
        a = sum(y_mask)
        b = y_mask.shape[0] - a

        # Si alguno de los dos nodos es vacío, la ganancia es 0
        if a == 0 or b == 0:
            return 0

        # Calculamos la impureza del nodo padre
        impurity_general = impurity_func(y)

        # Calculamos la impureza de cada nodo hijo
        impuridad_al_corte = 0

        for split in y.unique():
            impuridad_al_corte += impurity_func(y[y_mask]) * len(y[y == split]) / len(y)

        # Calculamos la ganancia de información
        gain = impurity_general - impuridad_al_corte

        return gain
    
    # Función que busca el mejor corte para un atributo
    def buscar_mejor_information_gain_variable(self, x, y, criterio=entropy_impurity):
        # TODO: Para el taller, será necesario modificar esta función para agregar el parámetro
        # min_split_samples, que indica el número mínimo de muestras que debe tener un nodo para
        # poder ser dividido.

        # Ordenamos los valores únicos de menor a mayor
        x_unique = np.sort(x.unique())

        # Calculamos los puntos medios entre cada par de valores
        midpoints = (x_unique[:-1] + x_unique[1:]) / 2
        print(midpoints)
        # Inicializamos las variables
        max_gain = 0
        best_midpoint = 0

        # Buscamos el mejor punto medio
        for midpoint in midpoints:
            # Calculamos la ganancia de información
            gain = self.ganancia_informacion(y, x > midpoint, impurity_func=criterio)

            # Actualizamos el mejor punto medio
            if gain > max_gain:
                max_gain = gain
                best_midpoint = midpoint

        return max_gain, best_midpoint

3. Divida los datos en los conjuntos tradicionales de entrenamiento y prueba, de forma manual, sin utilizar las utilidades de sklearn (puede utilizar índices de Numpy o Pandas)

In [4]:
def dividir_datos(X, y, proporción=0.8):
    indices = np.random.permutation(len(X))
    limite = int(len(X) * proporción)

    X_entrenamiento, y_entrenamiento = X[indices[:limite]], y[indices[:limite]]
    X_prueba, y_prueba = X[indices[limite:]], y[indices[limite:]]

    return X_entrenamiento, X_prueba, y_entrenamiento, y_prueba

## Pruebas

In [5]:
# Carga de datos
data = pd.read_csv("adult-census.csv")
data

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [6]:
# Agrupación por clase y por adultez
data["umbral"] = data["age"] > 30
data.groupby(["umbral", "class"]).size().unstack("class")

class,<=50K,>50K
umbral,Unnamed: 1_level_1,Unnamed: 2_level_1
False,14800,993
True,22355,10694


In [7]:
# Clasificación de muestras
print(
    "Muestras mal clasificadas con un corte en 25:",
    data.loc[(data["age"]>=25) & (data["class"]==" <=50K"),:].shape[0], "\n",
    "Muestras mal clasificadas con un corte en 50:",
    data.loc[(data["age"]>=50) & (data["class"]==" <=50K"),:].shape[0]
)

Muestras mal clasificadas con un corte en 25: 28816 
 Muestras mal clasificadas con un corte en 50: 7180


In [8]:
# Pruebas gini

# Gini para el dataset completo
print(ArbolDecision().gini_impurity(data["class"]))

# Gini para el dataset dividido por el umbral
print(ArbolDecision().gini_impurity(data[data["age"] > 50]["class"]))

0.36405200460016074
0.43390451896643945


In [9]:
# Prueba entropía

# Se calcula la entropía de los adultos mayores a 50 años
ArbolDecision().entropy_impurity(data[data["age"] > 50]["class"])

0.9024238545883967

In [10]:
# Prueba de ganancia de información

arbol = ArbolDecision()
arbol.ganancia_informacion(data["class"], data["age"] <= 50, impurity_func=arbol.gini_impurity)

0.021468934467367307

In [12]:
# Prueba de mejor ganancia de información
arbol = ArbolDecision()
arbol.buscar_mejor_information_gain_variable(data["age"], data["class"], criterio=arbol.gini_impurity)

[17.5 18.5 19.5 20.5 21.5 22.5 23.5 24.5 25.5 26.5 27.5 28.5 29.5 30.5
 31.5 32.5 33.5 34.5 35.5 36.5 37.5 38.5 39.5 40.5 41.5 42.5 43.5 44.5
 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5 55.5 56.5 57.5 58.5
 59.5 60.5 61.5 62.5 63.5 64.5 65.5 66.5 67.5 68.5 69.5 70.5 71.5 72.5
 73.5 74.5 75.5 76.5 77.5 78.5 79.5 80.5 81.5 82.5 83.5 84.5 85.5 86.5
 87.5 88.5 89.5]


(0.10084238499095743, 79.5)