In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import math

In [2]:
data = pd.read_csv("data/dataPunto1.csv")

## 1. Clasificación y la entropía como función objetivo de la clasificación

### a. Utilizar la siguiente tabla para crear un árbol de clasificación de la variable Y a mano con 2 niveles.

Se calcula la entropía inicial de la variable objetivo "Y"

In [10]:
totalEjemplos = len(data)
y_counts = data['credito'].value_counts()
entropia = 0

for count in y_counts:
    probability = count / totalEjemplos
    entropia += -probability * math.log2(probability)

### Definimos una funcion para calcular la entropia

In [14]:
def CalcularEntropia(data, caracteristica, etiqueta):
    valorCrateristicas = data[caracteristica].unique()
    entropia = 0
    
    for valor in valorCrateristicas:
        subconjunto = data[data[caracteristica] == valor]
        tamañoSubconjunto = len(subconjunto)
        subconjunto_y_counts = subconjunto[etiqueta].value_counts()
        EntropiaCondicional = 0
        
        for count in subconjunto_y_counts:
            probability = count / tamañoSubconjunto
            EntropiaCondicional += -probability * math.log2(probability)
        
        entropia += (tamañoSubconjunto / totalEjemplos) * EntropiaCondicional
    
    return entropia

Calculamos la ganancia de información para cada característica y elijimos la característica con la mayor ganancia como nodo raíz del árbol:

In [16]:
caracteristicas = data.columns[:-1]
mejorCaracteristica = None
maximaInformacion = -1

for caracteristica in caracteristicas:
    informacion = entropia - CalcularEntropia(data, caracteristica, 'credito')
    
    if informacion > maximaInformacion:
        maxima_informacion = informacion
        mejorCaracteristica = caracteristica

 Dividimos los datos en dos conjuntos basados en el valor del nodo raíz y repitemos los pasos previos

In [17]:
subConjunto1 = data[data[best_feature] == 0]
subConjunto2 = data[data[best_feature] == 1]

Calculamos la entropía y la ganancia de información para cada subconjunto

In [20]:
EntropiaSubconjunto1 = 0
EntropiaSubconjunto2 = 0

if len(subConjunto1) > 0:
    EntropiaSubconjunto1_y_counts = subConjunto1['credito'].value_counts()
    for count in EntropiaSubconjunto1_y_counts:
        probability = count / len(subConjunto1)
        EntropiaSubconjunto1 += -probability * math.log2(probability)

if len(subConjunto2) > 0:
    EntropiaSubconjunto2_y_counts = subConjunto2['credito'].value_counts()
    for count in EntropiaSubconjunto2_y_counts:
        probability = count / len(subConjunto2)
        EntropiaSubconjunto2 += -probability * math.log2(probability)

informacionEntropiaSubconjunto1 = entropia - EntropiaSubconjunto1
informacionEntropiaSubconjunto2 = entropia - EntropiaSubconjunto2

In [21]:
print("Nodo raíz:", best_feature)
print("subconjunto 1 - Entropía:", EntropiaSubconjunto1)
print("subconjunto 1 - Ganancia de información:", informacionEntropiaSubconjunto1)
print("subconjunto 2 - Entropía:", EntropiaSubconjunto2)
print("subconjunto 2 - Ganancia de información:", informacionEntropiaSubconjunto2)

Nodo raíz: estrato
subconjunto 1 - Entropía: 0.0
subconjunto 1 - Ganancia de información: 1.0
subconjunto 2 - Entropía: 0.0
subconjunto 2 - Ganancia de información: 1.0


### Entrene un árbol utilizando sklearn.tree.DecisionTreeClassifier y compare los resultados. ¿Qué puede concluir son iguales?

In [None]:
Dividimos los datos uno en características (X) y el otro en variable objetivo (y)

In [23]:
X = data.drop('credito', axis=1)
y = data['credito']

#### Dividemos los datos en train y test

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Clasificamosel arbol de decision

In [26]:
clf = DecisionTreeClassifier()

In [27]:
clf.fit(X_train, y_train)

Se predice en el conjunto de prueba

In [29]:
y_prediccion = clf.predict(X_test)

Evaluamos las prediciones obtenidad

In [32]:
accuracy = accuracy_score(y_test, y_prediccion)
print("Precisión del modelo:", accuracy)

Precisión del modelo: 1.0


###  Compare los resultados. ¿Qué puede concluir son iguales?

In [None]:
En resumen, podemos decir que tanto el árbol de clasificación manual como el modelo entrenado con la biblioteca sklearn lograron una clasificación buena en el conjunto de prueba. Con la prediccion de 1.0 podemos concluir que ambos modelos fueron capaces de llegar a un mismo valor de clasificacion. Esto sugiere que ambos modelos fueron capaces de aprender los patrones presentes en los datos y utilizarlos para hacer predicciones precisas.