In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import math

In [2]:
data = pd.read_csv("data/dataPunto1.csv")

## 1. Clasificación y la entropía como función objetivo de la clasificación

### a. Utilizar la siguiente tabla para crear un árbol de clasificación de la variable Y a mano con 2 niveles.

Se calcula la entropía inicial de la variable objetivo "Y"

In [3]:
total_samples = len(data)
y_counts = data['credito'].value_counts()
entropy = 0

for count in y_counts:
    probability = count / total_samples
    entropy += -probability * math.log2(probability)

Se define una función para calcular la entropía condicional dada una división por una característica:

In [10]:
def calculate_conditional_entropy(data, feature, target):
    feature_values = data[feature].unique()
    entropy = 0
    
    for value in feature_values:
        subset = data[data[feature] == value]
        subset_size = len(subset)
        subset_y_counts = subset[target].value_counts()
        conditional_entropy = 0
        
        for count in subset_y_counts:
            probability = count / subset_size
            conditional_entropy += -probability * math.log2(probability)
        
        entropy += (subset_size / total_samples) * conditional_entropy
    
    return entropy

Se calcula la ganancia de información para cada característica y elige la característica con la mayor ganancia como nodo raíz del árbol:

In [11]:
features = data.columns[:-1]
best_feature = None
max_information_gain = -1

for feature in features:
    information_gain = entropy - calculate_conditional_entropy(data, feature, 'credito')
    
    if information_gain > max_information_gain:
        max_information_gain = information_gain
        best_feature = feature

Se divide los datos en dos conjuntos basados en el valor del nodo raíz y repite los pasos anteriores para cada subconjunto:

In [12]:
subset1 = data[data[best_feature] == 0]
subset2 = data[data[best_feature] == 1]

Se calcula la entropía y la ganancia de información para cada subconjunto:

In [13]:
subset1_entropy = 0
subset2_entropy = 0

if len(subset1) > 0:
    subset1_y_counts = subset1['credito'].value_counts()
    for count in subset1_y_counts:
        probability = count / len(subset1)
        subset1_entropy += -probability * math.log2(probability)

if len(subset2) > 0:
    subset2_y_counts = subset2['credito'].value_counts()
    for count in subset2_y_counts:
        probability = count / len(subset2)
        subset2_entropy += -probability * math.log2(probability)

subset1_information_gain = entropy - subset1_entropy
subset2_information_gain = entropy - subset2_entropy

Se calcula la entropía inicial de la variable objetivo "Y"

In [14]:
print("Nodo raíz:", best_feature)
print("Subset 1 - Entropía:", subset1_entropy)
print("Subset 1 - Ganancia de información:", subset1_information_gain)
print("Subset 2 - Entropía:", subset2_entropy)
print("Subset 2 - Ganancia de información:", subset2_information_gain)

Nodo raíz: estrato
Subset 1 - Entropía: 0.0
Subset 1 - Ganancia de información: 1.0
Subset 2 - Entropía: 0.0
Subset 2 - Ganancia de información: 1.0


## Entrene un árbol utilizando sklearn.tree.DecisionTreeClassifier y compare los resultados. ¿Qué puede concluir son iguales?

Se divide los datos en características (X) y variable objetivo (y)

In [15]:
X = data.drop('credito', axis=1)
y = data['credito']

Se divide los datos en conjuntos de entrenamiento y prueba

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Se crea un clasificador de árbol de decisión

In [19]:
clf = DecisionTreeClassifier()

Se entrena el clasificador con los datos de entrenamiento

In [20]:
clf.fit(X_train, y_train)

Se realiza predicciones en el conjunto de prueba

In [21]:
y_pred = clf.predict(X_test)

Se evalúa la precisión del modelo

In [22]:
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo:", accuracy)

Precisión del modelo: 1.0


##  Compare los resultados. ¿Qué puede concluir son iguales?

Podemos concluir que ambos modelos logran una clasificación perfecta en el conjunto de prueba. Una precisión de 1.0 significa que el modelo clasificó correctamente todos los ejemplos en el conjunto de prueba. Esto sugiere que tanto el árbol de clasificación manual como el modelo entrenado con sklearn pudieron aprender patrones en los datos que les permitieron realizar predicciones precisas.