<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#ID3" data-toc-modified-id="ID3-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>ID3</a></span></li></ul></div>

## ID3

In [1]:
import numpy as np

In [2]:
labels = np.array([1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1])

Asumiendo que el problema sólo tiene dos clases las frecuencias relativas son:

In [5]:
_, counts = np.unique(labels, return_counts=True)
counts/len(labels)

array([0.33333333, 0.66666667])

$$H(A) = - \sum_{y \in \mathcal{Y}} p(y|A) \log p(y|A)$$

Y la entropía del conjunto sería:

In [6]:
def entropy(subset_labels):
    unique, counts = np.unique(subset_labels, return_counts=True)
    frequencies = counts/len(subset_labels)
    return -np.sum(frequencies*np.log2(frequencies+1e-16))

entropy(labels)

0.9182958340544893

La entropía es máxima si hay igual cantidad de ejemplos de ambas clases (mínima pureza)

In [7]:
B = np.array([1, 1, 1, 0, 0, 0])
entropy(B)

0.9999999999999997

y mínima si todos los ejemplos son de una clase (máxima pureza)

In [8]:
C = np.array([1, 1, 1, 1, 1, 1])
entropy(C)

-0.0

In [9]:
import pandas as pd

$$G(D; D_{izq}, D_{der}) = H(D) - \frac{|D_{izq}|}{|D|} H(D_{izq}) - \frac{|D_{der}|}{|D|} H(D_{der})$$

In [11]:
data = {'tiempo': ['soleado', 'soleado', 'soleado', 'lluvioso', 'lluvioso'], 
        'humedad': ['baja', 'baja', 'alta', 'alta', 'alta'],
        'temperatura': ['templado', 'caluroso', 'caluroso', 'templado', 'frio']}

node = pd.DataFrame(data)
node

Unnamed: 0,tiempo,humedad,temperatura
0,soleado,baja,templado
1,soleado,baja,caluroso
2,soleado,alta,caluroso
3,lluvioso,alta,templado
4,lluvioso,alta,frio


In [12]:
def info_gain(subset, feature):
    subset_labels = subset["tiempo"].values
    entropy_root = entropy(subset_labels)
    entropy_nodes = []
    for unique_label in subset[feature].unique():
        split = subset.loc[subset[feature] == unique_label]
        split_labels = split["tiempo"].values
        entropy_nodes.append(entropy(split_labels)*len(split_labels)/len(subset_labels))
    return entropy_root - sum(entropy_nodes)


for feature in ["humedad", "temperatura"]:
    print(f"Ganancia de información de {feature}: {info_gain(node, feature):0.6f}")

Ganancia de información de humedad: 0.419973
Ganancia de información de temperatura: 0.570951


In [13]:
node.loc[node["temperatura"] == 'frio']

Unnamed: 0,tiempo,humedad,temperatura
4,lluvioso,alta,frio


In [14]:
node.loc[node["temperatura"] == 'caluroso']

Unnamed: 0,tiempo,humedad,temperatura
1,soleado,baja,caluroso
2,soleado,alta,caluroso


In [15]:
node.loc[node["temperatura"] == 'templado']

Unnamed: 0,tiempo,humedad,temperatura
0,soleado,baja,templado
3,lluvioso,alta,templado


In [16]:
node = node.loc[node["temperatura"] == 'templado']
for feature in ["humedad", "temperatura"]:
    print(f"Ganancia de información de {feature}: {info_gain(node, feature)}")

Ganancia de información de humedad: 0.9999999999999997
Ganancia de información de temperatura: 0.0
