Entropia ajuda a dividir nós em uma árvore de decisão. O objetivo é maximizar o ganho de informação, enquanto diminui a Entropia.
O Ganho de Informação é a diminuição da Entropia após dividir um nó com base em uma feature específica.

O algoritmo calcula a Entropia de cada feature após uma divisão e seleciona a melhor feature com base nesse cálculo.

A sua fórmula é:

E(S) = soma(-p_i * log2(p_i))[c, i=1]

S é o dataset ou subset sendo dividido.
c é o número de classes
p_i é a proporção de instâncias que percentem a classe i dentro do split

A somarização é executada em todas as classes.

In [1]:
import numpy as np
from sklearn.metrics import log_loss

In [2]:
# Função para calcular a entropia
def calcular_entropia(probabilidades):
    # Remover valores zero para evitar log(0)
    probabilidades = np.clip(probabilidades, 1e-10, 1)
    return -np.sum(probabilidades * np.log(probabilidades))

In [3]:
# Simulando um conjunto de dados de classes
# Suponha que temos duas classes: 0 e 1
# Probabilidades de cada classe
probabilidades_classes = np.array([0.7, 0.3])  # 70% de classe 0 e 30% de classe 1

In [4]:
# Calculando a entropia
entropia = calcular_entropia(probabilidades_classes)
print(f"Entropia: {entropia:.4f}")

Entropia: 0.6109


In [5]:
# Simulando previsões de um modelo
# Previsões de probabilidade para duas classes
previsoes_probabilidades = np.array([[0.9, 0.1],  # Exemplo 1: Classe 0
                                     [0.4, 0.6],  # Exemplo 2: Classe 1
                                     [0.2, 0.8]]) # Exemplo 3: Classe 1

In [6]:
# Verdadeiros rótulos (0 ou 1)
verdadeiros_rotulos = np.array([0, 1, 1])  # Rótulos verdadeiros

In [7]:
# Calculando a entropia cruzada (log loss)
entropia_cruzada = log_loss(verdadeiros_rotulos, previsoes_probabilidades)
print(f"Entropia Cruzada (Log Loss): {entropia_cruzada:.4f}")

Entropia Cruzada (Log Loss): 0.2798
