Impureza de Gini é uma métrica utilizada em árvores de decisão para avaliar a impureza (ou desordem) de um conjunto de dados. Também é chamado de Gini Index.

Quando uma árvore de decisão é construída com base no Gini Index, o atributo com a menor Impureza de Gini é escolhido para dividir um nó em cada etapa.

# Cálculo da Impureza de Gini

A fórmula para calcular a impureza de Gini é:

$Gini=1−∑(p_i^2​)$

onde $p_i​$ é a proporção de cada classe no conjunto de dados.

# Exemplo

In [1]:
import numpy as np

In [2]:
# Função para calcular a impureza de Gini
def gini_impurity(classes):
    # Contar a frequência de cada classe
    class_counts = np.bincount(classes)
    total = len(classes)
    
    # Calcular a proporção de cada classe
    proportions = class_counts / total
    
    # Calcular a impureza de Gini
    gini = 1 - np.sum(proportions ** 2)
    return gini

In [3]:
# Simulando um conjunto de dados de classes
# Exemplo: 0 e 1 representam duas classes
dados = np.array([0, 0, 1, 1, 0, 1, 1, 0, 0, 1])

In [4]:
# Calculando a impureza de Gini
gini = gini_impurity(dados)
print(f"Impureza de Gini: {gini:.4f}")

Impureza de Gini: 0.5000


A impureza de Gini fornece uma medida útil para avaliar a qualidade de divisões em algoritmos de aprendizado de máquina, especialmente em árvores de decisão.