Árvores de Decisão com Índice de Gini
As árvores de decisão são algoritmos de aprendizado supervisionado amplamente usados para classificação e regressão. Neste modelo, os dados são divididos recursivamente em subgrupos com base em atributos preditores, utilizando métricas como o índice de Gini para avaliar a qualidade das divisões.

Fórmula do Índice de Gini
O índice de Gini mede a impureza de um conjunto de dados. Quanto menor o índice, mais homogêneo é o conjunto. A fórmula é:

𝐺
=
1
−
∑
𝑘
𝑃
(
𝐶
𝑘
)
2
G=1− 
k
∑
​
 P(C 
k
​
 ) 
2
 
𝑃
(
𝐶
𝑘
)
P(C 
k
​
 ): Proporção de amostras pertencentes à classe 
𝐶
𝑘
C 
k
​
  em um grupo específico.
𝑘
k: Classes possíveis no conjunto.
Após uma divisão, o índice de Gini médio ponderado das ramificações é calculado:

𝐺
m
e
ˊ
dio
=
∣
𝐺
esquerda
∣
𝑁
𝐺
esquerda
+
∣
𝐺
direita
∣
𝑁
𝐺
direita
G 
m 
e
ˊ
 dio
​
 = 
N
∣G 
esquerda
​
 ∣
​
 G 
esquerda
​
 + 
N
∣G 
direita
​
 ∣
​
 G 
direita
​
 
𝑁
N: Número total de amostras no nó atual.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

from models.utils import accuracy, cross_validate
from models.gaussian_discriminant_analysis.gaussian_discriminant_analysis import GaussianDiscriminantAnalysis

## Holdout 

In [2]:
data = pd.read_csv('../data/processed/breast.csv')

X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [3]:
model = GaussianDiscriminantAnalysis()

In [4]:
model.fit(X_train,y_train)

In [5]:
predict = model.predict(X_test)

In [7]:
accuracy(y_test, predict)

np.float64(0.956140350877193)

## Folds

In [8]:
cross_validate(model, X, y)

Média Acurácia: 0.9542, Desvio Padrão: 0.0296
Média F1-Score: 0.9633, Desvio Padrão: 0.0241
Média Recall: 0.9612, Desvio Padrão: 0.0221
Média Precisão: 0.9660, Desvio Padrão: 0.0351
