## Entropia em Machine Learning

Na área de **machine learning** e **ciência de dados**, a entropia é usada para medir a incerteza ou desordem de um conjunto de dados, especialmente em problemas de classificação e construção de árvores de decisão.

### Conceito de Entropia
Em machine learning, a entropia quantifica o quão misturados estão os dados em relação às suas classes (ou rótulos). 

- **Entropia Baixa**: Se as classes estão bem separadas e a incerteza é baixa.
- **Entropia Alta**: Se as classes estão muito misturadas, tornando difícil prever a qual classe um dado pertence.

### Fórmula da Entropia
A entropia para um conjunto de dados com classes \( C_1, C_2, \ldots, C_n \) é calculada com a fórmula:

$$
H(S) = - \sum_{i=1}^{n} p(C_i) \log_2 p(C_i)
$$

onde:
- $H(S)$ é a entropia do conjunto $S$,
- $p(C_i)$ é a probabilidade de ocorrência da classe $C_i$ no conjunto de dados.

### Entropia em Árvores de Decisão
Em árvores de decisão, a entropia é utilizada para medir a qualidade de uma divisão (split) dos dados em nós da árvore. O objetivo é escolher divisões que minimizem a entropia, criando nós mais "puros" onde os dados pertencem predominantemente a uma única classe.

#### Passos do Cálculo
1. **Entropia Inicial**: Calcula-se a entropia para o conjunto de dados antes da divisão.
2. **Entropia após a Divisão**: A entropia de cada subconjunto é calculada após a divisão, e a entropia total é a média ponderada das entropias dos subconjuntos.
3. **Ganho de Informação**: É a redução de entropia alcançada com a divisão. Uma alta redução indica uma divisão eficiente.

### Exemplo
Imagine um conjunto de dados com 10 exemplos onde a classificação é binária (por exemplo, sim/não):

- 5 exemplos são da classe "sim"
- 5 exemplos são da classe "não"

A entropia inicial seria:

$$
H(S) = -\left(0,5 \cdot \log_2(0,5) + 0,5 \cdot \log_2(0,5)\right) = 1
$$

Se fizermos uma divisão que resulte em subconjuntos com um único rótulo em cada (por exemplo, um nó contendo apenas "sim" e outro apenas "não"), a entropia desses nós será zero, indicando uma divisão perfeita.

### Resumo
Em resumo, a entropia em machine learning mede a desordem e é utilizada para selecionar divisões que melhorem a previsibilidade dos dados em árvores de decisão. 

- **Entropia baixa**: menos incerteza e melhor separação entre classes.
- **Entropia alta**: mais incerteza e classes mais misturadas.


In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Carregar o conjunto de dados Iris
data = load_iris()
X = data.data
y = data.target

# Criar e treinar a árvore de decisão
tree = DecisionTreeClassifier(criterion='entropy')
tree.fit(X, y)

# Acessar as impurezas de cada nó
impurezas = tree.tree_.impurity

# Mostrar as impurezas em cada nó
df_impurezas = pd.DataFrame({
    'Nó': range(len(impurezas)),
    'Impureza (Entropia)': impurezas
})

print(df_impurezas)


    Nó  Impureza (Entropia)
0    0             1.584963
1    1             0.000000
2    2             1.000000
3    3             0.445065
4    4             0.146094
5    5             0.000000
6    6             0.000000
7    7             0.918296
8    8             0.000000
9    9             0.918296
10  10             0.000000
11  11             0.000000
12  12             0.151097
13  13             0.918296
14  14             0.000000
15  15             0.000000
16  16             0.000000
