# Gaussian Naive Bayes

O algoritmo Gaussian Naive Bayes é usado quando os atributos preditores têm valores contínuos e seguem uma distribuição normal (gaussiana).

**EXEMPLO**

Vamos supor que você esteja trabalhando com um conjunto de dados de diagnóstico de saúde que inclui características como pressão arterial, níveis de colesterol, índice de massa corporal (IMC) etc. Cada um desses atributos segue uma distribuição normal (gaussiana).

Em casos assim, você pode usar o Naive Bayes Gaussiano para prever se um novo paciente tem ou não uma determinada doença.

| Pessoa_ID | Pressão Arterial | Colesterol | Doente |
|-------|------------------|------------|--------|
| 0     | 120              | 200        | Não    |
| 1     | 140              | 220        | Sim    |
| 2     | 130              | 210        | Não    |
| 3     | 160              | 240        | Sim    |
| 4     | 150              | 230        | Sim    |
| 5     | 125              | 205        | Não    |
| 6     | 135              | 215        | Não    |
| 7     | 145              | 225        | Sim    |
| 8     | 155              | 235        | Sim    |
| 9     | 165              | 245        | Sim    |

## Considerações

A aplicação correta de um algoritmo de *Machine Learning* envolve várias considerações importantes relacionadas aos dados. Assim, aqui estão algumas ponderações que você deve considerar antes de aplicar esse algoritmo.

* **As variáveis preditoras seguem uma distribuição normal (gaussiana)?**

* **Existem *outliers* ou *ruídos* no conjunto de treinamento?**

* **Os dados estão balanceados?**

* **A variável dependente é binária, multiclasse ou multilabel?**

* **As variáveis estão altamente correlacionadas?**

* **O conjunto de dados possui uma alta dimensionalidade?**

## O Algoritmo na Prática

## Como aplicar o algoritmo no `sklearn`?

**Bibliotecas**

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

**Ingestão**

In [None]:
# Carregando o dataset
df = pd.read_csv('health.csv')

**Preparação**

In [None]:
# Dividindo o dataset em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(
    df[['Pressão Arterial', 'Colesterol']],  # características
    df['Doente'],  # alvo
    test_size=0.2,  # 80% para treinamento, 20% para teste
    random_state=1  # semente de reprodutibilidade
)

**Treinamento**

In [None]:
# Criando e treinando o modelo Gaussian Naive Bayes
model = GaussianNB()
model.fit(X_train, y_train)

**Testes**

In [None]:
# Previsões e avaliação do modelo
predictions = model.predict(X_test)
print("Acurácia:", accuracy_score(y_test, predictions))