<h1>Bayesian models with Naive Baye</h1>

Os Bayesian Models com Naive Bayes são algoritmos de aprendizado supervisionado baseados no Teorema de Bayes, com a suposição simplificadora de que as features são independentes entre si dado a classe. Apesar dessa suposição ingênua (daí o nome Naive), o algoritmo funciona muito bem em muitos cenários práticos.
<h3>🎯 Objetivo</h3>


O objetivo é classificar dados com base em probabilidades condicionais. O modelo calcula a probabilidade de cada classe para uma nova amostra e escolhe a classe com maior probabilidade posterior.

𝑃
(
Classe
∣
Dados
)
∝
𝑃
(
Dados
∣
Classe
)
⋅
𝑃
(
Classe
)
P(Classe∣Dados)∝P(Dados∣Classe)⋅P(Classe)

<h3>✅ Pré-requisitos</h3>

<ul>
    <li>Dados supervisionados: precisa de X (entradas) e y (rótulos).</li>
    <li>Dados categóricos ou numéricos:
        <ul>
            <li>MultinomialNB: para contagens (ex: textos).</li>
            <li>BernoulliNB: para variáveis booleanas (presença/ausência).</li>
            <li>GaussianNB: para dados contínuos com distribuição normal.</li>
        </ul>
    </li>
    <li>Independência entre atributos (assumida, não exigida).</li>
</ul>


<h3>📈 Vantagens</h3>
<ul>
    <li>Extremamente rápido para treinar e prever.</li>
    <li>Requer poucos dados de treino.</li>
    <li>Robusto contra irrelevâncias em dados.</li>
    <li>Funciona bem em problemas de alta dimensionalidade (ex: texto).</li>
</ul>

<h3>❌ Desvantagens</h3>
<ul>
    <li>Suposição de independência entre variáveis raramente é verdadeira.</li>
    <li>Desempenho pode ser inferior a modelos como SVM ou Random Forest em dados mais complexos.</li>
    <li>Não lida bem com atributos correlacionados.</li>
</ul>


<h3>💼 Aplicações comuns</h3>
<ul>
    <li>🔤 Processamento de Linguagem Natural (NLP)
        <ul>
            <li>Classificação de e-mails (spam vs não-spam).</li>
            <li>Análise de sentimento em redes sociais.</li>
            <li>Classificação de tópicos em documentos.</li>
        </ul>
    </li>
    <li>🏥 Saúde
        <ul>
            <li>Diagnóstico médico rápido baseado em sintomas.</li>
        </ul>
    </li>
    <li>🛍️ Marketing
        <ul>
            <li>Segmentação de clientes com base em comportamentos históricos.</li>
        </ul>
    </li>
    <li>🔐 Segurança
        <ul>
            <li>Detecção simples de fraudes.</li>
            <li>Filtragem de conteúdo automatizado.</li>
        </ul>
    </li>
</ul>










 









In [2]:

import numpy as np
import pandas as pd


from sklearn.model_selection import train_test_split
from sklearn import metrics

import sklearn.datasets as datasets 

from sklearn.ensemble import RandomForestClassifier
#from sklearn.ensemble import RandomForestRegressor


<h2> Carregando o Dataset </h2>

iris = datasets.load_iris()

df = pd.DataFrame(iris.data, columns = iris.feature_names)
df.head()


In [22]:
y = pd.DataFrame(iris.target)
y.columns = ['labels']
y.head()

Unnamed: 0,labels
0,0
1,0
2,0
3,0
4,0


In [26]:
df.isnull().any()==True

sepal length (cm)    False
sepal width (cm)     False
petal length (cm)    False
petal width (cm)     False
dtype: bool

In [40]:

y.labels.value_counts()


labels
0    50
1    50
2    50
Name: count, dtype: int64

<h2>Perparando os dados para o terinamento do modelo</h2>

In [54]:

X_train, X_test, y_train, y_true = train_test_split(df, y, test_size=.2, random_state=17)


<h2>Criando o modelo</h2>

In [58]:

classifier = RandomForestClassifier(n_estimators=200, random_state=0)
classifier.fit(X_train, np.ravel(y_train))


<h2>Avaliando o modelo</h2>

In [67]:

y_pred = classifier.predict(X_test)

print(metrics.classification_report(y_true, y_pred))


              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.92      1.00      0.96        11
           2       1.00      0.92      0.96        12

    accuracy                           0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30

