# Naive Bayes - Implementation numpy vs SkitLearn

In [1]:
import numpy as np
from collections import defaultdict

![image.png](attachment:139230ff-bedd-419e-8ab0-14ebeb30c30a.png)

In [4]:
# Dados de treinamento - exemplo Spam 
data = [
    {"text": "promoção grátis oferta", "label": 1},  # Spam
    {"text": "reunião importante", "label": 0},     # Não Spam
    {"text": "oferta grátis promoção", "label": 1}, # Spam
    {"text": "reunião com equipe", "label": 0},     # Não Spam
    {"text": "promoção grátis", "label": 1},        # Spam
    {"text": "reunião semanal", "label": 0}         # Não Spam
]
data

[{'text': 'promoção grátis oferta', 'label': 1},
 {'text': 'reunião importante', 'label': 0},
 {'text': 'oferta grátis promoção', 'label': 1},
 {'text': 'reunião com equipe', 'label': 0},
 {'text': 'promoção grátis', 'label': 1},
 {'text': 'reunião semanal', 'label': 0}]

In [5]:
# Pré-processamento
def preprocess(data):
    vocab = set()
    class_word_counts = defaultdict(lambda: defaultdict(int))
    class_counts = defaultdict(int)

    for sample in data:
        words = sample["text"].split()
        label = sample["label"]
        class_counts[label] += 1
        for word in words:
            vocab.add(word)
            class_word_counts[label][word] += 1
    
    return vocab, class_word_counts, class_counts

In [8]:
vocab, class_word_counts, class_counts = preprocess(data)
vocab

{'com',
 'equipe',
 'grátis',
 'importante',
 'oferta',
 'promoção',
 'reunião',
 'semanal'}

## Treinamento e modelagem

![image.png](attachment:a473bc58-cd1d-4370-8fe1-4cd66e5c535f.png)

In [9]:
# Função para treinar o modelo
def train_naive_bayes(data):
    vocab, class_word_counts, class_counts = preprocess(data)
    total_samples = sum(class_counts.values())
    total_words_per_class = {cls: sum(class_word_counts[cls].values()) for cls in class_counts}
    vocab_size = len(vocab)

    # Cálculo de probabilidades
    class_priors = {cls: class_counts[cls] / total_samples for cls in class_counts}
    word_probs = defaultdict(lambda: defaultdict(float))

    for cls in class_counts:
        for word in vocab:
            word_count = class_word_counts[cls][word]
            # Suavização de Laplace
            word_probs[cls][word] = (word_count + 1) / (total_words_per_class[cls] + vocab_size)
    
    return class_priors, word_probs, vocab

## Predict 

![image.png](attachment:dcdebbcf-0647-4a56-9235-dada7dfab2db.png)

In [11]:
# Função para prever
def predict(text, class_priors, word_probs, vocab):
    words = text.split()
    class_scores = {}

    for cls in class_priors:
        # Começa com o log da probabilidade a priori
        score = np.log(class_priors[cls])
        for word in words:
            if word in vocab:
                score += np.log(word_probs[cls][word])
        class_scores[cls] = score

    # Retorna a classe com maior probabilidade
    return max(class_scores, key=class_scores.get)

### Execution

In [12]:
# Treinando o modelo
class_priors, word_probs, vocab = train_naive_bayes(data)

# Classificando novo e-mail
new_email = "promoção grátis reunião"
prediction = predict(new_email, class_priors, word_probs, vocab)

print("Classe prevista:", "Spam" if prediction == 1 else "Não Spam")


Classe prevista: Spam


In [17]:
# Probabilidades a priori- da classe
class_priors

{1: 0.5, 0: 0.5}

In [18]:
# Probabilidade da palavra dado uma classe

word_probs

defaultdict(<function __main__.train_naive_bayes.<locals>.<lambda>()>,
            {1: defaultdict(float,
                         {'reunião': 0.0625,
                          'promoção': 0.25,
                          'grátis': 0.25,
                          'com': 0.0625,
                          'importante': 0.0625,
                          'semanal': 0.0625,
                          'equipe': 0.0625,
                          'oferta': 0.1875}),
             0: defaultdict(float,
                         {'reunião': 0.26666666666666666,
                          'promoção': 0.06666666666666667,
                          'grátis': 0.06666666666666667,
                          'com': 0.13333333333333333,
                          'importante': 0.13333333333333333,
                          'semanal': 0.13333333333333333,
                          'equipe': 0.13333333333333333,
                          'oferta': 0.06666666666666667})})

## scikit-learn

In [19]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

In [20]:
# Dados de treinamento
texts = [
    "promoção grátis reunião",  # Spam
    "clique agora para ganhar",  # Spam
    "você ganhou um prêmio",  # Spam
    "reunião às 14h com equipe",  # Não Spam
    "tarefa de casa para amanhã",  # Não Spam
    "vamos sair para almoçar",  # Não Spam
]
labels = [1, 1, 1, 0, 0, 0]  # 1: Spam, 0: Não Spam

In [21]:
# Criar pipeline de pré-processamento e modelo
model = Pipeline([
    ('vectorizer', CountVectorizer()),  # Converte texto em vetores de contagem
    ('classifier', MultinomialNB())    # Classificador Naïve Bayes
])

# Treinar o modelo
model.fit(texts, labels)

In [22]:
# Fazer predições
new_texts = ["promoção grátis reunião", "reunião importante amanhã às 14h"]
predictions = model.predict(new_texts)

In [23]:
# Mostrar resultados
for text, label in zip(new_texts, predictions):
    print(f"Texto: '{text}' -> Classe prevista: {'Spam' if label == 1 else 'Não Spam'}")


Texto: 'promoção grátis reunião' -> Classe prevista: Spam
Texto: 'reunião importante amanhã às 14h' -> Classe prevista: Não Spam
