# üöÄ Classifica√ß√£o Semi-Supervisionada com Na√Øve Bayes

Este notebook demonstra como usar o aprendizado semi-supervisionado para melhorar um modelo quando se tem uma quantidade limitada de dados rotulados.

O fluxo de trabalho ser√°:
1.  Preparar os dados rotulados e simular um conjunto de dados n√£o rotulados.
2.  Usar o Na√Øve Bayes como base para um modelo semi-supervisionado.
3.  Treinar o modelo com ambos os conjuntos de dados.
4.  Avaliar o desempenho final.

In [None]:
### 1. Preparar os Dados (Rotulados e N√£o Rotulados)

# Importar bibliotecas necess√°rias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.semi_supervised import SelfTrainingClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Criar o DataFrame com todos os dados
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'n_palavras_suspeitas': [8, 0, 4, 2, 10, 1, 6, 3, 9, 0],
    'tamanho_email': [500, 120, 300, 250, 800, 150, 400, 200, 600, 100],
    'tem_link': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
    'rotulo': [1, 0, 1, 0, 1, 0, 1, 0, 1, 1]
}
df = pd.DataFrame(data)

# Separar caracter√≠sticas (X) e r√≥tulo (y)
X_full = df[['n_palavras_suspeitas', 'tamanho_email', 'tem_link']]
y_full = df['rotulo']

# Dividir os dados em conjuntos de treinamento e teste (mesma divis√£o de antes)
X_treino_full, X_teste, y_treino_full, y_teste = train_test_split(X_full, y_full, test_size=0.3, random_state=42)

# Agora, vamos simular o cen√°rio semi-supervisionado:
# Pegar uma parte do conjunto de treinamento como 'rotulada' e o resto como 'n√£o rotulada'
X_labeled, X_unlabeled, y_labeled, y_unlabeled = train_test_split(
    X_treino_full, y_treino_full, test_size=0.5, random_state=42
)

# Criar o conjunto de dados de treinamento semi-supervisionado
# Os dados 'n√£o rotulados' t√™m seu r√≥tulo substitu√≠do por -1 (convens√£o do sklearn)
y_treino_semisup = np.concatenate([y_labeled, np.full_like(y_unlabeled, -1)])
X_treino_semisup = np.concatenate([X_labeled, X_unlabeled])

print("Etapas de prepara√ß√£o conclu√≠das.")
print(f"Dados Rotulados para Treino: {len(X_labeled)}")
print(f"Dados N√£o Rotulados para Treino: {len(X_unlabeled)}")
print(f"Dados para Teste: {len(X_teste)}")

Etapas de prepara√ß√£o conclu√≠das.
Dados Rotulados para Treino: 3
Dados N√£o Rotulados para Treino: 4
Dados para Teste: 3


### 2. Criar e Treinar o Modelo Semi-Supervisionado

Usaremos o `SelfTrainingClassifier` com o `GaussianNB` como nosso modelo base. O processo √© o seguinte:
1.  O modelo base (`GaussianNB`) √© treinado apenas com os dados rotulados.
2.  Ele faz previs√µes nos dados n√£o rotulados.
3.  Se a confian√ßa da previs√£o for alta (acima de um `threshold`), ele adiciona essa amostra ao conjunto de treinamento.
4.  O processo se repete at√© que todos os dados n√£o rotulados sejam classificados ou o limite seja atingido.

In [None]:
# Definir o modelo base
modelo_base = GaussianNB()

# Criar o modelo semi-supervisionado
# Usamos um limiar de 0.8 para adicionar dados ao conjunto de treinamento
modelo_semisup = SelfTrainingClassifier(modelo_base, threshold=0.8)

# Treinar o modelo com os dados rotulados E os n√£o rotulados
modelo_semisup.fit(X_treino_semisup, y_treino_semisup)

print("\nModelo semi-supervisionado treinado com sucesso!")


Modelo semi-supervisionado treinado com sucesso!


### 3. Avaliar o Desempenho do Modelo

Agora, vamos fazer as previs√µes nos dados de teste (que o modelo nunca viu) e avaliar a performance.

In [None]:
# Fazer previs√µes nos dados de teste
previsoes_semisup = modelo_semisup.predict(X_teste)

# Avaliar as previs√µes
acuracia_semisup = accuracy_score(y_teste, previsoes_semisup)
matriz_semisup = confusion_matrix(y_teste, previsoes_semisup)
relatorio_semisup = classification_report(y_teste, previsoes_semisup, target_names=['N√£o Spam', 'Spam'])

print(f"\nAcur√°cia do modelo semi-supervisionado: {acuracia_semisup:.2f}")
print("\nMatriz de Confus√£o (semi-supervisionada):")
print(matriz_semisup)
print("\nRelat√≥rio de Classifica√ß√£o (semi-supervisionado):")
print(relatorio_semisup)


Acur√°cia do modelo semi-supervisionado: 0.33

Matriz de Confus√£o (semi-supervisionada):
[[0 2]
 [0 1]]

Relat√≥rio de Classifica√ß√£o (semi-supervisionado):
              precision    recall  f1-score   support

    N√£o Spam       0.00      0.00      0.00         2
        Spam       0.33      1.00      0.50         1

    accuracy                           0.33         3
   macro avg       0.17      0.50      0.25         3
weighted avg       0.11      0.33      0.17         3



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
