# Clasificador Naive Bayes 

En este cuaderno se implementará manualmente el algoritmo de clasificación Naive Bayes con el objetivo de conocer su funcionamiento. 

In [1]:
import numpy as np
from collections import defaultdict

#dataset pequeño para ejemplo
docs = [
    "oferta gratis",                    #spam
    "gana dinero gratis",               #spam
    "reunion de trabajo mañana",        #no spam
    "programar en python",              #no spam
    "trabajo remoto oferta"             #spam
]

#etiquetas correspondientes a los documentos 
labels = ["spam", "spam", "no", "no", "spam"]

In [2]:
#construccion del vocabulario
#separacion palabra por palabra

vocab = set()
for d in docs:
    for word in d.split():
        vocab.add(word)

#vocabulario almacenado en una lista para facil manejo
vocab = list(vocab)
#print("Vocabulario:", vocab)

In [3]:
#conteo de las palabras por clase

word_counts = {
    "spam": defaultdict(int),
    "no": defaultdict(int)
}

class_counts = {"spam": 0, "no": 0}

for text, label in zip(docs, labels):
    class_counts[label] += 1
    for word in text.split():
        word_counts[label][word] += 1


#print("\nPalabras por clase:")
print("Spam:", dict(word_counts["spam"]))
print("No:", dict(word_counts["no"]))


Spam: {'oferta': 2, 'gratis': 2, 'gana': 1, 'dinero': 1, 'trabajo': 1, 'remoto': 1}
No: {'reunion': 1, 'de': 1, 'trabajo': 1, 'mañana': 1, 'programar': 1, 'en': 1, 'python': 1}


In [5]:
#calculo de las probabilidades previas (priors)

total_docs = len(docs)
priors = {
    "spam": class_counts["spam"] / total_docs,          #P(spam)
    "no": class_counts["no"] / total_docs               #P(no spam)
}

print("priors \n",priors)

priors 
 {'spam': 0.6, 'no': 0.4}


In [7]:
#calculo de las probabilidades condicionales P(word|class) con suavizado de Laplace
#se muestra solo la clase spam
def cond_prob(word, label):
    # Laplace smoothing
    return (word_counts[label][word] + 1) / (sum(word_counts[label].values()) + len(vocab))


print("\n probabilidades P(word|spam):")
for w in vocab:
    print(w, "=", cond_prob(w, "spam"))


 probabilidades P(word|spam):
gratis = 0.15
reunion = 0.05
remoto = 0.1
en = 0.05
gana = 0.1
oferta = 0.15
de = 0.05
python = 0.05
programar = 0.05
trabajo = 0.1
dinero = 0.1
mañana = 0.05


In [8]:
#impresion en pantalla de la clase no spam

print("\n probabilidades P(word|no spam):")
for w in vocab:
    print(w, "=", cond_prob(w, "no"))


 probabilidades P(word|no spam):
gratis = 0.05263157894736842
reunion = 0.10526315789473684
remoto = 0.05263157894736842
en = 0.10526315789473684
gana = 0.05263157894736842
oferta = 0.05263157894736842
de = 0.10526315789473684
python = 0.10526315789473684
programar = 0.10526315789473684
trabajo = 0.10526315789473684
dinero = 0.05263157894736842
mañana = 0.10526315789473684


In [9]:
#funcion de prediccion con Naive Bayes

def predict(text): #prediccion de clase para un nuevo documento
    words = text.split()    #separacion de palabras de nuevo documento 

    scores = {} #almacena los pesos para cada clase
    for label in ["spam", "no"]:
        score = np.log(priors[label])  # log para evitar underflow
        for w in words:
            if w in vocab:
                score += np.log(cond_prob(w, label))
        scores[label] = score

    # elegir la clase con mayor probabilidad
    return max(scores, key=scores.get)

In [16]:
#muestra de la prediccion con una linea de prueba 

test_text = "Reservacion aceptada, cena gratis, gana dinero seguro" #texto de prueba
print("\nTexto a clasificar:", test_text)
print("Predicción:", predict(test_text))


Texto a clasificar: Reservacion aceptada, cena gratis, gana dinero seguro
Predicción: spam
