# Naive Bayes

- Modelo Supervizado de CLASIFICACIÓN.
- Dado una serie de datos y su etiqueta resultante, te predice la etiqueta resultante para 
una serie de datos de entrada.
- No es muy bueno para datos NO independientes.

##### Multinomial Naive Bayes
- Tiene en cuenta la cantidad de apariciones de los datos de entrada.

##### Bernoulli Naive Bayes
- Solo tiene en cuenta si aparece o no los datos de entrada. No tiene en cuenta la cantidad de apariciones.

##### Gaussian Naive Bayes
- Asumo que los datos de entrada tienen una distribucion Gaussiana. Por ejemplo, el peso, la altura, etc de una persona.

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import GaussianNB
from sklearn.feature_extraction.text import CountVectorizer
from random import randint
np.set_printoptions(threshold=np.inf) #Print complete matrix/array

In [2]:
def multinomialNaiveBayes(initial_priorities, feature_matrix, labels, feature_matrix_test):
    nb = MultinomialNB(alpha=1, class_prior=initial_priorities, fit_prior=False)
    
    #Entrenamos el modelo
    nb.fit(feature_matrix, labels)
    
    #Puntaje del modelo
    score = nb.score(feature_matrix, labels)
    
    #Predice el resultado (La categoria resultante)
    predict = nb.predict(feature_matrix_test)
    
    #Devuelve las probabilidades de cada una de las etiquetas
    predict_proba = nb.predict_proba(feature_matrix_test)
    
    return score, predict, predict_proba


In [3]:
def BernoulliNaiveBayes(initial_priorities, binarize, feature_matrix, labels, feature_matrix_test):
    #Si es mayor a binarize, lo toma como 1 (como que aparece). Si es menor lo toma como 0 (como que no aparece).
    nb = BernoulliNB(alpha=1, class_prior=initial_priorities, fit_prior=False, binarize=binarize)
    
    #Entrenamos el modelo
    nb.fit(feature_matrix, labels)
    
    #Puntaje del modelo
    score = nb.score(feature_matrix, labels)
    
    #Predice el resultado (La categoria resultante)
    predict = nb.predict(feature_matrix_test)
    
    #Devuelve las probabilidades de cada una de las etiquetas
    predict_proba = nb.predict_proba(feature_matrix_test)
    
    return score, predict, predict_proba


In [4]:
def GaussianNaiveBayes(features_matrix, labels, feature_matrix_test):
    gnb = GaussianNB()
    
    #Entrenamos el modelo
    gnb.fit(features_matrix, labels)
    
    #Puntaje del modelo
    #score = gnb.score(feature_matrix, labels)
    
    #Predice el resultado (La categoria resultante)
    predict = gnb.predict(feature_matrix_test)
    
    #Devuelve las probabilidades de cada una de las etiquetas
    predict_proba = gnb.predict_proba(feature_matrix_test)
    
    return predict, predict_proba


## Examples

### SPAM o HAM

In [5]:
labels = np.array(['SPAM', 'HAM', 'HAM', 'SPAM', 'HAM', 'HAM', 'NN'])
vocabulary = np.array(['alargue', 'automóvil', 'casa', 'novedoso'])
# Simulo que lee los mails y obtiene esta cantidad de palabras
train_mails = ["alargue alargue alargue automóvil automóvil automóvil casa novedoso novedoso novedoso novedoso novedoso novedoso", 
        "alargue automóvil automóvil automóvil automóvil casa casa casa casa casa casa casa novedoso",
        "alargue automóvil automóvil automóvil automóvil casa casa casa novedoso",
        "alargue alargue alargue alargue automóvil automóvil casa novedoso novedoso novedoso novedoso novedoso",
        "alargue automóvil automóvil automóvil casa casa casa casa novedoso novedoso",
        "alargue alargue automóvil automóvil automóvil automóvil casa casa casa casa casa novedoso",
        "alargue alargue alargue alargue alargue alargue alargue alargue alargue automóvil casa novedoso"]
test_mails = ["alargue alargue alargue alargue alargue alargue alargue alargue alargue automóvil casa aguila"]

vectorizer = CountVectorizer()
train_matrix = vectorizer.fit_transform(train_mails)
test_matrix = vectorizer.transform(test_mails)

score, predict, predict_proba = multinomialNaiveBayes([0.286, 0.57, 0.14], train_matrix, labels, test_matrix)
score, predict, predict_proba = BernoulliNaiveBayes([0.286, 0.57, 0.14], 0.5, train_matrix, labels, test_matrix)


In [6]:
data = [{'altura': 183, 'genero': 'hombre', 'peso': 82, 'pie': 12},
         {'altura': 180, 'genero': 'hombre', 'peso': 86, 'pie': 11},
         {'altura': 170,'genero': 'hombre','peso': 77,'pie': 12},
         {'altura': 180, 'genero': 'hombre', 'peso': 75, 'pie': 10},
         {'altura': 152, 'genero': 'mujer', 'peso': 45, 'pie': 6},
         {'altura': 167, 'genero': 'mujer', 'peso': 68, 'pie': 8},
         {'altura': 165, 'genero': 'mujer', 'peso': 59, 'pie': 7},
         {'altura': 175, 'genero': 'mujer', 'peso': 68, 'pie': 9}]
train_matrix = np.zeros((len(data),3))
labels = np.empty((len(data)), dtype=object)

for i, person in enumerate(data):
    train_matrix[i, 0] = person['altura']
    train_matrix[i, 1] = person['peso']
    train_matrix[i, 2] = person['pie']
    labels[i] = person['genero']

test_matrix = np.array([[180,90,10], [160, 70, 8], [178, 73, 9], [178, 74, 9]])
predict, predict_proba = GaussianNaiveBayes(train_matrix, labels, test_matrix)


### Cancer test

In [9]:
data = np.genfromtxt(fname='../datasets/cancer.txt', delimiter=',')
data = np.delete(data, np.s_[0], axis=1)
data = data[~np.isnan(data).any(axis=1)] #Eliminamos los nan

labels = data[:, -1]
features = data[:, :-1]
#x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=randint(0, 99))

labels_bening = np.extract(labels == 2, labels)
labels_malignant = np.extract(labels == 4, labels)
initial_priorities = np.array([labels_bening.size / labels.size, labels_malignant.size / labels.size])

test = np.matrix([10,1,1,10,2,1,3,10,1])
score, predict, predict_proba = multinomialNaiveBayes(initial_priorities, features, labels, test)

cancer_type = "benigno" if int(predict) == 2 else "maligno"
percent = round(float(np.amax(predict_proba, axis=1)) * 100, 2)
print(f"Se predice que la muestra es del tipo {cancer_type} con un {percent}% de certeza")

Se predice que la muestra es del tipo benigno con un 75.15% de certeza
