# Naive Bayes en Scikit Learn

En este _notebook_ vamos a aprender a trabajar con el modelo **Multinomial Naive Bayes** en Scikit Learn.

In [26]:
from sklearn.feature_extraction.text import CountVectorizer
import glob

PATH_MAILS = 'mails-raw/*/*'

mails = []
answers = []

for filename in glob.glob(PATH_MAILS):
    # Checkeamos si es spam o no
    is_spam = 'ham' not in filename
    
    # Ignoramos los posibles errores al abrir un archivo
    with open(filename, errors='ignore') as mail_file:
        for line in mail_file:
            if line.startswith("Subject:"):
                # Hacemos strip desde la izquierda
                subject = line.lstrip("Subject: ")
                mails.append(subject.strip())
                if is_spam:
                    answers.append(1)
                else:
                    answers.append(0)
                break

Ahora vamos a unir el dataset y separarlo en una parte de **entrenamiento** y otra de **prueba**. Luego armamos el vocabulario con la clase `CountVectorizer` sobre el _dataset_ de entrenamiento.

In [27]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(mails, answers)

vect = CountVectorizer()
vect.fit(X_train)

CountVectorizer()

Ahora vectorizamos ambos _datasets_.

In [28]:
X_train_vect = vect.transform(X_train)
X_test_vect = vect.transform(X_test) # Notar que estamos transformando con el fit del dataset de entrenamiento

Ahora instanciamos nuestro modelo, que corresponde a un _Multinomial Naive Bayes_.

In [29]:
from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()

Y lo entrenamos.

Vamos a predecir sobre todo el _dataset_ de prueba.

In [30]:
y_pred_class = nb.predict(X_test_vect)

NotFittedError: This MultinomialNB instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

Y ahora evaluamos su _accuracy_.

In [31]:
from sklearn import metrics

metrics.accuracy_score(y_test, y_pred_class)

0.7575757575757576

Y ahora mostramos la matriz de confusión, que es de la forma:

```
[ TN FP
  FN TP ]
```

In [32]:
metrics.confusion_matrix(y_test, y_pred_class)

array([[607,  87],
       [113,  18]])