# Multinomial Naive Bayes 

## Imports

In [67]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

## Datengrundlage

In [150]:
messages = ["Das Meeting ist verschoben.",
            "Die Präsentation lief gut",
            "Nach der Präsentation wollen wir Mittagessen und die  Präsentation besprechen",
            "Kannst du die Präsentation für Montag auch Sonntag erstellen?",
            "Zeit für ein kurzes Meeting?",
            "Lust auf Mittagessen am Sonntag?",
            "Gehst du mit mir am Sonntag spazieren? Sonntag soll schönes Wetter werden.",
            "Kann ich dir meine Präsentation für die Schule zeigen?"]
business_mail = [1,1,1,1,1,0,0,0]

In [152]:
vectorizer = CountVectorizer()
data = pd.DataFrame(vectorizer.fit_transform(messages).todense(),columns=vectorizer.get_feature_names())[["mittagessen","meeting","präsentation", "sonntag"]]
data["business"] = business_mail
data

Unnamed: 0,mittagessen,meeting,präsentation,sonntag,business
0,0,1,0,0,1
1,0,0,1,0,1
2,1,0,2,0,1
3,0,0,1,1,1
4,0,1,0,0,1
5,1,0,0,1,0
6,0,0,0,2,0
7,0,0,1,0,0


## Multinomial Naive Bayes

### Wahrscheinlichkeiten

In [154]:
likelihood_business = data.loc[data["business"]==1].shape[0]/data.shape[0]
likelihood_privat = data.loc[data["business"]==0].shape[0]/data.shape[0]
print("Wahrscheinlichkei Business Mail: {}".format(likelihood_business))
print("Wahrscheinlichkei Privat Mail: {}".format(likelihood_privat))

Wahrscheinlichkei Business Mail: 0.625
Wahrscheinlichkei Privat Mail: 0.375


In [167]:
business_mails = data.loc[(data["business"]==1)][["mittagessen","meeting","präsentation","sonntag"]]
privat_mails = data.loc[(data["business"]==0)][["mittagessen","meeting","präsentation","sonntag"]]

In [165]:
likelihood_business_mittagessen = business_mails["mittagessen"].sum()/business_mails.sum().sum()
likelihood_business_meeting = business_mails["meeting"].sum()/business_mails.sum().sum()
likelihood_business_praesentation = business_mails["präsentation"].sum()/business_mails.sum().sum()
likelihood_business_sonntag = business_mails["sonntag"].sum()/business_mails.sum().sum()

print("Wahrscheinlichkeit 'Mittagessen' in Business Mails: {}".format(likelihood_business_mittagessen))
print("Wahrscheinlichkeit 'Meeting' in Business Mails: {}".format(likelihood_business_meeting))
print("Wahrscheinlichkeit 'Präsentation' in Business Mails: {}".format(likelihood_business_praesentation))
print("Wahrscheinlichkeit 'Sonntag' in Business Mails: {}".format(likelihood_business_sonntag))

Wahrscheinlichkeit 'Mittagessen' in Business Mails: 0.125
Wahrscheinlichkeit 'Meeting' in Business Mails: 0.25
Wahrscheinlichkeit 'Präsentation' in Business Mails: 0.5
Wahrscheinlichkeit 'Sonntag' in Business Mails: 0.125


In [168]:
likelihood_privat_mittagessen = privat_mails["mittagessen"].sum()/privat_mails.sum().sum()
likelihood_privat_meeting = privat_mails["meeting"].sum()/privat_mails.sum().sum()
likelihood_privat_praesentation = privat_mails["präsentation"].sum()/privat_mails.sum().sum()
likelihood_privat_sonntag = privat_mails["sonntag"].sum()/privat_mails.sum().sum()

print("Wahrscheinlichkeit 'Mittagessen' in Privat Mails: {:.2f}".format(likelihood_privat_mittagessen))
print("Wahrscheinlichkeit 'Meeting' in Privat Mails: {:.2f}".format(likelihood_privat_meeting))
print("Wahrscheinlichkeit 'Präsentation' in Privat Mails: {:.2f}".format(likelihood_privat_praesentation))
print("Wahrscheinlichkeit 'Sonntag' in Privat Mails: {:.2f}".format(likelihood_privat_sonntag))

Wahrscheinlichkeit 'Mittagessen' in Privat Mails: 0.20
Wahrscheinlichkeit 'Meeting' in Privat Mails: 0.00
Wahrscheinlichkeit 'Präsentation' in Privat Mails: 0.20
Wahrscheinlichkeit 'Sonntag' in Privat Mails: 0.60


## Neue Instanz

In [177]:
neue_mail = pd.DataFrame([[0,1,0,1]],columns=[["mittagessen","meeting","präsentation", "sonntag"]])
neue_mail

Unnamed: 0,mittagessen,meeting,präsentation,sonntag
0,0,1,0,1


## Wahrscheinlichkeit für Business und Privat errechnen

In [178]:
business_prediction = likelihood_business*likelihood_business_meeting*likelihood_business_sonntag
privat_prediction = likelihood_privat*likelihood_privat_meeting*likelihood_privat_sonntag

print("Wahrscheinlichkeit einer Business Mail: {:.3f}".format(business_prediction))
print("Wahrscheinlichkeit privaten Mail: {:.23}".format(privat_prediction))

Wahrscheinlichkeit einer Business Mail: 0.020
Wahrscheinlichkeit privaten Mail: 0.0


## Additiver Smoothing Parmaeter

In [179]:
business_mails_additive = data.loc[(data["business"]==1)][["mittagessen","meeting","präsentation","sonntag"]]+1
privat_mails_additive = data.loc[(data["business"]==0)][["mittagessen","meeting","präsentation","sonntag"]]+1

In [180]:
likelihood_business_mittagessen_additive = business_mails_additive["mittagessen"].sum()/business_mails_additive.sum().sum()
likelihood_business_meeting_additive = business_mails_additive["meeting"].sum()/business_mails_additive.sum().sum()
likelihood_business_praesentation_additive = business_mails_additive["präsentation"].sum()/business_mails_additive.sum().sum()
likelihood_business_sonntag_additive = business_mails_additive["sonntag"].sum()/business_mails_additive.sum().sum()

print("Wahrscheinlichkeit 'Mittagessen' in Business Mails: {:.2f}".format(likelihood_business_mittagessen_additive))
print("Wahrscheinlichkeit 'Meeting' in Business Mails: {:.2f}".format(likelihood_business_meeting_additive))
print("Wahrscheinlichkeit 'Präsentation' in Business Mails: {:.2f}".format(likelihood_business_praesentation_additive))
print("Wahrscheinlichkeit 'Sonntag' in Business Mails: {:.2f}".format(likelihood_business_sonntag_additive))

Wahrscheinlichkeit 'Mittagessen' in Business Mails: 0.21
Wahrscheinlichkeit 'Meeting' in Business Mails: 0.25
Wahrscheinlichkeit 'Präsentation' in Business Mails: 0.32
Wahrscheinlichkeit 'Sonntag' in Business Mails: 0.21


In [181]:
likelihood_privat_mittagessen_additive = privat_mails_additive["mittagessen"].sum()/privat_mails_additive.sum().sum()
likelihood_privat_meeting_additive = privat_mails_additive["meeting"].sum()/privat_mails_additive.sum().sum()
likelihood_privat_praesentation_additive = privat_mails_additive["präsentation"].sum()/privat_mails_additive.sum().sum()
likelihood_privat_sonntag_additive = privat_mails_additive["sonntag"].sum()/privat_mails_additive.sum().sum()

print("Wahrscheinlichkeit 'Mittagessen' in Privat Mails: {:.2f}".format(likelihood_privat_mittagessen_additive))
print("Wahrscheinlichkeit 'Meeting' in Privat Mails: {:.2f}".format(likelihood_privat_meeting_additive))
print("Wahrscheinlichkeit 'Präsentation' in Privat Mails: {:.2f}".format(likelihood_privat_praesentation_additive))
print("Wahrscheinlichkeit 'Sonntag' in Privat Mails: {:.2f}".format(likelihood_privat_sonntag_additive))

Wahrscheinlichkeit 'Mittagessen' in Privat Mails: 0.24
Wahrscheinlichkeit 'Meeting' in Privat Mails: 0.18
Wahrscheinlichkeit 'Präsentation' in Privat Mails: 0.24
Wahrscheinlichkeit 'Sonntag' in Privat Mails: 0.35


In [190]:
business_prediction_additive = likelihood_business*likelihood_business_meeting_additive*likelihood_business_sonntag_additive
privat_prediction_additive = likelihood_privat*likelihood_privat_meeting_additive*likelihood_privat_sonntag_additive

print("Wahrscheinlichkeit einer Business Mail: {:}".format(business_prediction_additive))
print("Wahrscheinlichkeit privaten Mail: {}".format(privat_prediction_additive))

Wahrscheinlichkeit einer Business Mail: 0.033482142857142856
Wahrscheinlichkeit privaten Mail: 0.023356401384083045
