<a href="https://colab.research.google.com/github/InSuLaTi0N/Informatik/blob/master/probability_solution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

*Version*: 2021.12.10

----


# Intelligente Systeme - Wahrscheinlichkeiten und das Naive-Bayes-Modell

## 1. Geburtstag

In einem Raum sind $N$ Personen. Wie groß ist die Wahrscheinlichkeit, dass in dem Raum heute niemand und (${"}\land{"}$) morgen mindestens eine dieser Personen Geburtstag hat? 

Schaltjahre werden nicht berücksichtigt. Alle Tage im Jahr seien als Geburtstage gleich wahrscheinlich.

### Lösung

Sei H das Ereignis für heute, M das Ereignis für morgen und D die Anzahl der Tage im Jahr.
(Außerdem soll der 1.1. auf den 31.12. folgen.)

Gesucht ist 
$P(H \land M)=P(H|M) \cdot P(M) = P(H) \cdot P(M|H)$

Zur leichteren Berechenbarkeit verwenden wir die letzte Variante zur Berechnung von $P(H \land M)$ und erhalten:

$\left ( \frac{D-1}{D}\right )^N \cdot \left (1-\left ( \frac{D-2}{D-1}\right )^N \right ) =$
$\left ( \frac{364}{365}\right )^N \cdot \left (1-\left ( \frac{363}{364}\right )^N \right )$


## 2. Geburtstage

Wie viele Personen müssen in einem Raum sein, sodass die Wahrscheinlichkeit, dass mindestens zwei Personen am gleichen Tag (nicht unbedingt heute) Geburtstag haben,


a) mindestens 50% beträgt?

b) mindestens 99% beträgt?


Schaltjahre werden nicht berücksichtigt. Alle Tage im Jahr seien als Geburtstage gleich wahrscheinlich.

### Lösung
Die Wahrscheinlichkeit, dass bei N Personen in einem Raum mindestens zwei Personen am gleichen Tag Geburtstag haben, erhalten wir, indem wir die Wahrscheinlichkeit berechnen, dass alle N Personen an unterschiedlichen Tagen Geburtstag haben, und diese Wahrscheinlichkeit von 1 abziehen.

$ p(n)=1 - \frac{365}{365} \cdot \frac{365-1}{365} \cdot \frac{365-2}{365} \cdot \cdot\cdot \frac{365-(n-1)}{365} = 1-  \frac{365!}{(365-n)! \cdot 365^n}$

Die Lösung können wir mithilfe eines einfachen Skripts ermitteln (siehe unten).

a) = 23

b) = 57


In [None]:
import numpy as np

def prob(n):
  nominators = np.arange(365, 365 - n, -1)
  return 1 - np.prod(nominators/365)

# task 1: >= 0.5
i = 1
p = prob(i)
while p < 0.5:
  i+=1
  p = prob(i)

print("Aufgabe 2a: >= 50%")
print("Anzahl Personen: {}".format(i))
print("Wahrscheinlichkeit: {}".format(round(p, 2)))

# task 2: >= 0.99
while p < 0.99:
  i+=1
  p = prob(i)

print("\nAufgabe 2b: >= 99%")
print("Anzahl Personen: {}".format(i))
print("Wahrscheinlichkeit: {}".format(round(p, 2)))


## 3. Würfeln

Es wird mit zwei "ehrlichen" Würfeln gewürfelt. Wenn die beiden gewürfelten Zahlen verschieden sind, wie ist die Wahrscheinlichkeit, dass

a) ihre Summe 6 ist,

b) genau eine "1" erscheint,

c) die Summe 4 oder kleiner ist.

### Lösung
Gesucht sind die bedingten Wahrscheinlichkeiten $P(A|X)$, $P(B|X)$ und $P(C|X)$, wobei X das Ereignis ist, dass die Zahlen unterschiedlich sind.

Es gibt beim Würfeln mit zwei Würfeln insgesamt 36 mögliche Augenzahlkombinationen. Dabei sind für 30 Kombinationen $(x_i, y_i)$ die beiden Augenzahlen nicht gleich ($x_i \neq y_i$). Demnach ist die Wahrscheinlichkeit P(X)=30/36.

a) Gesucht ist $P(A|X)=\frac{P(A \land X)}{P(X)}$, wobei A das Ergeignis ist, dass die Summe der Augenzahlen 6 ist. Es gibt 4 Ausgänge für ($A \land X$): $(1, 5), (2, 4), (4, 2), (5, 1)$. Daraus ergibt sich:
$$ P(A|X) = \frac{\frac{4}{36}}{\frac{30}{36}} = \frac{4}{30}= \frac{2}{15}  $$

b) Gesucht ist $P(B|X)=\frac{P(B \land X)}{P(X)}$, wobei B das Ergeignis ist, dass genau eine "1" erscheint. Es gibt 10 Ausgänge für ($B \land X$): $(1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (3,1), (4,1), (5,1), (6,1)$. Daraus ergibt sich: 
$$ P(B|X) = \frac{\frac{10}{36}}{\frac{30}{36}} = \frac{10}{30}=\frac{1}{3}  $$

c) Gesucht ist $P(A|X)=\frac{P(C \land X)}{P(X)}$, wobei C das Ergeignis ist, dass die Summe 4 oder kleiner ist. Es gibt 4 Ausgänge für ($C \land X$): $(1, 2), (1, 3), (2, 1), (3, 1)$. Daraus ergibt sich:
$$ P(C|X) = \frac{\frac{4}{36}}{\frac{30}{36}} = \frac{4}{30}= \frac{2}{15}  $$




## 4. Kinder

Die Wahrscheinlichkeit, dass ein Mädchen oder ein Junge geboren wird, sei jeweils 50%. 
Wie groß ist die Wahrscheinlichkeit, dass abwechselnd Junge und Mädchen geboren werden, wenn

a) 4 Mädchen und 3 Jungen bzw.

b) 3 Mädchen und 3 Jungen geboren werden

### Lösung

a)  $ \frac{4}{7} \cdot \frac{3}{6} \cdot \frac{3}{5} \cdot \frac{2}{4} \cdot \frac{2}{3} \cdot \frac{1}{2} \cdot \frac{1}{1} =  \frac{1}{7 \choose 4} = \frac{1}{35} $

b) $ \frac{3}{6} \cdot \frac{3}{5} \cdot \frac{2}{4} \cdot \frac{2}{3} \cdot \frac{1}{2} \cdot \frac{1}{1} \cdot 2 =  \frac{2}{6 \choose 3} = \frac{1}{10} $

## 5. Mensa

Die Wahrscheinlichkeit, dass A das Mensaessen schmeckt ist 0,25 und die Wahrscheinlichkeit, dass B das Mensaessen schmeckt ist 0,4. 
Wie groß ist die Wahrscheinlichkeit, dass wenigsten einem das Mensaessen schmeckt, wenn A und B je einmal essen gehen?


### Lösung

$ P(A \lor B) = P(A) + P(B) - P(A \land B) = P(A) + P(B) - P(A) \cdot P(B)$

$ P(A \lor B) = 0,25 + 0,4 - 0,25 \cdot 0,4 = 0,55$

Alternativer Lösungsweg:

$ P(\bar A \land \bar B) = 0,75 \cdot 0,6 = 0,45$ 

$\to P(A \lor B) = 1-P(\bar A \land \bar B) = 0,55 $


## 6. Autos klassifizieren – Naive Bayes

Gegeben ist ein Datensatz mit Informationen einer Fahrzeugversicherung. Jedes Auto wird beschrieben mit seiner Farbe (red, yellow), seinem Typ (sports , SUV), und seiner Herkunft (domestic, imported). Wir nehmen an, dass diese Eigenschaften unabhängig voneinander sind.


Id | Colour | Type | Origin | Stolen
--- | --- | --- | --- | ---
1 | red | sports | domestic | yes
2 | red | sports | domestic | no 
3 | red | sports | domestic | yes
4 | yellow | sports | domestic | no
5 | yellow | sports | imported | yes
6 | yellow | SUV | imported | no
7 | yellow | SUV | imported | yes
8 | yellow | SUV | domestic | no
9 | red | SUV | imported | no
10 | red | sports | imported | yes

Sagen Sie basierend auf den Daten mit Hilfe des Naive Bayes Modells voraus, ob ein "red domestic SUV" wahrscheinlich gestohlen wird oder nicht.


### Lösung

Um vorherzusagen, ob ein "red domestic SUV" Fahrzeug wahrscheinlich gestohlen wird, werden die Wahrscheinlichkeiten, dass es gestohlen wird und dass es nicht gestohlen wird, berechnet. Dabei ist es kein Problem, dass in unseren Trainingsdaten kein red domestic SUV vorkommt, denn das Teilen durch P(red, domestic, SUV) kann weggelassen werden, da es in beiden Wahrscheinlichkeiten vorkommt und für den Vergleich nicht relevant ist.

$$ P(stolen? | \text{red, domestic, SUV}) = \frac{P(\text{red, domestic, SUV} | stolen?) \cdot P(stolen?)}{P(\text{red, domestic, SUV})}$$

$$\to P(\text{red, domestic, SUV}) \text{ konstant/unabhängig von stolen=yes oder stolen=no}$$

Außerdem gilt aufgrund der Annahme, dass Farbe, Typ und Herkunft unabhängig sind:

$$ P(\text{red, domestic, SUV} | stolen?) = P(\text{red} | stolen?) \cdot P(\text{domestic} | stolen?) \cdot P(\text{SUV} | stolen?)$$

Damit ergibt sich:

1.   Wahrscheinlichkeit, dass das Fahrzeug gestohlen wird:

> P(stolen=yes | red, domestic, SUV) $∝$ P(red | stolen=yes) $\cdot$ P(domestic | stolen=yes) $\cdot$ P(SUV | stolen=yes) $\cdot$ P(stolen=yes)

> P(stolen=yes | red, domestic, SUV) $ ∝ \frac{3}{5} \cdot \frac{2}{5} \cdot \frac{1}{5} \cdot \frac{1}{2} = \frac{6}{250}$

2.   Wahrscheinlichkeit, dass das Fahrzeug nicht gestohlen wird:

> P(stolen=no | red, domestic, SUV) $∝$ P(red | stolen=no) $\cdot$ P(domestic | stolen=no) $\cdot$ P(SUV | stolen=no) $\cdot$ P(stolen=no)

> P(stolen=no | red, domestic, SUV) $ ∝ \frac{2}{5} \cdot \frac{3}{5} \cdot \frac{3}{5} \cdot \frac{1}{2} = \frac{18}{250}$




$\to$ P(stolen=no | red, domestic, SUV) $>$ P(stolen=yes | red, domestic, SUV)

Das "red domestic SUV" Fahrzeug wird wahrscheinlich nicht gestohlen.


## 7. Spamfilter

Der untenstehende Code implementiert einen einfachen Spamfilter, der auf Naive Bayes basiert. Füllen Sie die Lücken im Code und wenden Sie den Spamfilter auf den SMS Spam Datensatz an.

In [None]:
# SMS Spam Datensatz
!wget https://cloudstore.zih.tu-dresden.de/index.php/s/33N8STmyGMLi4NE/download -O sms_spam.txt

### Lösung

In [None]:
from collections import defaultdict
from tabulate import tabulate
import random

data = [line.split("\t") for line in open("sms_spam.txt")]
# random.shuffle(data)  # Daten mischen.
upto = int(len(data)*0.8)
training_data, test_data = data[:upto], data[upto:]

labels = [label for label, msg in training_data]
n_ham = labels.count("ham")
n_spam = labels.count("spam")
p_ham = float(n_ham)/len(labels)
p_spam = float(n_spam)/len(labels)

def msg2words(msg):
  return set(msg.split())

ham, spam = defaultdict(int), defaultdict(int)
for label, msg in training_data:
  for word in msg2words(msg):
    if label == "ham":
      ham[word] += 1
    else:
      spam[word] += 1

n_voc = len(set(list(ham.keys()) + list(spam.keys())))

def predict(msg):
  p_msg_ham = 1.0
  p_msg_spam = 1.0
  for word in msg2words(msg):
    # Berechnung der Wahrscheinlichkeiten inklusive Laplace smoothing
    p_msg_ham *= (ham[word] + 1) / (n_ham + n_voc)
    p_msg_spam *= (spam[word] + 1) / (n_spam + n_voc)
  if p_msg_ham * p_ham >= p_msg_spam * p_spam:
    return "ham"
  return "spam"

tp, fp, tn, fn = 0.0, 0.0, 0.0, 0.0
for label, msg in test_data:
  predicted = predict(msg)
  if label == "spam" and predicted == "spam":
    tp += 1
  elif label == "ham" and predicted == "spam":
    fp += 1
  elif label == "ham" and predicted == "ham":
    tn += 1
  elif label == "spam" and predicted == "ham":
    fn += 1
precision = tp/(tp+fp)
recall = tp/(tp+fn)
accuracy = (tp+tn)/(tp+fp+tn+fn)

print("There are {} ({}%) ham and {} ({}%) spam SMS.".format(n_ham, round(p_ham*100, 1), n_spam, round(p_spam*100, 1)))
print("Precision is {}, recall {}, and accuracy {}".format(round(precision, 2), round(recall, 2), round(accuracy, 2)))