Version 2020.01.16

----


# Intelligente Systeme - Wahrscheinlichkeiten und das Naive-Bayes-Modell

## 1. Geburtstag

In einem Raum sind $N$ Personen. Wie groß ist die Wahrscheinlichkeit, dass in dem Raum heute niemand Geburtstag hat und (${"}\land{"}$) morgen mindestens eine dieser Personen? 

Schaltjahre bleiben unberücksichtigt. Die Wahrscheinlichkeiten für einen Geburtstag seien für alle Tage konstant. 

(aus Intelligente Systeme Wiederholungsprüfung 2018)

### Lösung

Sei H das Ereignis für heute, M das Ereignis für morgen und D die Anzahl der Tage im Jahr.
(Außerdem soll der 1.1. auf den 31.12. folgen.)

Gesucht ist 
$p(H,M)=p(H|M) \cdot p(M) = p(H) \cdot p(M|H)$

Zur leichteren Berechbarkeit verwenden wir die letzte Variante zur Berechnung von $p(H,M)$ und erhalten:

$\left ( \frac{D-1}{D}\right )^N \cdot \left (1-\left ( \frac{D-2}{D-1}\right )^N \right ) =$
$\left ( \frac{364}{365}\right )^N \cdot \left (1-\left ( \frac{363}{364}\right )^N \right )$


## 2. Geburtstage

Wieviel Personen müssen in einem Raum sein, so dass die Wahrscheinlichkeit, dass (mind.) zwei Personen am gleichen Tag (nicht unbedingt heute) Geburtstag haben

	a) mindestens 0,5 ist?

	b) mindestens 99% beträgt?

Schaltjahre bleiben unberücksichtigt. Die Wahrscheinlichkeiten für einen Geburtstag seien für alle Tage konstant.

### Lösung

$ p(n)=1 - \frac{365}{365} \cdot \frac{365-1}{365} \cdot \frac{365-2}{365} \cdot \cdot\cdot \frac{365-(n-1)}{365} = 1-  \frac{365!}{(365-n)! \cdot 365^n} \to $
(write a program or use e.g. Wolfram)

a) $ = 23 $

b) $ = 57 $ 


In [0]:
import numpy as np

def prob(n):
  nominators = np.arange(365, 365 - n, -1)


  return 1 - np.prod(nominators/365)

# task a: >= 0.5
i = 1
p = prob(i)
while p < 0.5:
  i+=1
  p = prob(i)

print(i, p)

# task b: >= 0.99
while p < 0.99:
  i+=1
  p = prob(i)

print(i, p)


## 3. Würfeln

Es wird mit zwei "ehrlichen" Würfeln gewürfelt. Wenn die beiden gewürfelten Zahlen verschieden sind - wie ist die Wahrscheinlichkeit, dass

	a) ihre Summe 6 ist,

	b) genau eine "1" erscheint,

	c) die Summe 4 oder kleiner ist.

### Lösung
Es gibt insgesamt 30 Tuple $(x_i, y_i)$, für die die beiden Augenzahlen nicht gleich sind ($x_i \neq y_i$)

a) Es gibt 4 Ausgänge: $(1, 5), (2, 4), (4, 2), (5, 1)$
$$ p = \frac{4}{30}= \frac{2}{15}  $$

b) Es gibt 10 Ausgänge: $(1, 2), (1, 3), (1, 4), (1, 5), (1, 6)$ und vertauscht: 
$$ p = \frac{10}{30}=\frac{1}{3}  $$

c) Es gibt 4 Ausgänge: $(1, 2), (1, 3), (2, 1), (3, 1)$:
$$ p = \frac{4}{30}= \frac{2}{15}  $$





## 4. Kinder

Mädchen und Jungen werden zufällig zu mit einer Wahrscheinlichkeit von 50% geboren. 
Wie groß ist die Wahrscheinlichkeit, dass sich Mädchen und Jungen abwechseln, wenn

	a) man 4 Mädchen und 3 Jungen bzw.,

	b) man 3 Mädchen und 3 Jungen hat.

### Lösung

a)  $ \frac{4}{7} \cdot \frac{3}{6} \cdot \frac{3}{5} \cdot \frac{2}{4} \cdot \frac{2}{3} \cdot \frac{1}{2} =  \frac{1}{7 \choose 4} = \frac{1}{35} $

b) $ \frac{3}{5} \cdot \frac{2}{4} \cdot \frac{2}{3} \cdot \frac{1}{2} \cdot \frac{2 \cdot 3}{6} =  \frac{2}{6 \choose 3} = \frac{1}{10} $

## 5. Mensa

Die Wahrscheinlichkeit, dass A das Mensaessen schmeckt ist 0.25 und die Wahrscheinlichkeit, dass B das Mensaessen schmeckt ist 0.4. 
Wie groß ist die Wahrscheinlichkeit, dass wenigsten einem das Mensaessen schmeckt, wenn A und B je einmal essen gehen?


### Lösung

$ p(\bar A, \bar B) = 0.75 \cdot 0.6 = 0.45  \to p(A \vee B) = 1-p(\bar A \wedge \bar B) = 0.55 $



## 6. Drei Münzwürfe

Eine Münze wird dreimal geworfen. 
$X$ sei 0, wenn "Kopf" erscheint, sonst 1 und $Y$ sei die Anzahl der geworfenen "Köpfe". Bestimmen Sie 

	a) die Verteilungen von X und Y,

	b) die Paarverteilung ("joint") von X und Y,

	c) ob X und Y unabhängig sind.

### Lösung

a) $ p(x=(0,1))= (\frac{1}{2},\frac{1}{2}) $,  $ p(y=(0,1,2,3))= (\frac{1}{8},\frac{3}{8},\frac{3}{8},\frac{1}{8}) $

b) 

y\x | 0 | 1
---|----|---
0|0| $ \frac{1}{8} $
1| $ \frac{1}{8} $ | $ \frac{1}{4} $
2| $ \frac{1}{4} $ | $ \frac{1}{8} $
3| $ \frac{1}{8} $ | 0

c) nein: $ p(x=0, y=0) = 0 \neq p(x=0) \cdot p(y=0) $


## 7. Autos klassifizieren – Naive Bayes

Gegeben ist ein Datensatz mit Informationen einer Fahrzeugversicherung. Sie sollen daraus vorhersagen, ob ein Fahrzeug wahrscheinlich gestolen wird oder nicht. Jedes Auto wird beschrieben mit seiner Farbe (red, yellow), seinem Typ (sports , SUV), und seiner Herkunft (domestic, imported).


Id | Colour | Type | Origin | Stolen
--- | --- | --- | --- | ---
1 | red | sports | domestic | yes
2 | red | sports | domestic | no 
3 | red | sports | domestic | yes
4 | yellow | sports | domestic | no
5 | yellow | sports | imported | yes
6 | yellow | SUV | imported | no
7 | yellow | SUV | imported | yes
8 | yellow | SUV | domestic | no
9 | red | SUV | imported | no
10 | red | sports | imported | yes

Wie würden Sie mit Hilfe des Naive Bayes Modells einen "red domestic SUV" klasssifizieren?


### Lösung


a) $ p(x_i | C): $

$ p(red|yes)= \frac{3}{5},p(red|no)= \frac{2}{5}  $,

$ p(SUV|yes)= \frac{1}{5},p(SUV|no)= \frac{3}{5}  $,

$ p(dom|yes)= \frac{2}{5},p(dom|no)= \frac{3}{5}  $

$ p(C): p(yes)=p(no)= \frac{1}{2} $

red, dom, SUV?

wird gestolen:
 $$ p(yes|red, domestic, SUV) \propto p(yes)p(yes|red)p(yes|domestic)p(yes|SUV) = \frac{1}{2} \cdot \frac{3}{5} \cdot \frac{1}{5}  \cdot \frac{2}{5} = \frac{6}{250}  $$,
$$p(no|red, domestic, SUV) \propto p(no)p(no|red)p(no|domestic)p(no|SUV) = \frac{1}{2}\cdot\frac{2}{5} \cdot \frac{3}{5}  \cdot \frac{3}{5} = \frac{18}{250}  $$

$ \to  $ nein!


## 8. Naive Bayes mit numerischen Variablen, Abhängigkeit, Korrelation ###

Eine Zufallsvariable $x_1$ ist gleichverteilt im Intervall $[0,1]$. Eine andere Zufallsvariable $x_2$ ergibt sich aus $x_2=2x_1+1$.

a) Skizzieren Sie die Träger (engl: support) der Verteilungen $p(x_1)$, $p(x_2)$, der Paarverteilung $p(x_1, x_2)$ und der Verteilung, die sich aus der Idee des Naive Bayes Modells für diese Paarverteilung ergibt in ein $(x_1,x_2)$-Diagramm!

Der Support einer Funktion $f: A \mapsto \mathbb{R}$ ist die abgeschlossene Hülle der Nichtnullstellenmenge von $f$, also formal

$$supp(f) = \overline{\{x\in A| f(x) \neq 0\}}$$.

![Verteilungen](https://docs.google.com/uc?id=1F2QD08dvs4ELI4rQFti0kB4rJ2rMcJRL)

b) Wie lautet der Normierungsfaktor für $p(x_2)$ und die letztgenannte ("Naive Bayes") Verteilung? Da alle Verteilungen konstant sind, handelt es sich hier um die "Höhe" der Verteilung über dem Träger.
    
c)* Geben Sie ein Beispiel für eine Verteilung abhängiger (d.h. nicht unabhängiger) Variablen, die unkorreliert sind.
    
d) Welchen Unterschied zur Verteilung im Naive Bayes Modell der Vorlesung bemerken Sie und warum ist dieser für die betrachtete Frage nicht von Bedeutung?
    

### Lösung


Diese Aufgabe soll die Wirkung der im Naive Bayes Modell gemachten Vereinfachung veranschaulichen.

a) ![support solution](https://docs.google.com/uc?id=1VAOXs-Zn-Fdr5LMU3Maff14J6bKm1PH4)

b) $\frac{1}{2}$

c) Eine Kreislinie oder ein "X" - Korrelation und Antikorrelation gleichen sich aus; das Produkt der Marginalen füllt aber das gesamte Rechteck, wenn auch nicht notwendig gleichmäßig.

d) Im Naive Bayes Modell handelt es sich um eine bedingte Verteilung. Hier zwar nicht - man kann sich aber eine beliebige Bedingung dazudenken. Bedingte Verteilungen verhalten sich wie solche ohne Bedingungen (Normierung, Produktzerlegung, ...), d.h. es ändert sich hier nichts, wenn wir $p(x_1, x_2|C)$ betrachten.




## 9. Normierung ###

Markieren Sie alle Ausdrücke, die gleich 1 sind. Die Variablen A und B können **nicht** als unabhängig angenommen werden.


$\bigcirc \hspace{5mm}\sum_a p(A=a| B)$   

$\bigcirc \hspace{5mm}\sum_a\sum_b p(A=a | B=b)$

$\bigcirc \hspace{5mm}\sum_b p(A | B=b)$   

$\bigcirc \hspace{5mm}\sum_a\sum_b p(A=a) p( B=b)$ 

$\bigcirc \hspace{5mm}\sum_a\sum_b p(A=a, B=b)$   

$\bigcirc \hspace{5mm}\sum_a p(A=a) p( B=b)$ 


### Lösung


$\otimes \hspace{5mm}\sum_a p(A=a| B)$  

$\bigcirc \hspace{5mm}\sum_a\sum_b p(A=a | B=b)$

$\bigcirc \hspace{5mm}\sum_b p(A | B=b)$

$\otimes \hspace{5mm}\sum_a\sum_b p(A=a) p( B=b)$ 

$\otimes \hspace{5mm}\sum_a\sum_b p(A=a, B=b)$

$\bigcirc \hspace{5mm}\sum_a p(A=a) p( B=b)$ 

