# Einführung Statistiklabor

## 3. Übung - Diskrete Wahrscheinlichkeitsverteilung (Hypergeometrische, Binomial- & Poissonverteilung)

### 3.1 Hypergeometrische Verteilung

Sie erhalten eine Lieferung von $50$ elektronischen Bauteilen. Daraus entnehmen Sie eine
Stichprobe von $20$ Bauteilen und testen diese $20$ Bauteile auf Funktionsfähigkeit. Die
Zufallsvariable $X$ gebe die Anzahl der defekten Bauteile unter den $20$ Bauteilen der
Stichprobe an. 

Angenommen, in der Lieferung sind $5$ defekte elektronische Bauteile. Unter
diesen Annahmen folgt $X$ einer so genannten hypergeometrischen Verteilung
$X\sim H(n=20; N=50; m=5)$.

In [1]:
from scipy.stats import hypergeom
[n, N, m]  = [20, 50, 5]  
dist_hyper = hypergeom(N, m, n) # Grundgesamtheit N, Defekte Bauteile m, Stichprobe n
#      hypergeom(50,5, 20)

a) Berechnung der Wahrscheinlichkeit, dass **kein** defektes Bauteil in der Stichprobe ist:
$P(X=0)$

In [2]:
# pmf: probability mass function; Dichtefunktion bzw. Wahrscheinlichkeitsverteilung
dist_hyper.pmf(0)  

0.06725915157922518

In [3]:
print('Wahrscheinlichkeit, dass kein Bauteil der Stichprobe defekt ist: P(X=0) = %.2f' % (dist_hyper.pmf(0)*100), '%')

Wahrscheinlichkeit, dass kein Bauteil der Stichprobe defekt ist: P(X=0) = 6.73 %


b1) ..., dass **genau 1** defektes Bauteil in der Stichprobe ist:
$P(X=1)$

In [4]:
print('P(X=1) = %.4f' % dist_hyper.pmf(1))

P(X=1) = 0.2587


b2) ..., dass **genau 2** Bauteile defekt sind:
$P(X=2)$

In [5]:
print('P(X=2) = %.4f' % dist_hyper.pmf(2))

P(X=2) = 0.3641


b3) ..., dass **genau 3** Bauteile defekt sind:
$P(X=3)$

In [6]:
print('P(X=3) = %.4f' % dist_hyper.pmf(3))

P(X=3) = 0.2341


c) ..., dass **höchstens 3** defekte Bauteile in der Stichprobe sind:
$P(X\leq 3)$

In [7]:
print('Wahrscheinlichkeit, dass höchstens 3 defekte Bauteile in der Stichprobe sind: P(X<=3) = %.4f' 
      % (dist_hyper.pmf(0)+dist_hyper.pmf(1)+dist_hyper.pmf(2)+dist_hyper.pmf(3)))

Wahrscheinlichkeit, dass höchstens 3 defekte Bauteile in der Stichprobe sind: P(X<=3) = 0.9241


In [8]:
print('P(X<=3) = %.4f' % dist_hyper.cdf(3))

P(X<=3) = 0.9241


*Zusatz: ..., dass **höchstens 5** defekte Bauteile in der Stichprobe sind:*
$P(X\leq5)$

In [9]:
print('P(X<=5) = %.4f' % dist_hyper.cdf(5))

P(X<=5) = 1.0000


In [10]:
# Alternative: Berechnung über for Schleife
wahr = 0 
for k in range(6):   # Wichtig: range(4) geht von 0 bis 3 (nicht 4)
    wahr += dist_hyper.pmf(k)
print('P(X<=5) = %.4f' % wahr)

P(X<=5) = 1.0000


In [11]:
# ALternative: Berechnung über array als Input
x = range(6)

print('P(X<=5) = %.4f' % dist_hyper.pmf(x).sum())

P(X<=5) = 1.0000


### 3.2 Binomialverteilung

Bei der Massenproduktion bestimmter elektronischer Kleinteile entsteht eine Ausschussquote von
$10\,\%$. Sie entnehmen der laufenden Produktion eine Stichprobe vom Umfang $20$. Man kann davon
ausgehen, dass hierbei verschiedene Stichprobenteile unabhängig voneinander defekt sind. 

Die Zufallsvariable $X$ gebe die Anzahl der defekten Kleinteile unter diesen $20$ Teilen an. Unter den
genannten Annahmen folgt $X$ einer so genannten Binomialverteilung $X\sim B(n=20; p=0.1)$. 

In [12]:
from scipy.stats import binom

[n, p]   = [20, 0.1]
dist_bin = binom(n, p)

a) Berechnung der Wahrscheinlichkeit, dass **genau 3** defekte Kleinteile in Stichprobe sind: 
$P(X=3)$

In [13]:
print('P(X=3) = %.2f' % (dist_bin.pmf(3)*100), '%')

P(X=3) = 19.01 %


b) ..., dass **höchstens 3** defekte Kleinteile in Stichprobe sind:
$P(X\leq3)$

In [14]:
print('P(X<=3) = %1.4f' % dist_bin.cdf(3))

P(X<=3) = 0.8670


c) ..., dass **mindestens 3** Bauteile defekt sind:
$P(X\geq3)$

In [15]:
print('Wahrscheinlichkeit, dass mind. 3 Bauteile defekt sind: P(X>=3)=%.2f'
     % ((1-dist_bin.cdf(2))*100), '%')

Wahrscheinlichkeit, dass mind. 3 Bauteile defekt sind: P(X>=3)=32.31 %


d) Berechnung des ***Erwartungswerts/ Standardabweichung/ Varianz*** der Zufallsvariablen $X$:

In [16]:
print('Erwartungswert: ' + str(dist_bin.mean())) # Erwartungswert*0.1 = 2
print('Standardabweichung: %.4f' % dist_bin.std())  # Standardabweichung
print('Varianz: %.4f' % dist_bin.var())  # Varianz der Zufallsvariable

Erwartungswert: 2.0
Standardabweichung: 1.3416
Varianz: 1.8000


### 3.3 Poissonverteilung (auch engl. 'Counting Funktion')
Bei der Produktion einer bestimmten Textilart entstehen zufallsbedingt Webfehler. Im Mittel sind es $2$ Webfehler auf $1 m^2$. 

Sie entnehmen zufällig ein Textilstück von $1 m^2$ und zählen, wie viele Webfehler auf diesem Stück sind. Die Zufallsvariable $X$ gebe die Anzahl festgestellter Webfehler an. 

Unter den genannten Annahmen folgt $X$ einer so genannten Poissonverteilung $X\sim P(2)$, dabei ist $\lambda = 2$ der Erwartungswert von $X$ (mittlere, d. h. erwartete Anzahl von Fehlern).

In [17]:
from scipy.stats import poisson

labda    = 2 
dist_poi = poisson(labda)
#dist_poi = poisson(2)

a) Berechnung der Wahrscheinlichkeit, dass **genau 3** Webfehler auf einem Textilstück sind:
$P(X=3)$

In [18]:
print('P(X=3)=%.4f' % dist_poi.pmf(3))

P(X=3)=0.1804


b) .., dass **höchstens 3** Webfehler auf einem Textilstück sind:
$P(X\leq3)$

In [19]:
print('P(X<=3)=%.4f' % dist_poi.cdf(3))

P(X<=3)=0.8571


c) ..., dass **mindestens 3** Webfehler auf einem Textilstück sind:
$P(X\geq3)$

In [20]:
print('P(X>=3)=%.4f' % (1-dist_poi.cdf(2)))

P(X>=3)=0.3233


*Zusatz: ..., dass **mindestens 2 und höchstens 5** Webfehler auf einem Textilstück sind:*
$P(2\leq X\leq 5)$

In [21]:
dist_poi.cdf(5)-dist_poi.cdf(1)

0.5774305418095476