# Diskrete Verteilung

In [17]:
import numpy as np
import pandas as pd
import math

## Binomialverteilung
<ul>
    <li>Für Auswahlprobleme in diskreten Wahrscheinlichkeitsräumen</li>
    <li>Binomialverteilung für WK mit Zurücklegen</li> 
</ul>

In [18]:
def binomial(n,k):
    assert(k >=0);
    assert(n >= k)
    nominator = 1
    denominator = 1
    for i in range(k):
        nominator *= n - i
        denominator *= k - i
    return nominator / denominator

binomial(7,2)

21.0

In [206]:
def binDistribution(n,k,mu):
    return binomial(n,k)*pow(mu,k)*pow((1-mu),(n-k))

In [207]:
def probLP(desired_outcome, possible_outcome):
    return np.round(desired_outcome / possible_outcome, 4)

In [208]:
# Glücksrad
# mu = 1/9
# n = 7
# k = 2
binDistribution(7,2,1/9)

0.1438704704128335

In [209]:
# Glücksrad
# mu = 1/9
# n = 7
# k = 2
# anzahl der günstigen erreignisse = 4
# anzahl der möglichen erreignisse = 9
binDistribution(7,2,probLP(4,9))

0.21957282050043303

In [210]:
# expected value
def binExpectedValue(n, mu):
    return n * mu

In [211]:
# variance
def binVariance(n, mu):
    return n*m*(1-mu)

In [212]:
# n = 6
# E(x) = 2
# Var(x) = 4/3
# k = 2
# mu = 1/3
binDistribution(6,2,1/3)

0.3292181069958849

## Hypergeometrische Verteilung

In [213]:
# N .... Grundgesamtheit / Universe
# n .... Stichprobengrösse
# s .... Anzahl der Erfolge Grundgesamtheit
# x .... Anzahl der Erfolge in der Stichprobe

def hypDistribution(N,n,s,x):
    return np.round( ( binomial(s,x) * binomial((N-s),(n-x)) ) / binomial(N,n), 4)

<b>Bsp:</b><br>14 Personen haben sich beworben. 5 haben bereits im Kommitee gearbeitet, 9 noch nicht. Es werden 5 Mitglieder zufällig ausgewählt. Wie hoch ist die Wahrscheinlichkeit, dass genau 3 erfahrene Mitarbeiter in dem Komitee arbeiten werden

In [214]:
# Grundgesamtheit N besteht aus den 14 Bewerbern
# Stichprobe ist n ist gleich 5
# Anzahl der Erfolge aus der Stichprobe ist gleich 3
# Anzhal der Erfogle aus der Grundgesamtheit ist gleich 5

print('Die Wahrscheinlichkeit, dass genau drei erfahrene Mitarbeiter im Komitee arbeiten werden ist {}'.format(hypDistribution(14,5,5,3)))

Die Wahrscheinlichkeit, dass genau drei erfahrene Mitarbeiter im Komitee arbeiten werden ist 0.1798


<b>Bsp:</b><br>
2% der Angestellten eines Unternehmens leiden unter Depressionen. Berechnen Sie die Wahrscheinlichkeit, dass unter 100 zufällig ausgewählten Mitarbeitern mindestens 3 unnter Depressionen leiden.

In [215]:
# Berechnung mittels Binomialverteilung
# N ... ist unknown
# n ... 100
# pi ... 2%
# k ... 3

In [216]:
binDistribution(100,2,0.02)
tmp = 0
for i in range(3):
    tmp += binDistribution(100,i,0.02)
result_bin = 1 - tmp
print('Die Wahrscheinlichkeit, dass aus 100 zufälligen Mitarbeitern 3 an Depressionen leiden ist {}'.format(np.round(result_bin,4)))

Die Wahrscheinlichkeit, dass aus 100 zufälligen Mitarbeitern 3 an Depressionen leiden ist 0.3233


## Poissonverteilung

<b>Wann findet die Poissonverteilung Anwendung?</b><br>
Wenn die Stichprobengrösse n und die Eintrittswahrscheinlichkeit unbekannt sind. Wir allerdings davon ausgehen können, dass die Eintrittswahrscheinlichkeit innerhalb einer Zeitspanne sehr klein ist und, dass n gross ist.

In [217]:
# lambda = expected value = varianz = constant value

In [218]:
def faculty(n):
    if n == 0: # 0! = 0
        return 1
    else:
        fac = 1 # 1! = 1
        for i in range(n):
            fac *= n - i
    return fac

In [219]:
# lmbda = expected value = variance
def poissonLambda(n,mu):
    return n * mu

In [220]:
faculty(2)

2

In [221]:
def poissonDistribution(lmbda, x):
    return (pow(lmbda,x)*np.exp(-lmbda))/faculty(x)
def poissonDistTable(lmbda,x):
    for i in range(x):
        print(np.round(poissonDistribution(lmbda,i),4))
poissonDistTable(0.4,6)

0.6703
0.2681
0.0536
0.0072
0.0007
0.0001


In [222]:
# wann wird die poissonverteilung angewandt
# dann, wenn n und die wk nicht einzeln bekannt sind, sondern lediglich nur der mittelwert
# anwendung für wk kleiner als < 0.05
poissonDistribution(1.25,2)

0.2238318725470235

<b>Bsp:</b><br>
Wie hoch ist die WK, dass aus 100 zufälligen Mitarbeitern mind. 3 an Depressionen leiden, wenn im Durchschnitt 2% der Angestellten unter einer Depression leiden. Berechne die WK mittels der Poissonverteilung.

In [223]:
lmbda = poissonLambda(100,0.02)
x = 3
tmp_2 = 0
a = poissonDistribution(lmbda,0)
b = poissonDistribution(lmbda,1)
c = poissonDistribution(lmbda,2)
result_p = 1 - a - b - c
result_p

0.3233235838169365

In [224]:
# 1) Berechnung des Erwartungswerts ist lambda = n * mu
# 2) Berechnung der WK mittels Poissonverteilung
poissonDistribution(poissonLambda(100,0.02),2)

vergleich = pd.DataFrame({
    "Binomialverteilung":result_bin,
    "Poissionverteilung":result_p,
    "Absolute Abweichung": result_bin - result_p
}, index=[1])
vergleich

Unnamed: 0,Binomialverteilung,Poissionverteilung,Absolute Abweichung
1,0.323314,0.323324,-9e-06


In [121]:
# Portfolio
# N = 1000 ... Anzahl der Kredite in einem Portfolio
# unabhängige Ausfallwahrscheinlichkeit von 1% (WK Unabhängig)
# N = n = 1000
# Ausfallwahrscheinlichkeit von x Ausfällen modellieren
values_for_poisson = []
lmbda = poissonLambda(1000,0.01) # = 10
x = 20
for i in range(1,x+1):
    values_for_poisson.append(poissonDistribution(lmbda,i))
    print('{} : {:.8f}'.format(i, poissonDistribution(lmbda,i)))
np_values_for_poisson = np.array(values_for_poisson)

1 : 0.00045400
2 : 0.00227000
3 : 0.00756665
4 : 0.01891664
5 : 0.03783327
6 : 0.06305546
7 : 0.09007923
8 : 0.11259903
9 : 0.12511004
10 : 0.12511004
11 : 0.11373640
12 : 0.09478033
13 : 0.07290795
14 : 0.05207710
15 : 0.03471807
16 : 0.02169879
17 : 0.01276400
18 : 0.00709111
19 : 0.00373216
20 : 0.00186608


In [65]:
values_for_bin = []
for i in range(1,x+1):
    values_for_bin.append(binDistribution(1000,i,0.01))
    print('{} : {:.8f}'.format(i, binDistribution(1000,i,0.01)))
np_values_for_bin = np.array(values_for_bin)
np_values_for_bin

1 : 0.00040000
2 : 0.00220000
3 : 0.00740000
4 : 0.01860000
5 : 0.03750000
6 : 0.06270000
7 : 0.09000000
8 : 0.11280000
9 : 0.12560000
10 : 0.12570000
11 : 0.11430000
12 : 0.09520000
13 : 0.07310000
14 : 0.05200000
15 : 0.03450000
16 : 0.02150000
17 : 0.01260000
18 : 0.00690000
19 : 0.00360000
20 : 0.00180000


array([0.0004, 0.0022, 0.0074, 0.0186, 0.0375, 0.0627, 0.09  , 0.1128,
       0.1256, 0.1257, 0.1143, 0.0952, 0.0731, 0.052 , 0.0345, 0.0215,
       0.0126, 0.0069, 0.0036, 0.0018])

In [66]:
values_poisson = pd.Series(np_values_for_poisson)
values_poisson

0     0.000454
1     0.002270
2     0.007567
3     0.018917
4     0.037833
5     0.063055
6     0.090079
7     0.112599
8     0.125110
9     0.125110
10    0.113736
11    0.094780
12    0.072908
13    0.052077
14    0.034718
15    0.021699
16    0.012764
17    0.007091
18    0.003732
19    0.001866
dtype: float64

In [67]:
values_bin = pd.Series(np_values_for_bin)
values_bin

0     0.0004
1     0.0022
2     0.0074
3     0.0186
4     0.0375
5     0.0627
6     0.0900
7     0.1128
8     0.1256
9     0.1257
10    0.1143
11    0.0952
12    0.0731
13    0.0520
14    0.0345
15    0.0215
16    0.0126
17    0.0069
18    0.0036
19    0.0018
dtype: float64

In [68]:
values_bin - values_poisson

0    -0.000054
1    -0.000070
2    -0.000167
3    -0.000317
4    -0.000333
5    -0.000355
6    -0.000079
7     0.000201
8     0.000490
9     0.000590
10    0.000564
11    0.000420
12    0.000192
13   -0.000077
14   -0.000218
15   -0.000199
16   -0.000164
17   -0.000191
18   -0.000132
19   -0.000066
dtype: float64

In [69]:
comparison = pd.DataFrame({
    'Binomialdistribution':values_bin,
    'Poissondistribution':values_poisson,
    'Difference':values_bin - values_poisson,
})

In [70]:
comparison

Unnamed: 0,Binomialdistribution,Poissondistribution,Difference
0,0.0004,0.000454,-5.4e-05
1,0.0022,0.00227,-7e-05
2,0.0074,0.007567,-0.000167
3,0.0186,0.018917,-0.000317
4,0.0375,0.037833,-0.000333
5,0.0627,0.063055,-0.000355
6,0.09,0.090079,-7.9e-05
7,0.1128,0.112599,0.000201
8,0.1256,0.12511,0.00049
9,0.1257,0.12511,0.00059


In [288]:
# Bsp: Virusattacken
# Mittel pro Woche = 0.4
# Durchschnittlicher Schaden = 10000
lmbda = 0.4
x = 6
for i in range(x):
    print('{} : {:.4f}'.format(i,poissonDistribution(0.4,i)))

0 : 0.6703
1 : 0.2681
2 : 0.0536
3 : 0.0072
4 : 0.0007
5 : 0.0001


## Stetige Verteilung

In [289]:
def calculateZ(x,mu,sigma):
    return np.round( (x-mu)/sigma, 4)

In [290]:
zeeees = [] # in cpp this would be an array, or as to say a vector
random_variables = [10000,6500,8500,5000]
# define mu
# define sigma 
mu = 7416
sigma = 910
for i in random_variables:
    zeeees.append(calculateZ(i,mu,sigma))
zeeees

[2.8396, -1.0066, 1.1912, -2.6549]

In [287]:
# format table (missing)
URL = 'https://de.wikipedia.org/wiki/Standardnormalverteilungstabelle'
table = pd.read_html(URL)