# Discrete kansverdelingen - opdracht

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats

## Binomiale verdeling

Weigh in motion is een geautomatiseerde manier om het gewicht van vrachtwagens te meten door middel van sensoren in het wegdek . Wanneer de vrachtwagen voorbij rijdt wordt zijn lengte, snelheid, gewicht en nummerplaat geregistreerd. Vrachtwagens die overladen zijn kunnen op die manier zeer snel opgespoord en beboet worden. 
Het maximaal toegelaten gewicht van vrachtwagens op Belgische wegen hangt onder andere af van het aantal assen waarmee de oplegger is uitgerust. Wij gaan bij deze oefening uit van een overgewicht wanneer de meting 40 ton overschrijdt.

Het bestand 'wim.csv' bevat 1000 opeenvolgende wegingen van vrachtwagens. De gewichten worden uitgedrukt in ton (=duizend kilo). Gebruik en verwerk deze informatie om onderstaande vragen te beantwoorden.

    a. Van de volgende 200 vrachtwagens, hoeveel zullen er naar verwachting overladen zijn?
    
    b. Wat is de kans dat van de volgende 10 vrachtwagens er geen enkele overladen is?
    
    c. Wat is de kans dat van de volgende 10 vrachtwagens er exact 2 overladen zijn?
    
    d. Wat is de kans dat drie opeenvolgende vrachtwagens overladen zijn?
    
    e. Wat is de kans dat van de komende 20 vrachtwagens er minder dan 5 overladen zijn?
    
    f. Wat is de kans dat van de komende 20 vrachtwagens er meer dan de helf overladen is?
    
Bepaal in eerste instantie op basis van de data de kans op een overtreding. Deze kans kan je vervolgens verder in de berekeningen gebruiken. 

In [3]:
# Inlezen van de dataset

dataset = pd.read_csv('wim.csv')
dataset.head(20)

Unnamed: 0,Gewicht
0,20
1,23
2,9
3,30
4,35
5,44
6,24
7,44
8,48
9,52


In [5]:
# Bepalen van de kans op een overtreding


overtredingen = (dataset.loc[(dataset['Gewicht']>40)].count()).values

totaal = (dataset.count()).values

print('totaal aantal: ', totaal)
print('aantal overtredingen', overtredingen)

p = overtredingen/totaal

print('kans op overtreding: ',p)

totaal aantal:  [1000]
aantal overtredingen [246]
kans op overtreding:  [0.246]


In [6]:
#    a. Van de volgende 200 vrachtwagens, hoeveel zullen er naar verwachting overladen zijn?

print('aantal overladen vrachtwagens: ',200*p)

    
#    b. Wat is de kans dat van de volgende 10 vrachtwagens er geen enkele overladen is?

print('kans:', stats.binom.pmf(0,10,p))

    
#    c. Wat is de kans dat van de volgende 10 vrachtwagens er exact 2 overladen zijn?

print('kans:', stats.binom.pmf(2,10,p))

    
#    d. Wat is de kans dat drie opeenvolgende vrachtwagens overladen zijn?

print('kans: ', p**3)

#    e. Wat is de kans dat van de komende 20 vrachtwagens er minder dan 5 overladen zijn?

print ('kans: ',stats.binom.cdf(4,20,p))

    
#    f. Wat is de kans dat van de komende 20 vrachtwagens er meer dan de helft overladen is?

print('kans:', 1-stats.binom.cdf(10,20,p))

aantal overladen vrachtwagens:  [49.2]
kans: [0.05939002]
kans: [0.28448115]
kans:  [0.01488694]
kans:  [0.4311542]
kans: [0.00344174]


## Poisson verdeling

Een bepaalde webserver krijgt per seconde een hoeveelheid requests te verwerken. Een log van het aantal requests per seconde kan je vinden in het webserver.csv. Gebruik deze informatie om onderstaande vragen te beantwoorden. Je mag ervan uitgaan dat het aantal requests Poisson is verdeeld.

    a. Bepaal de verwachtingswaarde λ. Gebruik deze waarde in de verdere berekeningen.
    
    b. Bepaal de kans dat de server minder dan 45 requests per seconde te verwerken krijgt.
    
    c. Het maximaal aantal requests per seconde die de server kan verwerken ligt op 80. Bepaal de kans dat de server plat gaat door een teveel aan requests.
    

In [7]:
# Inlezen van de dataset

dataset = pd.read_csv('webserver.csv')
dataset.head()

Unnamed: 0,Requests
0,57
1,63
2,53
3,57
4,54


In [8]:
# a. Bepaal de verwachtingswaarde λ. Gebruik deze waarde in de verdere berekeningen.

l = dataset.Requests.mean()
print('lambda = ',l)
    
# b. Bepaal de kans dat de server minder dan 45 requests per seconde te verwerken krijgt.

print('kans: ',stats.poisson.cdf(44,l))


    
# c. Het maximaal aantal requests per seconde die de server kan verwerken ligt op 80...
#    ...Bepaal de kans dat de server plat gaat door een teveel aan requests.

print('kans: ',1- stats.poisson.cdf(80,l))


lambda =  55.24125
kans:  0.07037611734435235
kans:  0.0006868845528277268
