# Statistische kwaliteitscontrole

![quality](quality.jpg)

## Situatie

De firma Glow BV produceert lampen.

- Bekend is dat **2%** van de productie defecten bevat
- De dagproductie bestaat uit **75.000 lampen**

## Opdracht

- Onderzoek hoeveel kapotte lampen je tegenkomt als je **25 lampen** uit de totale dagproductie inspecteert
- Voer de inspectie **10 maal** uit
- Maak een kort overzicht van je bevindingen (in Excel, met MatplotLib of met print-statements)

Begin met de analyse hieronder.

## Stap 1: analyseren

- Bedenk hoe je de productie en de productiefout simuleert (zie stap 2 voor een hint)
- Bedenk hoe het inspectieproces verloopt

**Hint**: zitten er functies in de [random module](https://www.w3schools.com/python/module_random.asp) die passen bij deze opdracht?

## Stap 2: schetsen

Werk op basis van je analyse stapsgewijs een oplossing uit, bijvoorbeeld:

In [1]:
import random

# 1. Genereer een lijst met functionele lampen (hoeveel?)
day_production_amount = 75_000
lamps = ["working"] * day_production_amount


# 2. Vul de lijst aan met defecte lampen (hoeveel?)
for i in random.sample(range(day_production_amount), int(0.02*day_production_amount)):
    lamps[i] = "defect"

print(f"Lamps working: {lamps.count('working')}")
print(f"Lamps defect: {lamps.count('defect')}")
print(f"Percentage of lamps defect: {(lamps.count('defect')/len(lamps)):.2%}")

Lamps working: 73500
Lamps defect: 1500
Percentage of lamps defect: 2.00%


- Als bovenstaande niet lukt dan zal het implementeren ook niet lukken...
- Vraag om hulp, maar oefen eerst met het uitwerken van een oplossing

## Stap 3: implementeren

- Werk de bovenstaande schets stap voor stap uit
- Begin pas met implementeren als de schets klopt

In [2]:
# Stappenplan schets
# 1. lijst creeren met alle geproduceerde lampen voor 1 dag
# 2. willekeurig 25 samples nemen uit de lijst zonder teruglegging
# 3. registreer van elke sample of de lamp defect is of niet
# 4. bereken het totaal aantal defecte lampen tov het totaal aantal lampen

# Herhaal bovenstaande 10 maal en vergelijk de resultaten

percentage_defect = []
# Implementatie
for i in range(10):
    # get 25 samples from population
    samples = random.sample(lamps, 25)
    # count number of defect lamps
    n_defect = samples.count('defect')
    # add number of defects to list
    percentage_defect.append(n_defect/len(samples))

print(f"List of defect percentages: {percentage_defect}")
print(f"Mean: {sum(percentage_defect)/len(percentage_defect)}")


List of defect percentages: [0.08, 0.0, 0.0, 0.0, 0.0, 0.04, 0.04, 0.0, 0.08, 0.0]
Mean: 0.024


## Stap 4: reflecteren

1. (a) Komt het gemiddelde van je inspectie overeen met de daadwerkelijke productiefout?

   Nee daarvoor zijn er te weinig samples

   (b) Zo nee: hoeveel inspecties moet je dan doen om in de buurt te komen van de 2%?

   50 samples

2. (a) Is het verstandig om kosten te drukken en maar 5 inspecties uit te voeren?
      Nee de variantie neemt dan erg toe

   (b) Of per inspectie slechts 15 lampen te onderzoeken?
   Nee, want ook dan neemt de variantie toe

3. (a) Maakt het uit of je de lampen na inspectie terugstopt in de batch?

   Ja dat maakt uit, de kans op een defecte of niet-defecte lamp te trekken is bij elke trekking hetzelfde bij terugstoppen. Dit veranderd het percentage defecte lampen.

   (b) Kun je dit aantonen met je simulatie?
   Zie hieronder.

In [3]:
# Bewijs / uitwerkingen

# with and without replacement implementation

percentage_defect_without_replacement = []
# Implementatie
for i in range(10):
    samples = random.sample(lamps, 25)
    n_defect = samples.count('defect')
    percentage_defect_without_replacement.append(n_defect/len(samples))

print(f"List of defect percentages: {percentage_defect_without_replacement}")
print(f"Mean without replacement: {sum(percentage_defect_without_replacement)/len(percentage_defect_without_replacement)}")

percentage_defect_with_replacement = []
# Implementatie
for i in range(10):
    samples = random.choices(lamps, k=25)
    n_defect = samples.count('defect')
    percentage_defect_with_replacement.append(n_defect/len(samples))

print(f"List of defect percentages: {percentage_defect_with_replacement}")
print(f"Mean with replacement: {sum(percentage_defect_with_replacement)/len(percentage_defect_with_replacement)}")

List of defect percentages: [0.0, 0.04, 0.04, 0.0, 0.0, 0.04, 0.04, 0.0, 0.04, 0.04]
Mean without replacement: 0.024
List of defect percentages: [0.0, 0.0, 0.0, 0.0, 0.04, 0.04, 0.0, 0.0, 0.04, 0.04]
Mean with replacement: 0.016


## Extra: variatie in productiefout

De aanname is dat 2% van de productie defecten bevat, maar dit is slechts een **gemiddelde** is. Soms is het 3% dan weer 2% of zelfs 5%. De productiefout hangt namelijk weer af van de productiefout in de onderdelen waaruit de lamp is opgebouwd.

- Breid je model uit waarin je de productiefout laat varieren met 1%
- Maak dit voor de inspectie uit?

In [4]:
day_production_amount = 75_000

# three different production error rates
production_error_rate = [0.01, 0.02, 0.03]

for k in production_error_rate:
    lamps = ["working"] * day_production_amount
    for i in random.sample(range(day_production_amount), int(k*day_production_amount)):
        lamps[i] = "defect"
    
    percentage_defect = []
    # Implementatie
    for i in range(20):
        samples = random.sample(lamps, 40)
        n_defect = samples.count('defect')
        percentage_defect.append(n_defect/len(samples))

    print(f"Production error percentage: {k:.2%}")
    print(f"List of defect percentages: {percentage_defect}")
    print(f"Mean: {sum(percentage_defect)/len(percentage_defect)}")
        

Production error percentage: 1.00%
List of defect percentages: [0.025, 0.0, 0.0, 0.025, 0.05, 0.0, 0.025, 0.0, 0.0, 0.05, 0.025, 0.0, 0.025, 0.025, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
Mean: 0.012499999999999999
Production error percentage: 2.00%
List of defect percentages: [0.075, 0.0, 0.05, 0.0, 0.05, 0.05, 0.0, 0.0, 0.0, 0.025, 0.025, 0.0, 0.025, 0.025, 0.025, 0.0, 0.025, 0.05, 0.025, 0.0]
Mean: 0.022500000000000003
Production error percentage: 3.00%
List of defect percentages: [0.025, 0.0, 0.0, 0.0, 0.05, 0.05, 0.075, 0.025, 0.075, 0.025, 0.025, 0.05, 0.0, 0.0, 0.025, 0.05, 0.025, 0.025, 0.025, 0.0]
Mean: 0.027500000000000004


## Extra: Bayesiaanse statistiek

In de bijlage vind je een csv bestand met daarin een onbekend aantal lampen waarvan er een aantal stuk zijn.

1. Lees het bestand in en achterhaal met een aantal inspecties wat het percentage defecte lampen moet zijn

2. Controleer daarna of dit juist was door de totale lijst met lampen te analyseren

Bovenstaande is een voorbeeld van Baysiaanse statistiek.

In [10]:
import pandas as pd

# read batch file
batch = pd.read_csv('./batch.csv')

for i in range(10):
    # convert batch to list and pick 25 samples
    samples = random.sample(batch['0'].tolist(), 25)
    # check if sample == 0 ==> defect
    n_defect = samples.count(0)
    percentage_defect_without_replacement.append(n_defect/len(samples))

print(f"List of defect percentages: {percentage_defect_without_replacement}")
print(f"Mean without replacement: {sum(percentage_defect_without_replacement)/len(percentage_defect_without_replacement)}")

List of defect percentages: [0.0, 0.04, 0.04, 0.0, 0.0, 0.04, 0.04, 0.0, 0.04, 0.04, 0.267, 0.2616, 0.2602, 0.265, 0.2592, 0.2606, 0.2656, 0.261, 0.2586, 0.256, 0.2578, 0.2744, 0.2652, 0.2576, 0.2744, 0.2592, 0.2608, 0.2608, 0.2626, 0.2586, 0.2568, 0.2562, 0.2608, 0.2592, 0.258, 0.2714, 0.2548, 0.2562, 0.2578, 0.2556, 0.2548, 0.2634, 0.257, 0.2526, 0.2514, 0.25, 0.2626, 0.251, 0.2712, 0.2696, 0.2694, 0.258, 0.2538, 0.2582, 0.265, 0.2546, 0.2644, 0.2566, 0.2592, 0.2632, 0.2684, 0.2772, 0.2684, 0.2628, 0.261, 0.2612, 0.261, 0.2662, 0.259, 0.261, 0.2618, 0.253, 0.268, 0.2568, 0.267, 0.2644, 0.2592, 0.2606, 0.253, 0.2546, 0.2702, 0.266, 0.266, 0.2638, 0.251, 0.2654, 0.2574, 0.2604, 0.2716, 0.268, 0.2586, 0.27, 0.2664, 0.2542, 0.2646, 0.2556, 0.2544, 0.2568, 0.2606, 0.2688, 0.2646, 0.2574, 0.264, 0.267, 0.2658, 0.2596, 0.2662, 0.264, 0.2658, 0.253, 0.26, 0.2624, 0.2664, 0.275, 0.2594, 0.251, 0.263, 0.26, 0.2568, 0.2574, 0.2614, 0.2486, 0.259, 0.2584, 0.2558, 0.2614, 0.2582, 0.2574, 0.2572, 

In [11]:
# real production error rate
batch.value_counts()[0]/len(batch)

0.2604861935052242