# **STATISTIK & SANNOLIKHET**

### **Scipy**

##### **SciPy-funktioner:**  

In [None]:
from scipy.stats import binom
import numpy as np 


**Beräkna medelvärde (väntvärde(förväntat värde)):**

In [None]:
binom.mean(n, p)  


  
**Beräkna standardavvikelse** 

In [None]:
np.sqrt(binom.var(n, p)) 


**Diskret Binomial**

In [None]:
binom.pmf(k, n, p) # Exakt k, Sannolikhet
binom.cdf(k, n, p) # Högst k, Kumulativ
binom.sf(k-1, n, p) # Minst k, Survival 

| Del                           | Typ                     |
| ----------------------------- | ----------------------- |
| Definiera p, n, X             | Sannolikhet             |
| Räkna E[X] = np               | Sannolikhet             |
| Jämföra med observerat värde  | Rimlighet               |
| Avgöra om något är “ovanligt” | Rimlighet               |
| Använda 5%-regel, z-värde     | Rimlighet + sannolikhet |


## **DATA & URVAL** 

**Population** Alla individer/observationer av intresse  

**Stickprov** Delmängd av populationen  
- Stickprovsstorlek (n)
- Oberoende observationer
- Representativitet

**Urvalsmetoder**
- Obundet slumpmässigt urval (OSU)
- Stratifierat urval

**Ground truth**
- Okänd sann parameter i populationen
- Skattas med stickprovsstatistik


## **SANNOLIKHETSLÄRA**

**Utfallsrum (S)** Alla möjliga utfall    

**Händelse (A)** Delmängd av S (A ⊆ S)
- Händelseoperationer (mängder)
  - Komplement: Aᶜ
  - Union: A ∪ B
  - Snitt: A ∩ B

**Sannolikhetsbegrepp**
- Klassisk sannolikhet
  - P(A) = |A| / |S|
- Relativ frekvens (frequentistisk)
  - P(A) ≈ f / n (vid många försök)
    
**Sannolikhetsregler**
- Komplement: Aᶜ
- Union: A ∪ B
- Snitt: A ∩ B  
  
**Relation mellan händelser**
- Betingad sannolikhet (definition)
  - P(A | B)=P(A∩B)/P(B)
- Oberoende händelser (egenskap)
  - P(A | B) ⇔ P(A∩B)=P(A)P(B)
- Beroende händelser (egenskap)
  - P(A | B)≠P(A)


## **KOMBINATORIK**

**Klassisk sannolikhet: P(A)=|A|/|S|**  

**Fakultet**
- n! = n·(n−1)·…·1

**Ordning spelar roll (Permutationer)**
- Utan återläggning
  - nPr = n! / (n−r)!
- Med återläggning
  - nʳ

**Ordning spelar ej roll (Kombinationer)**
- Utan återläggning
  - nCr = n! / (r!(n−r)!)
- Med återläggning
  - (n+r−1)Cr

**Uppräkning → sannolikhetsberäkning**
- Ger |A| och |S|
- Används i klassisk sannolikhet

## **FÖRDELNINGAR**

**Sannolikhetsfunktion**
- PMF (diskret)
- PDF (kontinuerlig)

**Fördelningsfunktion (CDF)**
- F(x) = P(X ≤ x)
- Invers: PPF (kvantiler)

**Parametrar**
- μ (väntevärde)
- σ² (varians)

**Diskreta fördelningar**
- Binomial
- Geometrisk

**Kontinuerliga fördelningar**
- Normal
- Exponential
- Gamma

**Inferensfördelningar**
- Standardnormal (Z)
- t-fördelning
- χ²-fördelning
- F-fördelning


![alt text](<Flödeskarta - fördelningar.png>)



│   ├── Sannolikhetsfunktion (PMF / PDF) 

**Konfidensintervall**

│   ├── Fördelningsfunktion (CDF) 

│   ├── Parametrar **Det vi skattar:** 

│   │   ├── μ (medel) 

│   │   └── σ² (varians) 

├── Diskreta fördelningar
│   ├── Binomial



Om 10 personer går in i ett rum, hur många detektioner är sannolikt? (p=.7)

In [15]:
binom.mean(10, 0.7)

np.float64(7.0)



Sannolikhet  
   

p = sannolikhet (70%)   
n = Totala antalet personer (10)  
X = slumpvariabeln som anger antalet detekterade personer  
E = väntevärde (förväntat värde)  
  
E[X]= np = 10*0.7 = 7   

kumulativa fördelningsfunktionen  
(Cumulative distribution function: F)
- För diskreta variabler gäller:

F(x) = P(X ≤ x)

P(a ≤ X ≤ b) = F(b) − F(a − 1)

Exempeluppgift:  

12 personer – sannolikhet att mellan 2 och 7 detekteras (70% chans att en upptäcks, p = .7)  

Här är:
n = 12
p = 0.7

Vi söker:
P(2 ≤ X ≤ 7)

För att räkna ut med binom (scipy.stats) sätts k = 7 (värden för 0-7), n = 12 (totala antalet personer) och p = .7 (sannolikhet för ett lyckat försök). Sedan subtraherar vi värdena 0-1 (1,12,0.7) för att få ut P(2 ≤ X ≤ 7). Första exemplet är alla värden 0-7. Andra är spannet 2-7: 

In [10]:


from scipy.stats import binom

# (k, n, p)

print(binom.cdf(7, 12, 0.7)) # Cumulative probability of getting at most 5 successes in 5 trials with a success probability of 0.7
print(binom.cdf(7, 12, 0.7) - binom.cdf(1, 12, 0.7)) 
# Probability of getting exactly 7 successes in 12 trials with a success probability of 0.7




0.27634453047000007
0.2763291186810001


“Om 5 personer gick in, vad är sannolikheten att exakt 3 detekteras?”

Alltså: X ~ Binom(n=5, p=0.7), och vi vill ha P(X = 3). (binom.pmf(3, 5, 0.7))  
  
Om du istället vill ha “minst 3” eller “högst 3”  
P(X <= 3): binom.cdf(3, n, p)  
P(X >= 3): 1 - binom.cdf(2, n, p) (eller binom.sf(2, n, p))



In [9]:
print(binom.pmf(3, 5, 0.7))

0.30869999999999986


Om 3 personer detekterats hur stor rimlighet är det att 5 personer gått in?  
  
“probability mass function” rather than the term “density.”   


│   ├── Negativ Binomial

│   └── Geometrisk

└── **Kontinuerliga fördelningar**
    │
    ├── Datagenererande
    │   ├── Normal
    │   ├── Exponential
    │   └── Gamma
    │
    └── Inferensfördelningar
        ├── Standardnormal (Z) ◀── CI när σ är känd
        ├── t-fördelning       ◀── CI när σ är okänd (vanligast)
        ├── χ²-fördelning      ◀── CI för varians (ovanligt)
        └── F-fördelning       ◀── CI + test i regression


**T-fördelning**

![alt text](T-fördelning-kurva.jpg)

## **Moment och teoretiska mått**

**Väntevärde**
- E[X] = μ

**Varians**
- Var(X) = σ²

**Standardavvikelse**
- σ = √σ²

**Högre moment**
- Skevhet
- Kurtosis


## **Beskrivande statistik**

**Lägesmått**
- Medelvärde
- Median
- Typvärde

**Spridningsmått**
- Varians
- Standardavvikelse
- Kvartiler och IQR

**Visualisering**
- Histogram
- Boxplot
- Probplot


├── 6. BESKRIVANDE STATISTIK 

│   ├── Lägesmått 

│   │   ├── Medelvärde 


In [None]:
binom.mean(n, p)

16800.0
70.99295739719541




│   │   ├── Median 

│   │   └── Typvärde 

│   ├── Spridningsmått 

│   │   ├── Varians 

│   │   ├── Standardavvikelse 


In [None]:
sigma = np.sqrt(binom.var(n, p)) # sigma 1 standard deviation 

Normalfördelningsintuition - mycket ovanligt (sigma 3)

In [None]:
from scipy.stats import binom
import numpy as np

n = 24000
p = 0.7

mu = binom.mean(n, p)
sigma = np.sqrt(binom.var(n, p))
very_unusual_few = mu - 3 * sigma

print(mu)
print(sigma)
print(very_unusual_few)


16800.0
70.99295739719541
16587.021127808413




│   │   └── Interkvartilavstånd 

│   └── Visualisering 

│       ├── Histogram 

│       ├── Kumulativt histogram 

│       ├── Boxplot 

│       └── Probplot 

## **Statistisk inferens**

**Skattningar**
- Stickprovsmedel x̄
- Stickprovsvarians S²

**Centrala gränsvärdessatsen (CLT)**
- Stickprovsmedel → ungefär normalfördelat när n är stort

**Konfidensintervall**
- För μ (Z eller t)
- För σ² (χ²)
- För modellparametrar


├── 7. STATISTISK INFERENS 

│   ├── Konfidensintervall 

│   │   ├── Konfidensnivå (1 − α) 

│   │   ├── z-intervall 

│   │   └── t-intervall 

│   ├── Centrala gränsvärdessatsen 

│   └── De stora talens lag 

## **hypotesprövning**

**Hypoteser**
- Nollhypotes H₀
- Alternativhypotes H₁

**Teststorheter**
- Teststatistika
- p-värde

**Signifikans**
- Signifikansnivå α
- Typ I-fel
- Typ II-fel


├── 8. HYPOTESPRÖVNING 

│   ├── Nollhypotes (H₀) 

│   ├── Alternativhypotes (H₁) 

│   ├── Teststatistika 

│   ├── p-värde 

│   ├── Ensidigt test 

│   └── Tvåsidigt test 

## **Gemensamma fördelningar**

**Gemensam fördelning**
- f(X,Y)

**Marginella fördelningar**
- f_X(x)
- f_Y(y)

**Beroende**
- Kovarians
- Korrelation


├── 9. GEMENSAMMA FÖRDELNINGAR 

│   ├── Gemensam fördelning 

│   ├── Marginalfördelning 

│   ├── Oberoende variabler 

│   └── Beroende variabler 

│       ├── Kovarians 

│       └── Korrelation 

## **Regression**

**Linjär modell**
- Y = β₀ + β₁X₁ + … + ε

**Skattning**
- Minsta kvadratmetoden (OLS)

**Residualer**
- SSE
- MSE
- RMSE

**Modellutvärdering**
- R²
- t-test för parametrar
- F-test för modell


└── 10. REGRESSION 

    ├── Linjär regression 

    │   ├── Responsvariabel (Y) 

    │   ├── Prediktorer (X) 

    │   ├── Koefficienter (β) 

    │   └── Interaktionseffekter 

    ├── Minsta-kvadrat-metoden 

    ├── Felmått 

    │   ├── SSE 

    │   ├── MSE 

    │   └── RMSE 

    ├── Modellkvalitet 

    │   └── R² (förklaringsgrad) 

    └── Signifikans i regression 

        ├── F-test (modell) 

        └── t-test (parametrar) 