# Dystrybucje w statystyce

W statystyce i teorii prawdopodobieństwa **dystrybucja**  opisuje, jak prawdopodobieństwo rozkłada się na różne możliwe wartości zmiennej. 

Dystrybucje zazwyczaj przedstawia się na układzie z dwiema osiami. Pozioma (x) mówi o wartości jakiejś zmiennej np. wzroście, długości, IQ czy stracie w portfelu. Zaś pionowa (y) może mówić o częstotliwości występowania w danym zbiorze, prawdopodobieństwie (częstotliwość/liczba wszystkich obserwacji - inaczej zwana relative frequency), czy gęstości.


![image-4.png](attachment:image-4.png) ![image-2.png](attachment:image-2.png)


**Dystrybucje są fundamentem zarządzania ryzykiem**

## Rodzaje dystrybucji

### 1. Rozkład dyskretny (dystrybucja dyskretna)
- Zmienne przyjmują skończoną lub przeliczalnie nieskończoną liczbę wartości.
- **Przykład:** rzut kostką – każdemu oczku przypisane jest określone prawdopodobieństwo.
- Opisywany przez **funkcję masy prawdopodobieństwa** (PMF – *probability mass function*).

### 2. Rozkład ciągły (dystrybucja ciągła)
- Zmienne mogą przyjmować dowolną wartość z przedziału liczbowego.
- **Przykład:** wzrost człowieka.
- Opisywany przez **funkcję gęstości prawdopodobieństwa** (PDF – *probability density function*).
- Prawdopodobieństwo określa się jako pole pod krzywą PDF na danym przedziale.

## Przykładowe rozkłady

### Rozkłady dyskretne:
- Rozkład Bernoulliego  
- Rozkład dwumianowy  
![image-3.png](attachment:image-3.png)
- Rozkład Poissona

### Rozkłady ciągłe:
- Rozkład normalny 

![image.png](attachment:image.png)
- Rozkład wykładniczy
- Rozkład log-normalny

![image-5.png](attachment:image-5.png)
- Rozkład t-studenta


Każdy rozkładów ma swoje parametry, swoje własności i kształty. 

Dla dystrybucji normalnej to np. odchyelnie standardowe i średnia.

Aby móc wnioskować statystycznie często zakładamy, że nasze rozkłady empirycznie zbiegają do rozkładów teoretycznych. **Dzięki czemu możemy szacować parametry np. populacji czy liczyć prawdopodobieństwa do niezaobserwowanych**

---
# Value at Risk i Expected Shortfall

# Value at Risk

**Value at Risk (VaR) - Wartość Zagrożona** to miara ryzyka, która określa  **maksymalną oczekiwaną stratę** przy zadanym poziomie ufności i horyzoncie czasowym.
$$
\text{VaR}_\alpha = \inf \left\{ x \in \mathbb{R} : F(x) \geq \alpha \right\}
$$

gdzie:  
- $  \alpha\ $ – poziom istotności (np. 0{,}05 dla 95% poziomu ufności),  
- $ \ F(x) \ $ – dystrybuanta (CDF) rozkładu strat portfela,  
- $ \ x \ $ – wartość, dla której prawdopodobieństwo straty nie przekracza $  \alpha\ $.

 „Z prawdopodobieństwem $ \alpha \ $ strata nie przekroczy $ VaR_\alpha\ $ w danym okresie.”

Np. Jeśli VaR z alfą 5% wynosi -1.64 mówi mi to: W 5 na 100 przypadków strace więcej niż 1.64, albo w 95 przypadkach nie strace więcej niż 1.64

 **VaR wymaga założenia co do dystrybucji**

 Mogę mieć np: 
 1) Założenia o rozkładzie empirycznym (tzw. VaR nieparametryczny)
 2) Założenia o rozkładzie teoretycznym (tzw. VaR parametryczny)


 ### VaR rozkładu normalnego: 
![image.png](attachment:image.png) 
 
* VaR nie mówi mi jaka będzie wielkość mojej straty !! Mówi "CO NAJMNIEJ"

### VaR empiryczny:
![image-2.png](attachment:image-2.png) ![image-3.png](attachment:image-3.png)

* Jako, że dane które się obserwuje są najczęściej punkcikami i przez to nie są ciągłe (nawet te które mogą być ciągłe nie są) to przedstawia się je na histogramach (w pewnych przedziałach patrz wykres po lewej), ale możemy z nich zrobić taką funkcje jak w przypadku rozkładów teoretycznych  tzw KDE (Empiryczna funkcja gestości - patrz wykres po prawej)


---
## Policzmy sobie VaR dla jednej spółki


In [None]:
import yfinance as yf
import pandas as pd
import numpy as np

In [None]:
# Pobranie danych
data = yf.download('AAPL', period='5y')['Close']

In [None]:
# Dlaczego nie pracujemy na cenach?


In [None]:
# Zwroty logarytmiczne


In [None]:
# Wyświetlmy histogram


In [None]:
# Obliczmy VaR dla 1 alpha


In [None]:
# Wyświetlmy nasz histogram oraz zaznaczmy sobie nasz VaR
import matplotlib.pyplot as plt


#### Im większy VaR tym dla nas większe ryzyko

#### VaR można skalować dokładnie tak odchylenie standardowe (pierwiadtek z n)

In [None]:
#Skalowanie dla 20 tradingowych dni
 

---
## VaR dla Portfela


In [None]:
# VaR dla portfela (Dane muszą być homogeniczne)


In [None]:
#Zobaczmy jak będzie wyglądać nasz portfel


In [None]:
# Przemnóżmy naszą ilość akcji przez wartości i uzyskajmy wynik całego portfela przez sumowanie ich


In [None]:
# Obliczmy dla naszego portfela zwroty


In [None]:
# Obliczmy empiryczny VaR


In [None]:
# Pokażmy nasz VaR na wykresie


---
## VaR Parametryczny


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm


In [None]:
# Oszacowanie parametrów 


In [None]:
# Generowanie dystrybucji


Na rynkach finansowych stopy zwrotu wykazują się tak zwanymi "GRUBYMI OGONAMI" co charakterystyczne jest dla dystrybucji czubkowatych (tzw. dystrybucje Leptokurtyczne - o kurtozie przewyższającej rozkład normalny)

### Jedno z wyjaśnień:
![image-2.png](attachment:image-2.png) ![image.png](attachment:image.png)


### VaR Parametryczny można bardzo łatwo obliczać za pomocą tablic statystycznych: 

$$
\text{VaR}_\alpha = \mu + z_\alpha \cdot \sigma
$$


gdzie:  
-  $ \mu \ $ – średnia zwrotu portfela,  
-  $ \sigma \ $ – odchylenie standardowe zwrotu portfela,  
-  $ \ z_\alpha \ $ – kwantyl standardowego rozkładu normalnego odpowiadający poziomowi istotności $ \alpha \ $,  
- $ \alpha \ $ – poziom istotności.

Dla VaR wyrażonego jako strata, wynik jest dodatni.

In [None]:
# VaR Parametryczny


In [None]:
# Można też z naszej funkjci z scipy


---
## VaR t-student


In [None]:
# Załadowanie modułu z rozkładu t-studenta
import scipy.stats as st

In [None]:
# Dopasowanie parametrycznego rozkładu t-studenta


In [None]:
#Generacja dystrybucji


In [None]:
# Wykres


Statystyka t-studenta ma większą elastyczność w reprezentacji zachowań zwrótów na rynkach finansowych. Zawdzięcza to **parametrowi ogona** to sprawia, że lepiej się dopasowuje do funkcji gruboogonowych. 

# Expected Shortfall
---


$$
\text{ES}_\alpha = \mathbb{E} \left[ L \mid L \geq \text{VaR}_\alpha \right]
$$

gdzie:  
- $  \text{ES}_\alpha  $ – Expected Shortfall na poziomie istotności $ \ \alpha \ $,  
- $  \text{L}   $ - losowa zmienna (tu opisująca straty portfela),  
- $  \text{VaR}_\alpha  $ – wartość Value at Risk na poziomie $ \alpha \ $.


Expected Shortfall (ES), zwany też Conditional VaR (CVaR), to **średnia strata pod warunkiem, że strata przekroczy VaR**. ES pokazuje, jak duże mogą być **ekstremalne straty** – czyli te najgorsze 5% (lub inny poziom istotności).



### Porównanie VaR vs ES

![image.png](attachment:image.png)

VaR mówi: *"Jakiej straty nie przekroczę z prawdopodobieństwem 95%?"*  
ES mówi: *"Jeśli już przekroczę VaR, to jak duża będzie średnio strata?"*


---
### ES Empiryczny

In [None]:
# Dla naszego portfela


---
### ES Parametryczny

#### Wzór na parametryczny Expected Shortfall (ES) – rozkład normalny

$$
\text{ES}_\alpha = -\mu - \sigma \cdot \frac{\phi(z_\alpha)}{\alpha}
$$

gdzie:  
- $ \mu $ – średnia zwrotów,  
- $ \sigma $ – odchylenie standardowe zwrotów,  
- $ \phi(z_\alpha) $ – gęstość standardowego rozkładu normalnego w punkcie $ z_\alpha $,  
- $ z_\alpha $ – kwantyl standardowego rozkładu normalnego odpowiadający poziomowi istotności $ \alpha $,  
- $ \alpha $ – poziom istotności.


---
#### ES t-studenta