In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as sps

### Zmienne losowe dyskretne (skokowe)

Zmienna losowa jest funkcją, która przypisuje zdarzeniu losowemu wartość liczbową. Wyobraźmy sobie, że jesteśmy w minikasynie i rzucamy trzema monetami. Nasz wygrana zależy od ilości wyrzuconych orłów. Mamy zatem funkcję:
$$
(O, O, O) \longrightarrow 3 \\
(O, O, R) \longrightarrow 2 \\
(O, R, O) \longrightarrow 2 \\
(R, O, O) \longrightarrow 2 \\
(R, R, O) \longrightarrow 1 \\
(O, R, R) \longrightarrow 1 \\
(R, O, R) \longrightarrow 1 \\
(R, R, R) \longrightarrow 0
$$

Oznaczmy zmienną losową jako $X$ - czyli kwota naszej wygranej w pojedynczej grze. Prawdopodobieństwo dla zmiennej losowej oznaczamy $P(X = x_i) = p_i$, przy czym muszą być spełnione warunki:
 - $p_i \geq 0$ - prawdopodobieństwo nie może być ujemne
 - $\sum_{i=1}^k p_i = 1$ - suma wszystkich prawdopodobieństw musi być równa 1

Zakładając, że monety są uczciwe mamy zatem:
$$
P(X = 3) = 1/8 \\
P(X = 2) = 3/8 \\
P(X = 1) = 3/8 \\
P(X = 0) = 1/8 \\
$$

W praktyce często korzystamy z dystrybuanty prawdopodobieństwa. Jest to funkcja określona wzorem $F(x) = P(X < x) = \sum_{x_i < x} p_i$. W naszym przykładzie mamy:
$$
F(x) = \begin{cases}
0 & \text{dla} & x \leq 0 \\
1/8 & \text{dla} & 0 < x \leq 1 \\
4/8 & \text{dla} & 1 < x \leq 2 \\
7/8 & \text{dla} & 2 < x \leq 3 \\
1 & \text{dla} & x > 3
\end{cases}
$$

Własności dystrybuanty:
 - $F(x)$ przyjmuje wartości z przedziału $[0, 1]$
 - jest funkcją niemalejącą, tzn. jeśli $x_1 < x_2$, to $F(x_1) < F(x_2)$
 - $P(a \leq X \leq b) = F(b) - F(a)$

Dla zmiennej losowej możemy policzyć wartość oczekiwaną, czyli średnią ważoną prawdopodobieństwem:
$$
E(X) = \sum_{i=1}^n p_i x_i
$$

Podobnie możemy policzyć wariancję zmiennej losowej:
$$
\operatorname{Var}(X) = \sum_{i=1}^n p_i \left( x_i - E(X) \right)^2
$$

Własności wartości oczekiwanej oraz wariancji ($c$ jest wartością stałą):
 - $E(c) = c$ oraz $\operatorname{Var}(c) = 0$
 - $E(cX) = cE(X)$ oraz $\operatorname{Var}(cX) = c^2 \operatorname{Var}(X)$
 - $E(X + Y) = E(X) + E(Y)$
 - $\operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$, pod warunkiem, że $X$ oraz $Y$ są niezależne
 


Zadanie 1. Policz wartość oczekiwaną oraz wariancję dla wygranej w rzucie trzema monetami.

Zadanie 2. Przyjmijmy, że opłata wstępna w minikasynie wynosi $c = 1.50$. Ile wynosi wartość oczekiwana wygranej?

Zadanie 3. Aby minikasyno mogło zarobić, jedną z możliwości jest wprowadzenie nieuczciwych monet. Oblicz ile wyniesie wartość oczekiwana wygranej, gdy prawdopodobieństwo wyrzucenia orła będzie wynosić $48\%$. Jaki będzie oczekiwany utarg minikasyna, gdy w ciągu dnia zagra 1000 klientów?

Zadanie 4. Stwórz wykres, jak zmienia się utarg minikasyna, gdy prawdopodobieństwo wyrzucenia orła zmienia się od $0\%$ do $100\%$.

Zadanie 5. Jesteśmy w minikasynie i rzucamy dwiema (uczciwymi) kostkami do gry. Na każdej kostce możliwy wynik to $1,2,3,4,5,6$. Gdy suma oczek na obu kostkach wynosi 10 lub więcej, to wygrywamy 100 zł. Ile musi wynosić minimalna kwota wejścia, aby minikasyno mogło zarobić?

Dla ułatwienia zapisz najpierw zmienną losową $X$ oraz jej rozkład prawdopodobieństwa $P(X = x_i) = p_i$.

#### Przykładych dyskretnych rozkładów prawdopodobieństwa

**Rozkład dwumianowy** - wielokrotnie powtarzamy eksperyment, który ma dwa możliwe wyniki: sukces i porażka. W pojedynczym eksperymencie mamy zatem prawdopodobieństwo sukcesu $p$ oraz prawdopodobieństwo porażki $q = 1-p$. Zmienna losowa $X$ opisuje ilość sukcesów w $n$ eksperymentach. Prawdopodobieństwo $k$ sukcesów w $n$ próbach wynosi:
$$P (X = k) = \frac{n!}{k! (n-k)!} p^k (1-p)^{n-k}$$

Wartość oczekiwana wynosi $E(X) = np$, natomiast wariancja wynosi $\operatorname{Var}(X) = npq$.

Przykład 1. Jakie jest prawdopodobieństwo wyrzucenia 5 orłów w 10 rzutach (zakładając, że moneta jest uczcicwa)?

**Rozkład Poissona** - służy do modelowania prawdopodobieństwa zajścia określonej ilości zdarzeń w danym odcinku czasu. Prawdopodobieństwo zajścia $k$ zdarzeń w jednoste czasu, zakładająć, że średnia częstotliwość jest równa $\lambda$ wynosi:
$$P (X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$

Wartość oczekiwana oraz wariancja wynoszą tyle samo: $E(X) = \operatorname{Var}(X) = \lambda$.

Przykład 2. Do minikasyna przychodzi w ciągu godziny średnio 5 klientów. Jakie jest prawdopodobieństwo, że w ciągu godziny przyjdzie 0, 1, 2, ... klientów?

Zadanie 6. Wczytaj zbiór danych *tips*. Jakie jest prawdopodobieństwo, że wśród 10 stolików $k = 0,1, \dots , 10$ zostawi napiwek większy niż 3 dolary? Jako $p$ przyjmij prawdopodobieństwo napiwków powyżej 3 dolary na podstawie danych historycznych. Stwórz wykres funkcji prawdopodobieństwa oraz dystrybuanty.

Zadanie 7. Wczytaj zbiór danych *flights*. Niech $\lambda$ oznacza średnią ilość miesięcy w ciagu roku, gdy ilość pasażerów przekroczyła 400 osób. Policz prawdopodobieństwo, że w ciągu $k=0, 1, \dots 12$ miesięcy ilość pasażerów będzie przekraczać 400 osób. Stwórz wykres funkcji prawdopodobieństwa oraz dystrybuanty.

### Zmienne losowe ciągłe

Wyobraźmy sobie, że nadal jesteśmy w minikasynie i teraz chcemy zagrać w ruletkę. Kręcimy kołem i zmienna losowa $X$ oznacza kąt od 0 stopni do 360 stopni. Nie możemy jednak przypisać prawdopodobieństw wszystkim możliwym wynikom, ponieważ mogą to być dowolne ułamki, np. kąt $30.554$ stopnia. Zamiast tego przypisujemy prawdopodobieństwa odcinkom, np. prawdopodobieństwo, że kąt wyniesie od 10 do 20 stopni. W takim wypadku mówimy o **gęstości prawdopodobieństwa**.

Jeśli ruletka jest uczciwa, to mamy tzw. rozkład jednostajny, którego gęstość wynosi:
$$ f(x) =
\begin{cases}
\frac{1}{360} \quad \text{dla} \ 0 \leq x < 360 \\
0 \quad \text{w przeciwnym wypadku}
\end{cases}
$$

Prawdopobieństwo jest całką z gęstości:
$$
P(a \leq X \leq b) = \int_a^b f(x) dx
$$

Własności gęstości:
 - $f(x) \geq 0$
 - $\int_{-\infty}^{+\infty} f(x) dx = 1$
 - $P(X = a) = 0$.

Dla rozkładów ciągłych dystrybuantę liczymy jako:
$$
P(X \leq x) = \int_{-\infty}^x f(t) dt
$$


Przyjmijmy, że ruletka jest skonstruowana następująco:
 - ma 36 oczek ponumerowanych od 0 do 35, czyli kąt jednego oczka wynosi 10 stopni
 - ruletka jest uczciwa, tzn. kręci się z rozkładem jednostajnym
 - kasyno pobiera opłatę 1 zł za każde zakręcenie reultką.

Przy obstawianiu na konkretną liczbę, możemy wygrać 34:1. Jaki jest zysk kasyna?

#### Przykładych ciągłych rozkładów prawdopodobieństwa

**Rozkład normalny** - przyjmuje dwa parametry: średnia $\mu$ oraz odchylenie standardowe $\sigma$. Gęstość rozkładu normalnego wynosi:
$$
f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp{\frac{-(x - \mu)^2}{2\sigma^2}}
$$

In [None]:
mu = 0
sigma_values = [1, 2, 3]
x = np.linspace(-10, 10, 500)

plt.figure(figsize = (8, 6))
for sigma in sigma_values:
    y = sps.norm.pdf(x, mu, sigma)
    plt.plot(x, y, label = f"σ = {sigma}")
plt.legend(title = "Odchylenie standardowe", fontsize = 10)

**Rozkład t-Studenta** - przyjmuje parametr $\nu$ nazywany *ilością stopni swobody*. Im większe $\nu$ tym bardziej przypomina on rozkład normalny. Opcjonalnie, możemy podać parametry przesunięcia i skali, które odpowiadają średniej oraz odchyleniu standardowemu dla rozkładu normalnego.

In [None]:
degrees_of_freedom = [1, 3, 10]

plt.figure(figsize = (8, 6))
for df in degrees_of_freedom:
    y = sps.t.pdf(x, df)
    plt.plot(x, y, label = f"t (df = {df})")
y_normal = sps.norm.pdf(x)
plt.plot(x, y_normal, '--', color = 'gray', label = "Rozkład normalny")
plt.legend(title = "Rozkłady", fontsize = 10)

**Rozkład wykładniczy** - służy do modelowania czasu między kolejnymi zdarzeniami w rozkładzie Poissona. Parametr $\lambda >0$ jest odwrotnością średniej $\lambda = 1 / \mu$. Funkcja gęstości rozkładu wykładniczego wynosi:
$$
f(x) = 
\begin{cases}
\lambda e^{-\lambda x} && \quad \text{dla} \ x \geq 0 \\
0 && \quad \text{dla} \ x < 0
\end{cases}
$$

In [None]:
x = np.linspace(0, 5, 500)
lambda_values = [0.5, 1, 2]

plt.figure(figsize = (8, 6))
for lam in lambda_values:
    y = sps.expon.pdf(x, scale = 1/lam)
    plt.plot(x, y, label = f"λ = {lam}")

plt.legend(title="Parametr λ", fontsize=10)

Zadanie 8. Rozkład wzrostu studentów w pewnej uczelni jest dany rozkładem normalnym o średniej $\mu = 170$ cm oraz odchyleniem standardowym $\sigma = 10$ cm.
 - Jaki odsetek studentów ma wzrost poniżej 160cm?
 - Jaki odsetek studentów jest powyżej 185 cm?
 - Jeśli w sposób losowy wybierzemy 5 studentów, jakie jest prawdopodobieństwo, że ich średni wzrost przekroczy 175cm?

Zadanie 9. Czas oczekiwania klienta w kolejce w sklepie ma rozkład wykładniczy ze średnim czasem oczekiwania 5 minut (czyli $\lambda = 1/5$).
 - Jakie jest prawdopodobieństwo, że klient czeka krócej niż 3 minuty?
 - Jakie jest prawdopodobieństwo, że klient czeka dłużej niż 10 minut?
 - Jeśli 3 klientów przyjdzie o różnych porach, jakie jest prawdopodobieństwo, że przynajmniej jeden z nich czeka dłużej niż 8 minut?

Zadanie 10 (symulacje **Monte Carlo**).
 - Wczytaj zbiór danych *tips* i sprawdź na wykresie rozkład napiwków. Czy przypomina to rozkład normalny?
 - Wylosuj 30 napiwków ze zbioru *tips* i policz średnią wartość.
 - Powtórz poprzedni krok 1000 razy.
 - Stwórz wykres średniej wartości 30 losowych napiwków z 1000 eksperymentów. Czy przypomina to rozkład normalny?