# 2. Prawdopodobieństwo

In [2]:
import scipy.stats as stats

## Szansa $O(X)$

Jednym ze sposobów wyrażania prawdopodbieństwa jest szansa wyrażana przez $O(X)$. Przykładowo, szansa $O(X)=2,0$ oznacza, że uważam, że jest dwukrotnie bardziej prawdopodobne, że dojdzie do zdarzenia $X$ niż że do niego nie dojdzie. Jest to równoznaczne prawdopodobieństwu $P(X) \approx 66,66\%$.

Oto wzór na przekształcenie szansy $O(X)$ w proprocjonalne prawdopodobieństwo $P(X)$ i vice versa:

$$P(X)=\frac{O(X)}{1+O(X)}$$
$$O(X)=\frac{P(X)}{1-P(X)}$$

## Prawdopodobieństwo warunkowe i twierdzenie Bayesa

Prawdopodobieństwo warunkowe to szansa zajścia zdarzenia $A$, pod warunkiem że zaszło zdarzenie $B$, czyli jak zmienia się prawdopodobieństwo $A$, gdy wiemy, że $B$ wystąpiło. Wyrażamy je wzorem:
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$

Twierdzenie Bayesa pozwala odwrócić warunek, czyli obliczyć prawdopodobieństwo $B$ pod warunkiem $A$, znając prawdopodobieństwa odwrotne i ogólne:
$$P(B\mid A)=\frac{P(A\mid B) P(B)}{P(A)}$$

Twierdzenie Bayesa przydaje się przede wszystkim do aktualizacji szans (prawdopodobieństw) na zdarzenia w świetle nowych informacji — np. w medycynie do diagnozowania chorób na podstawie wyników testów lub w uczeniu maszynowym do klasyfikacji danych czy w analizie ryzyka, gdzie pozwala wyciągać bardziej precyzyjne wnioski, łącząc wcześniejsze przekonania z obserwacjami.

Tak możemy użyć tw. Bayesa w Pythonie w badaniu prawdopodobieństwa tego, że ktoś zachorował raka, jeśli pije kawę:

In [2]:
p_picie_kawy = .65 # prawdopodobieństwo, że wybrana osoba pije kawę
p_rak = .005 # prawdopodobieństwo, że wybrana osoba ma raka
p_picie_kawy_jesli_rak = .85 # prawdopodobieństwo, że wybrana osoba ma raka pod warunkiem że pije kawę

# Twierdzenie Bayesa
p_rak_jesli_picie_kawy = (p_picie_kawy_jesli_rak * p_rak) / p_picie_kawy

print(f"Prawdopodobieństwo, że ktoś zachorował na raka, jeśli pije kawę: {p_rak_jesli_picie_kawy}")

Prawdopodobieństwo, że ktoś zachorował na raka, jeśli pije kawę: 0.006538461538461539


## Rozkład dwumianowy lub rozkład Bernoulliego

Schemat Bernoulliego to pojedyncza próba losowa z dwoma możliwymi wynikami: sukces (z prawdopodobieństwem $p$) lub porażka (z prawdopodobieństwem $1-p$).

Rozkład dwumianowy natomiast opisuje sumę wyników $k$ sukcesów w $n$ niezależnych próbach Bernoulliego — czyli jest rozszerzeniem pojedynczej próby na cały ciąg powtórzeń tego eksperymentu. Wyraża się go następującym wzorem:
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n$$

Rozkład dwumianowy z wykorzystaniem SciPy:

In [9]:
n = 10 # liczba prób
p = 0.9 # prawdopodobieństwo uzyskania sukcesu

# binom.pmf() <- PMF ang. probability mass function, funkcja masy prawdopodobieństwa
for k in range(n + 1):
    prawdopodobienstwo = stats.binom.pmf(k, n, p)
    print(f"Liczba sukcesów {k}: prawdopodobieństwo: {prawdopodobienstwo}")

Liczba sukcesów 0: prawdopodobieństwo: 9.999999999999977e-11
Liczba sukcesów 1: prawdopodobieństwo: 8.999999999999978e-09
Liczba sukcesów 2: prawdopodobieństwo: 3.6449999999999943e-07
Liczba sukcesów 3: prawdopodobieństwo: 8.747999999999991e-06
Liczba sukcesów 4: prawdopodobieństwo: 0.00013778099999999974
Liczba sukcesów 5: prawdopodobieństwo: 0.0014880347999999982
Liczba sukcesów 6: prawdopodobieństwo: 0.011160260999999996
Liczba sukcesów 7: prawdopodobieństwo: 0.05739562799999997
Liczba sukcesów 8: prawdopodobieństwo: 0.1937102444999998
Liczba sukcesów 9: prawdopodobieństwo: 0.38742048899999976
Liczba sukcesów 10: prawdopodobieństwo: 0.3486784401000001


## Rozkład beta, czyli prawdopodobieństwo prawdopodobieństw

Rozkład beta to rozkład ciągły na odcinku $[0, 1]$, który modeluje prawdopodobieństwo zmiennej $p$ będącej nieznanym parametrem sukcesu w rozkładzie dwumianowym — czyli to, jak „rozkłada się” nasze przekonanie o wartości $p$ przed i po obserwacji danych.

Jeśli rozkład dwumianowy opisuje liczbę sukcesów przy znanym $p$, to rozkład beta opisuje niepewność co do samego $p$, pełniąc funkcję rozkładu a priori lub a posteriori w statystyce bayesowskiej.

CDF, czyli ang. *cumulative distribution function*, pol. *dystrybuanta* to funkcja opisująca prawdopodobieństwo, że zmienna losowa $X$ przyjmie wartość mniejszą lub równą pewnej liczbie $x$. Dystrybuanta kumuluje prawdopodobieństwa od $-\infty$ aż do $x$, pokazując jak rośnie łączna szansa na wyniki nie większe niż $x$. 

Rozważmy sytuację, w której osiągnęliśmy 8 sukcesów i 2 niepowodzenia. Jak obliczyć prawdopodobieństwo tego, że bazowy wskaźnik sukcesu (prawdopodobieństwo tego, że wystąpi sukces) wynosi mniej lub tyle samo co 90%? Możemy to uczynić za pomocą SciPy:

In [4]:
a = 8 # liczba sukcesów
b = 2 # liczba niepowodzeń

# beta.cdf() <- dystrybuanta
p = stats.beta.cdf(.90, a, b)

print(p)

0.7748409780000002


Zatem takie prawdopodobieństwo wynosi ok. 77,5%. Jeżeli chcemy znaleźć prawdopodobieństwo, że bazowy wskaźnik sukcesu wynosi 90% lub więcej, wystarczy odjąć od 1.0 naszą dystrybuantę:

In [5]:
a = 8
b = 2

p = 1.0 - stats.beta.cdf(.90, a, b)

print(p)

0.22515902199999982


Załóżmy, że przeprowadzamy eksperyment i staramy się sprawdzić, czy nasze założenie o poprawności wskaźnika sukcesu, który ustaliliśmy na 90%, jest poprawne. Jeśli wykonaliśmy np. 8/10 pomyślnych testów, to istnieje ok. 22,5% szansy na to, że nasz założony wskaźnik sukcesu jest równy 90% lub wyższy. Może to oznaczać, że jest on niepoprawny, ale nie musi - należałoby w tym celu przeprowadzić więcej prób.