## Prawdopodobieństwo warunkowe

Jakie jest prawdopodobieństwo, że znajdziemy na ulicy banknot o nominale 100zł? To zależy – moglibyśmy odpowiedzieć. Zależy od miasta w którym żyjemy, dzielnicy, od tego jak często wychodzimy z domu i jaki dystans przemierzamy na pieszo. Bardzo często dodatkowe informacje pozwalają nam lepiej oszacować prawdopodobieństwa istotnych wydarzeń – zapadalność na niektóre choroby mocno zależy od wieku, płci czy współwystępowania innych chorób. Ten prosty fakt bardzo dokładnie wykorzystują banki oraz firmy ubezpieczeniowe. Chcąc ubezpieczyć samochód musimy odpowiedzieć na dziesiątki bardzo szczegółowych pytań. Firmy ubezpieczeniowe wykorzystują nasze odpowiedzi, aby ocenić ryzyko szkody – im większe ryzyko, tym większa składka. Dobrym ćwiczeniem jest uruchomienie darmowego kalkulatora składki oraz wypełnianie formularza na różne sposoby, obserwując zmianę wysokości ubezpieczenia. Dostrzeżemy, że kluczowe czynniki zwiększające ryzyko wypadku to np. młody wiek, duża liczba szkód w ostatnich latach, stary samochód. Zastanówmy się, w jaki sposób w ramach istniejącej teorii uwzględnić prawdopodobieństwo warunkowe.

Skupmy się na prostym przykładzie. Weźmy dwie szkolne klasy I i II. W każdej z nich uczy się 10 uczniów. Uczniowie klasy I są młodsi, uczniowie klasy II są o rok starsi. Wszystkim uczniom dajemy do rozwiązania pewne zadanie matematyczne. W klasie II, 7 osób jest w stanie rozwiązać zadanie (większość rozwiązywała już podobne zadanie i dobrze opanowała materiał), a w klasie I tylko 2 osoby (najlepsi uczniowie, którzy przerobili już materiał z wyższej klasy). Sytuację możemy przedstawić w postaci tzw. **tabeli krzyżowej**:


| Klasa | Poprawne rozwiązanie | Niepoprawne rozwiązanie |
|:--:|:--:|:--:|
| I | 2 | 8 |
| II | 7 | 3 |

Na podstawie powyższych danych możemy zadawać rozmaite pytania dotyczące prawdopodobieństwa. Załóżmy, że zbiorem zdarzeń elementarnych jest wybranie losowego ucznia z jednej z dwóch klas $\Omega=\{u_1, u_2, u_3, \dots, u_{20}\}$. Poznając klasyczną definicję prawdopodobieństwa nauczyliśmy się odpowiadać na pytania:
- Jakie jest prawdopodobieństwo, że losowo wybrany uczeń należy do klasy I?
- Jakie jest prawdopodobieństwo, że losowo wybrany uczeń poprawnie rozwiązał zadanie?

Aby znaleźć odpowiedzi musimy znaleźć liczebość zbiorów $A_I$ oraz $A_p$ gdzie $A_I$ jest zdarzeniem polegającym na wylosowaniu ucznia klasy I, a $A_p$ jest zdarzeniem polegającym na wylosowaniu ucznia, który poprawnie rozwiązał zadanie. Zauważmy, że $|A_I|=10$ to suma elementów pierwszego wiersza tabeli, a $|A_p|=9$ to suma elementów pierwszej kolumny tabeli. Szukane prawdopodobieństwa obliczamy korzystając z wzoru $P(A)=\frac{|A|}{|\Omega|}$:
$$P(A_I)=\frac{|A_I|}{|\Omega|}=\frac{10}{20}=50\%$$
$$P(A_p)=\frac{|A_p|}{|\Omega|}=\frac{9}{20}=45\%$$

Wykorzystajmy teraz fakt, że w pewnych okolicznościach posiadamy **dodatkową wiedzę o sytuacji**, która wpływa na obliczane przez nas prawdopodieństwa. Zadajmy następujące pytania:
- Jakie jest prawdopobieństwo, że losowo wybrany uczeń poprawnie rozwiązał zadanie, jeśli wiemy, że był to uczeń klasy I?
- Jakie jest prawdopodieństwo, że losowo wybrany uczeń jest uczniem klasy I, jeśli wiemy, że poprawnie rozwiązał zadanie?

Patrząc na tabelę, od razu możemy odpowiedzieć na pierwsze pytanie – prawdopodobieństwo wynosi $20\%$. W jaki sposób można to obliczyć? Należy podzielić liczbę uczniów klasy I, którzy poprawnie rozwiązali zadanie przez całkowitą liczbę uczniów klasy I: $\frac{2}{10}=20\%$. Zauważmy, że wzór ten działa dokładnie tak samo jak wzór z klasycznej definicji prawdopodobieństwa z tą różnicą, że nasz nowy zbiór zdarzeń elementarnych "skurczył" się do podzbioru $\Omega$ zawierającego wyłącznie uczniów klasy I. Dokładnie tak działa prawdopodobieństwo warunkowe – dzięki nowym informacjom "kurczy się" nasz wyjściowy zbiór zdarzeń elementarnych. Ubezpieczyciel wiedząc, że jesteśmy osobami w wieku od 20 do 30 nie musi znać prawdopodobieństwa stłuczki spowodowanej przez osoby po 30, wystarczą mu dane statystyczne osób z grupy wiekowej 20-30, aby precyzyjnie określić prawdopodobieństwo spowodowania straty. Formalnie, prawdopodobieństwo, że losowo wybrany uczeń poprawnie rozwiązał zadanie, pod warunkiem, że był uczniem klasy pierwsze zapiszemy jako $P(A_p|A_I)$ – pionową kreskę czytamy jako "pod warunkiem, że". Wzór ogólny na prawdopodobieństwo warunkowe możemy zapisać jako:
$$P(A|B)=\frac{|A\cap B|}{|B|}$$

W naszym przypadku mamy $P(A_p|A_I)=\frac{|A_p\cap A_I|}{|A_I|}$. Widzimy, że interesującym nas zdarzeniem jest wybranie osoby z klasy I, która jednocześnie poprawnie rozwiązała zadanie (stąd część wspólna zbiorów $A_p$ oraz $A_I$), a "skurczonym" zbiorem zdarzeń elementarnych jest zdarzenie $A_I$, czyli wylosowanie ucznia klasy I. Wykorzystajmy wzór na prawdopodobieństwo warunkowe, aby odpowiedzieć na drugie pytanie: Jakie jest prawdopodieństwo, że losowo wybrany uczeń jest uczniem klasy I, jeśli wiemy, że poprawnie rozwiązał zadanie?. To prawdopodobieństwo możemy zapisać jako $P(A_I|A_p)$:
$$P(A_I|A_p)=\frac{|A_I\cap A_p|}{|A_p|}=\frac{2}{9}\approx 22.2\%$$

Widzimy więc, że dodatkowe informacje drastycznie zmieniły nasze wyjściowe prawdopodobieństwa – wystarczy porównać $P(A_I)=50\%$ oraz $P(A_I|A_p)=22.2\%$. W ogólnym przypadku, im więcej informacji będziemy posiadać o danej sytuacji tym mocniej będziemy w stanie zawężyć wyjściowy zbiór zdarzeń elementarnych, przez co oszacowane prawdopodobieństwo będzie bardziej precyzyjne (stąd firmy ubezpieczeniowe zadają aż tyle pytań). 

W pewnych sytuacjach, dodatkowa wiedza może sprawić, że nasze decyzje będą wątpliwe etycznie. Algorytmy sztucznej inteligencji, których celem jest określanie ryzyka (prawdopodobieństwa) różnych zdarzeń, biorąc pod uwagę dane na temat płci lub rasy mogą faworyzować pewne grupy ludzi. Więcej na ten temat można poczytać w jednym z [artykułów w Nature](https://www.nature.com/articles/d41586-019-03228-6).

---

### Zadanie 2.1

Ania rzuciła czterorotnie symetryczną monetą i poinformowała, że wypadła jej nieparzysta libcza orłów. Jakie jest prawdopodobieństwo, że Ania wyrzuciła trzy orły?

Przeprowadźmy symulację wielu powtórzeń eksperymentu polegającego na czterokrotnym rzucie symetryczną monetą. Policzmy jak często występowało każde ze zdarzeń: wyrzucenie samych reszek $O_0$, wyrzucenie jednego orła $O_1$, ..., wyrzucenie samych orłów $O_4$. Prawdopodobieństwo wyrzucenia trzech orłów będziemy mogli oszacować jako liczbę wystąpień zdarzenia $O_3$ podzieloną przez liczbę wszystkich eksperymentów.

Aby oszacować prawdpodobieństwo wyrzucenia trzech orłów pod warunkiem wyrzucenia nieparzystej liczby orłów należy obliczyć (zgodnie ze wzorem na prawdopodobieństwo warunkowe):
$$P(O_3|O_1\cup O_3)=\frac{|O_3\cap (O_1\cup O_3)|}{|O_1\cup O_3|}=\frac{|O_3|}{|O_1\cup O_3|},$$

czyli stosunek liczby zdarzeń polegających na wyrzuceniu trzech orłów oraz liczby zdarzeń polegających na wyrzuceniu nieparzystej liczby orłów (jednego lub trzech). Widzimy więc, że wiedza o nieprzystej liczbie orłów zawęża nam przestrzeń zdarzeń elementarnych do sumy zdarzeń losowych $O_1$ oraz $O_3$ (pamiętajmy o tym, że zdarzenia losowe to w rzeczywistości zbiory składające się ze zdarzeń elementarnych). 

In [1]:
from collections import Counter
import random 

### Modify this part ##########################################################

n_trials = 100_000
show_trials = False

###############################################################################

tails = Counter()
for trial in range(n_trials):
    outcome = random.choices([0, 1], k=4)
    tails.update([sum(outcome)])
    
    if show_trials:
        print(f" Trial #{trial+1}:".ljust(12), 
              f"{''.join(['O' if toss == 1 else 'R' for toss in outcome])}")

print(f' Summary '.center(30, '*'))
for k, v in sorted(tails.items(), key=lambda x: x[0]):
    print(f'O_{k} ({k} tails) occurred {v} times')

print(f'\nEstimated probability of 3 tails: {100*tails[3]/n_trials:.2f}%')    
print(f'Estimated probability of 3 tails, given odd number of tails: ' + \
      f'{100*tails[3]/(tails[1]+tails[3]):.2f}%')

********** Summary ***********
O_0 (0 tails) occurred 6335 times
O_1 (1 tails) occurred 24975 times
O_2 (2 tails) occurred 37490 times
O_3 (3 tails) occurred 24925 times
O_4 (4 tails) occurred 6275 times

Estimated probability of 3 tails: 24.93%
Estimated probability of 3 tails, given odd number of tails: 49.95%


### Zadanie 2.3

Rzucono dwukrotnie kostką. Jakie jest prawdopodobieństwo, że suma oczek będzie większa od 8, gdy:
- w którymś rzucie wypadnie 4,
- w pierwszym rzucie wypadnie 4?

Przeprowadźmy symulację wielu powtórzeń eksperymentu polegającego na dwukrotnym rzucie kostką. Policzmy jak często występowało każde ze zdarzeń: 
- wyrzucenie sumy oczek większej od 8: $A_{s>8}$ 
- wyrzucenie sumy oczek większej od 8, gdy w pierwszym rzucie wypadła 4: $A_{s>8}\cap A_{I:4}$
- wyrzucenie sumy oczek większej od 8, gdy w którymś rzucie wypadła 4: $A_{s>8}\cap A_{4}$

Przypomnijmy, że część wspólna zbiorów $A_{s>8}$ oraz $A_{I:4}$ dotyczy sytuacji w których dane zdarzenie elementarne należy zarówno do zbioru $A_{s>8}$ (suma dwóch oczek jest większa niż 4) oraz $A_{I:4}$ (w pierwszym rzucie wypadła czwórka). Zbiór $A_{s>8}$ składa się z następujących zdarzeń elementarnych $A_{s>8}=\{(3, 6), (6, 3), (4, 5), (5, 4), (4, 6), (6, 4), (6, 5), (5, 6), (5, 5), (6, 6)\}$, a zbiór $A_{I:4}$ ze zdarzeń $A_{I:4}=\{(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)\}$. Zdarzeniami należącymi do $A_{s>8}\cap A_{I:4}$ są sekwencje rzutów $(4, 5)$ oraz $(4, 6)$. Szukane prawdopodobieństwa będziemy mogli oszacować korzystając ze wzorów:
$$P(A_{s>8}|A_{I:4})=\frac{|A_{s>8}\cap A_{I:4}|}{|A_{I:4}|}=\frac{2}{6}\approx 33.3\%$$

Analogicznie otrzymujemy:
$$P(A_{s>8}|A_{4})=\frac{|A_{s>8}\cap A_{4}|}{|A_{4}|}=\frac{4}{11}\approx 36.3\%$$


In [2]:
import random 

### Modify this part ##########################################################

n_trials = 100_000
show_trials = False

###############################################################################
roll_4 = 0
roll_first_4 = 0
roll_4_and_sum_gt_8 = 0
roll_first_4_and_sum_gt_8 = 0

for trial in range(n_trials):
    outcome = random.choices(range(1, 7), k=2)

    # Check if interesting events occurred
    if outcome[0] == 4 or outcome[1] == 4:
        roll_4 += 1
        if sum(outcome) > 8:
            roll_4_and_sum_gt_8 +=1
    if outcome[0] == 4:
        roll_first_4 += 1
        if sum(outcome) > 8:
            roll_first_4_and_sum_gt_8 +=1
        
    if show_trials:
        print(f'Trial #{trial+1}'.ljust(11), outcome)

p1 = roll_first_4_and_sum_gt_8 / roll_first_4 * 100
p2 = roll_4_and_sum_gt_8 / roll_4 * 100
        
print(f' Summary '.center(30, '*'))
print(f'There were total {n_trials} number of trials.')
print(f'Out of {roll_first_4} trials with 4 rolled in first roll, {roll_first_4_and_sum_gt_8}' + \
      f' ({p1:.2f}%) trials had sum of rolls greater than 8).')
print(f'Out of {roll_4} trials with 4 rolled in at least one roll, {roll_4_and_sum_gt_8}' + \
      f' ({p2:.2f}%) trials had sum of rolls greater than 8).')

********** Summary ***********
There were total 100000 number of trials.
Out of 16828 trials with 4 rolled in first roll, 5622 (33.41%) trials had sum of rolls greater than 8).
Out of 30512 trials with 4 rolled in at least one roll, 11039 (36.18%) trials had sum of rolls greater than 8).
