<a href="https://colab.research.google.com/github/MattWroclaw/data-science-bootcamp/blob/main/SciPy/01_prawdopodobienstwo_i_stata.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### <a name='1'></a> Lekkie wprowadzenie

Rozważmy populację składającą się dokładnie z $n$ elementów. Oznaczmy przez $X$ badaną cechę populacji oraz przez $x_1, \dots, x_n$ wartości cechy $X$. Cechę $X$ nazwyać będziemy zmienną losową.

---
**Przykład - dane dyskretne**  
Populacja - grupa studentów (5 osób)  
Badana cecha $X$- ocena z egzaminu  
Realizacja zmiennej: 3, 4.5, 5, 4.5, 3  

In [1]:
import numpy as np

X = np.array([3, 4.5, 5, 4.5, 3])
print(X)

[3.  4.5 5.  4.5 3. ]


  **Przykład - dane ciągłe**  
Populacja - grupa studentów (5 osób)  
Badana cecha $X$- wzrost studenta  
Realizacja zmiennej: 185.0, 179.5, 168.0, 192.0, 185.5

In [None]:
X = np.array([185.0, 179.5, 168.0, 192.0, 185.5])
print(X)

### <a name='2'></a> Statystyka opisowa - miary tendencji centralnej

**DEFINICJA 1.**
Średnią arytmetyczną ciągu wartości $x_1, \dots, x_n$ nazwyamy:
$$\bar{x}= \frac{x_{1} + x_{2} + \ \ldots \ + x_{n}}{n} = \frac{1}{n} \sum_{i=1}^{n} x_{i}$$  

**PRZYKŁAD 2.**
Rozważmy ciąg: $3, 4.5, 5, 4.5, 3$
$$\bar{x}=\frac{3 + 4.5 + 5 + 4.5 + 3}{5} = 4.0$$

In [2]:
X = np.array([3, 4.5, 5, 4.5, 3])
X.mean()

4.0

**DEFINICJA 3.**
Medianą ciągu wartości $x_1, \dots, x_n$ nazywamy środkowy wyraz tego ciągu, gdy $n$ jest liczbą nieparzystą, w przeciwnym przypadku średnią arytmetyczną dwóch wyrazów środkowych.

$Mediana = Me = \left\{\begin{array} {lll} x_{(k+1)} &  \hbox{ dla } & n=2k+1 \\[1mm] \frac{x_{(k)}+x_{(k+1)}}{2} & \hbox{ dla } & n=2k. \end{array} \right.$,
gdzie $x_{(1)} \le x_{(2)} \le  \dots \le x_{(n)}.$  

**PRZYKŁAD 4.**
Rozważmy ciąg: $3, 4.5, 5, 4.5, 3$  
Porządkujemy ciąg: $3, 3, 4.5, 4.5, 5$  
Ponieważ liczba elementów (=5) jest liczbą nieparzystą wybieramy środkowy wyraz tego ciągu czyli:
$$Mediana = 4.5$$

In [3]:
np.median(X)

4.5






**PRZYKŁAD 5.**
Rozważmy ciąg: $5, 4.5, 3, 5$  
Porządkujemy ciąg: $3, 4.5, 5, 5$  
Ponieważ liczba elementów (=4) jest liczbą parzystą obliczamy średnią arytmetyczną wyrazów środkowych:
$$Mediana = \frac{4.5 + 5}{2} = 4.75$$

**DEFINICJA 6.**
Moda (wartość modalna) to najczęściej występująca wartość w ciągu.

**PRZYKŁAD 7.**
Rozważmy ciąg: $3, 4.5, 5, 4.5, 2$
$$Moda = 4.5$$


### <a name='3'></a> Statystyka opisowa - miary rozrzutu

**DEFINICJA 8.**
**Średni błąd** ciągu wartości $x_1, \dots, x_n$ nazywamy wartość:
$$b=\frac{1}{n} \sum_{i=1}^{n} | x_{i}-\bar{x} |$$

Im mniejszy jest średni błąd tym zmienna $X$ ma mniejszy rozrzut.

**PRZYKŁAD 9.**
Rozważmy zmienną losową $X$ o realizacji $3.5, 4.0, 4.0$ oraz zmienną losową $Y$ o realizacji $2.0, 4.0, 5.0$.

Policzmy średni błąd.  
$\bar{X} = \frac{3.5 + 4.0 + 4.0}{3} = 3.83$  
$\bar{Y} = \frac{2.0 + 4.0 + 5.0}{3} = 3.67$

Zatem  
$b_X = \frac{1}{3}(|3.5 - 3.83| + |4.0 - 3.83| + |4.0 - 3.83|) = $


In [4]:
X = [3.5, 4.0, 4.0]
Y = [2.0, 4.0, 5.0]

X_mean = np.mean(X)
Y_mean = np.mean(Y)

print(f'X_mean: {X_mean:.4f}')
print(f'Y_mean: {Y_mean:.4f}')

X_mean: 3.8333
Y_mean: 3.6667


In [5]:
b_X = 1 / len(X) * (abs(X - X_mean).sum())
b_Y = 1 / len(Y) * (abs(Y - Y_mean).sum())

print(f'Średni błąd X: {b_X:.4f}')
print(f'Średni błąd Y: {b_Y:.4f}')

Średni błąd X: 0.2222
Średni błąd Y: 1.1111


**DEFINICJA 10.**
Wariancją ciągu $x_1, \dots, x_n$ nazywamy wartość:

$$s_{n}^{2} = \frac{1}{n} \sum_{i=1}^{n} ( x_{i}-\bar{x})^{2}$$  

**DEFINICJA 11.**
Odchyleniem standardowym ciągu $x_1, \dots, x_n$ nazywamy wartość:

$$s_n = \sqrt{\frac{1}{n} \sum_{i=1}^{n} ( x_{i}-\bar{x})^{2}}.$$

In [6]:
var_X = 1 / len(X) * ((X - X_mean)**2).sum()
var_Y = 1 / len(Y) * ((Y - Y_mean)**2).sum()

print(f'Wariancja zmiennej X: {var_X:.4f}')
print(f'Wariancja zmiennej Y: {var_Y:.4f}\n')

std_X = np.sqrt(var_X)
std_Y = np.sqrt(var_Y)

print(f'Odchylenie standardowe zmiennej X: {std_X:.4f}')
print(f'Odchylenie standardowe zmiennej Y: {std_Y:.4f}')

Wariancja zmiennej X: 0.0556
Wariancja zmiennej Y: 1.5556

Odchylenie standardowe zmiennej X: 0.2357
Odchylenie standardowe zmiennej Y: 1.2472


In [7]:
print(np.std(X))
print(np.std(Y))

0.23570226039551584
1.247219128924647


### <a name='4'></a> Dystrybuanta empiryczna

**DEFINICJA 12.**
Kwantylem rzędu $p$ zmiennej losowej $X$ nazywamy wartość, która dzieli uporządkowany ciąg wartości $x_1, \dots, x_n$ na dwie części w proporcjach $p$ oraz $1-p$.

**PRZYKŁAD 13.**
Mediana jest kwantylem rzędu $p=\frac{1}{2}$.

**DEFINICJA 14.**
Dystrybuantą empiryczną ciągu  $x_1, \dots, x_n$ nazywamy funkcję określoną wzorem:
$$F(x)=\frac{ \# \{x_{i}: \ x_{i} \leq x \} }{n} \;\; \textrm{dla}\;\; x\in {\Bbb R}$$

To w liczniku oznacza liczbność zbioru. Jest to zbiór tych $x_{i}$ które są $<$ $x$ z dystrybuanty, czyli z $F(x)$

Przy pomocy dystrybuanty możemy w prosty sposób określić wzór na kwantyl rzędu $p$:

$$q_p = \min \{ x : F(x) \ge p \}$$



Mediana to kwantyl rzędu $$\frac{1}{2}\$$ , minimum jest po tych $x$ gdzie dystrybuanta przyjmuje wartości $\ge \frac{1}{2}$. Jest to z definicji minimum tego zbioru, czyli $mediana$ .



### <a name='6'></a> Przestrzeń klasyczna

Niech $\Omega$ będzie zbiorem skończonym składającym się z $n$ jednakowo prawdopodobnych zdarzeń elementarnych:
$$\Omega = \{\omega_1, \dots, \omega_n\}$$
oraz niech $\mathscr{F}$ rodzina podzbiorów zbioru $\Omega$. Jeśli $A \in \mathscr{F}$, to:
$$P(A) = \frac{\#A}{n}$$

Powyższe oznacza: Zdarzenie A należy do naszego sigma ciała $Ω$  , to prawdopodobieństwo takiego zdarzenia jest równe liczebności zdarzeń sprzyjających ${\#A}$ podzielonych na liczbę elementów zbioru omega , $n$ .

**PRZYKŁAD 16.**
Niech $\Omega = \{1, 2, 3, 4, 5, 6\}$, $A$ oznacza zdarzenie polegające na wyrzuceniu liczby parzystej, mamy zatem   
$n=6$  
$A=\{2, 4, 6\}$   
oraz  kalkulujemy liczebnoś zbioru A, czyli : $\#A = 3$  
Stąd $P(A) = \frac{\#A}{n} = \frac{3}{6} = \frac{1}{2}$



In [10]:
omega = {1, 2, 3, 4, 5, 6}
A = {item for item in omega if item % 2 == 0}

P_A = len(A) / len(omega)
print(f'Zbiór A: {A}')
print(f'Prawdopodobieństwo zdarzenia A: {P_A}')

Zbiór A: {2, 4, 6}
Prawdopodobieństwo zdarzenia A: 0.5


**PRZYKŁAD 17.**
Niech $\Omega = \{1, 2, 3, 4, 5, 6\}$, $B$ oznacza zdarzenie polegające na wyrzuceniu liczby większej niż 4, mamy zatem   
$n=6$  
$B=\{5, 6\}$   
oraz $\#B = 2$  
Stąd $P(B) = \frac{\#A}{n} = \frac{2}{6} = \frac{1}{3}$

In [11]:
omega = {1, 2, 3, 4, 5, 6}
B = {item for item in omega if item > 4}

P_B = len(B) / len(omega)
print(f'Zbiór B: {B}')
print(f'Prawdopodobieństwo zdarzenia B: {P_B:.4f}')

Zbiór B: {5, 6}
Prawdopodobieństwo zdarzenia B: 0.3333


### <a name='7'></a> Niezależność zdarzeń

*Uwaga:* co innego zdarzenie niezależne a co innego zmienna niezależna.

**DEFINICJA 18.**
 Dwa zdarzenia $A$ i $B$ są niezależne, gdy:
$$P(A\cap B) = P(A)\cdot  P(B)$$

czyli: kiedy prawdopodobieństwo iloczynu równe jest iloczynowi prawdopodobieństw.

**PRZYKŁAD 17.**
Rozważmy dwa zdarzenia $A$ i $B$ z poprzednich przykładów.


In [15]:
intersection_AB = set.intersection(A, B)
P_intersection_AB = len(intersection_AB) / len(omega)

PA_PB = P_A * P_B

print(f'Przecięcie zbiorów A i B: {intersection_AB}\n')
print(f'Iloczyn prawdopodobieństw zdarzeń A i B: {PA_PB:.4f}')
print(f'Prawdopodobieństwo iloczynu zdarzeń A i B: {P_intersection_AB:.4f}\n')

check = 'Zdarzenia niezależne' if PA_PB == P_intersection_AB else 'Zdarzenia zależne'
print(check)

print("Prawdopodobieństwo zdarzenia A=0.5 \n Prawdopodobieństwo zdarzenia B=0.333 \n Iloczyn tego to 1/6 \n Przecięcie się zbiorów, czyli sytuacja gdzie liczba jest parzysta i > 4,  \n  temu sprzyja tylko el:6 i prawdopodobieństwo tego zdarzenia też = 1/6")
print("Gdybyśmy zmienili w zdarzeniu B, że mamy wyrzucić liczbę > 3 to będą to zdarzenia niezależne, \n gdyż poprzez zdarzenie A wpływamy na zdarzenie B i mamy wartośći różne.  ")

Przecięcie zbiorów A i B: {6}

Iloczyn prawdopodobieństw zdarzeń A i B: 0.1667
Prawdopodobieństwo iloczynu zdarzeń A i B: 0.1667

Zdarzenia niezależne
Prawdopodobieństwo zdarzenia A=0.5 
 Prawdopodobieństwo zdarzenia B=0.333 
 Iloczyn tego to 1/6 
 Przecięcie się zbiorów, czyli sytuacja gdzie liczba jest parzysta i > 4,  
  temu sprzyja tylko el:6 i prawdopodobieństwo tego zdarzenia też = 1/6


In [19]:
C = {item for item in omega if item > 1}

P_C = len(C) / len(omega)
print(f'Zbiór C: {C}')
print(f'Prawdopodobieństwo zdarzenia C (tzn. wynik>1): {P_C:.4f}')

intersection_AC = set.intersection(A, C)
P_intersection_AC = len(intersection_AC) / len(omega)

PA_PC = P_A * P_C
print(f'Prawdopodobieństwo zdarzenia A: {P_A}\n')

print(f'Przecięcie zbiorów A i C (>1 i parzyste): {intersection_AC}\n')
print(f'Iloczyn prawdopodobieństw zdarzeń A i C (A*C): {PA_PC:.4f}')
print(f'Prawdopodobieństwo iloczynu zdarzeń A i C (3zd. korzystne/6 możliwości): {P_intersection_AC:.4f}\n')

check = 'Zdarzenia niezależne' if PA_PC == P_intersection_AC else 'Zdarzenia zależne'
print(check)

Zbiór C: {2, 3, 4, 5, 6}
Prawdopodobieństwo zdarzenia C (wynik>1): 0.8333
Prawdopodobieństwo zdarzenia A: 0.5

Przecięcie zbiorów A i C (>1 i parzyste): {2, 4, 6}

Iloczyn prawdopodobieństw zdarzeń A i C (A*C): 0.4167
Prawdopodobieństwo iloczynu zdarzeń A i C (3zd. korzystne/6 możliwości): 0.5000

Zdarzenia zależne


Dwie zmienne są niezależne gdy dla wszystkich zbiorach zachodzi waruek  
$$P(A\cap B) = P(A)\cdot  P(B)$$  



###  <a name='8'></a> Prawdopodobieństwo warunkowe
Prawdopodobieństwem warunkowym zdarzenia $A$ pod warunkiem zajścia zdarzenia $B$ przy zał. $P(B) > 0$ nazywamy:
$$P(A|B) = \frac{P(A\cap B)}{P(B)}.$$

Prawdopodobieństwa zdarzenia A pod warunkiem zdarzenia B nazywamy powyższy iloczyn (P(B)>0) [prawdopodobieństwo iloczynu tych zdarzeń dzielone przez prawdopodobieństwo zdarzenia B]

In [20]:
print(f'A: {A}')
print(f'B: {B}')
print(f'Przecięcie A i B: {intersection_AB}')

A: {2, 4, 6}
B: {5, 6}
Przecięcie A i B: {6}


In [21]:
PA_cond_B = P_intersection_AB / P_B

print(f'Prawdopodobieństwo wylosowania liczby parzystej pod warunkiem, że wylosowaliśmy liczbę większą niż 4 wynosi: {PA_cond_B}')

Prawdopodobieństwo wylosowania liczby parzystej pod warunkiem, że wylosowaliśmy liczbę większą niż 4 wynosi: 0.5
