# Modele analizy danych

Tomasz Rodak

---

## 2.1 Zmienna losowa i rozkład prawdopodobieństwa

Matematycznie, **zmienna losowa** to funkcja określona na przestrzeni **zdarzeń elementarnych**, która każdemu zdarzeniu przypisuje wartość liczbową. W praktyce, zdarzenia elementarne to możliwe wyniki eksperymentów losowych, a zmienne losowe pozwalają tym wynikom przyporządkować liczby rzeczywiste. Zatem zmienna losowa jest pewną funkcją, a jej związek prawdopodobieństwa ujawnia się dopiero wtedy, gdy zadajemy pytanie typu: *„Jakie jest prawdopodobieństwo tego, że wartość tej zmiennej będzie równa jakiejś stałej, albo że znajdzie się w pewnym przedziale?”*

### 2.1.1 Przykład

* Rzut monetą: $X = 1$ dla orła, $X = 0$ dla reszki.
* Rzut sześcienną kostką: $X$ to liczba oczek wyrzuconych na kostce.
Wartości zmiennej losowej to liczby $1, 2, 3, 4, 5, 6$.
* Rzut dwiema kostkami: $X$ to suma oczek wyrzuconych na obu kostkach.
Wartości zmiennej losowej to liczby całkowite od $2$ do $12$.



**Rozkład prawdopodobieństwa** opisuje, jak prawdopodobieństwo rozkłada się na możliwe wartości zmiennej losowej. Funkcję przypisującą wartości $k$ prawdopodobieństwo zbioru zdarzeń elementarnych, dla którego $X=k$ nazywamy **funkcją prawdopodobieństwa**. 

### 2.1.2 Przykład

Funkcje prawdopodobieństwa dla powyższych przykładów:

* Rzut monetą:
$P(X=1) = 1/2$, $P(X=0) = 1/2$.

* Rzut kostką:

| $k$      | 1   | 2   | 3   | 4   | 5   | 6   |
| -------- | --- | --- | --- | --- | --- | --- |
| $P(X=k)$ | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |

* Rzut dwiema kostkami:

| $k$      | 2    | 3    | 4    | 5    | 6    | 7    | 8    | 9    | 10   | 11   | 12   |
| -------- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| $P(X=k)$ | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |

Funkcja prawdopodobieństwa definiuje rozkład zmiennej losowej tylko wtedy, gdy zmienna ta przyjmuje skończoną liczbę wartości (lub gdy zbiór jej wartości jest **przeliczalny**). Zmienną taką nazywamy **zmienną losową dyskretną**.
Przykłady powyżej należą właśnie do tej kategorii.

### 2.1.3 Zmienna losowa ciągła

Często jednak zdarza się, że wartości zmiennej losowej wypełniają pewien **przedział liczb rzeczywistych** — na przykład masa ciała, czas oczekiwania czy temperatura — i że prawdopodobieństwo, że zmienna przyjmie dowolną konkretną wartość, jest równe zeru. W tym przypadku funkcja prawdopodobieństwa nie jest już wystarczająca do opisu rozkładu zmiennej losowej. Zamiast funkcji prawdopodobieństwa, używamy wtedy **funkcji gęstości prawdopodobieństwa**. Funkcja ta pozwala nam obliczać prawdopodobieństwa przynależności zmiennej losowej do pewnych przedziałów wartości.

Bardziej precyzyjnie, funkcja całkowalna i nieujemna $g \colon \mathbf{R} \to \mathbf{R}$ jest funkcją gęstości prawdopodobieństwa zmiennej losowej $X$, jeśli dla dowolnej liczby rzeczywistej $x$ zachodzi:

\begin{equation*}
P(X \leqslant x) = \int_{-\infty}^{x} g(t)dt.
\end{equation*}

Łatwo wykazać, że wtedy

\begin{equation*}
P(a \leqslant X \leqslant b) = \int_{a}^{b} g(x)dx
\end{equation*}
dla dowolnych liczb rzeczywistych $a$, $b$.


Zmienną losową omawianego w tym punkcie typu nazywamy **zmienną losową ciągłą**.

### 2.1.4 Przykład

Niech $X$ będzie zmienną losową o gęstości:

\begin{equation*}
g(x) =
\begin{cases}
1, & 0 \leq x \leq 1, \\
0, & \text{w przeciwnym razie.}
\end{cases}
\end{equation*}

Wówczas $X$ ma **rozkład jednostajny** na przedziale $[0,1]$, oznaczany $X \sim U(0,1)$.
Dla dowolnego $a,b \in [0,1]$ mamy:

\begin{equation*}
P(a \leqslant X \leqslant b) = \int_{a}^{b} 1dx = b - a.
\end{equation*}

## 2.2 Zmienne losowe i rozkłady prawdopodobieństwa generowane komputerowo

W języku **Python**, podobnie jak w wielu innych językach programowania, dostępne są funkcje umożliwiające **generowanie liczb losowych** zgodnych z różnymi rozkładami prawdopodobieństwa.
Najczęściej korzysta się z biblioteki **NumPy**, która udostępnia bogaty zestaw funkcji do symulacji zmiennych losowych zarówno dyskretnych, jak i ciągłych.

Poniżej przedstawiono kilka najczęściej używanych funkcji:

* **`np.random.randint()`** — rozkład **jednostajny dyskretny**.
  Wywołanie `np.random.randint(a, b)` zwraca losową liczbę całkowitą z przedziału $[a, b)$, czyli od `a` włącznie do `b` *bez `b`*.
  Wywołanie z dodatkowym argumentem `size=n` zwraca tablicę `n` takich liczb.

  **Przykład:**

  ```python
  np.random.randint(1, 7, size=10)
  ```

  generuje 10 symulowanych rzutów sześcienną kostką.

* **`np.random.uniform()`** — rozkład **jednostajny ciągły**.
  Wywołanie `np.random.uniform(a, b)` zwraca losową liczbę rzeczywistą z przedziału $[a, b)$.
  Wywołanie z argumentem `size=n` zwraca tablicę `n` takich wartości.

  **Przykład:**

  ```python
  np.random.uniform(0, 1, size=5)
  ```

  generuje 5 liczb z rozkładu jednostajnego na $[0,1)$.

* **`np.random.normal()`** — rozkład **normalny (Gaussa)**.
  Wywołanie `np.random.normal(mu, sigma)` zwraca liczbę losową z rozkładu normalnego o wartości oczekiwanej `mu` i odchyleniu standardowym `sigma`.
  Wywołanie z `size=n` generuje tablicę `n` próbek z tego rozkładu.

  **Przykład:**

  ```python
  np.random.normal(0, 1, size=1000)
  ```

  generuje 1000 obserwacji ze standardowego rozkładu normalnego $N(0, 1)$.


* **`np.random.exponential()`** — rozkład **wykładniczy**.
  Wywołanie `np.random.exponential(scale)` zwraca liczbę losową z rozkładu wykładniczego o parametrze skali `scale` (który jest odwrotnością parametru $\lambda$ z klasycznego zapisu funkcji gęstości $g(x) = \lambda e^{-\lambda x}$).
  Z argumentem `size=n` zwraca tablicę `n` liczb z tego rozkładu.

  **Przykład:**

  ```python
  np.random.exponential(scale=2.0, size=5)
  ```

Wszystkie te funkcje generują liczby losowe **pseudolosowo**, to znaczy na podstawie algorytmu deterministycznego, który jednak imituje zachowanie losowości.
Aby uzyskać powtarzalne wyniki (np. w celach dydaktycznych lub testowych), można ustawić **ziarno generatora** za pomocą:

```python
np.random.seed(42)
```

Pełna lista dostępnych funkcji, rozkładów i ich parametrów znajduje się w
[dokumentacji biblioteki NumPy — moduł `numpy.random`](https://numpy.org/doc/stable/reference/random/index.html).

## 2.3 Zadania

1. Wygeneruj 1000 wartości z rozkładu odpowiadającego rzutowi kostką sześcienną. Narysuj wykres słupkowy (barplot) uzyskanych wartości. Porównaj z teoretyczną funkcją prawdopodobieństwa tego rozkładu.

2. Wygeneruj 1000 wartości z rozkładu jednostajnego na przedziale $[a, b]$, gdzie $a$ i $b$ to wybrane przez ciebie liczby rzeczywiste. Narysuj histogram uzyskanych wartości. Porównaj z teoretyczną funkcją gęstości prawdopodobieństwa tego rozkładu.

3. Rozwiąż zadanie 2, ale dla rozkładu normalnego o wybranych przez ciebie parametrach.

## 2.4 Wektory zmiennych losowych. Próbkowanie

Załóżmy, ze dany jest ciąg zmiennych losowych $( X_1, X_2, \ldots, X_n )$. Zakładamy o nich, że:
1. wszystkie mają ten sam rozkład,
2. są niezależne.

Mówimy wtedy, że zmienne te są **niezależne i o identycznym rozkładzie** (ang. *independent and identically distributed*, i.i.d.) a sam wektor $( X_1, X_2, \ldots, X_n )$ nazywamy **prostą próbą losową** (ang. *simple random sample*).

Konkretne wartości liczbowe $(x_1,x_2,\ldots,x_n)$ uzyskane po przeprowadzeniu eksperymentu losowego nazywamy **realizacją** (ang. *realization*) wektora zmiennych losowych $( X_1, X_2, \ldots, X_n )$ albo **próbą** (ang. *sample*).

### Przykład 2.4.1

Rzucamy sześcienną kostką $n$ razy. Niech $X_i$ będzie liczbą oczek wyrzuconych przy $i$-tym rzucie. Wówczas $(X_1, X_2, \ldots, X_n)$ to wektor zmiennych losowych i.i.d., z których każda ma rozkład jednostajny dyskretny na zbiorze $\{1, 2, 3, 4, 5, 6\}$. 
Przykładowa realizacja tego wektora to $(3, 6, 1, 4, 4, 2, 5, 3, 6, 1)$ dla $n=10$.

Wywołanie `np.random.randint(1, 7, size=10)` generuje taką właśnie realizację.

## 2.5 Statystyki i estymatory

Niech $( X_1, X_2, \ldots, X_n )$ będzie prostą próbą losową.
Funkcje liczbowe $T(X_1, X_2, \ldots, X_n)$ nazywamy **statystykami** (ang. *statistics*).
Statystyki są zatem zmiennymi losowymi, które zależą od próby.
W praktyce, statystyki służą do opisu i analizy danych pochodzących z próby. 
Przykładami statystyk są:
* średnia arytmetyczna próby: 

\begin{equation*}
\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{equation*}

* wariancja próby: 

\begin{equation*}
S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2
\end{equation*}

* mediana próby: wartość środkowa uporządkowanego zbioru wartości $X_i$,
* maksimum próby: 

\begin{equation*}
\max(X_1, X_2, \ldots, X_n)
\end{equation*}

* minimum próby: 

\begin{equation*}
\min(X_1, X_2, \ldots, X_n)
\end{equation*}

Jeśli statystyka $T(X_1, X_2, \ldots, X_n)$ jest używana do oszacowania nieznanego parametru rozkładu zmiennej losowej $X_i$, to nazywamy ją **estymatorem** (ang. *estimator*).
Na przykład, średnia arytmetyczna próby $\overline{X}$ jest estymatorem wartości oczekiwanej $E(X_i)$, a wariancja próby $S^2$ jest estymatorem wariancji $Var(X_i)$.

## 2.6 Zadania

1. Niech $X\sim N(\mu, \sigma)$ z $\mu=170$, $\sigma=8$. Zmienna $X$ symuluje wzrost osoby dorosłej. Wylosuj $n=10$ wartości z rozkładu $X$ i oblicz wartość średnią wyniku. Operację tę powtórz 1000 razy. Wyświetl histogram uzyskanych średnich.

2. Powtórz zadanie 1 dla $n=100$, $n=500$ i $n=1000$. Co się zmienia?

3. Wykaż, że statystyka $\overline X=(X_1 + X_2 + \ldots + X_n)/n$ rozważana w zadaniach 1 i 2 jest estymatorem nieobciążonym wartości oczekiwanej $E(X)$. 

4. Testy empiryczne przeprowadzone w zadaniach 1 i 2 pokazują, że niepewność estymatora $\overline X$ zależy od $n$ - im większe $n$ tym mniejsza niepewność. Wykaż, że:
\begin{equation*}
Var(\overline X)=\sigma^2/n
\end{equation*}
gdzie $\sigma^2$ to wariancja zmiennej $X$. 


5. Niech $X$ będzie zmienną losową, dla której chcemy oszacować wartość oczekiwaną $E(X)$. Chcielibyśmy również znać niepewność tego oszacowania. Zakładamy, że sytuacja jest praktyczna, więc zmienna $X$ pozostaje nieznana, a to czym dysponujemy to jedynie realizacja $(x_1, x_2, \ldots, x_n)$ prostej próby losowej $(X_1, X_2, \ldots, X_n)$. Wówczas średnia z tej próby
\begin{equation*}
\overline{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
\end{equation*}
jest realizacją $\overline{X}$ i estymacją wartości oczekiwanej $E(X)$. Zauważmy, że nie mamy jak obliczyć $Var(\overline{X})$, ponieważ nie znamy $\sigma^2$. Można jednak wykazać, że
\begin{equation*}
S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2
\end{equation*}
jest estymatorem nieobciążonym $Var(X)$, czyli że $E(S^2) = Var(X) = \sigma^2$ i w konsekwencji wariancję estymatora $\overline{X}$ możemy oszacować jako $S^2/n$. <br>
Niech $X\sim N(\mu, \sigma)$ z $\mu=170$, $\sigma=8$ jak poprzednio. Utwórz tablicę 10,000,000 reprezentującą zbiór wszystkich istniejących obserwacji tej zmiennej losowej (prototyp - zbiór wszystkich żyjących osób dorosłych). Średnia z tej próby jest realną średnią populacji i zarazem estymacją wartości oczekiwanej $E(X)$. Zakładamy jednak, że populacja ta jest zbyt duża, abyśmy mogli znać wszystkie jej elementy. Zamiast tego, losujemy z tej populacji mniejszą próbę i na jej podstawie obliczamy estymację wartości oczekiwanej oraz oszacowanie niepewności tej estymacji. 
    * Wylosuj z populacji próbę o rozmiarze $n=100$ i oblicz estymację wartości oczekiwanej oraz oszacowanie niepewności tej estymacji $s^2/n$, gdzie $s^2$ jest realizacją $S^2$. Porównaj uzyskane estymacje z prawdziwą wartością oczekiwaną i z prawdziwą wariancją estymatora $\overline{X}$. 
    * Powtórz powyższy eksperyment dla różnych rozmiarów próbek $n$. Wyniki zaprezentuj na wykresie.