# Modele analizy danych

### 2024/2025, semestr zimowy
Tomasz Rodak

---

## Importance sampling

W poprzednim arkuszu wykorzystaliśmy przekształcenie

\begin{equation*}
\begin{aligned}
\int_\Omega f(\mathbf{x}) d\mathbf{x} &= \text{Vol}(\Omega) \int_\Omega f(\mathbf{x}) \frac{d\mathbf{x}}{\text{Vol}(\Omega)} \\
&= \text{Vol}(\Omega) \mathbb{E}[f(\mathbf{x})], 
\end{aligned}
\end{equation*} 

aby wykazać że

\begin{equation*}
\frac{1}{N} \sum_{i=1}^N f(\mathbf{x}_i) \xrightarrow{} \mathbb{E}[f(\mathbf{x})],\quad N\to\infty,
\end{equation*}

i w konsekwencji, że

\begin{equation*}
\frac{\text{Vol}(\Omega)}{N} \sum_{i=1}^N f(\mathbf{x}_i) \xrightarrow{} \int_\Omega f(\mathbf{x}) d\mathbf{x},\quad N\to\infty.
\end{equation*}

Punkty $\mathbf{x}_i$ w powyższym wzorze są próbkowane z rozkładu jednostajnego na $\Omega$ i względem tego rozkładu jest liczona wartość oczekiwana.

Podane wyżej rozumowanie można uogólnić na szerszą rodzinę rozkładów. 

Niech $p(\mathbf{x})$ będzie gęstością rozkładu prawdopodobieństwa na $\Omega$ (niekoniecznie ograniczonym).
Wówczas próbkując punkty $\mathbf{x}_i$ z rozkładu $p(\mathbf{x})$ w myśl prawa wielkich liczb otrzymujemy:

\begin{equation*}
\frac{1}{N} \sum_{i=1}^N f(\mathbf{x}_i) \xrightarrow{} \mathbb{E}_p[f(\mathbf{x})]=\int_\Omega f(\mathbf{x}) p(\mathbf{x}) d\mathbf{x},\quad N\to\infty,
\end{equation*}

o ile tylko wartość oczekiwana istnieje. W powyższym wzorze pisząc $\mathbb{E}_p$ zaznaczamy, że wartość oczekiwana jest liczona względem rozkładu $p(\mathbf{x})$. 

Załóżmy, że chcemy obliczyć całkę $\int_\Omega f(\mathbf{x}) d\mathbf{x}$, nie możemy jednak tego zrobić analitycznie ze względu na złożoność funkcji $f(\mathbf{x})$. Jeśli $p(\mathbf{x})$ jest rozkładem na $\Omega$, takim że $p(\mathbf{x}) > 0$ w każdym punkcie $\mathbf{x} \in \Omega$, to:

\begin{equation*}
\begin{aligned}
\int_\Omega f(\mathbf{x}) d\mathbf{x} &= \int_\Omega f(\mathbf{x}) p(\mathbf{x}) \frac{dx}{p(\mathbf{x})} \\
&= \mathbb{E}_p\left[\frac{f(\mathbf{x})}{p(\mathbf{x})}\right]
\end{aligned}
\end{equation*}

Zatem

\begin{equation*}
\frac{1}{N} \sum_{i=1}^N \frac{f(\mathbf{x}_i)}{p(\mathbf{x}_i)} \xrightarrow{} \int_\Omega f(\mathbf{x}) d\mathbf{x},\quad N\to\infty,
\end{equation*}

o ile tylko całka $\int_\Omega f(\mathbf{x}) d\mathbf{x}$ istnieje.

Wzór ten jest podstawą metody *importance sampling*. Wynika z niego, że całkę $\int_\Omega f(\mathbf{x}) d\mathbf{x}$ można obliczyć, próbkując punkty $\mathbf{x}_i$ z rozkładu $p(\mathbf{x})$ i odpowiednio ważąc wartości funkcji $f(\mathbf{x})$. Wybór odpowiedniego rozkładu $p(\mathbf{x})$ ma duże znaczenie dla efektywności obliczeń.

## Zadanie 2.1

Niech $X$ będzie zmienną losową o standardowym rozkładzie normalnym, tzn. $X \sim \mathcal{N}(0, 1)$. Oblicz $P(X > 2)$. 
Porównaj wynik z rezultatem uzyskanym przez wykorzystanie funkcji `norm.cdf` z pakietu `scipy.stats`.

*Wskazówka:* 

\begin{equation*}
P(X > 2) = \frac{1}{\sqrt{2\pi}} \int_2^\infty e^{-x^2/2} dx.
\end{equation*}

## Zadanie 2.2

Rozważmy całkę

\begin{equation*}
I = \int_{-\infty}^\infty e^{-x^2} dx=\sqrt{\pi}.
\end{equation*}

Celem tego zadania jest eksperymentalna analiza zależności metody importance sampling od liczby próbek $N$ oraz od wyboru rozkładu $p(\mathbf{x})$. Analizę przeprowadzimy dla problemu numerycznego obliczania całki $I$.

### 2.2.1

Oblicz całkę $I$ metodą importance sampling próbkując punkty $x_i$ ($N=10^6$ próbek) ze standardowego rozkładu normalnego $\mathcal{N}(0,1)$. Oblicz błąd względny w stosunku do wartości dokładnej.

### 2.2.2

Zgodnie z teorią, błąd względny w metodzie importance sampling powinien maleć wraz ze wzrostem liczby próbek $N$ proporcjonalnie do $1/\sqrt{N}$:

\begin{equation*}
\text{relative error} \approx a\cdot \frac{1}{\sqrt{N}}=a\cdot N^{b},
\end{equation*}

gdzie $b=-1/2$. 
Zlogarytmowanie obu stron tego równania prowadzi nas do zależności liniowej:

\begin{equation*}
\log(\text{relative error}) \approx b\cdot \log N + \log a.
\end{equation*}

Celem tego punktu jest eksperymentalne wyznaczenie współczynników $b$ i $a$ w problemie numerycznego obliczania całki $I$. Spodziewamy się, że $b$ będzie bliskie $-1/2$ zaś $a$ będzie zależeć od rozkładu $p(\mathbf{x})$, z którego próbkujemy punkty $\mathbf{x}_i$. W tym punkcie zakładamy, że $p(\mathbf{x})$ jest standardowym rozkładem normalnym $\mathcal{N}(0,1)$.

Niech $M_1, M_2,\ldots M_{100}$ będzie ciągiem geometrycznym, takim że $M_1=10^3$, $M_{100}=10^6$ i niech $N_k$, $k=1,\ldots,100$ będzie zaokrągleniem $M_k$ w dół. 
* Dla każdego $N_k$ oblicz wartość całki $I$ metodą importance sampling próbkując $N_k$ punktów ze standardowego rozkładu normalnego $\mathcal{N}(0,1)$. Oblicz błąd względny $\text{relative error}$ względem wartości dokładnej.
* Dopasuj prostą regresji liniowej do danych $\log(\text{relative error})$ względem $\log N_k$.
* Narysuj na jednym wykresie dane (wykres rozproszenia) oraz prostą regresji.
* Wyznacz współczynniki $b$ i $a$. Zapisz zależność $\text{relative error}$ od $N$ w postaci pozbawionej logarytmów. 

### 2.2.3

Niech ciąg $N_k$ będzie jak w poprzednim punkcie. Wyznacz ciąg błędów względnych dla metody importance sampling względem rozkładów normalnych $\mathcal{N}(0,.8^2)$, $\mathcal{N}(0,1)$, $\mathcal{N}(0,1.2^2)$. Narysuj na jednym wykresie proste regresji liniowej dla $\log(\text{relative error})$ względem $\log N_k$ dla każdego z rozkładów. Czy któryś z rozkładów wydaje się być lepszy od pozostałych? Odpowiedź uzasadnij.

### 2.2.4

Oblicz 100 razy całkę $I$ metodą importance sampling próbkując $N=10^6$ punktów z rozkładu normalnego $\mathcal{N}(0,.8^2)$. Powtórz następnie analogiczne obliczenia dla rozkładów $\mathcal{N}(0,1)$ oraz $\mathcal{N}(0,1.2^2)$. Dla każdego z rozkładów narysuj wykres pudełkowy rozrzutu wyników. Czy jeden z rozkładów wydaje się być lepszy od pozostałych? Odpowiedź uzasadnij.

### 2.2.5

Wyznacz eksperymentalnie rozkład $\mathcal{N}(0, \sigma^2)$, który daje najmniejszy błąd względny i najmniejszy rozrzut wyników w procesie obliczania całki $I$ metodą importance sampling. Jaki jest związek pomiędzy funkcją podcałkową w całce $I$ a gęstością znalezionego optymalnego rozkładu?