# Лабораторная работа 2

## Выполнил Ластовецкий Дмитрий 

## 1.1. Оценки математического ожидания, дисперсии, медианы


### Задание 1


Пусть случайная величина $\xi$  имеет распределение, задаваемое плотностью

$$
f_{\xi}(x) = \theta^{2} x e^{-\theta x}
$$

Для каждого ( $\theta \in {0.5,; 2,; 8} $):

#### 1(a)

Аналитически вычислить:

* математическое ожидание $\mathbb{E}\xi$ 
* дисперсию $\mathrm{Var}(\xi)$
* математическое ожидание квадрата $\mathbb{E}\xi^{2}$

Привести результаты в отчёте.

#### 1(b)

Для $k \in {2^{4}; 2^{5}; \ldots; 2^{15}}$ построить выборку из $k$  элементов.
Для каждой выборки вычислить оценки:

* выборочное математическое ожидание,
* выборочную дисперсию,
* выборочную оценку квадрата математического ожидания параметра из варианта.

Для каждой выборки и каждой оценки визуализировать результаты на графиках (для каждой оценки — свой график), где:

* **вертикальная ось** — значение оценки,
* **горизонтальная ось** — $k$,

и добавить горизонтальную линию, соответствующую аналитически вычисленному значению оценки.


### Решение 

#### 1(a)


##### $\mathbb{E}\xi$

$\mathbb{E}\xi = \int\limits_0^{\infty} x f_{\xi}(x) dx = \int\limits_0^{\infty} \theta^{2} x^2 e^{-\theta x} dx = $

Для начала вычислим неопределенный интеграл $$I = \int \theta^{2} x^2 e^{-\theta x} dx =  \theta^{2} \int x^2 e^{-\theta x} dx = \theta^2 e^{-\theta x} \left( \dfrac{x^2}{-\theta} -\dfrac{2x}{\theta^2} - \dfrac{2}{\theta^3} \right) = e^{-\theta x} \left( -\theta x^2 - 2x - \dfrac{2}{\theta} \right) $$ с точностью до константы. 

При этом 
$$\lim\limits_{x \to \infty} I = 0$$
$$\lim\limits_{x \to 0} I = - \dfrac{2}{\theta}$$

Следовательно, искомое выражение: $$\mathbb{E}\xi = \dfrac{2}{\theta}$$


##### $\mathbb{E}\xi^2$

$\mathbb{E}\xi^2 = \int\limits_0^{\infty} x^2 f_{\xi}(x) dx = \int\limits_0^{\infty} \theta^{2} x^3 e^{-\theta x} dx = $

Снова сначала возьмем интеграл $$I = \int \theta^2 x^3 e^{-\theta x} dx = \theta^2 \int x^3 e^{-\theta x} dx = \theta^2 \left( -\dfrac{1}{\theta}x^3 e^{-\theta x} + \dfrac{3}{\theta} \int x^2 e^{-\theta x} \right) = $$ $$ \theta^2 \left( -\dfrac{1}{\theta}x^3 e^{-\theta x} + \dfrac{3}{\theta} e^{-\theta x} \left( -\theta x^2 - 2x - \dfrac{2}{\theta} \right) \right) = e^{-\theta x} \left( -\theta x^3 - 3x^2 - \dfrac{6x}{\theta} - \dfrac{6}{\theta^2}\right) $$ с точностью до константы. 
При этом 
$$\lim\limits_{x \to \infty} I = 0$$
$$\lim\limits_{x \to 0} I = - \dfrac{6}{\theta^2}$$

Следовательно, искомое выражение: $$\mathbb{E}\xi^2 = \dfrac{6}{\theta^2}$$


##### $\mathrm{Var}(\xi)$

Проще всего будет найти дисперсию как $$\mathrm{Var}(\xi) = \mathbb{E}\xi^2 - (\mathbb{E} \xi)^2 = \dfrac{6}{\theta^2} - \dfrac{4}{\theta^2} = \dfrac{2}{\theta^2}$$

Подставляя конкретные значения параметра $\theta$: 


\begin{array}{c|c|c|c}
\theta & \mathbb{E}[\xi] = \frac{2}{\theta} &
\mathbb{E}[\xi^2] = \frac{6}{\theta^2} &
\mathrm{Var}(\xi) = \frac{2}{\theta^2} \\[6pt]
\hline
0.5 &
4 &
24 &
8
\\[6pt]
2 &
1 &
1.5 &
0.5
\\[6pt]
8 &
0.25 &
\frac{3}{32} = 0.09375 &
\frac{1}{32} = 0.03125
\end{array}



#### 1(b)

создаем класс с распределением из задания:

In [None]:
import numpy as np
from scipy.stats import rv_continuous
import pandas as pd
import plotly.express as px


class XiDist(rv_continuous):

    def _argcheck(self, theta):
        return theta > 0

    def _pdf(self, x, theta):
        return theta**2 * x * np.exp(-theta * x)

    def _cdf(self, x, theta):
        return 1 - np.exp(-theta * x) * (1 + theta * x)


xi_dist = XiDist(a=0, name="xi_dist")

генерируем выборки и сразу запоминаем выборочные средние, дисперсию и второй момент: 

In [8]:
thetas = [0.5, 2.0, 8.0]
ks = list(range(4, 16))
rng = np.random.default_rng(42)

rows = []

for theta in thetas:
    for k in ks:
        n = 2**k  
        sample = xi_dist.rvs(theta, size=n, random_state=rng)

        sample_mean = sample.mean()
        sample_var = sample.var(ddof=1)
        sample_second_moment = np.mean(sample**2)

        rows.append(
            {
                "theta": theta,
                "n": n,
                "k": k,
                "sample_mean": sample_mean,
                "sample_var": sample_var,
                "sample_E_xi2": sample_second_moment,
            }
        )

results = pd.DataFrame(rows)

results["E_xi_theor"] = 2 / results["theta"]
results["Var_xi_theor"] = 2 / (results["theta"] ** 2)
results["E_xi2_theor"] = 6 / (results["theta"] ** 2)



посмотрим на результат и убедимся что похоже на правду:

In [9]:
results.head(30)

Unnamed: 0,theta,n,k,sample_mean,sample_var,sample_E_xi2,E_xi_theor,Var_xi_theor,E_xi2_theor
0,0.5,16,4,4.679291,7.62693,29.046007,4.0,8.0,24.0
1,0.5,32,5,4.03393,6.529544,22.598086,4.0,8.0,24.0
2,0.5,64,6,3.483013,4.947088,17.00117,4.0,8.0,24.0
3,0.5,128,7,3.918904,7.431094,22.730847,4.0,8.0,24.0
4,0.5,256,8,3.952936,7.627886,23.223796,4.0,8.0,24.0
5,0.5,512,9,4.035541,8.869183,25.137454,4.0,8.0,24.0
6,0.5,1024,10,4.094123,8.575562,25.32903,4.0,8.0,24.0
7,0.5,2048,11,3.97118,8.200244,23.966515,4.0,8.0,24.0
8,0.5,4096,12,3.95421,8.072215,23.706024,4.0,8.0,24.0
9,0.5,8192,13,4.010911,8.019807,24.106237,4.0,8.0,24.0


Сама визуализация:

In [None]:
def plot_estimate_for_theta(
    df_theta: pd.DataFrame,
    y_col: str,
    y_theor_col: str,
    title: str,
    y_axis_title: str,
):
    theta = df_theta["theta"].iloc[0]

    fig = px.line(
        df_theta,
        x="k",         
        y=y_col,
        markers=True,
        title=f"{title} (θ = {theta})",
        labels={
            "k": "k (размер выборки n = 2^k)",
            y_col: y_axis_title,
        },
    )

    max_k = df_theta["k"].max()
    fig.update_xaxes(range=[0, max_k + 1])
    fig.update_yaxes(range=[0, None])

    y_theor = df_theta[y_theor_col].iloc[0]
    fig.add_hline(
        y=y_theor,
        line_dash="dash",
        line_color="black",
        annotation_text="теоретическая оценка",
        annotation_position="top left",
    )

    fig.update_layout(template="plotly_white")
    fig.show()


# Оценка E\xi^2

for theta in thetas:
    df_theta = results[results["theta"] == theta]
    plot_estimate_for_theta(
        df_theta,
        y_col="sample_mean",
        y_theor_col="E_xi_theor",
        title="Оценка математического ожидания",
        y_axis_title="Выборочное среднее",
    )

# Оценка Var\xi
for theta in thetas:
    df_theta = results[results["theta"] == theta]
    plot_estimate_for_theta(
        df_theta,
        y_col="sample_var",
        y_theor_col="Var_xi_theor",
        title="Оценка дисперсии ",
        y_axis_title="Выборочная дисперсия",
    )

# Оценка E\xi^2
for theta in thetas:
    df_theta = results[results["theta"] == theta]
    plot_estimate_for_theta(
        df_theta,
        y_col="sample_E_xi2",
        y_theor_col="E_xi2_theor",
        title="Оценка второго момента",
        y_axis_title="Выборочная оценка",
    )

### Задание 2
Дана плотность распределения случайной величины $\xi$:
$$
f_{\xi}^{\lambda,a}(x) =
\begin{cases}
\lambda e^{-\lambda(x-a)}, & x \ge a,\\
0, & \text{else}.
\end{cases}
$$

Пусть $(\lambda, a) = (2, 2)$.

(a) Аналитически вычислите значение моды, математического ожидания и медианы.

(b) Создайте две выборки: одну довольно большого размера (10000 наблюдений, например), а вторую маленькую (например, 20). Постройте оценки моды, математического ожидания и медианы.

(c) Постройте для первой выборки на одном графике: гистограмму распределения значений из выборки и три вертикальных линии оценок моды, математического ожидания и медианы. Для второй выборки сделайте то же самое. Постройте ещё график рядом для первой выборки, но с функцией плотности распределения и аналитическими значениями моды, математического ожидания и медианы. То же самое для второй выборки.

(d) Попробуйте поизменять размер выборки и посмотреть на то, например, сходится ли медиана к математическому ожиданию или нет.


### Решение 

#### 2(a) 
##### Мода 

$mode \xi = \argmax f_{\xi}^{\lambda,a}(x)$

Легко заметить, что $f_{\xi}^{\lambda,a}(x)$ убывает на промежутке $[a, +\infty)$ (хотя бы потому что $\dfrac{df}{dx} = -\lambda^{2} e^{-\lambda(x-a)} < 0$  при $x \geq a$). При этом при $x = a$: $f_{\xi}^{\lambda,a}(x) = \lambda$, то есть в $x = a$ при $\lambda > 0$ достигается глобалбный максимум. Значит $$mode \xi = a $$

##### Медиана 

Восстановим функцию распределения. При $x < a$ она равна 0, иначе равна $\int \limits_{-\infty}^{x}f_{\xi}(t) dt = \int \limits_{a}^{x} \lambda e^{-\lambda(t-a)} dt = \Bigl[-e^{-\lambda(t-a)}\Bigr]_{t=a}^{t=x} = 1 - e^{-\lambda(x-a)} $. Итого 
$$F_\xi(x) =
\begin{cases}
0, & x < a,\\
1 - e^{-\lambda(x-a)}, & x \ge a
\end{cases} $$
Медиана это такое $med$ при котором $F_\xi(med) = 0.5$. Это достигается на $x \ge a$: $$ 1 - e^{-\lambda(med-a)} = 0.5 $$ $$e^{-\lambda(med - a)} = 0.5$$ $$\lambda(med - a) = \ln 2$$ $$med = \dfrac{\ln 2}{\lambda} + a$$


##### Математическое ожидание

$$
\mathbb{E}\xi = \int\limits_{a}^{\infty} \lambda e^{-\lambda(x-a)} x \, dx
$$

Сделаем замену переменной $t = x - a$, тогда $x = t + a$, $dx = dt$, при $x = a$ имеем $t = 0$, при $x \to \infty$ имеем $t \to \infty$:

$$
\mathbb{E}\xi 
= \int\limits_{0}^{\infty} \lambda e^{-\lambda t} (t + a)\, dt
= \lambda \int\limits_{0}^{\infty} (t + a)e^{-\lambda t}\, dt
= \lambda \left(
\int\limits_{0}^{\infty} t e^{-\lambda t}\, dt
+ a \int\limits_{0}^{\infty} e^{-\lambda t}\, dt
\right)
$$

Заметим, что для первого интеграла
$$
\int\limits_{0}^{\infty} e^{-\lambda t}\, dt
= \lim_{b \to \infty} \int\limits_{0}^{b} e^{-\lambda t}\, dt
= \lim_{b \to \infty} \Bigl[ -\frac{1}{\lambda} e^{-\lambda t} \Bigr]_{t=0}^{t=b}
= \lim_{b \to \infty} \left( -\frac{1}{\lambda} e^{-\lambda b}
+ \frac{1}{\lambda} e^{0} \right)
= \frac{1}{\lambda}
$$
тк $e^{-\lambda b} \to 0$ при $b \to \infty$

Для второго интеграла используем интегрирование по частям:
$$
\int\limits_{0}^{\infty} t e^{-\lambda t}\, dt
= \lim_{b \to \infty} \int\limits_{0}^{b} t e^{-\lambda t}\, dt
$$
Возьмём
$$
u = t, \quad dv = e^{-\lambda t}\,dt
\quad\Rightarrow\quad
du = dt, \quad v = -\frac{1}{\lambda} e^{-\lambda t}
$$
Тогда
$$
\int\limits_{0}^{b} t e^{-\lambda t}\, dt
= \Bigl. u v \Bigr|_{0}^{b}
- \int\limits_{0}^{b} v\, du
= \Bigl. \left(-\frac{t}{\lambda} e^{-\lambda t}\right) \Bigr|_{0}^{b}
+ \frac{1}{\lambda} \int\limits_{0}^{b} e^{-\lambda t}\, dt
$$
Отсюда
$$
\int\limits_{0}^{b} t e^{-\lambda t}\, dt
= -\frac{b}{\lambda} e^{-\lambda b}
+ \frac{1}{\lambda} \int\limits_{0}^{b} e^{-\lambda t}\, dt
$$
Переходя к пределу при $b \to \infty$ и используя предыдущий результат,
получаем
$$
\int\limits_{0}^{\infty} t e^{-\lambda t}\, dt
= \lim_{b \to \infty} \left(
-\frac{b}{\lambda} e^{-\lambda b}
+ \frac{1}{\lambda} \int\limits_{0}^{b} e^{-\lambda t}\, dt
\right)
= 0 + \frac{1}{\lambda} \cdot \frac{1}{\lambda}
= \frac{1}{\lambda^{2}}
$$
т к  $b e^{-\lambda b} \to 0$ при $b \to \infty$

Итого
$$
\int\limits_{0}^{\infty} e^{-\lambda t}\, dt = \frac{1}{\lambda},
\qquad
\int\limits_{0}^{\infty} t e^{-\lambda t}\, dt = \frac{1}{\lambda^{2}}
$$


Тогда
$$
\mathbb{E}\xi 
= \lambda \left( \frac{1}{\lambda^{2}} + a \cdot \frac{1}{\lambda} \right)
= \frac{1}{\lambda} + a
$$


##### Итого при наших параметрах 

$(\lambda, a) = (2, 2)$: 

* $\mathbb{E} \xi = 2.5$
* $med \xi = \dfrac{\ln 2}{2} +2 \approx 2.34657359$
* $mode \xi = 2$

#### 2(b)

In [12]:
class XiDist(rv_continuous):
    def _argcheck(self, lam, a):
        return lam > 0

    def _pdf(self, x, lam, a):
        return np.where(x >= a, lam * np.exp(-lam * (x - a)), 0.0)

    def _cdf(self, x, lam, a):
        return np.where(x < a, 0.0, 1.0 - np.exp(-lam * (x - a)))


xi_dist = XiDist(name="xi_dist")

In [None]:
small = xi_dist.rvs(2.0, 2.0, size=20)  
large = xi_dist.rvs(2.0, 2.0, size = 10000)

In [18]:
small_as_pd = pd.Series(small)
large_as_pd = pd.Series(large)

small_avg = small_as_pd.mean()
small_median = np.median(small_as_pd)
small_mode = small_as_pd.mode().iloc[0]

large_avg = large_as_pd.mean()
large_median = np.median(large_as_pd)
large_mode = large_as_pd.mode().iloc[0]

In [20]:
print(
    f"Small sample:\n"
    f"  mean   = {small_avg:.6f}\n"
    f"  median = {small_median:.6f}\n"
    f"  mode   = {small_mode:.6f}\n\n"
    f"Large sample:\n"
    f"  mean   = {large_avg:.6f}\n"
    f"  median = {large_median:.6f}\n"
    f"  mode   = {large_mode:.6f}"
)


Small sample:
  mean   = 2.528705
  median = 2.389169
  mode   = 2.050549

Large sample:
  mean   = 2.493108
  median = 2.347637
  mode   = 2.000064


#### 2(с)

Я честно признаюсь что для создания графиков ниже я воспользовался помощью `codex`, так как я пока что слаб в синтаксисе плотли, а очень хотелось построить красиво и интерактивно. В промпте я попросил привести пример работы `make_subplots` и `add_trace` с `update_trace`. Затем накопировал и вставил то что мне нужно, затем попросил "навести красоты" для наиболее приятного визуального отображения

In [None]:
from plotly.subplots import make_subplots
import numpy as np


import plotly.graph_objects as go

lam = 2.0
a = 2.0
mean_theor = 1.0 / lam + a
median_theor = np.log(2) / lam + a
mode_theor = a

x_min = min(small.min(), large.min(), a)
x_max = max(small.max(), large.max())
x_vals = np.linspace(x_min, x_max, 400)
pdf_vals = lam * np.exp(-lam * (x_vals - a)) * (x_vals >= a)

hist_vals_large, _ = np.histogram(large, bins=50)
hist_vals_small, _ = np.histogram(small, bins=30)
ymax_large = hist_vals_large.max() * 1.05
ymax_small = hist_vals_small.max() * 1.05
pdf_ymax = pdf_vals.max() * 1.05

fig = make_subplots(
    rows=2,
    cols=2,
    subplot_titles=[
        "Large sample (n=10000): histogram",
        "Small sample (n=20): histogram",
        "Large sample: density + theoretical PDF ",
        "Small sample: density + theoretical PDF ",
    ],
)

fig.add_trace(
    go.Histogram(x=large, nbinsx=50, marker_color="lightblue", name="large hist", showlegend=False),
    row=1,
    col=1,
)
fig.add_trace(go.Scatter(x=[large_avg, large_avg], y=[0, ymax_large], mode="lines",
                         line=dict(color="red", dash="dash"), name="mean (emp)"), row=1, col=1)
fig.add_trace(go.Scatter(x=[large_median, large_median], y=[0, ymax_large], mode="lines",
                         line=dict(color="green", dash="dot"), name="median (emp)"), row=1, col=1)
fig.add_trace(go.Scatter(x=[large_mode, large_mode], y=[0, ymax_large], mode="lines",
                         line=dict(color="purple", dash="dashdot"), name="mode (emp)"), row=1, col=1)

fig.add_trace(
    go.Histogram(x=small, nbinsx=30, marker_color="lightgrey", name="small hist", showlegend=False),
    row=1,
    col=2,
)
fig.add_trace(go.Scatter(x=[small_avg, small_avg], y=[0, ymax_small], mode="lines",
                         line=dict(color="red", dash="dash"), name="mean (emp)"), row=1, col=2)
fig.add_trace(go.Scatter(x=[small_median, small_median], y=[0, ymax_small], mode="lines",
                         line=dict(color="green", dash="dot"), name="median (emp)"), row=1, col=2)
fig.add_trace(go.Scatter(x=[small_mode, small_mode], y=[0, ymax_small], mode="lines",
                         line=dict(color="purple", dash="dashdot"), name="mode (emp)"), row=1, col=2)

fig.add_trace(
    go.Histogram(x=large, nbinsx=50, histnorm="probability density", marker_color="lightblue", opacity=0.6,
                 showlegend=False, name="large density"),
    row=2,
    col=1,
)
fig.add_trace(go.Scatter(x=x_vals, y=pdf_vals, mode="lines", line=dict(color="black"), name="theoretical PDF"),
              row=2, col=1)
fig.add_trace(go.Scatter(x=[mean_theor, mean_theor], y=[0, pdf_ymax], mode="lines",
                         line=dict(color="red", dash="dash"), name="mean (theor)"), row=2, col=1)
fig.add_trace(go.Scatter(x=[median_theor, median_theor], y=[0, pdf_ymax], mode="lines",
                         line=dict(color="green", dash="dot"), name="median (theor)"), row=2, col=1)
fig.add_trace(go.Scatter(x=[mode_theor, mode_theor], y=[0, pdf_ymax], mode="lines",
                         line=dict(color="purple", dash="dashdot"), name="mode (theor)"), row=2, col=1)

fig.add_trace(
    go.Histogram(x=small, nbinsx=30, histnorm="probability density", marker_color="lightgrey", opacity=0.6,
                 showlegend=False, name="small density"),
    row=2,
    col=2,
)
fig.add_trace(go.Scatter(x=x_vals, y=pdf_vals, mode="lines", line=dict(color="black"), name="theoretical PDF"),
              row=2, col=2)
fig.add_trace(go.Scatter(x=[mean_theor, mean_theor], y=[0, pdf_ymax], mode="lines",
                         line=dict(color="red", dash="dash"), name="mean (theor)"), row=2, col=2)
fig.add_trace(go.Scatter(x=[median_theor, median_theor], y=[0, pdf_ymax], mode="lines",
                         line=dict(color="green", dash="dot"), name="median (theor)"), row=2, col=2)
fig.add_trace(go.Scatter(x=[mode_theor, mode_theor], y=[0, pdf_ymax], mode="lines",
                         line=dict(color="purple", dash="dashdot"), name="mode (theor)"), row=2, col=2)

fig.update_layout(
    height=900,
    width=1100,
    title_text="Sample comparisons: empirical vs theoretical (λ=2, a=2)",
    bargap=0.1,
    template="plotly_white",
)

fig.update_traces(selector=dict(name="mean (emp)"), showlegend=True)
fig.update_traces(selector=dict(name="median (emp)"), showlegend=True)
fig.update_traces(selector=dict(name="mode (emp)"), showlegend=True)
fig.update_traces(selector=dict(name="mean (theor)"), showlegend=True)
fig.update_traces(selector=dict(name="median (theor)"), showlegend=True)
fig.update_traces(selector=dict(name="mode (theor)"), showlegend=True)
fig.show()

#### 2(d)

In [31]:
rows = []

for k in range(4, 16):
    sample = xi_dist.rvs(2.0, 2.0, size=2**k)  
    sample = pd.Series(sample)
    rows.append(
            {   "size": 2**k,
                "k": k,
                "sample_mean": sample.mean(),
                "sample_med": sample.median(),
                "sample_mode": sample.mode().iloc[0]
            }
        )


results = pd.DataFrame(rows)

In [32]:
results.head(200)

Unnamed: 0,size,k,sample_mean,sample_med,sample_mode
0,16,4,2.340572,2.222897,2.039234
1,32,5,2.451684,2.240189,2.009271
2,64,6,2.497565,2.305961,2.005716
3,128,7,2.493238,2.329889,2.003749
4,256,8,2.48716,2.371546,2.001561
5,512,9,2.457328,2.32787,2.001252
6,1024,10,2.49049,2.354142,2.000608
7,2048,11,2.516096,2.361782,2.000587
8,4096,12,2.505796,2.349169,2.000027
9,8192,13,2.501805,2.348987,2.000037


In [33]:
fig = go.Figure()

fig.add_trace(
    go.Scatter(x=results["k"], y=results["sample_mean"], mode="lines+markers", name="sample_mean",
               marker=dict(symbol="circle", size=8))
)
fig.add_trace(
    go.Scatter(x=results["k"], y=results["sample_med"], mode="lines+markers", name="sample_median",
               marker=dict(symbol="square", size=8))
)
fig.add_trace(
    go.Scatter(x=results["k"], y=results["sample_mode"], mode="lines+markers", name="sample_mode",
               marker=dict(symbol="diamond", size=8))
)

fig.update_layout(
    title="Оценки в зависимости от k",
    xaxis_title="k (n = 2^k)",
    yaxis_title="Значение оценки",
    template="plotly_white",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
)

fig.add_hline(y=mean_theor, line=dict(color="red", dash="dash"), annotation_text=f"mean_theor = {mean_theor:.6f}", annotation_position="top left")
fig.add_hline(y=median_theor, line=dict(color="green", dash="dot"), annotation_text=f"median_theor = {median_theor:.6f}", annotation_position="bottom left")
fig.add_hline(y=mode_theor, line=dict(color="purple", dash="dashdot"), annotation_text=f"mode_theor = {mode_theor:.6f}", annotation_position="bottom right")

fig.show()

Кажется, что сходимости разных оценок друг к другу нет, потому что распределение не очень симметричное изначально. При этом сходимость к теоретическим параметрам есть

## Моделирование совместного распределения двух СВ

### Задание

Пусть совместное распределение двух случайных величин задано таблицей:

| $\xi \backslash \eta$ | $1$ | $2$ | $3$ | $\dots$ |
|----------------------|-----|-----|-----|---------|
| $-1$ | $\frac{2}{5}\cdot \frac{1}{2^{1}}$ | $\frac{2}{5}\cdot \frac{1}{2^{2}}$ | $\frac{2}{5}\cdot \frac{1}{2^{3}}$ | $\dots$ |
| $0$  | $\frac{1}{5}\cdot \frac{1}{2^{1}}$ | $\frac{1}{5}\cdot \frac{1}{2^{2}}$ | $\frac{1}{5}\cdot \frac{1}{2^{3}}$ | $\dots$ |
| $1$  | $\frac{2}{5}\cdot \frac{1}{2^{1}}$ | $\frac{2}{5}\cdot \frac{1}{2^{2}}$ | $\frac{2}{5}\cdot \frac{1}{2^{3}}$ | $\dots$ |

где $\eta$ принимает все значения из $\mathbb{N}$. Вычислить корреляционую матрицу аналитически и приближенно (на основе моделирования).

### Решение

#### Аналитическое решение

сначала найдём распределение $\eta$

$$
P(\eta = n)
= \left( \frac{2}{5}  +  \frac{1}{5}  +  \frac{2}{5} \right)\frac{1}{2^n}
= \frac{1}{2^n}  \qquad n \in \mathbb{N}
$$

то есть $\eta$ распределена геометрически с параметром $p = \tfrac{1}{2}$

$$
E(\eta) = \frac{1}{p} = 2  \qquad
\text{var}(\eta) = \frac{1 - p}{p^2} = 2
$$

---

теперь распределение $\xi$

$$
P(\xi = -1) = \frac{2}{5}  \qquad
P(\xi = 0) = \frac{1}{5}   \qquad
P(\xi = 1) = \frac{2}{5}
$$

$$
E(\xi) = (-1)\frac{2}{5} + 0\frac{1}{5} + 1\frac{2}{5} = 0
$$

$$
E(\xi^2) = (-1)^2\frac{2}{5} + 0^2\frac{1}{5} + 1^2\frac{2}{5}
= \frac{4}{5}
$$

$$
\text{var}(\xi) = E(\xi^2) - (E(\xi))^2
= \frac{4}{5}
$$

---

считаем $E(\xi\eta)$

$$
E(\xi\eta) =
\sum_{n=1}^{\infty} (-1)n\frac{2}{5}\frac{1}{2^n}
+ \sum_{n=1}^{\infty} 0n\frac{1}{5}\frac{1}{2^n}
+ \sum_{n=1}^{\infty} 1n\frac{2}{5}\frac{1}{2^n}
$$

вторая сумма равна нулю, а первая и третья равны по модулю и противоположны по знаку

$$
E(\xi\eta) = 0
$$

тогда

$$
\text{cov}(\xi , \eta) = E(\xi\eta) - E(\xi)E(\eta)
= 0 - 0\cdot 2 = 0
$$

---

корреляция

$$
\rho_{\xi,\eta}
= \frac{\text{cov}(\xi,\eta)}
{\sqrt{\text{var}(\xi)\, \text{var}(\eta)}}
= \frac{0}{\sqrt{\tfrac45 \cdot 2}} = 0
$$

---

ковариационная матрица

$$
\Sigma =
\begin{pmatrix}
\text{var}(\xi) & \text{cov}(\xi,\eta) \\
\text{cov}(\xi,\eta) & \text{var}(\eta)
\end{pmatrix}
=
\begin{pmatrix}
\frac{4}{5} & 0 \\
0 & 2
\end{pmatrix}
$$

корреляционная матрица

$$
\text{corr}(\xi,\eta) =
\begin{pmatrix}
1 & 0 \\
0 & 1
\end{pmatrix}
$$


In [None]:
import numpy as np
import pandas as pd

rng = np.random.default_rng(42) 

xi_values = np.array([-1, 0, 1])
xi_probs = np.array([2/5, 1/5, 2/5])

def sample_xi(size, rng):
    return rng.choice(xi_values, p=xi_probs, size=size)

def sample_eta(size, rng):
    return rng.geometric(p=0.5, size=size)

for p in range(4, 25): 
    k = 2**p
    xi = sample_xi(k, rng)
    eta = sample_eta(k, rng)

    data = np.vstack([xi, eta])      
    corr_mat = np.corrcoef(data)     

    corr_df = pd.DataFrame(
        corr_mat,
        index=["xi", "eta"],
        columns=["xi", "eta"]
    )

    print(f"\nk = 2^{p} = {k}")
    print(corr_df)



k = 2^4 = 16
           xi       eta
xi   1.000000 -0.092725
eta -0.092725  1.000000

k = 2^5 = 32
         xi     eta
xi   1.0000 -0.1872
eta -0.1872  1.0000

k = 2^6 = 64
         xi     eta
xi   1.0000  0.1038
eta  0.1038  1.0000

k = 2^7 = 128
          xi      eta
xi   1.00000 -0.13265
eta -0.13265  1.00000

k = 2^8 = 256
           xi       eta
xi   1.000000 -0.034695
eta -0.034695  1.000000

k = 2^9 = 512
           xi       eta
xi   1.000000 -0.027333
eta -0.027333  1.000000

k = 2^10 = 1024
           xi       eta
xi   1.000000 -0.002741
eta -0.002741  1.000000

k = 2^11 = 2048
           xi       eta
xi   1.000000 -0.034653
eta -0.034653  1.000000

k = 2^12 = 4096
           xi       eta
xi   1.000000 -0.023296
eta -0.023296  1.000000

k = 2^13 = 8192
           xi       eta
xi   1.000000 -0.017517
eta -0.017517  1.000000

k = 2^14 = 16384
          xi      eta
xi   1.00000  0.00083
eta  0.00083  1.00000

k = 2^15 = 32768
           xi       eta
xi   1.000000  0.003882
eta  

Видим, что корреляция в матрице действительно при росте размера выборки сходится к 0