# Определения

* ${\bf Параметрический\;бутстреп.}$ \\
Пусть $\hat{\theta}$ -- оценка параметра $\theta$ по выборке $X_1,
\ldots, X_n,$ которая получена из распределения $P_\theta.$
Бутстрепная выборка размера $N$ в параметрическом бутстрепе -- это
выборка из распределения $P_{\hat{\theta}}.$
* ${\bf Непараметрический\;бутстреп.}$ \\
Пусть дана выборка $X_1, \ldots, X_n$ из распределения $P$ и пусть $P^*$ — эмпирическое
распределение, построенное по этой выборке. Бутстрепная выборка
размера $N$ в непараметрическом бутстрепе -- это выборка из
распределения $P^*.$ Легко видеть, что если $i_1, \ldots, i_N \sim
R\{1, \ldots, N\}$ -- независимые случайные величины, то $X_{i_1},
\ldots, X_{i_N}$ -- бутстрепная выборка размера $N$ в
непараметрическом бутстрепе (построенная по выборке $X_1, \ldots,
X_n$ из некоторого распределения $P$).    
* ${\bf Бутстрепная\;оценка\;дисперсии.}$ \\
Пусть дана выборка $X_1, \ldots, X_n$ из распределения
$P_\theta,$ a $\hat{\theta} = \hat{\theta}(X_1, \ldots, X_n)$ --
оценка параметра $\theta.$ Сгенерировано $k$ бутстрепных выборок
$X^1 = (X^1_1, \ldots, X^1_N), \ldots, X^k = (X^k_1, \ldots, X_N^k)$
(при этом все эти выборки можно генерировать как на основе
параметрического бутстрепа, так и на основе непараметрического, но
эти серии выборок должны быть сгенерированы одним и тем же
способом) и для каждой из них посчитана оценка параметра
$\hat{\theta}_i = \hat{\theta}(X^i),\ i \in \{1, \ldots, k\}.$ Далее
по выборке $\{\hat{\theta}(X^i)\}_{i\geq 1}$ строится выборочная
дисперсия $s^2(\hat{\theta}) = s^2(\hat{\theta}(X^1), \ldots,
\hat{\theta}(X^k)),$ которая и называется бутстрепной оценкой
дисперсии оценки $\hat{\theta}.$

In [0]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy import stats
import warnings

warnings.simplefilter('ignore')

%matplotlib inline

# Задача №1

(К теоретической задаче 3.1) \\
Сгенерируйте выборки $X_1, \ldots, X_N$ из всех
распределений из задачи 3.1 $(N = 1000).$ Для всех $n \leq N$ посчитайте
значения полученных оценок (по выборке $X_1, \ldots X_n$) методом
моментов. Оцените дисперсию каждой оценки, сгенерировав для каждой
из них $K = 1000$ бутстрепных выборок $а)$ с помощью параметрического
бутстрепа, $б)$ с помощью непараметрического бутстрепа. Проведите
эксперимент для разных значений параметров распределений
(рассмотрите не менее трех различных значений).

Распределения:  
$a)$ $\mathcal{N}(a,\sigma^{2})$  
$b)$ $\mathcal{Г}(\alpha, \lambda)$  
$c)$ $\mathcal{R}(a, b)$  
$d)$ $Poiss(\lambda)$  
$e)$ $Bin(m, p)$  
$f)$ $Geom(p)$  
$g)$ $Beta(\lambda_{1},\lambda_{2})$

In [0]:
N, K = 1000, 1000

Аналитически было получено, что оценки полученные методом моментов равны:  
$a)$ $(\overline{X}; s^2)$  
$b)$ $(\frac{\overline{X}^2}{s^2}; \frac{s^2}{\overline{X}})$  
$c)$ $(\overline{X}-\sqrt{3\cdot s^2}; \overline{X}+\sqrt{3\cdot s^2})$  
$d)$ $(\overline{X})$  
$e)$ $(\frac{\overline{X}^2}{\overline{X}-s^2}; \frac{\overline{X}-s^2}{\overline{X}})$  
$f)$ $(\frac{1}{\overline{X}})$  
$g)$ $(\overline{X}\cdot\frac{\overline{X}-\overline{X^2}}{s^2}; (1-\overline{X})\cdot\frac{\overline{X}-\overline{X^2}}{s^2})$

Напишем функцию для подсчета выборочной дисперсии:

In [0]:
def calc_sample_variance(sample):
    return (sample**2).mean() - sample.mean()**2

s = calc_sample_variance

#### Для упрощения генерации выборок напишем следующие функции:

##### Нормальное распределение

In [0]:
def gen_normal_rvs(sample_size, param):
    """
      arg:   param = (\alpha, \sigma^2)
      usage: norm(loc=\alpha, scale=\sigma)
    """
    return stats.norm(
        loc=param[0],
        scale=param[1]**0.5
    ).rvs(size=sample_size)

##### Гамма распределение

In [0]:
def gen_gamma_rvs(sample_size, param):
    """
      arg:   param = (\alpha, \beta)
      usage: gamma(a=\beta, scale=\frac{1}{\alpha})
    """
    return stats.gamma(
        a=param[1], 
        scale=1/param[0]
    ).rvs(size=sample_size)

##### Непрерывное равномерное распределение

In [0]:
def gen_uniform_rvs(sample_size, param):
    """
      arg:   param = (\alpha, \beta)
      usage: uniform(loc=\alpha, scale=\beta-\alpha)
    """
    return stats.uniform(
        loc=param[0], 
        scale=param[1]-param[0]
    ).rvs(size=sample_size)

##### Пуассоновское распределение

In [0]:
def gen_poiss_rvs(sample_size, param):
    """
      arg:   param = \lambda
      usage: poisson(mu=\lambda)
    """
    return stats.poisson(mu=param).rvs(size=sample_size)

##### Биномиальное распределение

In [0]:
def gen_bin_rvs(sample_size, param):
    """
      arg:   param = (n, p)
      usage: binom(n, p)
    """
    return stats.binom(param[0], param[1]).rvs(size=sample_size)

##### Геометрическое распределение

In [0]:
def gen_geom_rvs(sample_size, param):
    """
      arg:   param = p
      usage: geom(p)
    """
    return stats.geom(param).rvs(size=sample_size)

##### Бета распределение

In [0]:
def gen_beta_rvs(sample_size, param):
    """
      arg:   param = (\alpha, \beta)
      usage: beta(a=\alpha, b=\beta)
    """
    return stats.beta(
        a=param[0], 
        b=param[1]
    ).rvs(size=sample_size)

##### И словарь с этими же функциями-генераторами

In [0]:
rvs_generator = {
    "normal":  gen_normal_rvs,
    "gamma":   gen_gamma_rvs,
    "uniform": gen_uniform_rvs,
    "poiss":   gen_poiss_rvs,
    "bin":     gen_bin_rvs,
    "geom":    gen_geom_rvs,
    "beta":    gen_beta_rvs  
}

#### Напишем функции подсчета оценки параметра методом моментов:

##### Нормальное распределение

In [0]:
def calc_normal_est(sample):
    return (sample.mean(), s(sample))

##### Гамма распределение

In [0]:
def calc_gamma_est(sample):
    mean, var = sample.mean(), s(sample)
    return (mean**2 / var, var / mean)

##### Непрерывное равномерное распределение

In [0]:
def calc_uniform_est(sample):
    mean, var = sample.mean(), s(sample)
    return (mean - (3*var)**0.5, mean + (3*var)**0.5)

##### Пуассоновское распределение

In [0]:
def calc_poiss_est(sample):
    return sample.mean()

##### Биномиальное распределение

In [0]:
def calc_bin_est(sample):
    mean, var = sample.mean(), s(sample)
    return (mean**2 / (mean-var), (mean-var) / mean)

##### Геометрическое распределение

In [0]:
def calc_geom_est(sample):
    return 1 / sample.mean()

##### Бета распределение

In [0]:
def calc_beta_est(sample):
    mean, mean2, var = sample.mean(), (sample**2).mean(), s(sample)
    mult = (mean-mean2) / var
    return (mean * mult, (1-mean) * mult)

##### И словарь с этими же функциями-оценками

In [0]:
est_calculator = {
    "normal":  calc_normal_est,
    "gamma":   calc_gamma_est,
    "uniform": calc_uniform_est,
    "poiss":   calc_poiss_est,
    "bin":     calc_bin_est,
    "geom":    calc_geom_est,
    "beta":    calc_beta_est
}


#### Оценим дисперсию каждой оценки, сгенерировав для каждой из них $K=1000$  бутстрепных выборок:

In [0]:
import functools

# декоратор для подсчета бутстрепной оценки дисперсии
def bootstrap(calc_bootstrap_var):

    @functools.wraps(calc_bootstrap_var)
    def wrapper(*args, **kwargs):
        bootstrap_ests = calc_bootstrap_var(*args, **kwargs)
        param = kwargs['param']
        param_size = len(param) if type(param) is tuple else 1

        vars = np.zeros(param_size)

        if param_size > 1:
            for dim in range(param_size):
                vars[dim] = s(bootstrap_ests.T[dim])
        else:
          vars[0] = s(bootstrap_ests.T)

        return vars       

    return wrapper

##### а) с помощью параметрического бутстрепа

In [0]:
@bootstrap
def calc_param_bootstrap_var(gen_rvs, sample_size, param, calc_est):
    param_bootstrap_samples = np.array([
        gen_rvs(sample_size, param) 
        for _ in range (K)
    ])
    return np.array([calc_est(param_bootstrap_samples[i]) for i in range (K)])

##### б) с помощью непараметрического бутстрепа

In [0]:
@bootstrap
def calc_non_param_bootstrap_var(gen_rvs, sample_size, param, calc_est):
    take_choices = np.random.randint(sample_size, size=(K, sample_size))
    sample = gen_rvs(sample_size, param)
    non_param_bootstrap_samples = np.array([
        np.take(sample, take_choices[i])
        for i in range (K)
    ])
    return np.array([
        calc_est(non_param_bootstrap_samples[i]) 
        for i in range (K)
    ])

##### Проведем сами эксперименты

Эксперименты будем проводить для разных значений параметров распределений (например, для трёх), для это определим следующую коллекцию параметров $\verb|params_collection|$:

In [0]:
params_collection = {
    "normal":  [(0, 0.04), (0, 1), (0, 25)],
    "gamma":   [(1, 1), (2, 1), (3, 1)],
    "uniform": [(0, 1), (0,42), (-1, 1)],
    "poiss":   [0.1, 0.2, 0.3, 0.5],
    "bin":     [(20, 0.5), (20, 0.1), (40, 0.5)],
    "geom":    [0.1, 0.2, 0.3, 0.5],
    "beta":    [(0.5, 0.5), (5, 1), (1, 3)]
}

И сами серии экспериментов:



In [0]:
for distrib_nm in params_collection.keys():
    for param in params_collection[distrib_nm]:
      print(f"""
          Распределение: {distrib_nm}
          Параметр:      {param}
          Оценка дисперсии
          \tпараметрическим бутстрепом:   {calc_param_bootstrap_var(rvs_generator[distrib_nm], N, param=param, calc_est=est_calculator[distrib_nm])}
          \tнепараметрическим бутстрепом: {calc_non_param_bootstrap_var(rvs_generator[distrib_nm], N, param=param, calc_est=est_calculator[distrib_nm])}
      """)


          Распределение: normal
          Параметр:      (0, 0.04)
          Оценка дисперсии
          	параметрическим бутстрепом:   [4.01196968e-05 2.97489084e-06]
          	непараметрическим бутстрепом: [3.80451198e-05 2.59671846e-06]
      

          Распределение: normal
          Параметр:      (0, 1)
          Оценка дисперсии
          	параметрическим бутстрепом:   [0.00091755 0.00203285]
          	непараметрическим бутстрепом: [0.00098447 0.00187921]
      

          Распределение: normal
          Параметр:      (0, 25)
          Оценка дисперсии
          	параметрическим бутстрепом:   [0.02599688 1.2725864 ]
          	непараметрическим бутстрепом: [0.02482682 1.16074928]
      

          Распределение: gamma
          Параметр:      (1, 1)
          Оценка дисперсии
          	параметрическим бутстрепом:   [0.00394979 0.00480283]
          	непараметрическим бутстрепом: [0.00446773 0.00637369]
      

          Распределение: gamma
          Параметр:      (2, 1)
 

# Вывод №1

В бутстрепе мы не получаем новой информации, но разумно используем имеющиеся 

---

данные, исходя из поставленной задачи. Оценки дисперсии с помощью параметрического и непараметрического бутстрепа в нашей задаче численно близки: отличаются на малых порядках.
Также было установлено, что если выборочное распределение статистической функции не включает в себя неизвестные по популяции, бутстреп-распределение позволяет получить довольно хорошее приближение к выборочному распределению.

---

Следующие задачи используют данные из .csv файла, находящегося на Google Drive. Т.к. этот ноутбук разрабатывался в Google Colab, то загрузку данных сделаем через официальные API.

In [0]:
!pip3 install -U -q PyDrive

from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

In [0]:
def collect_csv_data_via_gd(link: str, filenm: str) -> pd.core.frame.DataFrame:
    auth.authenticate_user()
    gauth = GoogleAuth()
    gauth.credentials = GoogleCredentials.get_application_default()
    drive = GoogleDrive(gauth)
    fluff, id = link.split('=')
    downloader = drive.CreateFile({'id':id})
    downloader.GetContentFile(filenm)  
    return pd.read_csv(filenm)

# Задача №2

На высоте 1 метр от поверхности Земли закреплено устройство,
которое периодически излучает лучи на поверхность Земли (считайте,
что поверхность Земли представляет из себя прямую). Пусть $l$ --
перпендикуляр к поверхности Земли, опущенный из точки, в которой
закреплено устройство. Угол к прямой $l$ (под которым происходит
излучение) устройство выбирает случайно из равномерного
распределения на отрезке $(-\pi/2, \pi/2)$ (все выборы
осуществляются независимо). В этих предположениях точки пересечения
с поверхностью имеют распределение Коши с плотностью $p(x) =
\frac{1}{\pi(1 + (x-x_0)^2)}.$ Неизвестный параметр сдвига $x_0$
соответствует проекции точки расположения устройства на поверхность
Земли (направление оси и начало координат на поверхности Земли
выбраны заранее некоторым образом независимо от расположения
устройства). В файле $Cauchy.csv$ находятся координаты точек
пересечения лучей с поверхностью Земли. Оцените параметр сдвига
методом максимального правдоподобия $a)$ по половине выборки (первые
500 элементов выборки, т.е. выборка состоит из 1000 наблюдений);
$б)$ по всей выборке. Оценку произведите по сетке (т.е. возьмите набор
точек с некоторым шагом и верните ту, на которой достигается
максимум функции правдоподобия). Известно, что параметр масштаба
принадлежит интервалу $[-1000, 1000].$ Выберите шаг равным 0.01.
Если получается долго или не хватает памяти, то уменьшите интервал
поиска и поясните (в комментариях), почему берете именно такой
интервал.

Получим данные из файла Cauchy.csv прямо из Google Drive

In [0]:
df = collect_csv_data_via_gd(
    link="https://drive.google.com/open?id=1Qt0g3nsNfkmZCKUk6861emuPEbsoun3I",
    filenm='Cauchy.csv')
cauchy_sample = np.array(df.iloc[:,0])
cauchy_half_sample = cauchy_sample[:500]

Функция максимальнольного правдоподобия параметра $\theta\; (\theta=x_{0})$ для распределения Коши с плотностью $p(x) =
\frac{1}{\pi(1 + (x-\theta)^2)}$ выборки из $n$ элементов есть:  
$$ \mathcal{L}_{X}(\theta) = \prod_{i=1}^{n}\frac{1}{\pi(1 + (X_{i}-\theta)^2)} = \frac{1}{\pi^{n}}\cdot \prod_{i=1}^{n}\frac{1}{1 + (X_{i}-\theta)^2} $$
Логарифмическая функция максимального правдоподобия:
$$ L_{X}(\theta) = -n\cdot ln(\pi) - \sum_{i=1}^{n}ln(1+(X_{i}-\theta)^2) $$

In [0]:
def compute_log_maximum_likehood_fun(theta, sample):
    n = sample.size
    return -n*np.log(np.pi) - np.sum([np.log(1 + (rv-theta)**2) for rv in sample])

Сгенерируем сетку:

In [0]:
cauchy_probe_params = np.arange(-1000, 1000, .01)

Оценим параметр сдвига методом максимального правдоподобия  по половине выборки (первые 500 элементов выборки):

In [0]:
max_index = np.argmax([
    compute_log_maximum_likehood_fun(theta, cauchy_half_sample) 
    for theta in cauchy_probe_params
])
print(cauchy_probe_params[max_index])

662.039999999831


А также по всей выборке:

In [0]:
max_index = np.argmax([
    compute_log_maximum_likehood_fun(theta, cauchy_sample) 
    for theta in cauchy_probe_params
])
print(cauchy_probe_params[max_index])

662.049999999831


# Вывод №2

Как видим, из полученых выше результатов вычислений, что при части выборки, что при всей, получилось почти тот же результат. Поэтому от значительного увеличения выборки результат сильно не меняется. Поэтому достаточно рассмотреть половину. Также заметно значительное уменьшение скорости вычислений при меньшем размере выборки.

# Задача №3

В банке каждую минуту подсчитывается баланс по
сравнению с началом дня (6 часов утра). В полночь работники банка
измеряют две величины: $X^1$ -- максимальное значение баланса за
день, $X^2$ -- значение баланса в полночь. Считается, что величина
$X = X^1 - X^2$ имеет распределение Вейбулла с функцией распределения $F(x) = 1 - e^{-x^\gamma} (x > 0),$ где $\gamma > 0$ --
параметр формы. В течение 10 лет каждый день банк проводил
измерение величины $X,$ получив в результате выборку $X_1, \ldots,
X_{3652}.$ В файле Weibull.csv находятся соответствующие измерения.
Оцените параметр формы методом максимального правдоподобия a) по
первым 4 годам; б) по всей выборке. Оценку произведите по сетке (в
логарифмической шкале). Известно, что $\log_{10}\gamma \in [-2, 2].$
Выберите шаг равным $10^{-3}.$

Получим данные из файла Weibull.csv прямо из Google Drive.
Также обработаем нули по входных данных, заменив на на достаточно малое число, например, $10^{-8}$.

In [0]:
from scipy.stats import invweibull as weibull

df = collect_csv_data_via_gd(
  link="https://drive.google.com/open?id=16nS4rd0NIecdWF4UrfzM8d7GRVyMq6Mu",
  filenm='Weibull.csv')
weibull_sample = np.array(df.iloc[:,0].map(
    lambda x: 10**-8 if np.abs(x) < 10**-8 else x 
))

weibull_subsample = weibull_sample[:365*3 + 366 + 1] # 1 высокосный год

Найдем плотность, функцию максимального правдоподобия и логарифчемическую функцию максимального правдоподобия:
$$ p(x) = F'(x) = \gamma \cdot x^{\gamma-1} \cdot e^{-x^\gamma} $$
$$ \mathcal{L}_{X}(\theta) = \prod_{i=1}^{n} \gamma \cdot X_{i}^{\gamma-1} \cdot e^{-X_{i}^\gamma} = \gamma^{n} \cdot \prod_{i=1}^{n} X_{i}^{\gamma-1} \cdot e^{-X_{i}^\gamma} $$
$$ L_{X}(\theta) = n \cdot ln(\gamma) + (\gamma-1)\cdot \sum_{i=1}^{n}ln(X_{i}) - \sum_{i=1}^{n}X_{i}^{\gamma} $$

In [0]:
def compute_max_log_likehood_fun(gamma, sample):
    n = sample.size
    return n*np.log(gamma) + (gamma-1)*np.sum(np.log(sample)) - np.sum(sample**gamma)

Сгенерируем сетку:

In [0]:
weibull_probe_params = 10 ** np.arange(-2, 2, .001)

Оценим параметр формы методом максимального правдоподобия по первым 4 годам:

In [0]:
max_index = np.argmax([
    compute_max_log_likehood_fun(gamma, weibull_subsample) 
    for gamma in weibull_probe_params
])
print(weibull_probe_params[max_index])

0.26915348039259396


По всей выборке:

In [0]:
max_index = np.argmax([
    compute_max_log_likehood_fun(gamma, weibull_sample) 
    for gamma in weibull_probe_params
])
print(weibull_probe_params[max_index])

0.2648500138605745


# Вывод №3

Как видим, из полученых выше результатов вычислений, что при части выборки, что при всей, получилось почти тот же результат. Поэтому от значительного увеличения выборки результат не сильно меняется. Поэтому достаточно рассмотреть первые 4 года. К тому же мы получим выигрыш по времени выполнения.