# <a href="https://mipt-stats.gitlab.io/courses/ad_mipt.html">Phystech@DataScience</a>
## Задание 3

**Правила:**

* Выполненную работу нужно отправить телеграм-боту `@miptstats_pds_bot`.
* Дедлайн **20 марта в 22:00**. После дедлайна работы не принимаются кроме случаев наличия уважительной причины.
* Прислать нужно ноутбук в формате `ipynb` и все фотографии, если пишете теоретическую часть от руки.
* Решения, размещенные на каких-либо интернет-ресурсах не принимаются. Публикация решения может быть приравнена к предоставлении возможности списать.
* Для выполнения задания используйте этот ноутбук в качестве основы, ничего не удаляя из него.

-----

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as sps
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

*Замечания.* Решения теоретических пунктов можно оформить
* в $\LaTeX$-формате в ноутбуке;
* написать от руки и прикрепить к ноутбуку;
* написать от руки и выслать боту.  

Во втором случае также **важно** "вшить" фото в ноутбук. Сделать это можно с помощью Edit -> Insert Image в Jupyter или с помощью кнопки "Вставить изображение" в Colab.

Фотографии принимаются только в хорошем качестве, следите за освещением и почерком. На фотографиях также указывайте номера задач.

### Задача 1. Несмещенность оценок.

**Теория**

Пусть $X_1,...,X_n$ выборка из некоторого распределения $\mathsf{P}$, причем ${\sf D} X_1=\sigma^2<+\infty$, и $\sigma$ неизвестно. 
Рассмотрим статистику $S^2=\frac1n\sum\limits_{i=1}^n(X_i-\overline{X})^2$.

a). Докажите, что статистика $S^2$ равна $\overline{X^2}-\overline{X}^2$ и является состоятельной оценкой $\sigma^2$;

b). Является ли статистика $S^2$ несмещенной оценкой $\sigma^2$?

c*). Докажите, что если конечны первые четыре момента ( $\mathsf{E}X, \mathsf{E}X^2, \mathsf{E}X^3, \mathsf{E}X^4$) распределения  $\mathsf{P}$, то статистика $S^2$ является асимптотически нормальной оценкой $\sigma^2$ и найдите ее асимптотическую дисперсию.
        

**Ответ:**

**Практика** 

Пусть теперь $X_1, ..., X_n$ &mdash; выборка из распределения $\mathcal{N}(0, \sigma^2)$.

Известно, что в качестве оценки параметра $\sigma^2$ можно использовать следующие оценки $S^2, \frac{n}{n-1}S^2$.

**Вопрос:** Какие из этих оценок являются несмещенными? Поясните свой ответ. 

**Ответ:**

Для каждой из приведенных выше оценок $\widehat{\theta}$ выполните следующие действия.

* Вычислите $k = 500$ независимых оценок $\widehat{\theta_1}, ... , \widehat{\theta_k}$ по независимым выборкам $(X_1^1, ... , X_n^1), ... , (X_1^k, ... , X_n^k)$, сгенерированным из распределения $\mathcal{N}(0, 1)$. Далее вычислите среднее этих оценок, которое обозначим $\overline{\theta}$.

* Визуализируйте полученные значения, построив на **одном** графике точки $(\widehat{\theta_1}, $y$), ... , (\widehat{\theta_k}, y)$ и среднее *этих оценок* $(\overline{\theta}, y)$, где $y$ &mdash; произвольные различные (например 0, 1) координаты для двух различных типов оценок ($S^2, \frac{n}{n-1}S^2$).

* Повторите действие четыре раза для $n \in \{5, 10, 100, 500\}$. В итоге получится четыре графика для различных $n$, на каждом из которых изображено поведение двух типов оценок и их среднее.

Используйте данный шаблон для визуализации значений:

In [None]:
# Для каждой оценки:
plt.scatter(<независимые оценки> , np.zeros(k) + y, 
            alpha=0.1, s=100, color=<цвет>, label=<метка>)
plt.scatter(<независимые оценки>.mean(), y, marker='*', s=200, 
            color='w', edgecolors='black')

# Для всего графика:
plt.vlines(1, <наименьший y>, <наибольший y>, color='r')
plt.title('sample size = %d' % k)
plt.yticks([])
plt.legend()

**Решение:**

**2.** Изучим поведение среднего оценок из первого пункта при росте размера $n$ выборки. Постройте график зависимости $\overline{\theta}$ от $n$ для двух типов оценок. Для вычисления зависимости нужно один раз сгенерировать выборки из п. 1.1 достаточно большого размера и посчитать оценки по префиксам, используя функции из `numpy`. Использовать циклы, а так же функции, разворачивающиеся в цикл (например, `np.vectorize`), запрещено. Какие из оценок являются асимптотически несмещёнными, т.е. $\forall \theta \in \Theta\colon \mathsf{E}_\theta \widehat{\theta} \to \theta$ при $n\to +\infty$?

**Решение:**

Сделайте вывод о том, что такое свойство несмещенности. Подтверждают ли сделанные эксперименты полученное в теоретических задачах свойство несмещенности (или отсутствие этого свойства) данных оценок? Поясните, почему в лабораторных по физике при оценке погрешности иногда используют $n-1$ в знаменателе, а не $n$.

**Вывод:** 

### Задача 2. Гамма-излучение.

Предлагается изучить некоторые свойства распределения Коши с параметром сдвига $\theta$, обладающего плотностью распределения $p_{\theta}(x) = \frac{1}{\pi \left(1 + \left(x- \theta\right)^2\right)}$.

*Замечание:* Такое распределение встречается, к примеру, в следующей задаче. На высоте 1 метр от точки $\theta$ находится источник $\gamma$-излучения, 
причем направления траекторий $\gamma$-квантов случайны, т.е. равномерно распределены по полуокружности. Тогда $X_i, i=1,...,n$ — зарегистрированные координаты точек пересечения $\gamma$-квантов с поверхностью детекторной плоскости — образуют выборку из распределения Коши со сдвигом $\theta$.

**1.** На отрезке $[-7, 7]$ постройте плотность стандартного нормального распределения и стандартного распределения Коши. Не забудьте добавить подписи к графику.

**Решение:**

**Вывод:** 

**2.** Сгенерируйте выборку $X = \left(X_1, \dots, X_{1000} \right)$ из стандартного распределения Коши ($\theta = 0$). Для всех $n \leqslant 1000$ по первым $n$ элементам выборки $X_1, \dots, X_n$ вычислите значения следующих оценок:
- $\overline{X}$  —  выборочное среднее;
- $\widehat{\mu}$ —  выборочная медиана;
- Oдношаговая оценка, построенная по выборочной медиане (см. лекцию 4). 

В случае выборочной медианы можно использовать цикл по подвыборкам.

На одном графике изобразите зависимость значений этих оценок от $n$.
Сравните асимптотические дисперсии оценок (для тех оценок, для которых они существуют). Сделайте вывод.

**Замечание:** если некоторые оценки имеют большой разброс, и разница между графиками зависимостей оценок с малыми значениями недостаточно заметна, стоит сделать два графика, на одном из которых будут изображены все оценки, а на втором &mdash; только достаточно хорошие (мало отличающиеся от оцениваемого параметра), то есть этот график будует иметь меньший масштаб по оси $y$.

**Решение:**

**Вывод:** 

## Задача 3. Белые мышки.


**Теория**

Пусть $X_1, ... X_n$ &mdash; выборка из распределения $Gamma(\theta, \beta)$ &mdash; гамма-распределение с плотностью $p_{\theta}(x) = \frac{\theta^{\beta} x^{\beta-1}}{\Gamma(\beta)} e^{-\theta x} $, где $\beta$ фиксировано, а $\Gamma(\beta)$ &mdash; [гамма-функция](https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%BC%D0%BC%D0%B0-%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F) ;



Найдите 


- 1). оценку максимального правдоподобия $\theta$;

- 2). ее асимптотическую дисперсию, считая выполненными условия теоремы об ОМП. 

**Ответ**

**Практика**

Скачайте <a href="https://www.kaggle.com/ruslankl/mice-protein-expression
">датасет</a> с данными об экспрессии белков у белых мышей. Данный датасет состоит из таблицы значений уровней экспрессии 77 различных белков в мозге у мышей. Каждая строка соответствует одной особи, каждый столбец соответствует одному белку. На столбцы Genotype, Treatment и подобные пока не обращаем внимания. 

In [None]:
df = pd.read_csv("./Data_Cortex_Nuclear.csv") 

Выберем для анализа белки ITSN1_N, DYRK1A_N, pBRAF_N, pCREB_N.

In [None]:
columns = ['ITSN1_N', 'DYRK1A_N', 'pBRAF_N', 'pCREB_N']  

df_chosen_columns = df[columns]

Постройте гистограммы изучаемых признаков.

**1.** 

В этой части задания вам предлагается найти оценки максимального правдоподобия (ОМП) по формулам, полученным в теоретической части задания и на семинаре. Вам также поможеет задание из Яндекс.Контеста. Если вам не удалось посчитать теоретически какую-то из нужных ОМП, сделайте хотя бы для той, которую посчитали.

Предположим, что признаки имеют следующие распределения: 


*   'pBRAF_N' и 'pCREB_N' &mdash; нормальное распределение с неизвестными параметрами $\theta = (a, \sigma^2)$;
*  'ITSN1_N' &mdash; гамма-распределение $Gamma(\theta, \beta)$ с плотностью $p_{\theta}(x) = \frac{\theta^{\beta} x^{\beta-1}}{\Gamma(\beta)} e^{-\theta x} $ с неизвестным параметром $\theta$ и известным параметром $\beta$, равным 13.5;
* 'DYRK1A_N' &mdash; гамма-распределение $Gamma(\theta, \beta)$ с неизвестным параметром $\theta$ и известным параметром $\beta$, равным 9.

Не пугайтесь гамма-распределения, оно тоже часто встречается, как мы и увидим в этой задаче.

*Замечание:* в `scipy.stats` у гамма-распределения параметр `a` означает $\beta$, а параметр `scale` означает $1 / \theta$.


Удалите неопределенные значения `nan` и выбросы и посчитайте ОМП для данных выборок признаков, предполагая, что они имеют указанные выше распределения. Подсчет ОМП оформите в виде функций, принимающих реализацию выборки и $\beta$ в случае гамма-распределения. Выведите полученные значения параметров.

Для избавления от копипаста используйте циклы и функции. Копипаст является серезным источником ошибок на практике.

Постройте для каждого признака на одном графике гистограмму каждого признака, график ядерной оценки плотности и график плотности распределения с параметрами, являющимися полученной ОМП. Графики для разных признаков стройте на разных графиках, но на одной matplotlib-фигуре. Сравните получившиеся результаты. Сделайте выводы.

**Вывод**

**2.**


Реализуйте функции, возвращающие значения функции правдоподобия  и логарифмической функции правдоподобия для гамма распределения с параметрам $\theta, \beta$. Функция принимает реализацию выборки и параметры. Логарифмическую функцию реализуйте с использованием формулы после ее упрощения, а не как взятие функции логарифма от уже вычисленного значения функции правдоподобия.

Для получения частичного балла можно использовать методы `pdf` и `logpdf` для плотности и логарифма плотности распределения в `scipy.stats`, для получения полного балла функции формулу нужно реализовать самостоятельно.

Для подсчета гамма-функции в знаменателе плотности распределения используйте `scipy.special.gamma`, а для подсчета логарифма гамма-функции &mdash; `scipy.special.loggamma`. 



Выведите следующие значения:
- функции правдоподобия;
- логарифма, взятого от функции правдоподобия;
- логарифмической функции правдоподобия

на следующих реализациях выборок:
- `np.ones(5)*5` &mdash; 5 пятерок;
- `np.ones(500)*5`&mdash; 500 пятерок;
- `np.ones(500)*5`&mdash; 5000 пятерок;
- `np.ones(5)*500`.

Параметр $\beta$ положите равным 10, параметр $\theta$ положите равным 2.

Сделайте выводы. Какую функцию лучше вычислять на практике?


**Вывод**

**3.** 

Теперь подберем параметр $\beta$ для гамма-распределения с помощью перебора. 

Рассмотрите признаки 'ITSN1_N', 'DYRK1A_N'. В каждом случае сгенерируйте одномерную сетку (grid) и переберите параметр $\beta$ по сетке с шагом $10^{-4}$. Пределы сетки установите сами по смыслу. Вычислите для каждого $\beta$  параметр $\theta$ по теоретической формуле, которую вы реализовали в прошлой части задачи. Посчитайте (логарифмическую) функцию правдоподобия для полученных параметров $\beta, \theta$ и выберите наилучший параметр на основании значений этой функции.  Выведите значения полученных параметров с точностью 4 знака после запятой.

Также постройте графики зависимости значений функций правдоподобия от $\beta$. Сделайте вывод.

Для избавления от копипаста используйте циклы и функции. Копипаст является серезным источником ошибок на практике.

**Вывод**

Постройте для каждого признака на одном графике гистограмму каждого признака, график ядерной оценки плотности и график плотности распределения с параметрами, являющимися полученной ОМП. Графики для разных признаков стройте на разных графиках, но в одном окне. Сравните получившиеся результаты с результатами, полученным в первой части задачи. Сделайте выводы.

**Вывод**