In [None]:
import pandas as pd
import numpy as np
import scipy.stats as sps
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm
sns.set(style='white')

%matplotlib inline

Для выполнения задания вы можете установить свою палитру цветов при отрисовке графиков с помощью кода ниже. Если введете несуществующее имя, то вам напечатается список возможных палитр. Также вы можете устанавливать свои цвета конкретным объектам на графиках, обычно это делается с помощью аргумента `color`.

In [None]:
sns.set_palette('Set2')

<b><i><font color="blue">Легкая часть</font></i></b>

### Задача 1
Изобразите график параметрически заданной функции. Переменные необходимо задавать с помощью Numpy.

$$ x=\alpha\times\left(\cos t+\frac{cos(\beta t)}{\beta}\right)$$

$$y=\alpha\times\left(\sin t−\frac{sin(\beta t)}{\beta}\right)$$

$$t∈[0;20π]$$

1. Реализуйте функции $x(t, \alpha, \beta)$ и $y(t, \alpha, \beta)$

In [None]:
t = np.linspace(0, 20 * np.pi, 1000)

def X (t, a, b):
  return np.array(a * (np.cos(t) + (np.cos(b * t)/b)))

def Y (t, a, b):
  return np.array(a * (np.sin(t) - (np.sin(b * t)/b)))

2. Постройте график в осях $x$ и $y$ при $\alpha=4$ и $\beta=1.1$. Подпишите оси.

In [None]:
a, b = 4, 1.1

plt.plot(X(t, a, b), Y(t, a, b))

plt.xlabel('x')
plt.ylabel('y')
plt.title(fr'$\alpha = {a}$, $\beta = {b}$')

plt.grid()
plt.show()

3. Постройте графики для различных значений $\alpha$ и $\beta$.  
- $\alpha$ : [2, 4, 6, 8, 10]  
- $\beta$ : [1.2, 1.8, 2, 5, 10]  

У вас должна получиться сетка 5х5 графиков. На каждом графике укажите параметры $\alpha$ и $\beta$.

In [None]:
a = np.array([2, 4, 6, 8, 10])
b = np.array([1.2, 1.8, 2, 5, 10])

fig, axis = plt.subplots(5, 5, figsize=(30, 30))

for i in range(5):
  for j in range(5):
    axis[i, j].plot(X(t, a[i], b[j]), Y(t, a[i], b[j]))
    axis[i, j].set_title(fr'$\alpha = {a[i]}$, $\beta = {b[j]}$')
    axis[i, j].grid()
    axis[i, j].set_xlabel('x')
    axis[i, j].set_ylabel('y')

plt.show()

### Задача 2

Для выполнения задания выберите любой профиль, в течении 1-2 недель его можно поменять.

**Профиль биология**

Скачайте <a href="https://www.kaggle.com/ruslankl/mice-protein-expression
">датасет</a> с данными об экспрессии белков у белых мышей. Данный датасет состоит из таблицы значений уровней экспрессии 77 различных белков в мозге у мышей. Каждая строка соответствует одной особи, каждый столбец соответствует одному белку. На столбцы Genotype, Treatment и подобные пока не обращаем внимания.

Для исследования рекомендуется выбрать столбцы 'ITSN1_N', 'DYRK1A_N', 'pBRAF_N', 'pCREB_N', но можно взять и другие.

**Профиль физика**

Скачайте <a href="https://www.kaggle.com/fedesoriano/cern-electron-collision-data
">датасет</a> с данными о столкновении электронов на Большом Адронном Коллайдере.

Данный датасет  содержит информацию о событиях столкновения двух электронов. Он состоит из таблицы различных параметров столкновений. Каждая строка соответствует одному столкновению, каждый столбец соответствует одному параметру. Например, в столбцах E1, E2 записаны значения энергии сталкивающихся электронов, в столбцах px1, py1, pz1, px2, py2, pz2 — значения моментов импульса, в столбцах Q1, Q2 $-$ заряды электронов.

Для исследования рекомендуется выбрать столбцы 'E2', 'px2', 'eta2', 'phi2'. Все эти столбцы — некоторые параметры второго электрона. Можно взять и другие столбцы.

----

Чтобы скачать данные, зарегистрируйтесь на сайте, после нажмите download на странице датасета и распакуйте скачанный архив. Вы получите файл формата `csv`.

Если вы работаете в Google Colab, можно загрузить полученный файл в разделе "Файлы" (значок папки) на левой панели.

In [None]:
!unzip /content/archive.zip

In [None]:
!ls

In [None]:
# эта функция читает данные, в кавычках укажите путь к файлу на вашем компьютере или в Colab
df = pd.read_csv("./Data_Cortex_Nuclear.csv")
#df = pd.read_csv("./dielectron.csv")

Посмотрим на первые строки этой таблицы.

In [None]:
df.head()

Выберите несколько (3-6) столбцов для анализа значений в них.

In [None]:
df.columns

In [None]:
# укажите столбцы данных
# Пример: columns = ['ITSN1_N', ...]
columns = ['P3525_N', 'ITSN1_N', 'BDNF_N', 'NR1_N', 'NR2A_N', 'pAKT_N']

df_chosen_columns = df[columns]

#Одномерный массив значений одного признака (например, 'math score') можно получить так:
#df_chosen_columns['math score']

#### Гистограммы

Для каждого из выбранных признаков нарисуйте гистограмму распределения. Для этого воспользуйтесь функцией `matplotlib.pyplot.hist`.

*Примечание.* В анализе данных обычно используется слово "признак" для обозначения исследуемого свойства объекта. Например, для биологического датасета признаком является белок.


In [None]:
fig, axis = plt.subplots(1, len(columns), figsize=(30, 6))

for i, column in enumerate(columns):
    axis[i].hist(df[column], bins=20)
    axis[i].set_title(column)

plt.show()

Выбросы — значения, которые сильно отличаются от большинства значений выборки. Они могут возникать из-за ошибки измерения, из-за необычной природы входных данных, но также могут быть и частью распределения.

По гистограммам предположите, в каких из исследуемых признаков могут быть выбросы?

**Ответ:** В P3525_N, ITSN1_N, NR1_N, NR2A_N, pAKT_N имеются незначительные маленькие отстоящие от основного распределения пики, которые можно отнести к выбросам.

Выбросы могут сильно портить внешний вид графика.

Продемонстрируем это на примере. Сгенерируем выборку размера 1000 из стандартного нормального распределения и построим по ней гистограмму. В библиотеке `scipy` это можно сделать с помощью метода `rvs`

In [None]:
sample = sps.norm.rvs(size=1000)

plt.figure(figsize=(15, 6))
plt.hist(sample, bins=20, range=(-3, 4));

Как видим, большая часть значений находятся в промежутке от -3 до 3.

Теперь добавим выброс — очень большое значение, которое могло появиться, например, в результате ошибок измерения. Допустим, что выброс — первое измерение.

In [None]:
outlier = 50
sample[0] = outlier

plt.figure(figsize=(15, 6))
plt.hist(sample, bins=20);

По такому графику уже нельзя сделать предположение о распределении выборки.
Также обратите внимание, что большая часть графика пустая, что говорит о неинформативности данного графика.

Эту проблему с графиками можно решить с помощью параметра `range`, который определяет, в каких границах строится гистограмма.

In [None]:
plt.figure(figsize=(15, 6))
plt.hist(sample, bins=20, range=(-3, 4));

Проделайте то же самое с теми столбцам, в которых, как вы считаете, есть выбросы.

В словаре `ranges_without_outliers` укажите, в каких пределах, по вашему мнению, стоит нарисовать гистограмму распределения для каждого признака.

Пример заполнения словаря на ячейке ниже.

Здесь мы считаем, что для признака `column1` большая часть значений находится в промежутке от -1 до 5, а все значения за пределами этого промежутка — выбросы.
Мы хотим нарисовать информативный график для гистограммы значений признака `column1`, поэтому гистограмму будем строить только на основе значений из промежутка (-1, 5)

Аналогично для признака `column2`

In [None]:
ranges_without_outliers_example = {
    'column1' : (-1, 5),
    'column2' : (0, 3)
}

Аналогично определите интервалы для исследуемых признаков

In [None]:
ranges_without_outliers = {
    'P3525_N': (0.2, 0.4),
    'ITSN1_N': (0.3, 0.8),
    'NR1_N': (1, 3.2),
    'NR2A_N': (2.2, 5.7),
    'pAKT_N': (0.15, 0.3),
}

fig, axes = plt.subplots(1, len(ranges_without_outliers), figsize=(30, 6))

for i, (column, column_range) in enumerate(ranges_without_outliers.items()):
    axes[i].hist(df[column], range=column_range, bins=20)
    axes[i].set_title(column + ' distribution')

plt.show()

**Сделайте выводы**

Изменилась ли форма распределений, стали ли графики информативнее?

**Ответ:** Заметно, что новые графики стали более информатиными и содержательными по сравнению с предыдущими. Они позволяют лучше выделить характерные особенности данных, хотя некоторые "выдающиеся", скажем так, значения все еще остаются заметными.

#### Ядерные оценки плотности

Иногда гистограммы недостаточно, чтобы понять, какое у распределение у элементов выборки. В таких случаях можно использовать ядерные оценки плотности.

В библиотеке `seaborn` они представлены функциями `distplot` (в версиях до `0.11.1`), `kdeplot` (начиная с версии `0.11.1`)

In [None]:
sns.__version__

Пример для нормального распределения с выбросом.

In [None]:
plt.figure(figsize=(15, 6))
sns.distplot(sample, bins=20);

Видно, что, даже несмотря на "хвост", плотность основной части данных довольно похожа на плотность нормального распределения. Теперь нарисуем этот же график для выборки без выброса.

Для наглядности на этом же графике нарисуем плотность стандартного нормального распределения. В библиотеке `scipy` плотность распределения называется `pdf`.

In [None]:
# уберем выброс
sample_wo_ourliers = sample[1:]

# сетка от -4 до 4 из 1000 значений
grid = np.linspace(-4, 4, 1000)
# считаем значения функции в выборке
norm_pdf_values = sps.norm.pdf(grid)

# отрисовка графика
plt.figure(figsize=(15, 6))
sns.distplot(sample_wo_ourliers, bins=20, kde_kws={"label": "KDE", "linewidth": 2})
plt.plot(grid, norm_pdf_values, label='Плотность $\\mathcal{N}(0,1)$', lw=2)
plt.title('Сравнение оценки плотности с истинной')
plt.legend();

Однако ядерные оценки плотности тоже не универсальны.
Рассмотрим пример экспоненциального распределения.

Сгенерируйте выборку размера 100 из экспоненциального распределения $\textit{Exp(1)}$. Для этого воспользуйтесь функцией `sps.expon.rvs`.

In [None]:
sample = sps.expon.rvs(size = 100)

Посчитайте значения плотности этого распределения на промежутке от 0 до 6.

In [None]:
x = np.linspace(0, 6, 1000)
pdf_val = sps.expon.pdf(x)
print(pdf_val)

Нарисуйте гистограмму и ядерную оценку плотности для выборки из сгененированного экспоненциального распределения.

In [None]:
plt.hist(sample, bins = 20, density = True, alpha = 0.7, label = 'Гистограмма')
sns.kdeplot(sample, label = 'KDE')

plt.xlabel('Значения')
plt.ylabel('Плотность')
plt.title('Гистограмма и KDE')

plt.legend()
plt.show()

Как вы думаете, почему ядерная оценка плотности так плохо приближает реальную плотность распределения?

**Ответ:** Возможно что из-за недостаточного объема данных или наличия выбросов (что видно из гистограммы).

Нарисуйте гистограммы и ядерные оценки плотности для исследуемых признаков

In [None]:
for column, column_range in ranges_without_outliers.items():
    plt.figure(figsize=(15, 6))

    # фильтрация значений внутри заданного промежутка
    filtered_values = df[(df[column] >= column_range[0]) & (df[column] <= column_range[1])][column]

    sns.distplot(filtered_values, bins = 20)

    plt.title('Оценка распределения ' + column)
    plt.xlabel('Значения')
    plt.ylabel('Плотность')

    plt.show()

**Сделайте выводы.** Какой из двух видов графиков более нагляден для данных выборки? Какими свойствами должно обладать распределение признака, чтобы ядерная оценка плотности, полученная по выборке, была похожа на настоящую плотность?

**Вывод:** Так как мы работаем с дискретным набором данный, то гистограмма показалась мне более информативной. Также явно видно, какие значения чаще встречаются. Хотя KDE позволяет выделить особенности распределения.
Для того, тобы KDE, полученная по выборке, была похожа на насточщую плотность, распределение признака должно обладать такими свойствами, как: непрерывность, большой объем данных и отсутсвие выбросов.

Здесь мы "избавились" от выбросов для того, чтобы понять, как распределена бОльшая часть выборки.

Но нужно понимать, что избавляться от выбросов при анализе данных стоит не всегда.
Прежде, чем удалять выбросы из выборки, хорошо бы понимать:
1. **Какая цель исследования**. Например, если мы хотим узнать, как хорошо "средний" студент МФТИ решает задачи по теории вероятностей, результаты лучших студентов на потоке не сильно проясняют ситуацию и затрудняют анализ. Такие результаты нужно выкинуть. Если же надо отобрать студентов на стажировку для аналитиков данных, хорошие результаты не только не нужно отсеивать, но и нужно анализировать дополнительно.
2. **Почему** отличающееся значение могло появиться в выборке. Это случайность / ошибка в измерениях / следствие какого-то еще фактора? Возможно, удаление отличающегося элемента лишит нас важных знаний о природе исследуемых данных.



**Приведите примеры исследований**, в которых нужно/не нужно удалять выбросы в данных:

**Нужно удалять выбросы:**

1) В финансовом анализе, так как возможны аномальные рыночные условия, которые будут мешать при построении моделей и предсказаний.

2) Всякие промышленные процессы, где выбросы могут быть связаны с дефектами оборудования или другими любыми проблемами при производстве.

3) В медицинских данных. Хотя, на мой взгляд, это зависит от конкретной задачи. Конечно, работая с данными экспрессии генов, это было необходимо для построения более точной модели в будущем. Но если же мы рассматриваем, например, данные об уровне боли у пациентов после операции, то нам будет важно обратить внимание на все факторы, вызывающие боль (что может как раз и являться выбросом).

**Не нужно удалять выбросы:**

1) В логистике, например данные, связанные с авариями, строительством дорог и т.д., что может повлиять на планирование будющей инфраструктуры и т.д.

2) В социологических исследованиях, так как могут быть потеряны интересные таргетные группы.

**Сделайте выводы по всей задаче:**

1. Гистограмма хорошо подходит для анализа дискретного набора данных. С помощью нее легко увидеть какие значения чаще всего встречаются. Также она хорошо подходит для анализа большиз объемов данных.

2. KDE позволяет увидеть непрерывные распределения данных без зависимости от выбора интервалов (преимущество передгистограммой, так как при ее построении мы должны указывать значение bins, т.е. интервала). Также KDE позволяет выделить особенности распределения.

3. При анализе данных необходимо учитывать выбросы и исходя из задачи делать выводы об их важности.

### Задача 3

В этой задаче нужно визуализировать *центральную предельную теорему*.



*a).* Пусть $\xi_1, ..., \xi_n$ — независимые случайные величины из распределения $Exp(\lambda)$. Согласно центральной предельной теореме выполнена сходимость $Z_n = \frac{X_n - \mathsf{E}X_n}{\sqrt{\mathsf{D}X_n}} \stackrel{d}{\to} \mathcal{N}(0, 1)$, где $X_n = \sum\limits_{i=1}^n \xi_i$. Вам нужно убедиться в этом, сгенерировав множество наборов случайных величин и посчитав по каждому из наборов величину $Z_n$ в зависимости от размера набора.

Сгенерируйте 500 наборов случайных величин $\xi_1^j, ..., \xi_{300}^j$ из распределения $Exp(1)$.

In [None]:
size = 300  # размер выборки
samples_count = 1000 # количество выборок

sample = sps.expon.rvs(size = (samples_count, size))
print(sample)

По каждому из них посчитайте сумму $X_{jn} = \sum\limits_{i=1}^n \xi_i^j$ для $1 \leqslant n \leqslant 300$, то есть сумма первых $n$ величин $j$-го набора.

In [None]:
sums = np.cumsum(sample, axis = 1)
print(sums)

Для этого среднего посчитайте величину $Z_{jn} = \frac{X_{jn} - \mathsf{E}X_{jn}}{\sqrt{\mathsf{D}X_{jn}}}$.

*Подсказка: можно воспользоваться возможностями библиотеки `numpy`.*

In [None]:
Z_jn = np.zeros((samples_count, size))

for i in range(samples_count):
    X = sums[i, :]
    n = np.arange(1, size + 1)

    D = n
    E = n

    Z_jn[i, :] = (X - E) / np.sqrt(D)

print(Z_jn)

Для каждого $j$ нанесите на один график зависимость $Z_{jn}$ от $n$ с помощью `plt.plot`. Каждая кривая должна быть нарисована *одним цветом* с прозрачностью `alpha=0.05`. Сходятся ли значения $Z_{jn}$ к какой-либо константе?

In [None]:
for j in range(samples_count):
    plt.plot(np.arange(1, size + 1), Z_jn[j, :], alpha = 0.05, color = 'blue')

plt.xlabel('n')
plt.ylabel(r'$Z_{jn}$')
plt.title(r'Зависимость $Z_{jn}$ от n для каждого j')

plt.grid()
plt.show()


Для $n=300$ по набору случайных величин $Z_{1,300}, ..., Z_{500,300}$ постройте гистограмму. Похожа ли она на плотность распределения $\mathcal{N}(0, 1)$, которую тоже постройте на том же графике? Не забудьте сделать легенду (подписи на графиках, см. семинар и туториалы).

In [None]:
Z_300 = Z_jn[:, 299]

plt.hist(Z_300, bins = 30, density = True, alpha = 0.7, label = 'Гистограмма')

x = np.linspace(-3, 3, 1000)
plt.plot(x, norm.pdf(x, loc = 0, scale = 1), label = 'N(0, 1)')

plt.xlabel(r'$Z_{300}$')
plt.ylabel('Плотность')
plt.title(r'Гистограмма для $Z_{300}$ и N(0, 1)')

plt.legend()
plt.grid()
plt.show()






*b).* Выполните те же действия для распределения $Pois(1)$.


Сделайте вывод о смысле центральной предельной теоремы. Подтверждают ли сделанные эксперименты теоретические свойства?

In [None]:
size_poiss = 300  # размер выборки
samples_count_poiss = 500 # количество выборок

sample_poiss = sps.poisson.rvs(mu = 1, size = (samples_count_poiss, size_poiss))
print(sample_poiss)

In [None]:
sums_poiss = np.cumsum(sample_poiss, axis = 1)
print(sums)

In [None]:
Z_jn_poiss = np.zeros((samples_count, size_poiss))

for i in range(samples_count):
    X = sums[i, :]
    n = np.arange(1, size_poiss + 1)

    D_poiss = n
    E_poiss = n

    Z_jn_poiss[i, :] = (X - E_poiss) / np.sqrt(D_poiss)

print(Z_jn_poiss)

In [None]:
for j in range(samples_count_poiss):
    plt.plot(np.arange(1, size + 1), Z_jn_poiss[j, :], alpha = 0.05, color = 'blue')

plt.xlabel('n')
plt.ylabel(r'$Z_{jn}$')
plt.title(r'Зависимость $Z_{jn}$ от n для каждого j')

plt.grid()
plt.show()

In [None]:
Z_300_poiss = Z_jn_poiss[:, 299]

plt.hist(Z_300_poiss, bins = 30, density = True, alpha = 0.7, label = 'Гистограмма')

x = np.linspace(-3, 3, 1000)
plt.plot(x, norm.pdf(x, loc = 0, scale = 1), label = 'N(0, 1)')

plt.xlabel(r'$Z_{300}$')
plt.ylabel('Плотность')
plt.title(r'Гистограмма для $Z_{300}$ и N(0, 1)')

plt.legend()
plt.grid()
plt.show()

**Вывод:** На данных примерах нам удалось наглядно продемонстрировать ЦПТ, т.е. мы увидели, что если у нас есть много независимых случайных величин, то сумма или среднее этих величин будет приближаться к нормальному распределению $N(0,1)$, даже если сами эти величины имеют разные распределения.

<b><i><font color="orange">Сложная часть</font></i></b>

### Задача 4:

Ссылка на контест в боте.

### Задача 5:

Ссылка на контест в боте.
