# Небольшое введение в Jupyter Notebook

Ноутбук является удобной средой для проведения экспериментов и выполнения кода в интерактивном режиме. Код в ноутбуке поделен на ячейки. Выполнять их можно в любом порядке, каждое выполнение вносит изменения в рабочую среду.

У ноутбука есть два режима:
1. командный режим -- синий контур у ячейки;
2. режим редактирования -- зеленый контур для ячейки.

Ячейки бывают 3 типов:
1. `Code` -- при выполнении ячейки выполняется соответствующий код (`In []:` слева от ячейки).
2. `Markdown` -- при выполнении ячейки, текст оформляется красивенько (текущая ячейка имеет такой тип).
3. `Raw` -- сырые данные, которые никак не используются.

Краткий справочник команд для командного режима:
1. `Escape` --  перейти в командный режим.
2. `A` -- добавить ячейку перед текущей;
3. `B` -- добавить ячейку после текущей;
4. `d-d` -- удалить текущую ячейку;
5. `C` -- скопировать текущую ячейку;
6. `X` -- вырезать текущую ячейку;
7. `V` -- вставить скопированную ячейку после текущей;
8. `Z` -- отменить удаление ячейки;
9. `Y` -- назначить тип ячейки *code*;
10. `M` -- назначить тип ячейки *markdown*;
11. `R` -- назначить тип ячейки *raw*;
12. `Ctrl+Enter` -- выполнить текущую ячейку (доступно в режиме редактирования);
13. `Shift+Enter` -- выполнить текущую ячейку и перейти к следующей (доступно в режиме редактирования).

В дополнение несколько полезных ссылок:
* [Markdown Cheat Sheet](http://nestacms.com/docs/creating-content/markdown-cheat-sheet)
* [Advanced Jupyter Notebook Tricks](https://blog.dominodatalab.com/lesser-known-ways-of-using-notebooks/)


# Некоторые сведения о библиотеках Python

Удобным инструментом для работы с данными является библиотека __pandas__. Подробную документацию можно посмотреть на сайте: https://pandas.pydata.org/docs/

Для выполнения математических операций над векторами и матрицами используют библиотеку __numpy__. Подробности тут: https://docs.scipy.org/doc/numpy/reference/

Научные вычисления реализованы в библиотеке __scipy__. О ней можно прочитать здесь: https://docs.scipy.org/doc/scipy/reference/

Для визуализации часто применяются библиотеки __matplotlib__ и её высокоуровневая надстройка __pyplot__ (она встроена в matplotlib). Сайт проекта: https://matplotlib.org/

Полезности:
* [Отличные уроки по визуализации в matplotlib](https://nbviewer.jupyter.org/github/whitehorn/Scientific_graphics_in_python/blob/master/P1%20Chapter%201%20Pyplot.ipynb)
* [Лекции по scipy и numpy](http://scipy-lectures.org/index.html)
* [Шпаргалка по pandas](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

In [None]:
import pandas as pd # as pd -- создание короткого имени для импортируемой библиотеки
import numpy as np
import matplotlib.pyplot as plt

# 1. Считывание данных

Загрузим данные о росте и длине ноги. Датасет взят отсюда: https://osf.io/ja9dw/

In [None]:
# чтение данных формата comma separated values
df = pd.read_csv('../data/01-foot-length-height.csv')

print('Число наблюдений:', len(df))
# команды df.head() и df.tail() показывают несколько первых и последних строк таблицы соответственно
# команда display() умеет красиво выводить таблицы на экран
display(df.head())

Небольшие примеры, как работать с данными:

In [None]:
# чтобы посмотреть на данные, можно вызвать функцию describe()
df.describe()

Средний рост людей в выборке:

In [None]:
# заметим, что к столбцам можно обращаться через точку, как к полям класса.
df.height.mean()

Максимальный рост мужчин:

In [None]:
# альтернативный вариант -- использование квадратных скобок
# обратите внимание, как можно фильтровать данные
df[df.sex == 'man'].height.max()

Можно пройтись по всем записям данных:

In [None]:
# loc позволяет вытащить строку по индексу
for idx in df.index[:2]:
    rec = df.loc[idx]
    print('Строка с индексом ', idx)
    display(rec) # каждая строка имеет тип pd.Series
    print('Рост этого наблюдаемого:', rec.height)
    print('\n')

# 2. Эмпирическая функция распределения

В этой секции Вам предлагается построить эмпирическую функцию распределения.

Пусть дана выборка $X_1, \ldots, X_n$ из распределения $\mathcal{L}(x) \sim F(x)$. Функция распределения не известна и мы хотим приблизить её по эмпирическим данным.

__Определение__. Эмпирической функцией распределения называется функция $$F_n(x) = \frac{1}{n} \sum\limits_{k=1}^n \mathsf{1}(X_k < x), \quad x \in \mathbb{R}.$$

Эмпирическая функция распределения обладает следующими свойствами:

* имеет биномиальное распределение $F_n(x) \sim Bi(n, F(x))$;
* несмещенная оценка теоретической ф.р. $F(x)$;
* состоятельная оценка теоретической ф.р. $F(x)$;
* в силу УЗБЧ $F_n(x)$ сходится почти всюду к $F(x)$ (при фиксированном $x$);
* ассимптотически нормально распределена.

__Задача 1:__ Построить график ЭФР распределения роста мужчин и роста женщин.

In [None]:
# разделим данные на два набора
ecdf_man = df[df.sex == 'man'].height.values
ecdf_woman = df[df.sex == 'woman'].height.values

print('Число мужчин:', len(ecdf_man))
print('Число женщин:', len(ecdf_woman))

In [None]:
# написать функцию, которая на вход принимает точку x и выборку data,
# а на выходе выдает число от 0 до 1 -- значение ЭФР
def ecdf(x, data) -> float:
    ### Ваш код ###
    return 1 * (x > 170) # затычка

In [None]:
# создаем равномерную сетку от -10 до 10 со 128 узлами
X = np.linspace(150, 210, 128)

# вычисляем ЭФР для мужчин
ecdf_man = np.array([ecdf(x, ecdf_man) for x in X])
ecdf_woman = np.array([ecdf(x, ecdf_woman) for x in X])

# строим график
_, ax = plt.subplots(1, 1, figsize=(12,5))
ax.step(X, ecdf_man, color='blue', label='man')
ax.step(X, ecdf_woman, color='green', label='woman')
ax.legend()
plt.show()

# 3. Гистограмма

Пусть у нас есть множество возможных значений $E$ для случайной величины с ф.р. $F(x)$.

Представим $E = \cup_{k=1}^r E_k$, где $E_i \cap E_j = \emptyset, i \neq j$.

__Определение__ Гистограммой называется набор пар $(E_k, v_k), k=1,\ldots,r$, где $$ v_k = \sum\limits_{i=1}^n \mathsf{1}(X_i \in E_k).$$

Свойства гистограммы:
* В случае дискретного распределения, величина $\tfrac{v_k}{n}$ сходится по вероятности к $p_k$ -- вероятности выпадения исхода $a_k \equiv E_k$.
* В случае абсолютно непрерывного распределения, величина $\tfrac{v_k}{n}$ сходится по вероятности к $p_k = \int_{|E_k|} p(x) dx$.

__Задача 2:__ Построить график гистограммы распределения размера ноги.

In [None]:
# подготовка данных
discrete_data = np.array(df.shoe_size)

print('Размер выборки:', len(discrete_data))
discrete_data[:5]

In [None]:
# написать функцию, которая получает на вход выборку data,
# а возвращает два массива:
# первый содержит частоты v_k
# второй содержит значения a_k
def discrete_hist(data):
    ### Ваш код ###
    return [0, 1], [40.0, 41.0] # затычка

In [None]:
# считаем значения гистограммы
hist_values, hist_keys = discrete_hist(discrete_data)

# строим гистограмму
_, ax = plt.subplots(1, 1, figsize=(5,4))
ax.bar(hist_keys, hist_values, width=0.5)

plt.show()

__Задача 3:__ Построить график гистограммы распределения роста.

In [None]:
# подготовка данных
continuous_data = np.array(df.height)

print('Размер выборки:', len(continuous_data))
continuous_data[:5]

In [None]:
# написать функцию, которая получает на вход выборку
# и количество сегментов разбиения (бинов, англ. bins),
# а на выходе возвращает два массива
# первый содержит оценки плотности v_k / (n * длина_бина)
# второй содержит середины бинов
# указание: в качестве множества значений можно взять сегмент от минимума до максимума

def continuous_hist(data, bins=4):
    ### Ваш код ###
    return [0.1 for x in range(bins)], [x for x in range(-bins//2, bins//2)] # затычка

In [None]:
# считаем гистограмму
bins = 10
hist_values, hist_bins = continuous_hist(continuous_data, bins=bins)

bar_width = 0.6 * (hist_bins[1] - hist_bins[0])
_, ax = plt.subplots(1, 1, figsize=(10,5))
ax.bar(hist_bins, hist_values, width=bar_width)
plt.show()

# 4. Ядерная оценка плотности

Пусть функция $K(x)$ является плотностью вероятности некоторого симметричного распределения, то есть:
* неотрицательная: $K(x) \geqslant 0,~x \in \mathbb{R}$;
* четная: $K(x) = K(-x),~ x \in \mathbb{R}$;
* нормированная: $\int_{\mathbb{R}} K(x) dx = 1$.

__Определение__ Ядерной оценкой плотности с _шириной полосы_ $h > 0$ и с ядром $K(x)$ называется функция $$p_n(x) = \frac{1}{n h} \sum\limits_{i=1}^n K\left(\frac{x - X_i}{h}\right), \quad x \in \mathbb{R}.$$

__Задача 4:__ Построить графики ядерной оценки плотности распределения роста женщин, мужчин и людей в целом (3 линии на графике).
В качестве ядра сглаживания использовать плотность стандартного нормального распределения $$ K(x) = \tfrac{1}{\sqrt{2\pi}}e^{-x^2/2}, \quad x \in \mathbb{R}.$$

In [None]:
kde_data = np.array(df.height)

print('Размер выборки:', len(kde_data))
kde_data[:5]

In [None]:
# написать функцию, которая на вход принимает точку x, выборку data и ширину полосы h,
# а на выход выдает неотрицательное число -- ядерную оценку плотности

def kde(x, data, h):
    ### Ваш код ###
    return np.maximum(h - np.abs(x / h), 0)

In [None]:
# число бинов для гистограммы и значения ширины полосы
bins = 10
h_list = [1, 3, 10] 

# строим графики
_, ax = plt.subplots(1, 1, figsize=(10,5))

# гистограмма
hist_values, hist_bins = continuous_hist(kde_data, bins)
bar_width = 0.6 * (hist_bins[1] - hist_bins[0])
ax.bar(hist_bins, hist_values, width=bar_width)

# kde графики
x_plt = np.linspace(140, 220, 128)
for h, color in zip(h_list, ['blue','red','purple','green','black','brown']):
    kde_plt = np.array([kde(x, kde_data, h) for x in x_plt])
    ax.plot(x_plt, kde_plt, color=color, label=f'h={h}')
    
ax.legend()
plt.show()

# Заключение

Для отправки задания на проверку:
* Выберите Kernel-> Restart & Run All. Убедитесь, что Ваш код работает исправно с начала и до конца.
* Создайте HTML-версию ноутбука: File -> Download as -> HTML.
* Тема письма: "Математическая статистика 2020, группа 205, задание 01". В тексте напишите ФИО, вариант (easy/hard) и прикрепите 2 файла: .html и .ipynb.
* Желательно, чтобы называния были в формате "01-surname-<easy/hard>.html"