# Literate programming

Описание кода находится непосредственно рядом с кодом, и это не простые комментарии. 
* Здесь можно делать списки
* <div style='color:red'>**Стилизовать всё под себя.**</div>
* Добавлять [гиперссылки](http://jupyter.org/)
* Писать формулы в LaTeX: $\sum_{i=1}^\inf\frac{1}{i^2} = \frac{\pi^2}{6}$
* И даже вставлять картинки

<img style="float: left;" src="figures/power.png">

* А при желании и анимацию:

In [None]:
from IPython.display import Image
Image(filename="figures/cat.gif")

### В Jupyter можно писать целые учебники:

<a href="https://github.com/jakevdp/PythonDataScienceHandbook">
    <img style="float: left;" src="PythonDataScienceHandbook/notebooks/figures/PDSH-cover.png">
</a>
<a href="http://readiab.org/">
    <img style="float: right;" src="figures/bioinformatics_intro.png">
</a>

[Отрывок из Python Data Science Handbook](PythonDataScienceHandbook/notebooks/05.06-Linear-Regression.ipynb)

В R подобный подход используется для документации пакетов. Это называется **vignettes**. Например, [vignette для пакета seurat по анализу scRNA-seq данных](http://satijalab.org/seurat/pbmc3k_tutorial.html).

# Основы Jupyter

## Simple python

Все данные храняться в оперативной памяти. Однажды созданную переменную можно использовать пока она не будет явно удалена.

In [None]:
a = 1

In [None]:
print(a)

Каждая ячейка аналогична выполнению кода в глобальной области видимости.

In [None]:
def mult_list(lst, n):
    return lst * n

arr = mult_list([1, 2, 3], 3)
print(arr)

Нам не обязательно использовать print, если мы хотим вывести только последнее значение:

In [None]:
arr

Но разница всё же есть:

In [None]:
print(mult_list(arr, 10))

In [None]:
mult_list(arr, 10)

Точка с запятой позволяет подавить вывод результата:

In [None]:
mult_list(arr, 10);

## System calls

После '!' можно писать любые консольные команды:

In [None]:
!ls -l ./

И в них даже можно использовать переменные:

In [None]:
folder = 'PythonDataScienceHandbook/notebooks/'
!ls -l ./$folder | head

In [None]:
files = !ls ./$folder
files[1:10]

Также есть команды для записи в файл:

In [None]:
out_file = 'test_out.txt'

In [None]:
%%file $out_file
Line 1
Line 2
Line N

In [None]:
!cat $out_file

In [None]:
!rm $out_file

## Line magics и не только

Magic команды начинаются с одного или двух знаков "%". Главная из них - `%quickref`.

In [None]:
%quickref

Команды, начинающиеся с одного знака "%" действуют на одну строчку. Команды, начинающиеся с двух знаков - на всю ячейку (см. `%%file` выше).

### Code profiling

Определим несколько функций с разной производительностью:

In [None]:
def slow_function():
    [_ for i in range(10000000)]

def not_so_slow_function():
    [_ for i in range(1000)]
    
def complex_slow_function():
    slow_function()
    [not_so_slow_function() for i in range(1000)]
    [slow_function() for i in range(10)]

Магические команды %time и %timeit позволяют замерять время выполнения строки, следующей за ними. %timeit отличается тем, что запускает одну и ту же команду много раз и усредняет результат.

In [None]:
%time slow_function()

Но следует быть осторожным, python имеет свойство кэшировать результаты выполнения, и поэтому первый запуск одной и той же функции может быть дольше, чем все последующие:

In [None]:
%time not_so_slow_function()

In [None]:
%timeit not_so_slow_function()

Также следует остерегаться такого кода:

In [None]:
arr = []
%timeit arr.append(1)
len(arr)

Команды для профилирования позволяют получить более детальную информацию о выполнении функции.

In [None]:
%prun complex_slow_function()

[Существуют разные виды профилировщиков, как для времени, так и для памяти](http://pynash.org/2013/03/06/timing-and-profiling/)

### Другие полезные команды

#### Посмотреть код функции:

In [None]:
%psource complex_slow_function

#### Описание функции или обьекта:

In [None]:
?map

In [None]:
a = complex(10, 20)
?a

#### Вся информация о функции:

In [None]:
import numpy as np

In [None]:
??np.sum

#### Захват вывода ячейки

In [None]:
%%capture a
print(11)

In [None]:
a.show()

In [None]:
a.stdout, a.stderr

#### Вывод последней команды:

Переменная `_` хранит результат посленей исполненной ячейки. Переменная `__` - предпоследней. Ещё есть `____` (3 шт.)

In [None]:
[1, 2, 3]

In [None]:
t = _
print(t)

## Добавляем графики (matplotlib)

Импортируем библиотеку, настраиваем стиль и указываем, что графики стоит встраивать сразу в клетку:

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns
sns.set(font_scale=2, style='whitegrid', rc={'figure.figsize': (10, 6), 'axes.edgecolor': '#222222'})

plt.plot([(0.05 * x) ** 2 for x in range(100)])
plt.title('Parabolic graph')
plt.xlabel('X'); plt.ylabel('Y');

## Jupyter kernels

В Jupyter можно запускать ооочень много разных языков. Для этого используются [Jupyter Kernels](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels).

In [None]:
kernels_df = pd.read_csv('./jupyter_kernels.csv')
kernels_df.head()

[Пример](RExample.ipynb) для [IRkernel](https://github.com/IRkernel/IRkernel).

# Scientific computing 

## Больше графиков

### Matplotlib

Линейный график строится с помощью функции 'plot':

In [None]:
plt.plot([(0.05 * x) ** 2 for x in range(100)])
plt.title('Parabolic graph')
plt.xlabel('X'); plt.ylabel('Y');

Фнукция scatter даёт нам позволяет нам рисовать точками:

In [None]:
plt.scatter(x_vals[::5], y_vals[::5])
plt.title('Parabolic graph')
plt.xlabel('X'); plt.ylabel('Y')
plt.xlim(min(x_vals) - 1, max(x_vals) + 30); plt.ylim(min(y_vals) - 1, max(y_vals) + 10);

В терминах matplotlib, каждый график (plot) состоит из холста (figure), разделённого на axes (оси?). Чтобы отобразить несколько подграфиков на одном холсте используется функция subplots().  
Важно заметить, что у класса AxesSubplot вместо методов title, xlabel и т.д. используются методы set_title, set_title, ...

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(15, 8))
axes[0][0].plot(y_vals)
axes[0][1].hist(y_vals)
axes[1][0].scatter(x_vals[::10], y_vals[::10])
axes[1][1].hist(y_vals, bins=20);
for i, ax in enumerate(np.concatenate(axes)):
    ax.set_title('Plot %d' % i)
    
plt.tight_layout();

Изобразим всё тоже самое на отдном графике:

In [None]:
plt.hist(y_vals, bins=10, label='10 bins', alpha=0.7)
plt.hist(y_vals, bins=20, label='20 bins', alpha=0.7)
plt.legend(loc='upper right');

### Statistical plots (seaborn)

In [None]:
tips = sns.load_dataset("tips")
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips, size=5);

In [None]:
axes = plt.subplots(ncols=2, figsize=(10, 5))[1]

sns.violinplot(x='smoker', y='tip', data=tips, ax=axes[0])
sns.swarmplot(x='smoker', y='tip', data=tips, ax=axes[1])

axes[0].set_title('Violin plot')
axes[1].set_title('Swarm plot')

plt.tight_layout()

На [сайте пакета](https://seaborn.pydata.org/examples/index.html) есть множество красивых примеров.

### Interactive plots (bokeh)

In [None]:
import bokeh.plotting as bp
import bokeh.models as bm
from bokeh.palettes import Spectral6
from bokeh.transform import factor_cmap

bp.output_notebook()

In [None]:
hover = bm.HoverTool(tooltips=[
    ("(x,y)", "($x, $y)"),
    ("Smoker", "@smoker"),
    ("Time", "@time"),
    ("Sex", "@sex")
])

p = bp.figure(tools="pan, box_zoom, reset, save, crosshair",
             x_axis_label='Tip', y_axis_label='Total bill')

p.tools.append(hover)
p.circle('tip', 'total_bill', 
         fill_color=factor_cmap('smoker', palette=Spectral6, factors=list(tips.smoker.unique())),
         legend='smoker', source=bm.ColumnDataSource(tips), size=10)

bp.show(p)

## NumPy - основная библиотека для работы с математикой в Python.

### Массивы

In [None]:
import numpy as np

Для массивов numpy переопределены все операции, включая вывод с помощью `print`

In [None]:
np_arr = np.array([1, 2, 3, 4, 5])
print(np_arr * 2)
print(np_arr * (np_arr + 1))
print(np_arr >= 3)

numpy имеет свои аналоги стандартных функций python, которые стоит применять при работе с numpy массивами  

In [None]:
arr = [1, 2, 3] * 100000
np_arr = np.array(arr)

%time sum(np_arr)
%time all(np_arr > 0)

%time np.sum(np_arr)
%time _=np.all(np_arr > 0)

Однако они не гарантируют скорости на стандартных структурах данных:

In [None]:
%time sum(arr)
%time _=np.sum(arr)

Полезная функция `np.arange`. В отличие от range: а) возвращает `np.array` (не итератор!), б) разрешает дробный шаг

In [None]:
np.arange(1, 3, 0.5)

### Случайные числа

Генерируем нормальное распределение:

In [None]:
r_arr = np.random.normal(0, 1, 100)
np.mean(r_arr), np.std(r_arr)

Построим распределение среднего из 1000 нормальных распределений (`axis=0` - по строкам, `axis=1` - по столбцам)

In [None]:
r_arr = np.random.normal(0, 1, (100, 1000))
means = np.mean(r_arr, axis=0)
plt.hist(means, bins=20, alpha=0.8, normed=True)
sns.kdeplot(means, color='red')
plt.title('Distribution of means\nStdErr={:.3f}'.format(np.std(means)))
plt.xlabel('Mean'); plt.ylabel('Density');

Также с помощью класса random можно генерировать выборку из имеющегося массива:

In [None]:
arr = list(range(10))
np.random.choice(arr, 5, )

### Индексирование массивов

numpy.ndarray имеет продвинутую систему индексирования. Индексом может служить число, массив чисел, либо `np.ndarray` типа bool соответствующей размерности

In [None]:
arr = np.random.uniform(size=10)
arr[1:5]

In [None]:
arr[[1, -2, 6, 1]]

In [None]:
arr[np.array([True, False, False, False, False, True, False, False, False, True])]

Больше реализма

In [None]:
arr[arr < 0.5]

In [None]:
arr[(arr < 0.5) & (arr > 0.4)]

Каждый срез точно также работает на присваивание:

In [None]:
arr[1:7] = -1
arr

### Матрицы

Будьте осторожны, перемножение двумерных массивов происходит поэлементно.

In [None]:
e = np.eye(5, dtype=int)
arr = np.full((5, 5), 10, dtype=int)
print('E:\n{}\nArray:\n{}\nProduct:\n{}'.format(e, arr, e*arr))

Для матричного умножения следует использовать функцию `dot`:

In [None]:
e.dot(arr)

Однако, существует специальный класс `np.matrix`, в котором все операции переопределены в соответствии с матричными вычислениями

In [None]:
m_e = np.matrix(e)
m_arr = np.matrix(arr)
m_e * m_arr

Транспонирование как матрицы, так и массива осуществляется с помощью поля `T`:

In [None]:
arr = e + [1, 2, 3, 4, 5]
print(arr)
print()
print(arr.T)

## Pandas - анализ данных в Python

Как правило, вы работаете не просто с матрицами, но ваши данные имеют за собой какую-то природу, которую вы хотите с ними связать.

In [None]:
import pandas as pd
from pandas import Series, DataFrame

### Series

Pandas предоставляет класс `Series`, позволяющий совместить функциональность класса `dict` из python и одномерного массива numpy:

In [None]:
mouse_organs_weights = Series({'Liver': 10.5, 'Brain': 7.4, 'Legs': 3.1, 'Tail': 3.5})

print(mouse_organs_weights, '\n')
print('Brain: ', mouse_organs_weights['Brain'], '\n')
print(mouse_organs_weights.index)

Отсортируем:

In [None]:
mouse_organs_weights.sort_values(inplace=True)

print(mouse_organs_weights, '\n')
print(mouse_organs_weights.index)

In [None]:
mouse_organs_weights.plot(kind='bar', color='#0000AA', alpha=0.7)
plt.ylabel('Organ weights'); plt.xlabel('Organs'); plt.title('Mouse');

У нас появилась вторая мышь!

In [None]:
mouse_organs_weights2 = Series((8, 11.4, 2.1, 2.5), ('Liver', 'Brain', 'Legs', 'Tail'))

print(mouse_organs_weights2, '\n')
print(mouse_organs_weights2.index)

Не смотря на то, что эти два массива упорядочени по разному, во всех совместных операциях они будут взаимодействовать именно по текстовому индексу, а не по числовому:

In [None]:
mouse_organs_weights - mouse_organs_weights2

In [None]:
mouse_organs_weights * mouse_organs_weights2

Однако для корректного отображения графиков нам надо их переиндексировать:

In [None]:
mouse_organs_weights.plot(label='Mouse 1')
mouse_organs_weights2[mouse_organs_weights.index].plot(label='Mouse 2')
(mouse_organs_weights - mouse_organs_weights2)[mouse_organs_weights.index].abs().plot(label='Absolute difference')

plt.ylim(0, max(mouse_organs_weights.max(), mouse_organs_weights2.max()) + 1)
plt.ylabel('Organ weight'); plt.xlabel('Organs'); plt.title('Mouse')
plt.legend(loc='upper left')

### DataFrame

У нас появилось очень много мышей!

In [None]:
mice_organs_weights = [Series(
    (np.random.uniform(5, 12), np.random.uniform(3, 15), 
     np.random.uniform(1.5, 3), np.random.uniform(2, 3.5)), 
    ('Liver', 'Brain', 'Legs', 'Tail')) for _ in range(40)]

mice_organs_weights[:3]

Для хранения однотипных данных стоит использовать `DataFrame`:

In [None]:
mice_df = DataFrame(mice_organs_weights)
mice_df.head()

В отличие от numpy, расчёт статистических показателей по-умолчанию выполняется по столбцам:

In [None]:
print('%s\n' % mice_df.mean())
print(mice_df.std())

Зададим нашим мышам более говорящие имена:

In [None]:
mice_df.index = ['Mouse {}'.format(d) for d in mice_df.index]

In [None]:
mice_df.head()

Мы можем производить срезы `DataFrame`, аналогично `np.array`:

In [None]:
mice_df[['Liver', 'Brain']].head()

Для обращения по индексу стоит использовать `.iloc` или `.loc`:

In [None]:
mice_df.loc[['Mouse 1', 'Mouse 10']]

In [None]:
mice_df.iloc[[1, 10]]

In [None]:
mice_df.loc[['Mouse 1', 'Mouse 10'], ['Legs', 'Tail', 'Tail']]

В случае обращения к одному столбцу, `DataFrame` поддерживает доступ через '.':

In [None]:
mice_df.Legs[:3]

### Пропущенные данные

Одна из целей создания pandas - адекватная работа с пропущенными значениями.  
Пусть у нас некоторые данные о мышах неизвестны.

In [None]:
mice_missed_df = mice_df[:5].copy()

In [None]:
mice_missed_df.iloc[[1, 3], 1] = np.nan
mice_missed_df.iloc[2, 2] = np.nan
mice_missed_df.iloc[4, 3] = np.nan

In [None]:
mice_missed_df

In [None]:
print(mice_missed_df.sum())
print()
print(mice_missed_df.sum(skipna=False))

### Функциональный стиль

Часто нам требуется применить функцию к каждому элементу массива. У нас есть свой `map` для индесированных массивов (`Series` и `DataFrame`):

In [None]:
print(mouse_organs_weights.map(np.exp))
print()
print(mouse_organs_weights.map(lambda x: x ** 2))

Также есть функция `apply`, которая в отличие от `map` пытается собрать результат в какую-нибудь более сложную структуру, например в DataFrame.

In [None]:
mouse_organs_weights.apply(lambda v: Series([v, 2*v]))

In [None]:
mice_df.apply(lambda r: Series([r[1], r[2] + r[3]]), axis=1).head()

У DataFrame есть только функция `apply`. Здесь она принимает аргумент `axis`, который говорит, стоит ли нам применять функцию по строкам, или по столбцам

In [None]:
(mice_df.apply(np.sum, 1) == mice_df.sum(axis=1)).all()

Этот же способ можно использовать для создания сложных булевых индексов:

In [None]:
str_df = DataFrame([['TTAGGC', 'TTACCC'], ['TTCGGC', 'TTCCGC'], ['GGACGGC', 'TGGC'], ['GGG', 'CGC']], 
                   columns=['Gene 1', 'Gene 2'])
str_df.index = list(map('Human {}'.format, range(str_df.shape[0])))
str_df

In [None]:
index = str_df.apply(lambda genes: genes[0][0] == 'T' or genes[1][0] == 'C', axis=1)
index

In [None]:
str_df[index]

# Advanced Jupyter

## Интеграция с другими языками

In [None]:
%load_ext rpy2.ipython

In [None]:
arr_size = 1000

In [None]:
%%R -i arr_size -o df

library(ggplot2)

df <- data.frame(x=rnorm(arr_size), y=rnorm(arr_size))
theme_set(theme_bw())
(gg <- ggplot(df) + geom_point(aes(x=x, y=y)))

In [None]:
df.head()

Line magics для соответствующих языков:
* `R`
* `bash`
* `javascript` или `js`
* `latex`
* `markdown`
* `perl`
* `python`
* `python2`
* `python3`
* `ruby`
* `sh`