# Анаконда, mamba, fish, tmux, cookiecutter

# О чём этот ноутбук

<img src="images/workspace.jpg" alt="Workspace"
	title="Workspace"/>

Аналитика с каждым годом [всё больше переезжает в облако](https://hostingtribunal.com/blog/cloud-computing-statistics/). Ресурсов стационарного компьютера не хватает для большинства серьёзных задач в науке и индустрии. На помощь приходят облачные сервисы, предоставляющие необходимые вычислительные мощности. Будь то университетский / рабочий кластер или Amazon AWS, на что-то большее, чем консольный интерфейс, рассчитывать обычно не приходится. 

**Цель этого ноутбука — дать вам представление о том, как настроить удобное окружение для работы в терминале `Linux`**. В настоящее время 90% облачных сервисов работают под Линуксом, [в том числе продукты Microsoft](https://www.wired.com/2015/09/microsoft-using-linux-run-cloud/), вам придётся его освоить). **В ноутбуке пойдёт речь о `fish` и `tmux` — инструментах, освоив которые вы полюбите терминал, а также об основах reproducible research — о `conda`, `jupyter` и `git` как способах фиксировать состояние проекта и гарантировать, что другой человек сможет запустить ваш код.**

Эти практики де-факто являются стандартом в предметной области и помогут вам не растеряться, когда вы начнёте разрабатывать свои большие проекты или вносить правки в чужие. Материал можно условно поделить на две части: **основную**, которая призвана облегчить вам жизнь при выполнении заданий по нашим курсам, и **продвинутую**, где рассказываются вещи, которые понадобятся вам в работе или в исследованиях. 

# Anaconda

<img src="images/anaconda_logo.png" alt="Anaconda"
	title="Anaconda" width="350"/>

[`Anaconda`](https://www.anaconda.com)наиболее известна как дистрибутив `Python` со встроенным в него пакетным менеджером `conda`. Она позволяет изолировать окружение проекта от системной версии `Python`, который критически необходим для работы системы. [Использование `sudo pip` считается плохой практикой](https://askubuntu.com/questions/802544/is-sudo-pip-install-still-a-broken-practice). Также `conda` позволяетбез проблем переносить окружение с одной машины на другую. Кроме того, если вы что-то сломаете, то с `Anaconda` вы всегда сможете откатиться на более старую версию окружения. Конечно, если вы позаботитесь о регулярных бэкапах. С системной версией `Python` это гораздо сложнее и может потребовать переустановки системы.

Въедливый читатель скажет, что вместо `Anaconda` можно использовать [`virtualenv`](https://virtualenv.pypa.io/en/latest/) или [`docker`](https://www.docker.com). Тем не менее, `docker` это чаще всего `overkill` для простых проектов (его сложно настраивать, он работае относительно медленно и требует `sudo`-прав). Связка `pip + virtualenv` хорошо работает для `Python`-only проектов, но на наших курсах вам придётся также работать с `R`. Кроме того, `conda` во многом аналогична пакетному менеджеру внутри операционной системы и позволяет локально (без `sudo`-прав, которых в облаке у вас почти никогда нет) установить `gcc`, бразуер, альтернативный `shell` и многое другое для 100+ языков. С более подробным сравнением `Anaconda` с альтернативными инструментами вы можете ознакомиться [по ссылке](https://jakevdp.github.io/blog/2016/08/25/conda-myths-and-misconceptions/).

Мы установим `Anaconda` и настроим с её помощью комфортное окружение для работы над курсом. 

**Замечание:** *`Anaconda` можно поставить и под `Windows`, на официальном сайте есть инструкция. Тем не менее, мы не берёмся гарантировать, что всё заработает. Портирование кода под `Windows` это долго и дорого, потому большая часть библиотек по анализу данных и машинному обучению доступны только под `Linux`.*

## Установка `Anaconda`

Скачайте последнюю версию `Anaconda` под свою ОС с [официального сайта](https://www.anaconda.com/distribution/).  
Запустите установочный файл и следуйте инструкциям (не меняйте дефолтные параметры без уважительной причины).
После установки перезагрузите терминал (например, с помощью команды `exec bash`).  
Если всё прошло успешно, то ячейка ниже должна отработать без ошибок:

In [1]:
!conda --version

conda 4.7.11


Если что-то пошло не так, то напишите об этом на почту курса или задайте вопрос в чате, мы поможем и внесём правки. 

## Создание `conda environment`

**Заводить отдельный `environment` для каждого проекта — правило хорошего тона.** Устанавливать всё в корневой `envirnonment` — прямой путь в отдельный круг ада, на который вы обрекаете себя в будущем. Кроме того, что это противоречит философии `conda`, — возможности сосуществования несовместимых дистрибутивов `Python` в пределах одной системы, —  это также приводит к неконтролируемому росту числа установленных пакетов. Для разрешения зависимостей `conda` использует [приближённый `SAT-solver`](https://www.anaconda.com/understanding-and-improving-condas-performance/), а задача `SAT` `NP`-полна, потому упорное использование только одного `environment`-а вскоре приведёт к тому, что вы будете часами ждать установки пакетов.  

Не надо так.  

Выполнив в терминале код из ячейки ниже, вы создадите `environment` для нашего курса в директории `~`:

```bash
conda create -n mipt-stats python=3.7 r=3.6 --yes
```

Эта команда создаст `environment`, в котором уже будут установлены `Python` и `R`, что сэкономит вам время в будущем.  
Активируйте окружение, запустив в терминале ячейку ниже:

```bash
conda activate mipt-stats
```

Если вы захотите вернуться в базовое окружение, введите

```bash
conda deactivate
```

Если вы хотите создать окружение в другой папке, то замените флаг `-n` на `-o`

```bash
conda create -o path/to/env python=3.7 r=3.6 --yes
```

Обратите внимание, что при этом вам придётся указывать полный путь при использовании команды `conda activate`:

```bash
conda activate /path/to/env
```

## Установка `mamba` и основных пакетов 

<img src="images/mamba_logo.png" alt="Mamba"
	title="Mamba" width="600"/>

Выше упоминалось, что для разрешения зависимостей `conda` приближённо решает задачу `SAT`. К сожалению и стыду разработчиков из `Continuum`, `SAT-solver` в `conda` написан на `pure Python`, из-за чего он работает возмутительно медленно. Эту проблему решает [`mamba`](https://medium.com/@wolfv/making-conda-fast-again-4da4debfb3b7) — `SAT-solver` для `conda`, написанный на `C++` компанией [`QuantStack`](https://quantstack.net/the-team.html).

```bash
conda install -c conda-forge mamba --yes
```

Далее везде используйте `mamba install` вместо `conda install`.

Аргумент `-c` позволяет указать репозиторий, в котором будет осуществляться поиск. **Настоятельно рекомендуется использовать репозиторий [`conda-forge`](https://conda-forge.org)**, т.к. там почти всегда можно найти актуальные версии пакетов (чего не скажешь об основном репозитории `Anaconda`). Причина в том, что `conda-forge` управляется сообществом пользователей `conda`, в то время как право добавлять пакеты в основной репозиторий имеют только разработчики из `Continuum`. **Устанавливать пакеты из других репозиториев стоит только при необходимости**, т.к. это может привести к переустановке уже установленных пакетов с их заменой на те версии из репозитория, из которого вы хотите что-то установить.

Теперь установим те пакеты, которые вам почти наверное понадобятся при выполнении домашних заданий. 

```bash
mamba install -c conda-forge tmux fish htop curl pip git \
nb_conda jupyter_contrib_nbextensions ipykernel r-irkernel rpy2 \
numpy scipy statsmodels sympy pandas tqdm \
matplotlib seaborn bokeh r-ggplot2 \
joblib dask \
scikit-learn scikit-image scikit-plot \
texlive-core \
--yes
```

**<span style="color:red">Важное замечание:</span> никогда не смешивайте `pip` и `conda`!**  

Подробное обсуждение этого вопроса можно прочитать [на stackoverflow](https://stackoverflow.com/questions/56134588/is-that-a-bad-idea-to-use-conda-and-pip-install-on-the-same-environment). `conda` и `pip` были созданы для принципиально разных задач и "не знают" друг о друге: пакеты, которые вы установили через `pip`, будут видны изнутри `conda`, так как они ставятся напрямую в системный `Python`, но никакой инкапсуляции при этом не получится. Они не будут учитываться `conda` при разрешении зависимостей, а также могут быть параллельно установлены через `conda` в другой версии, что приведёт к странным ошибкам и неизбежному моральному падению. 

Более того, даже если вы установите `pip` через `conda`, это всё ещё будет не то же самое, что установка пакетов через `conda` обычным образом. Гарантировать корректное разрешение зависимостей при этом будет нельзя. 

# `fish`: make Linux terminal great again! 

<img src="images/fish.png" alt="Fish"
	title="So long, and thank for all the fish!" width="500"/>

`fish` — **friendly interactive shell** — по праву заслуживает звания "`bash` двадцать первого века". Он "из коробки" поддерживает подсветку синтаксиса и автодополнение команд. Забудьте те мучительные дни, когда вам приходилось вручную печатать команды! Грамотное использование `fish` сэкономит вам уйму времени. К тому же, `fish`, в отличие от конкурентов в духе `zsh`, прост в использовании и требует минимальных усилий при установке. Кроме того, его можно настраивать через web-интерфейс! Больше можно узнать на [официальном сайте](https://fishshell.com) и в [блоге на Medium](https://medium.com/better-programming/why-i-use-fish-shell-over-bash-and-zsh-407d23293839). Если вам понравится, на [странице репозитория](https://github.com/fish-shell/fish-shell) написано, как заменить `bash` на `fish` глобально, на уровне операционной системы.

Мы уже установили `fish` в прошлом разделе. Он доступен изнутри нашего `conda environment`.  
Теперь установите расширение [`oh-my-fish`](https://github.com/oh-my-fish/oh-my-fish) и запустите `fish` при помощи команды

```bash
curl -L https://get.oh-my.fish | fish
```

Это нужно сделать один раз, чтобы обновить конфигурационный файл `fish`.  
При желании, вы можете тонко подстроить `fish` под свои нужды, но большинству хватает встроенных возможностей.

## Бэкап `conda env` и восстанавление окружения из него

Теперь позаботимся о том, чтобы наши усилия не прошли даром — сделаем бэкап!  
`conda` позволяет сделать бэкап в форме `.yaml`-файла. В `fish` это делается командой

```bash
conda env export >(printf (date +"%Y-%m-%d %T mipt-stats.yaml")) 
```

Теперь окружение можно восстановить из бэкапа при помощи команды
```bash
conda env create -f environment.yaml
```
При этом окружение будет загружено в `~/.conda/envs`.  
Если вы хотите установить `conda` в другую директорию, то укажите её через команду `-o`:
```bash
conda env create -f environment.yaml -o path/to/env
```

где вместо `environment.yaml` нужно подставить имя только что созданного `.yaml`-файла.   
Хорошая практика — автоматизировать создание бэкапов с помощью системного планировщика (в духе `cron`).  
Тем не менее, это [непросто](https://hackersandslackers.com/conda-environments-and-cron/). Если будет желание, о тонкостях этого процесса можем рассказать отдельно.

Отлично! Теперь, когда все нужные пакеты установлены и сохранены, вернёмся к обустройству рабочего пространства.  

# `tmux`: один терминал — хорошо, сразу два — ещё лучше!

<img src="images/tmux_logo.png" alt="TMUX"
	title="TMUX" width="500"/>

`tmux` — **terminal multiplexer** — консольный оконный менеджер и незаменимый инструмент разработчика. Он позволяет открыть сразу несколько терминалов на одном экране. Его полезность вы поймёте не сразу, но в работе часто приходится делать несколько вещей одновременно (поднимать `jupyter`-сервер, следить за нагрузкой с помощью `htop` / `nvidia-smi` / `tensorboard`, писать скрипты и простые команды в терминале). Без `tmux` такой режим работы превращается в ад с постоянным переключением вкладок, что вызывает сильную фрустрацию.

Кроме того, важным преимуществом `tmux` при работе на удалённой машине является тот факт, что он игнорирует сигнал `SIGHUP`. На практике это означает, что `tmux`-сессия не умирает, если ваше `ssh`-соединение обрывается. Вы сможете вернуться и продолжить работать с того же места.

`tmux` тоже был установлен нами заранее. Чтобы активировать его, напишите в терминале `tmux`.  
Поначалу навигация в `tmux` покажется вам странной но к ней можно привыкнуть (или даже [подстроить под себя](https://www.hamvocke.com/blog/a-guide-to-customizing-your-tmux-conf/)).  
С полным списком команд можно ознакомиться [здесь](https://tmuxcheatsheet.com). Ниже приведены только основные из них.

- `Ctrl + b + Shift + %` — разбить текущее окно на две половины по вертикали.
- `Ctrl + b + Shift + '` — разбить текущее окно на две половины по горизонтали.
- `Ctrl + b + стрелки` — переход к соседним окнам. Будьте внимательны: если вы нажмёте на стрелку слишком быстро, то вы таким образом подвинете окошко в соответствующем направлении. Для того, чтобы перейти, подождите секунду-другую после нажатия `Ctrl + b`.
- `Ctrl + b + [` — переход в режим с возможностью пролистывать историю терминала. Чтобы вернуться в режим ввода нажмите `q`.
- Для того, чтобы развернуть окно на полный экран, нажмите `z`. Это самый простой и удобный способ копировать и вставлять текст в `tmux` с помощью привычных `Ctrl + Shift + c`, `Ctrl + Shift + v` (попробуйте сделать это без разворачивания окна, поймёте).

Этого достаточно для решения большинства повседневных задач в `tmux`.  

# `cookiecutter`: создаём проекты по ГОСТу

<img src="images/cookiecutter_logo.png" alt="cookiecutter" title="cookiecutter" width="500"/>

Понимание того, что структура проекта имеет значение, приходит не сразу. Обычно осознание настигает через несколько месяцев работы, когда файлов настолько много, что вы с трудом можете вспомнить, что где лежит, но уже поздно что-то менять. Особенно если вы разрабатываете проект не в одиночку. 

В рамках нашего курса вам не придётся поддерживать код, но правильные привычки нужно вырабатывать сразу.  
Таким образом, вы точно не растеряетесь на рабочем месте.

`cookiecutter` — консольная утилита, созданная в рамках инициативы по стандартизации структуры data-science проектов.  
С того момента проект разросся, но нас интересует изначальный репозиторий — [cookiecutter for data science](https://github.com/drivendata/cookiecutter-data-science).

Обратите внимание на структуру папок: 

![](https://eglerean.files.wordpress.com/2017/05/cookiecutter-data-science.png?w=809)

Мы настоятельно рекомендуем вам привыкать к ней и стараться оформлять свои практикумы соответственно.  
Установка `cookiecutter` тоже происходит через `conda`:

```bash
mamba install -c conda-forge cookiecutter --yes
```

Создать проект в таком формате можно с помощью команды
```bash
cookiecutter https://github.com/drivendata/cookiecutter-data-science
```
Поначалу вам будут пригождаться только папки `notebooks`, `data`, `reports`, но помните, это не навсегда.

# Что дальше?

Мы настроили комфортное окружение для работы в терминале. Тем не менее, этого мало, ведь домашние задания вы будете делать в `jupyter-notebook`-ах, которыми тоже надо уметь пользоваться с умом. Именно об этом будет наше следующий документ, где мы:

- разберёмся с т.н. `jupyter magics` и овладеем настоящей магией `jupyter`;
- поставим полезные плагины через `jupyter_contrib_nbextensions`;
- научимся присылать себе уведомления о том, что наша ячейка с кодом досчиталась, в браузер;
- поймём, как выполнять ячейки с кодом асинхронно;
- разберёмся, как красиво отображать питоновские объекты;
- научимся подставлять вычисленные на лету значения переменных в `markdown`-клетки с текстом;
- и многое-многое другое!

**Stay tuned, будет интересно!**

<img src="images/closing_meme.jpg" width="500"/>

# P.S. 

Если вас заинтересовали темы этого ноутбука, советую приобщиться к курсу ["Управление вычислениями" на Stepik](https://stepik.org/course/1612/promo).  
Темы курса охватывают как наш материал, так и более продвинутые вещи в духе [snakemake](https://snakemake.readthedocs.io/en/stable/) — аналога `cmake` для автоматизации пайплайнов с их автоматическим распараллеливанием. По этой теме ещё очень советую посмотреть [лекцию создателя snakemake](https://www.youtube.com/watch?v=hPrXcUUp70Y).

-----

Статистика, прикладной поток 2019

https://mipt-stats.gitlab.io/