# Инструменты для машинного обучения

## Jupyter

[Jupyter](https://jupyter.org/) — это интерактивная среда для вычислений, позволяющая комбинировать блоки кода, форматирование с использованием Markdown и интерактивные виджеты в одном документе.

Одной язык для вычислений — это Python, но можно подключить и другие языки: R, Julia, Wolfram Mathematica и другие, полный список можно посмотреть по [ссылке](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels)

### Установка
* Можно развернуть локально или на выделенном сервере, через стандартный менеджер пакетов питона `pip`. [Документация](https://jupyter.org/install)
* Проект [Anaconda](https://www.anaconda.com/download) позволяет упростить устаноку большого числа библиотек и работу с различными библиотеками
* Облачные сервисы с самым различным ценообразованием:
  * [Google Colab](https://colab.research.google.com/?hl=ru) — один самых популярных сервисов, предоставляет доступ к вычислением с GPU и TPU. В бесплатной версии есть лимит на время сессии
  * [Deepnote](https://deepnote.com/) — сервис с упором на командную работу
  * [Yandex DataSphere](https://datasphere.yandex.ru/) — сервис более заточенный на использование вместе с другими облачными сервисами
  
### Структура тетрадки
Каждая тетрадка состоит из ячеек (cell). Ячейка может быть одного из трех типов:
* code — содержит код на выбранном языке программирования, который будет выполнен при выполнении ячейки. 
* markdown — содерджит разметку на языке Markdown, при выполнении будет произвено форматирование. 
* raw — содержит текст. При выполнении ячейки текст будет показан как есть

У каждой ячеки может быть выход.


### Ядро вычислений (kernel)
Именно оно производит все операции с кодом, хранит состояние перменных. 
При сохренении тетрадки состояние ядра не сохраняется, сохраняется только текст ячеек и их выходы

*Warning*: среда Jupyter не требует, чтобы ячейки выпонялись последовательно сверху вниз. 
Ячейки могут быть выполнены в произвольном порядке. На практике это может приводит к различным багам и невозможности вопроизвести результат.

### Magic cells
Начинаются с одиночного или парного символа процента. Самые часто используемые:

In [6]:
%matplotlib inline
print('Включаем отображение графиков в тексте тетрадки')

Включаем отображение графиков в тексте тетрадки


In [7]:
%%time
print('Измеряем время вычисления ячейки')

Измеряем время вычисления ячейки
CPU times: user 425 µs, sys: 207 µs, total: 632 µs
Wall time: 585 µs


In [10]:
%%timeit -n 10 -r 4
print('Измеряем время вычисления ячейки большое число раз')

Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейки большое число раз
Измеряем время вычисления ячейк

In [12]:
%pip install numpy
print('Устанавливаем пакеты')


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.2.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.10 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.
Устанавливаем пакеты


### Справка 

In [22]:
import contextlib
contextlib.suppress?

In [25]:
contextlib.suppress??

### Shell 

In [27]:
! echo 'Also shell commands can be executed'

Also shell commands can be executed


In [28]:
x = 12
! echo $x

12


## Библиотеки

* Для вычислений
    * [Numpy](https://numpy.org/) — библиотека алгоритмов линейной алгебры. Канонинчеси, ее принято импортировать как 
```python
import numpy as np
```

    * [Scipy](https://scipy.org/) — библиотека с алгоритами вычислительной математики: численная оптимизация, статистические тесты, обработка сигналов и многое друго
    
* Для работы с данными:
    * [Pandas](https://pandas.pydata.org/) — фактически стандарт для работы с табличными данными, которые помещаются в один компьютер. Канонически импортируется как 
    ```python
      import pandas as pd
    ```
    * [Dask](https://www.dask.org/) — развитие pandas в сторону распредленных вычислений

* Для визуализации данных:
    * [Matplotlib](https://matplotlib.org/) — одна из первых библиотек, до сих пор широко используется. Канонически импортируется как 
    ```python
    import matloblib.pyplot as plt
    ```
    
    * [Seaborn](https://seaborn.pydata.org/) — надстройка на matplotlib, упрощает многие рутинные операции.
    Канонически импортируется как 
    ```python
    import seaborn as sns
    ```

    * [Bokeh](https://bokeh.org/) - библиотека, позволяющая стороить интерактивные графики и виджеты

* Статистика и машинное обучение
    * [scikit-learn](https://scikit-learn.org/stable/) — большая коллекция классических алгоритмов.
    
    * [statsmodels](https://www.statsmodels.org/stable/index.html) — библиотека для статистических расчетов (оценка параметров, проверка гипотез), в том числе для работы с временными рядами
    * Библиотеки, реализующие отдельные алгоритмы: [Catboost](https://catboost.ai/), [XGBoost](https://xgboost.readthedocs.io/en/stable/), [Implicit](https://benfred.github.io/implicit/), и многие-многие другие
    * Библиотеки для глубинного обучения: [Pytorch](https://pytorch.org/), [Tensorflow](https://www.tensorflow.org/), [Jax](https://github.com/google/jax), ... 
