# 4. БИБЛИОТЕКИ NUMBA, DATATABLE, BOTTLENECK ДЛЯ УСКОРЕНИЯ ВЫЧИСЛЕНИЙ

## 4.1. Numba

Numba — это библиотека с открытым кодом, которая ускоряет выполнение кода, работающего с массивами NumPy. Ее можно установить командами pip install numba или conda install numba.

Numba использует JIT-компиляцию (Just-In-Time, "на лету"), которая преобразует Python-код в машинный код прямо во время выполнения программы. Это позволяет достичь скорости, сравнимой с языками C или C++, без необходимости переписывать код на другом языке.

Особенности:
1. Интеграция с pandas: После установки Numba в некоторых методах pandas можно указать engine='numba'. Первый запуск будет медленным из-за компиляции, но последующие вызовы выполнятся быстро, так как функция сохраняется в кеше.
2. Декоратор @jit: Можно ускорять свои функции, добавив к ним декоратор `@jit`. Например:
```python
from numba import jit
@jit
def my_function(x, y):
    return x + y
```
  - Если функция использует только поддерживаемые Numba операции, она компилируется в режиме nopython (максимальное ускорение).
  - Если компиляция невозможна (например, из-за несовместимых типов данных), Numba переключается в режим object, но ускорения не будет.
  - Чтобы избежать автоматического переключения в режим object, можно указать `@jit(nopython=True)` или `@njit`.
3. Работа с коллекциями: Списки и множества должны содержать элементы одного типа (например, `[1, 2, 3]` допустимо, а `[1, 2.5]` — нет). Словари поддерживаются, но их нужно создавать через `numba.typed.Dict()`.
4. Пример ускорения кода: Вот функция на чистом Python для вычисления среднего расстояния между значениями. После применения @jit она становится быстрее векторизованных функций NumPy.
```python
def mean_distance(x, y):
    result = 0.0
    for i in range(len(x)):
        result += x[i] - y[i]
    return result / len(x)
```
5. Декоратор @vectorize: Позволяет создавать универсальные функции NumPy из скалярных функций. Такая функция будет работать с массивами так же быстро, как код на C. Например:
```python
@vectorize
def nb_square(x):
    return x ** 2
```
6. Параллельные вычисления: С помощью `@jit(parallel=True)` и `numba.prange()` можно распараллеливать циклы, что значительно ускоряет вычисления. Например:
```python
@jit(parallel=True)
def compute(x):
    s = 0
    for i in prange(x.shape[0]):
        s += x[i]
    return s
```
7. Пример с pandas:
Numba ускоряет методы pandas, например, вычисление скользящего среднего:
```python
roll = series.rolling(10)
%timeit roll.apply(np.mean, engine='numba', raw=True)  # Быстро
%timeit roll.apply(np.mean, raw=True)                  # Медленно
```

## 4.2. Datatable

Datatable — это библиотека Python для быстрой обработки больших наборов данных. Она похожа на pandas, но работает гораздо быстрее, особенно с данными, которые не помещаются в оперативной памяти (RAM). Разрабатывается при поддержке компании H2O.ai. Установить её можно командой: `pip install datatable`

Datatable загружает данные из CSV-файлов значительно быстрее, чем pandas.

Загрузка файла `train.csv`(291 МБ, ~1.8 млн строк, 34 столбца):
- Pandas:
```python
%%time
dataframe = pd.read_csv('Data/train.csv', sep=',')
```
Результат: ~5.45 секунд

- Datatable:
```python
%%time
datatable_df = dt.fread('Data/train.csv', sep=',')
```
Результат: ~0.39 секунды

👉 Вывод: Datatable загружает данные в 14 раз быстрее!

#### Преобразование в pandas и NumPy  
Datatable хранит данные в объекте Frame, но его можно легко преобразовать в pandas DataFrame или массив NumPy:

- В pandas:
```python
pandas_df = datatable_df.to_pandas()
```
(Это всё равно быстрее, чем загружать данные напрямую в pandas!)

- В NumPy:
```python
numpy_array = datatable_df.to_numpy()
```

#### Основные операции с данными
Просмотр структуры данных  
- Количество строк и столбцов:
```python
datatable_df.shape  # (1787571, 34)
```
- Первые строки:
```python
datatable_df.head()  # первые 10 строк
```
(Цвета в выводе помогают быстро определить типы данных: красный — строки, зелёный — целые числа, синий — числа с плавающей точкой.)

- Типы столбцов:
```python
for col in range(len(datatable_df.names)):
    print(datatable_df.names[col], ':', datatable_df.stypes[col])
```
Вывод:
```text
ID : stype.int32
SK_DATE_DECISION : stype.int32
DEF : stype.bool8
...
```

Статистики по данным  
Можно быстро получить основные статистики:

```python
datatable_df.mean()   # среднее
datatable_df.min()    # минимум
datatable_df.max()    # максимум
datatable_df.sd()     # стандартное отклонение
datatable_df.nunique()  # количество уникальных значений
```

Фильтрация и выбор данных  
Работает через квадратные скобки (как в R `data.table`):

```python
# Выбор столбца 'NUM_SOURCE' и первых 5 строк
datatable_df[:, 'NUM_SOURCE'].head(5)

# Первые 3 строки столбца 'NUM_SOURCE'
datatable_df[:3, 'NUM_SOURCE']

# Первые 3 строки первых двух столбцов
datatable_df[:3, :2]
```

Удаление столбцов  
Можно удалять столбцы с помощью `del`:

```python
del datatable_df[:, 'ID']  # удаляем столбец 'ID'
```
Подсчёт пропущенных значений
```python
datatable_df.countna()  # количество пропусков в каждом столбце
```
Группировка и агрегация
```python
# Средняя сумма задолженности по клиентам (первые 5 записей)
datatable_df[:, dt.mean(dt.f.AMT_CREDIT_SUM_DEBT), dt.by('ID')].head(5)
```

## 4.3. Bottleneck

это библиотека для ускорения вычислений в NumPy, особенно полезная при работе с временными рядами. Она написана на C, поэтому работает гораздо быстрее, чем стандартные функции pandas/NumPy.
```bash
pip install bottleneck
```

Bottleneck предоставляет оптимизированные версии функций для расчёта статистик в скользящем окне:
|Функция|Описание|
|-|-|
|`move_mean()`|Скользящее среднее|
|`move_std()`|Скользящее стандартное отклонение|
|`move_var()`|Скользящая дисперсия|
|`move_min()`|Минимум в окне|
|`move_max()`|Максимум в окне|
|`move_median()`|Медиана в окне|
|`move_sum()`|Сумма в окне|

```python
# Сравнение расчёта скользящего среднего (mean) в pandas и Bottleneck

import bottleneck as bn
import pandas as pd
import numpy as np

# Создаём Series со 100 000 случайных чисел
series = pd.Series(np.random.randn(100000))

# 1. Считаем скользящее среднее в pandas
%%time
roll_mean_pandas = series.shift(1).rolling(window=4, min_periods=1).mean()
# Результат: ~6.51 мс

# 2. Считаем скользящее среднее в Bottleneck
%%time
roll_mean_bn = bn.move_mean(series.shift(1), window=4, min_count=1)
# Результат: ~0.597 мс (в 10 раз быстрее!)
```

#### Особенности работы `move_mean()`
Функция `bn.move_mean()`:
- Принимает только массив NumPy (не pandas Series, поэтому иногда нужно преобразовывать `.values`).
- Параметры:
  - `window` — ширина окна (например, `window=4` для среднего по 4 точкам).
  - `min_count` — минимальное количество значений в окне для расчёта (если меньше — вернёт `NaN`). По умолчанию `min_count = window`.