# <center>[⏱ Оптимизация памяти и ускорение вычислений](https://stepik.org/lesson/825508/)</center>

### Оглавление ноутбука

<img src='https://raw.githubusercontent.com/a-milenkin/Competitive_Data_Science/main/images/speed_up.png'/>
<br>

<p><font size="3" face="Arial" font-size="large"><ul type="square">
    
<li><a href="#c1">👁 Считывание и сохранение больших датафреймов</a></li>
<li><a href="#c2">🗜 Оптимизация памяти</a></li>
<li><a href="#c3">🥌 Ускорение при помощи `Numpy`</a></li>
<li><a href="#c4">🍢 Векторизация в `pandas`</a></li>
<li><a href="#c5">⚡️ `Numba Jit`</a></li>
<li><a href="#c6">🧵 Multiprocessing</a></li>
<li><a href="#c7">👻 Выводы</a>

</li></ul></font></p>

    

<div class="alert alert-info">
Когда речь заходит о работе с действительно большими данными скорость работы программы и кол-во памяти, которое ей требуется могут стать одним из главных боттлнеков в вашей программе. Особенно если вы ограничены в ресурсах (как например часто бывает на Kaggle) и вам нужно, чтобы ваше решение отработало не только четко, но еще и быстро. В этом уроке мы рассмотрим подходы и методы с помощью которых можно сэкономить память и ускорить ваши вычисления.

## Импортируем библиотеки

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# <center> 👁 Считывание и сохранение больших датафреймов </center>

<p id="c1"></p>   

### Работа с `pickle`

<div class="alert alert-info">

`Pickle` это отличная альтернатива привычным нам `.csv` файлам при работе с большими файлами. Мало того, что он считывает и сохраняет все в разы быстрее, так еще и место на диске такой файл занимает меньше. Также при использование `to_pickle()` сохраняются индексы и все типы колонок, так что при его последующем считывании датафрейм будет точно таким же, и его не нужно будет повторно оптимизировать при каждом открытии, как при использовании CSV формата.

In [None]:
!gdown 1Sjb6EYfz23ZuqBGYZfkmhWnBbHQBf6Ke

Downloading...
From: https://drive.google.com/uc?id=1Sjb6EYfz23ZuqBGYZfkmhWnBbHQBf6Ke
To: /content/text_classification_train.csv
100% 235M/235M [00:01<00:00, 131MB/s]
CPU times: user 26.3 ms, sys: 11.7 ms, total: 38 ms
Wall time: 2.63 s


In [None]:
data = pd.read_csv('text_classification_train.csv')

In [None]:
data.shape

(7500, 2622)

In [None]:
%%time

#data.to_csv('../data/blending/text_classification_train.csv')
data.to_csv('text_classification_train.csv')

CPU times: user 17.7 s, sys: 325 ms, total: 18 s
Wall time: 24.4 s


In [None]:
%%time

#pd.to_pickle(data, '../data/blending/text_classification_train.pickle')
pd.to_pickle(data, 'text_classification_train.pickle')

CPU times: user 20.9 ms, sys: 121 ms, total: 142 ms
Wall time: 208 ms


In [None]:
%%time

#data = pd.read_pickle('../data/blending/text_classification_train.pickle')
data = pd.read_pickle('text_classification_train.pickle')

CPU times: user 21.6 ms, sys: 68.6 ms, total: 90.2 ms
Wall time: 96.4 ms


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7500 entries, 0 to 7499
Columns: 2622 entries, Unnamed: 0.3 to labse_text_feature_767
dtypes: float64(2616), int64(4), object(2)
memory usage: 150.0+ MB


### Считывание по батчам

<div class="alert alert-info">

Если ваш датасет не умещается в память без оптимизации типов или он не нужен вам целиком, то можно считывать по батчам и сразу указывать необхоимые типы, индексы и тд. В параметр `chunksize` - передается число сэмплов, которое будет считываться за 1 итерацию.

In [None]:
import gc

data_root = "https://raw.githubusercontent.com/a-milenkin/Competitive_Data_Science/main/data/"

chunksize = 1000
tmp_lst = []
with pd.read_csv(data_root + 'car_train.csv',
                 index_col='car_id',
                 dtype={'model': 'category',
                        'car_type': 'category',
                        'fuel_type': 'category',
                        'target_class': 'category'}, chunksize=chunksize) as reader:
    for chunk in reader:
        tmp_lst.append(chunk)

data = pd.concat(tmp_lst)

del tmp_lst
gc.collect()

data.head()

Unnamed: 0_level_0,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class
car_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,108.53,another_bug
O41613818T,VW Polo VI,economy,petrol,3.9,2015,78218,2021,35.2,electro_bug
d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,38.62,gear_stick
u29695600e,Mercedes-Benz GLC,business,petrol,4.04,2011,1263,2020,30.34,engine_fuel
N-8915870N,Renault Sandero,standart,petrol,4.7,2012,26428,2017,30.45,engine_fuel


***Важно:*** Пока на какой-то объект в памяти есть ссылки, которые явно не удалили или не переназначили - этот объект будет занимать оперативную память, хотя он может больше не использоваться. Поэтому все временные объекты, которые больше не будут использоваться, лучше явно удалять, используя `del` и после этого запускать сборщик мусора gc - `garbage collector`,как в примере выше.
```python
import gc
gc.collect()
```

### Используем генератор

<div class="alert alert-info">
Это особенно актуально, когда мы работаем с картинками - чтобы не хранить их всех в оперативной памяти, они считываются только перед тем как модель хочет посчитать по ним ошибку и скорректировать веса. Однако при работе с большими текстами тоже бывает полезно.

In [None]:
def read_file(filename):
    with open(filename, 'r') as f:
        for line in f:
            yield line.strip()

In [None]:
# fist download 'car_info.csv'
car_info = pd.read_csv(data_root + 'car_info.csv')
car_info.to_csv('car_info.csv')

In [None]:
it = read_file('car_info.csv')
next(it)

',car_type,fuel_type,car_rating,year_to_start,riders,car_id,model,target_class,year_to_work,target_reg'

# <center> 🗜 Оптимизация памяти </center>

<p id="c2"></p>   

<div class="alert alert-info">

Самый эффективный способ оптимизации памяти, если вы не хотите удалять часть данных, это установка правильных типов. Если колонка имеет тип `int`, то не нужно ставить ей тип `float`, а если в ней всего несколько уникальных значений, то не нужно делать ее типом `string`. .Например, если в нашем датасете есть бинарная колонка в которой хранятся только 0 и 1, `pandas` хранит её как максимально возможный тип для целых чисел `int64`, хотя достаточно будет `int8`. При правильной постановке типов размер нового датасета обычно в несколько раз меньше (а то и на порядок), чем без них. Так же можно вынести какую-то колонку как индекс, чтобы не хранить лишний индекс, но это уже косметика.

### Оптимизируем числовые типы

In [None]:
def reduce_mem_usage(df):
    """ iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage.
    """
    start_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))

    for col in df.columns:
        col_type = df[col].dtype.name

        if col_type not in ['object', 'category', 'datetime64[ns, UTC]']:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)

    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))

    return df

In [None]:
df_cars = pd.read_csv(data_root + 'car_train.csv')
df_cars.head()

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,108.53,another_bug
1,O41613818T,VW Polo VI,economy,petrol,3.9,2015,78218,2021,35.2,electro_bug
2,d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,38.62,gear_stick
3,u29695600e,Mercedes-Benz GLC,business,petrol,4.04,2011,1263,2020,30.34,engine_fuel
4,N-8915870N,Renault Sandero,standart,petrol,4.7,2012,26428,2017,30.45,engine_fuel


In [None]:
df_cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2337 entries, 0 to 2336
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   car_id         2337 non-null   object 
 1   model          2337 non-null   object 
 2   car_type       2337 non-null   object 
 3   fuel_type      2337 non-null   object 
 4   car_rating     2337 non-null   float64
 5   year_to_start  2337 non-null   int64  
 6   riders         2337 non-null   int64  
 7   year_to_work   2337 non-null   int64  
 8   target_reg     2337 non-null   float64
 9   target_class   2337 non-null   object 
dtypes: float64(2), int64(3), object(5)
memory usage: 182.7+ KB


In [None]:
df_cars = reduce_mem_usage(df_cars)
df_cars.info()

Memory usage of dataframe is 0.18 MB
Memory usage after optimization is: 0.12 MB
Decreased by 35.0%
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2337 entries, 0 to 2336
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   car_id         2337 non-null   object 
 1   model          2337 non-null   object 
 2   car_type       2337 non-null   object 
 3   fuel_type      2337 non-null   object 
 4   car_rating     2337 non-null   float16
 5   year_to_start  2337 non-null   int16  
 6   riders         2337 non-null   int32  
 7   year_to_work   2337 non-null   int16  
 8   target_reg     2337 non-null   float16
 9   target_class   2337 non-null   object 
dtypes: float16(2), int16(2), int32(1), object(5)
memory usage: 118.8+ KB


### Оптимизируем категориальные фичи

In [None]:
def convert_columns_to_catg(df, column_list):
    for col in column_list:
        print("converting", col.ljust(30), "size: ", round(df[col].memory_usage(deep=True)*1e-6,2), end="\t")
        df[col] = df[col].astype("category")
        print("->\t", round(df[col].memory_usage(deep=True)*1e-6,2))

In [None]:
%%timeit
df_cars.groupby('model')['car_type'].count()

475 µs ± 6.75 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
convert_columns_to_catg(df_cars, ['model', 'car_type', 'fuel_type', 'target_class'])

converting model                          size:  0.16	->	 0.01
converting car_type                       size:  0.15	->	 0.0
converting fuel_type                      size:  0.15	->	 0.0
converting target_class                   size:  0.16	->	 0.0


In [None]:
%%timeit
df_cars.groupby('model')['car_type'].count()
# При правильной типизации не только уменьшается память, но и возрастает скорость

223 µs ± 8.03 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
df_cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2337 entries, 0 to 2336
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   car_id         2337 non-null   object  
 1   model          2337 non-null   category
 2   car_type       2337 non-null   category
 3   fuel_type      2337 non-null   category
 4   car_rating     2337 non-null   float16 
 5   year_to_start  2337 non-null   int16   
 6   riders         2337 non-null   int32   
 7   year_to_work   2337 non-null   int16   
 8   target_reg     2337 non-null   float16 
 9   target_class   2337 non-null   category
dtypes: category(4), float16(2), int16(2), int32(1), object(1)
memory usage: 56.8+ KB


In [None]:
df_cars.memory_usage().sum() / 1024

56.83203125

In [None]:
convert_columns_to_catg(df_cars, ['car_id'])

converting car_id                         size:  0.16	->	 0.23


In [None]:
df_cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2337 entries, 0 to 2336
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   car_id         2337 non-null   category
 1   model          2337 non-null   category
 2   car_type       2337 non-null   category
 3   fuel_type      2337 non-null   category
 4   car_rating     2337 non-null   float16 
 5   year_to_start  2337 non-null   int16   
 6   riders         2337 non-null   int32   
 7   year_to_work   2337 non-null   int16   
 8   target_reg     2337 non-null   float16 
 9   target_class   2337 non-null   category
dtypes: category(5), float16(2), int16(2), int32(1)
memory usage: 125.9 KB


## <center>🥌 Ускорение при помощи `Numpy`</center>

<p id="c3"></p>   

<div class="alert alert-info">

Первое правило быстрого кода - используйте `numpy` везде, где можно. Он исполняется на чисто C, так что в работает в сотни раз быстрее обычных циклов и list-ов. В общем, если можете написать код при помощи `numpy` - пишите.

### Инициализация

<div class="alert alert-info">

Демонстрация скорости работы `numpy` на примере инициализации.

In [None]:
%%timeit

a = list(range(1_000_000))

13.2 ms ± 1.98 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%timeit

b = np.arange(1_000_000)

381 µs ± 17.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
a = list(range(1_000_000))
b = np.arange(1_000_000)

In [None]:
%%timeit
100000 in a

672 µs ± 211 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
%%timeit
100000 in b

338 µs ± 6.68 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Поэлементные функции

<div class="alert alert-info">

Просто еще раз напомним, что `numpy` сильно быстрее поэлементных функций

In [None]:
%%timeit
[el * el for el in a]

47.6 ms ± 847 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
%%timeit
[el + 10 for el in a]

48.5 ms ± 9.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
%%timeit
b * b

417 µs ± 14.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
%%timeit
b + 10

304 µs ± 28.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Aггрегирующие функции

<div class="alert alert-info">

Методы и функции `numpy` работают быстрее, чем их обычные аналоги в питоне.

In [None]:
%%timeit

max(b)

45.9 ms ± 738 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
%%timeit

b.max()

767 µs ± 229 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Когда использовать `list`?

<div class="alert alert-info">

На самом деле в одном случае `list` все-таки может быть быстрее. Если вы хотите добавлять много новых элементов, то добавление одного элемента в `list` происходит за O(1) и суммарно на все тратится O(n) времени, а при добавление в `numpy` массив нам нужно его заново весь проинициализировать, даже если добавили всего один элемент, так что суммарное время работы будет O(n^2).

In [None]:
%%timeit

a = np.zeros(0)
for el in range(1000):
    b = np.zeros(1000)
    a = np.append(a, b)

156 ms ± 5.59 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
%%timeit

a = []
for el in range(1000):
    b = [0 for i in range(1000)]
    a += b

28.5 ms ± 721 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Используем `set()`

<div class="alert alert-info">

Если нужно проверить наличие элементов в другом массиве и тот "другой" достаточно большой, то лучше использовать `set()`, так в нем поиск элемента осуществляется за O(log(n)), а в `np.isin()` за O(n). Так что даже несмотря на то, что `numpy` оптимизрован `set()` выигрывает его по времени.

In [None]:
a = np.arange(1000)
b = np.arange(1000000) * -1

In [None]:
%%timeit
np.isin(a, b)

23.9 ms ± 849 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
st = set(b)

In [None]:
%%timeit
[el in st for el in a]

93.3 µs ± 21.8 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


## <center> 🍢 Векторизация в `pandas` </center>

<p id="c4"></p>   

<div class="alert alert-info">
Векторизация - это процесс, когда мы заменяем обычные поэлементные функции на операции сразу со всем вектором значений, что позволяет значительно прибавить в скорости.

In [None]:
df_cars.head()

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class
0,y13744087j,Kia Rio X-line,economy,petrol,3.779297,2015,76163,2021,108.5,another_bug
1,O41613818T,VW Polo VI,economy,petrol,3.900391,2015,78218,2021,35.1875,electro_bug
2,d-2109686j,Renault Sandero,standart,petrol,6.300781,2012,23340,2017,38.625,gear_stick
3,u29695600e,Mercedes-Benz GLC,business,petrol,4.039062,2011,1263,2020,30.34375,engine_fuel
4,N-8915870N,Renault Sandero,standart,petrol,4.699219,2012,26428,2017,30.453125,engine_fuel


In [None]:
df_cars['car_type'].unique()

['economy', 'standart', 'business', 'premium']
Categories (4, object): ['business', 'economy', 'premium', 'standart']

### `Numpy.where()`

<div class="alert alert-info">

Позволяет проверить какое-то условие и в зависимости от его результатов вернуть то или иное значение. Векторный аналог `if-else`.

In [None]:
def simple_if(x):
    if x['car_rating'] < 3.78:
        return x['car_type']
    else:
        return x['fuel_type']

In [None]:
%%timeit
df_cars.apply(simple_if, axis=1)

15.2 ms ± 1.46 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%timeit
# первое значение это условие, второе - что возвращать, если выполнены и третье, что возвращать, если не выполнено
np.where(df_cars['car_rating'].values < 3.78, df_cars['car_type'].values, df_cars['fuel_type'].values)

95.2 µs ± 13 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


### `Numpy.vectorize()`

<div class="alert alert-info">
Часть функции можно оставить поэлементными и просто засчет их векторизации получить значительный прирост скорости. Однако работает это все равно медленне, чем операции с векторами чисел.

In [None]:
def simple_if2(car_rating, car_type, fuel_type):
    if car_rating < 3.78:
        return car_type
    else:
        return fuel_type

In [None]:
vectfunc = np.vectorize(simple_if2)

In [None]:
%%timeit
vectfunc(df_cars['car_rating'], df_cars['car_type'], df_cars['fuel_type'])

629 µs ± 11.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### `Numpy.select()`

<div class="alert alert-info">

Как `np.where()`, только для нескольких условий.

In [None]:
import re

def hard_if(x):
    if x['car_rating'] < 3:
        if 'Audi' == x['model']:
            return 0
        else:
            return 1
    elif x['car_rating'] in [3, 4, 5]:
        return 2
    else:
        return 3

In [None]:
%%timeit
df_cars.apply(simple_if, axis=1)

15.2 ms ± 1.48 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%timeit
conditions = [
    (df_cars['car_rating'] < 3) & (df_cars['model'] == 'Audi'),
    (df_cars['car_rating'] < 3),
    df_cars['car_rating'].isin([3, 4, 5])
]

choices = [0, 1, 2]
np.select(conditions, choices, default=3)

809 µs ± 123 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Переписываем словари

<div class="alert alert-info">
На самом деле, обращаться к значению из словаря тоже можно быстро.

In [None]:
mydict = {'economy': 0,
          'standart': 1,
          'business': 2,
          'premium': 3}
def f(x):
    if x['car_rating'] > 5:
        return mydict[x['car_type']]
    else:
        return np.nan

In [None]:
%%timeit
df_cars.apply(simple_if, axis=1)

15.1 ms ± 2.35 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%timeit
np.where(df_cars['car_rating'] > 5, df_cars['car_type'].map(mydict), np.nan)

677 µs ± 10.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Пишем `groupby` на `numpy`

<div class="alert alert-info">

`pd.groupby()` - одна из самых часто используемых и полезных функций в пандасе, которую можно ускорить до 30 раз при помощи `numpy`!

In [None]:
df_cars = pd.read_csv(data_root+'car_train.csv')
df_cars.head()

Unnamed: 0,car_id,model,car_type,fuel_type,car_rating,year_to_start,riders,year_to_work,target_reg,target_class
0,y13744087j,Kia Rio X-line,economy,petrol,3.78,2015,76163,2021,108.53,another_bug
1,O41613818T,VW Polo VI,economy,petrol,3.9,2015,78218,2021,35.2,electro_bug
2,d-2109686j,Renault Sandero,standart,petrol,6.3,2012,23340,2017,38.62,gear_stick
3,u29695600e,Mercedes-Benz GLC,business,petrol,4.04,2011,1263,2020,30.34,engine_fuel
4,N-8915870N,Renault Sandero,standart,petrol,4.7,2012,26428,2017,30.45,engine_fuel


### Считаем кол-во значений в группе

<div class="alert alert-info">

Для того, чтобы посчитать кол-во значений в каждой группе мы можем воспользоваться функцией `np.bincount()`

In [None]:
%%timeit
df_cars.groupby(['model', 'fuel_type'])['target_reg'].count()

827 µs ± 90.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
from sklearn import preprocessing
lbl = preprocessing.LabelEncoder()
df_cars['int_model'] = lbl.fit_transform((df_cars['model'] + df_cars['fuel_type']).astype(str))

In [None]:
%%timeit
np.bincount(df_cars['int_model'])

8.72 µs ± 122 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [None]:
gb_values = df_cars.groupby(['int_model'])['target_reg'].count()
np_values = np.bincount(df_cars['int_model'])

(gb_values == np_values).all()

True

Пример работы `np.bincount`:

<center> <img src = 'https://raw.githubusercontent.com/a-milenkin/Competitive_Data_Science/main/images/numpy-bincount.png' width=550>
<!-- ![image.png](attachment:4034fb01-3672-485b-b44c-e57537aa033b.png) -->

### Считаем сумму/среднее

<div class="alert alert-info">

Для того, чтобы посчитать сумму значений в каждой группе мы можем воспользоваться `np.bincount(weights=your_weights)`

In [None]:
%%timeit
df_cars.groupby(['model', 'fuel_type'])['target_reg'].sum()

846 µs ± 78.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
%%timeit
np.bincount(df_cars['int_model'], weights=df_cars['target_reg'])

15.1 µs ± 1.83 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [None]:
gb_values = df_cars.groupby(['int_model'])['target_reg'].sum()
np_values = np.bincount(df_cars['int_model'], weights=df_cars['target_reg'])

(gb_values.round(10) == np_values.round(10)).all()

True

### Считаем минимум/максимум

<div class="alert alert-info">

Для того, чтобы посчитать такие функцие как максимум, минимум, произведение и тд нам потребуется `np.ufunc.reduceat()`

In [None]:
%%timeit
df_cars.groupby(['int_model'])['target_reg'].agg(['max'])

551 µs ± 11.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
%%timeit
indices = df_cars['int_model']
max_values = np.maximum.reduceat(df_cars['target_reg'].values[np.argsort(indices)],
                                 np.concatenate(([0], np.cumsum(np.bincount(indices))))[:-1])
max_values

131 µs ± 2.09 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [None]:
indices = df_cars['int_model']
np_values = np.maximum.reduceat(df_cars['target_reg'].values[np.argsort(indices)],
                                 np.concatenate(([0], np.cumsum(np.bincount(indices))))[:-1])

gb_values = df_cars.groupby(['int_model'])['target_reg'].agg('max')
(gb_values.round(10) == np_values.round(10)).all()

True

In [None]:
# возвращает перестановку чисел от 0 до n - 1, в которой элементы отсортированы по возрастанию
np.argsort(indices).values, df_cars['int_model'].values[np.argsort(indices)]

(array([1168,  645,  189, ..., 1209, 1123, 1659]),
 array([ 0,  0,  0, ..., 25, 25, 25]))

In [None]:
# i-ый элемент хранит в себе сумму элементов первых i значений
np.bincount(indices), np.cumsum(np.bincount(indices))

(array([ 17,  20,  21,  16,  18, 161, 140, 143, 111, 147,  21,  23,  17,
         22, 146, 154, 152, 147, 118, 158, 130,  14, 152, 141, 135,  13]),
 array([  17,   37,   58,   74,   92,  253,  393,  536,  647,  794,  815,
         838,  855,  877, 1023, 1177, 1329, 1476, 1594, 1752, 1882, 1896,
        2048, 2189, 2324, 2337]))

In [None]:
# сдвигаем так, чтобы значения массива означали позиции начала групп
np.concatenate(([0], np.cumsum(np.bincount(indices))))[:-1]

array([   0,   17,   37,   58,   74,   92,  253,  393,  536,  647,  794,
        815,  838,  855,  877, 1023, 1177, 1329, 1476, 1594, 1752, 1882,
       1896, 2048, 2189, 2324])

## <center> ⚡️ `Numba Jit` </center>

<p id="c5"></p>   

<div class="alert alert-info">

Если нужно что-то кастномное, что нельзя переписать на `numpy`, но нужно чтобы работало быстро, `numba.jit` вам в помощь. Он конвертирует написанный вами на питоне код в С и засчет этого работает на порядок (а иногда и на несколько) быстрее, чем обычный питон. Однако, поддерживает он не весь питоновский функционал и внутри него нельзя использовать разные библиотечные функции, так что в основном используется для низкоуровневой оптимизации.

In [None]:
from numba import jit

@jit(nopython=True)
def f(n):
    s = 0.
    for i in range(n):
        s += i ** 0.5
    return s

In [None]:
%%timeit
f(10000)

29.3 µs ± 2.71 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
%%timeit
f(10000)

29.1 µs ± 690 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [None]:
@jit(nopython=True)
def monotonically_increasing(a):
    max_value = 0
    for i in range(len(a)):
        if a[i] > max_value:
            max_value = a[i]
        a[i] = max_value
    return a

In [None]:
%%timeit
monotonically_increasing(df_cars['target_reg'].values)

3.58 µs ± 46.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [None]:
%%timeit
monotonically_increasing(df_cars['target_reg'].values)

3.56 µs ± 64.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## <center> 🧵 Multiprocessing </center>
<p id="c6"></p>   

<div class="alert alert-info">

С помощью `multiprocessing` можно ускорить вообще практически все. Он позвлоляет использовать не одно ядро вашего компьютера, а сразу несколько и соответственно ускорить вычисления (уже не только io-bound, но еще и cpu-bound) в кол-во раз пропорциональное кол-ву доступных ядер.

In [None]:
! pip install pymorphy2 -q

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/55.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m76.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import pymorphy2

nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))

def text_prepare(text):
    lemmatizer = pymorphy2.MorphAnalyzer()
    word_tokens = word_tokenize(text)
    word_tokens = [w for w in word_tokens if not w in stop_words]
    word_tokens = [lemmatizer.parse(w)[0].normal_form for w in word_tokens]
    filtered_text = ' '.join(word_tokens)
    return filtered_text

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
df = pd.read_pickle('https://github.com/a-milenkin/Competitive_Data_Science/raw/refs/heads/main/data/blending/text_classification_train.pickle')
df.head()

In [None]:
%%time

tmp = df['text'].apply(text_prepare)

In [None]:
from multiprocessing import Pool

In [None]:
def parallelize_dataframe(df, func, n_cores=4):
    df_split = np.array_split(df, n_cores)
    pool = Pool(n_cores)
    df = np.concatenate(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df

def many_row_prepare(df, text_col='text'):
    res = []
    for text in df[text_col]:
        res.append(text_prepare(text))
    return res

In [None]:
%%time
tmp = parallelize_dataframe(df, many_row_prepare)

## <center> 👻 Выводы </center>

<p id="c7"></p>   

<div class="alert alert-info">
    
Ускорение вычеслений и оптимизация памяти это важные задачи, с которыми периодически можно сталкнутся во время написания соревнований или просто при работе с большим кол-вом данных. В данном уроке мы рассмотрели основные способы решения этих задач и как их применять на практике.
    
Если тебе нужно ускорить твой код, то:
* Замени все, что можно на `numpy`
* Оставшееся перепиши на `numba.jit`
* Если предыдущх двух пунктов не хватило, то используй `multiprocessing`

Если нужно соптимизировать память, то:
* Хранения/считывание при помощи `pickle`
* Правильное выставление типов
* Если тебе не нужен весь датасет за раз, то можно считывать его по частям