# Оптимизация выполнения кода, векторизация, Numba

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. "Оптимизация выполнения кода, векторизация, Numba"
* IPython Cookbook, Second Edition (2018), глава 4
* https://ipython-books.github.io/43-profiling-your-code-line-by-line-with-line_profiler/
* https://numba.pydata.org/numba-doc/latest/user/5minguide.html
* https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-reflection-for-list-and-set-types

## Задачи для совместного разбора

In [29]:
!pip install git+https://github.com/pyutils/line_profiler.git

Collecting git+https://github.com/pyutils/line_profiler.git
  Cloning https://github.com/pyutils/line_profiler.git to c:\users\вячеслав\appdata\local\temp\pip-req-build-0m_gq_95
  Resolved https://github.com/pyutils/line_profiler.git to commit 71db7da8432cceb0defa29b1b982b26451264b9b
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: line-profiler
  Building wheel for line-profiler (pyproject.toml): started
  Building wheel for line-profiler (pyproject.toml): finished with status 'error'
Failed to build line-profiler


  Running command git clone --filter=blob:none --quiet https://github.com/pyutils/line_profiler.git 'C:\Users\Вячеслав\AppData\Local\Temp\pip-req-build-0m_gq_95'
  error: subprocess-exited-with-error
  
  Building wheel for line-profiler (pyproject.toml) did not run successfully.
  exit code: 1
  
  [320 lines of output]
  
  
  --------------------------------------------------------------------------------
  -- Trying "Ninja (Visual Studio 17 2022 x64 v143)" generator
  --------------------------------
  ---------------------------
  ----------------------
  -----------------
  ------------
  -------
  --
  Not searching for unused variables given on the command line.
  -- The C compiler identification is unknown
  CMake Error at CMakeLists.txt:3 (ENABLE_LANGUAGE):
    No CMAKE_C_COMPILER could be found.
  
    Tell CMake where to find the compiler by setting either the environment
    variable "CC" or the CMake cache entry CMAKE_C_COMPILER to the full path to
    the compiler, or to

In [3]:
pip install numba

Collecting numba
  Downloading numba-0.56.3-cp38-cp38-win_amd64.whl (2.5 MB)
     ---------------------------------------- 2.5/2.5 MB 511.6 kB/s eta 0:00:00
Collecting importlib-metadata
  Downloading importlib_metadata-5.0.0-py3-none-any.whl (21 kB)
Collecting llvmlite<0.40,>=0.39.0dev0
  Downloading llvmlite-0.39.1-cp38-cp38-win_amd64.whl (23.2 MB)
     ---------------------------------------- 23.2/23.2 MB 1.0 MB/s eta 0:00:00
Installing collected packages: llvmlite, importlib-metadata, numba
Successfully installed importlib-metadata-5.0.0 llvmlite-0.39.1 numba-0.56.3
Note: you may need to restart the kernel to use updated packages.


In [31]:
pip install --user line_profiler==3.4.0

Note: you may need to restart the kernel to use updated packages.


In [2]:
import line_profiler
line_profiler.__version__

'3.4.0'

In [3]:
import numpy as np
from numba import njit

1. Сгенерируйте массив `A` из `N=1млн` случайных целых чисел на отрезке от 0 до 1000. Пусть `B[i] = A[i] + 100`. Посчитайте среднее значение массива `B`.

In [2]:
a = np.random.randint(0, 1000, size = (1000000))

a

array([267,  63, 273, ..., 423,   3, 528])

In [3]:
%%time

def f1(a):
    acc = 0
    cnt = 0
    for i in range(len(a)):
        bi = a[i] + 100
        acc += bi
        cnt += 1
    return acc / cnt

f1(a)

CPU times: total: 234 ms
Wall time: 232 ms


599.589003

In [4]:
%%timeit #годна штука дял тестирования
f1(a)

214 ms ± 6.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [5]:
%%time

def f2(a):
    acc = 0
    n = len(a)
    for i in range(n):
        acc += a[i]
    return acc / n + 100

f2(a)

CPU times: total: 125 ms
Wall time: 130 ms


599.589003

In [6]:
%%time

def f3(a):
    res = a.mean()
    return res + 100

f3(a)

CPU times: total: 0 ns
Wall time: 1.99 ms


599.589003

In [7]:
import numba

@njit
def f4(a):
    acc = 0
    n = len(a)
    for i in range(n):
        acc += a[i]
    return acc / n + 100

In [8]:
%%time
f4(a)

CPU times: total: 281 ms
Wall time: 601 ms


599.589003

2. Напишите функцию, которая возвращает сумму всех чисел от 0 до x-1. Примените функцию к каждому элементу массива.

In [9]:
def g(x):
    return (sum(range(x)))

In [10]:
%%time

np.array([g(x) for x in a])

CPU times: total: 8.42 s
Wall time: 8.43 s


array([ 35511,   1953,  37128, ...,  89253,      3, 139128])

In [11]:
g_v = np.vectorize(g)

In [12]:
%%time
g_v(a)

CPU times: total: 7.89 s
Wall time: 7.88 s


array([ 35511,   1953,  37128, ...,  89253,      3, 139128])

In [13]:
g_v2 = numba.vectorize(['int32(int32)'])(g)

In [14]:
%%time
g_v2(a)

CPU times: total: 46.9 ms
Wall time: 50.9 ms


array([ 35511,   1953,  37128, ...,  89253,      3, 139128])

3. Создайте таблицу 2млн строк и с 4 столбцами, заполненными случайными числами. Добавьте столбец `key`, которые содержит элементы из множества английских букв. Выберите из таблицы подмножество строк, для которых в столбце `key` указаны первые 5 английских букв.

In [2]:
%load_ext line_profiler

In [5]:
import pandas as pd
import string

N = 2_000_000
df = pd.DataFrame(np.random.randn(N, 4), columns=[f"col{i}" for i in range(4)])
df["key"] = np.random.choice(list(string.ascii_letters.lower()), N, replace=True)
df.head(2)

Unnamed: 0,col0,col1,col2,col3,key
0,-0.756714,0.723195,-1.088059,-0.168426,l
1,-1.924665,1.047845,0.406138,0.727121,g


In [6]:
def h1(df):
    mask = []
    for _, row in df.iterrows():
        mask.append(row['key'] in {'a', 'b', 'c', 'd', 'e'})
    return df[mask]

In [7]:
%%time
h1(df.head(50000))

CPU times: total: 7.14 s
Wall time: 7.16 s


Unnamed: 0,col0,col1,col2,col3,key
11,-0.834772,0.726824,-1.220380,0.595021,d
14,0.761799,-1.429321,-0.704322,-0.599693,b
18,-0.723228,1.008087,0.551874,-0.607757,a
25,0.372094,0.445080,-0.114718,-0.038965,d
40,-0.123665,1.605681,1.201280,-1.431434,e
...,...,...,...,...,...
49971,1.022669,-0.200564,-1.302173,0.447123,d
49973,0.636936,0.690111,0.413842,-1.724636,a
49987,-0.727652,0.570080,0.527180,0.046970,a
49988,0.159027,0.347317,-0.744934,0.116943,c


In [1]:
%lprun -f h1 h1(df.head(50000))

UsageError: Line magic function `%lprun` not found.


In [23]:
%%time
df[df['key'].isin({"a", "b", "c", "d", "e"})]

CPU times: total: 109 ms
Wall time: 108 ms


Unnamed: 0,col0,col1,col2,col3,key
1,1.911962,-1.601261,-1.258885,-0.847536,a
2,0.265675,-1.665720,-1.033437,-0.826008,a
4,0.194333,-1.154353,-0.000002,-1.438571,e
5,-1.498183,-0.461015,0.960717,0.947052,e
17,1.391311,-0.610286,-1.191325,0.372444,d
...,...,...,...,...,...
1999965,0.697539,-0.270007,-0.129971,0.558216,b
1999968,-1.330261,1.106734,-1.508219,-2.127686,e
1999980,-1.140033,-2.127678,1.626854,-0.112667,d
1999985,0.405218,-0.719635,-0.485907,1.466804,b


## Лабораторная работа 3

In [227]:
import numpy as np
import pandas as pd
from numba import jit, njit
import numba
from typing import Union
import datetime as dt
import collections

%load_ext line_profiler

The line_profiler extension is already loaded. To reload it, use:
  %reload_ext line_profiler


В файлах `recipes_sample.csv` и `reviews_sample.csv` (__ЛР 2__) находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами. Приведите столбцы к нужным типам.

In [50]:
recipes = pd.read_csv('recipes_sample.csv')

recipes[['n_steps', 'n_ingredients']] = recipes[['n_steps', 'n_ingredients']].fillna(0)
recipes[['n_steps', 'n_ingredients']] = recipes[['n_steps', 'n_ingredients']].astype('int')
recipes['submitted'] = pd.to_datetime(recipes['submitted'], format = '%Y-%m-%d')

reviews = pd.read_csv('reviews_sample.csv', index_col = 0)
reviews['date'] = pd.to_datetime(reviews['date'], format = '%Y-%m-%d')

In [63]:
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,0,an original recipe created by chef scott meska...,18
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,0,my children and their friends ask for my homem...,0
2,i can t believe it s spinach,38798,30,1533,2002-08-29,0,"these were so go, it surprised even me.",8
3,italian gut busters,35173,45,22724,2002-07-27,0,my sister-in-law made these for us at a family...,0
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4,i think a fondue is a very romantic casual din...,0


In [64]:
reviews.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


## Измерение времени выполнения кода

Назовем полным описанием рецепта строку, полученную путем конкатенации названия и описания рецепта через пробел. Удалите строки для рецептов, которые были добавлены не в 2010 году.

Реализуйте несколько вариантов функции подсчета средней длины полного описания рецепта для рецептов, добавленных в 2010 году.

In [243]:
recipes_2010 = recipes.drop(recipes[recipes['submitted'].dt.year != 2010].index)

In [244]:
recipes_2010.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
52,just peachy cobbler,437637,70,1085867,2010-09-17,10,all i can say is yummmmmm . . . a simple to ma...,10
68,the heat spicy party mix,437219,95,1682162,2010-09-13,0,a spicy chex mix that will really warm your gu...,11
81,iowa state fair sweet dough caramel cinnamon ...,435816,80,17803,2010-08-24,29,this was the winning entry at the 2010 iowa st...,0
104,1 minute blueberries cream,428566,2,1375473,2010-06-04,4,i was craving blueberry tonight but wanted non...,0
146,2 2 2 diet mocha,416599,5,789314,2010-03-15,5,"while trying to come up with a satisfying ""sna...",7


1\.1 С использованием метода `DataFrame.iterrows` таблицы:

    - функция принимает на вход таблицу, содержащую рецепты за 2010 год;
    
    - нахождение полного описания рецепта осуществляется внутри цикла по `iterrows` для каждой строки по отдельности.

In [245]:
def get_mean_len_A(df: pd.DataFrame) -> float:
    mean = 0
    for num, row in df.iterrows():
        mean += len(row['name'] + ' ' + row['description'])
        
    return(mean / df.shape[0])
    
get_mean_len_A(recipes_2010)

265.501300390117

1\.2. С использованием метода `DataFrame.apply` таблицы:

    - функция принимает на вход таблицу, содержащую рецепты за 2010 год;
    
    - вызываете метод apply у таблицы, в качестве аргумента передаете функцию, которая возвращает полное описание для каждой строки;
    
    - считаете среднюю длину описаний, вызвав соответствующий метод серии.

In [246]:
def get_mean_len_B(df: pd.DataFrame) -> float:
    result = df.apply(lambda x: x['name'] + ' ' + x['description'], axis = 1)
    return result.str.len().mean()

get_mean_len_B(recipes_2010)

265.501300390117

1\.3. С использованием векторизованных методов серий `pd.Series`:

    - функция принимает на вход таблицу, содержащую рецепты за 2010 год;
    
    - при помощи векторизированных операций получаете столбец с полным описанием;
    
    - при помощи векторизированных операций получаете длины полного описания;
    
    - при помощи векторизированных операций получаете среднюю длину полных описаний. 

In [247]:
def get_mean_len_C(df: pd.DataFrame) -> float:
    full_description = (df['name'] + ' ' + df['description']).str.len().mean()
    return full_description

get_mean_len_C(recipes_2010)

265.501300390117

1.4 Проверьте, что результаты работы всех написанных функций корректны и совпадают. Измерьте выполнения всех написанных функций при помощи магических команд `time` и `timeit`.

In [248]:
%timeit get_mean_len_A(recipes_2010)

225 ms ± 26.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [249]:
%timeit get_mean_len_B(recipes_2010)

57.3 ms ± 3.09 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [250]:
%timeit get_mean_len_C(recipes_2010)

3.63 ms ± 365 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Анализ пошагового выполнения кода 

Вам предлагается воспользоваться функцией, которая собирает статистику о том, сколько отзывов содержат то или иное слово. 

In [102]:
import re


def get_word_reviews_count(df):
    word_reviews = {}
    for _, row in df.dropna(subset = ["review"]).iterrows():
        recipe_id, review = row["recipe_id"], row["review"]
        words = re.sub("[^A-Za-z\s]", "", review).split(" ")
        for word in words:
            if word not in word_reviews:
                word_reviews[word] = []
            word_reviews[word].append(recipe_id)

    word_reviews_count = {}
    for _, row in df.dropna(subset=["review"]).iterrows():
        review = row["review"]
        words = re.sub("[^A-Za-z\s]", "", review).split(" ")
        for word in words:
            word_reviews_count[word] = len(word_reviews[word])
    return word_reviews_count

In [105]:
%lprun -f get_word_reviews_count get_word_reviews_count(reviews)

2.1 Найдите узкие места в коде, проанализировав код функции по шагам, используя профайлер. Сохраните результаты работы профайлера в отдельную текстовую ячейку. Выпишите (словами), что в имеющемся коде реализовано неоптимально. 

![image.png](attachment:image.png)

Так и не смог договориться с line_profiler, чтобы он вывоводил саму строку в отчёте(

## Неоптимально реализованные моменты кода

1)Функция 2 раза итерируется по одному и тому же датафрейму, при этом 2 раза делая одно и то же удаление регулярных выражений для каждой строки.(при этом реализовать данную функцию можно вообще без циклов)

2)Итерация по датафрейму идёт с помощью функции iterrows, которая занимает слишком много времени работы программы (причём из всей таблицы нужны всего 2 столбца, а итерация идёт по всей)

3)По заданию требуется посчитать количество отзывов, в которых присутствует то или иное слово, а не количество упоминаний этого слова в отзывах

2.2  Оптимизируйте функцию и добейтесь значительного (как минимум, в 5 раз) прироста в скорости выполнения. Для демонстрации результата измерьте скорость выполнения оригинальной функции и функции, написанной вами.

In [251]:
def count_word_freq(reviews):
    res = reviews['review'].apply(lambda x: list(set(re.sub("[^A-Za-z\s]", "", str(x)).split()))).explode()
    return (collections.Counter(res.values))

In [254]:
%%timeit
dict1 = get_word_reviews_count(reviews)

1min 2s ± 1.39 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [255]:
%%timeit
dict2 = count_word_freq(reviews)

8.01 s ± 161 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [256]:
dict1['of'], dict2['of']

(109239, 61759)

Расхождение обусловлено 3 пунктом в неоптимальной реализации кода (если реализация изначальной функции правильная) достаточно убрать удаление дубликатов в функции с помощью set(...)

In [257]:
def count_word_freq_2(reviews):
    res = reviews['review'].apply(lambda x: list(re.sub("[^A-Za-z\s]", "", str(x)).split())).explode()
    return (collections.Counter(res.values))

## Numba

В файле `rating_predictions.json` хранятся данные о рейтингах рецептов и прогнозных значениях рейтингов для этого рецепта, полученных при помощи модели машинного обучения. 

Напишите несколько версий функции (см. [MAPE](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)) для расчета среднего абсолютного процентного отклонения значения рейтинга отзыва на рецепт от прогнозного значения рейтинга для данного рецепта. 


Замечание 1: в формуле MAPE под $A_t$ понимается рейтинг из отзыва $t$, под $F_t$ - прогнозное значения рейтинга отзыва $t$.

Замечание 2: в результате работы функций должно получиться одно число - MAPE для всего набора данных.

In [132]:
import json
with open('rating_predictions.json', encoding = 'utf-8') as read_file:
    rating_info = json.load(read_file)
    
df_rating = pd.DataFrame(rating_info)
df_rating.columns = ['A_type', 'F_type']
df_rating.head()

Unnamed: 0,A_type,F_type
0,5.0,4.944444
1,5.0,4.4375
2,5.0,4.727273
3,5.0,4.354545
4,5.0,4.888889


3\.1 Создайте два списка `A_list` и `F_list` на основе файла `rating_predictions.json`. Напишите функцию `mape_lists` без использования векторизованных операций и методов массивов `numpy` и без использования `numba` (проитерируйтесь по спискам и вычислите суммарное значение MAPE для всех элементов, а потом усредните результат).

Измерьте время выполнения данной функции на входных данных `A_list` и `F_list`. Временем, затрачиваемым на создание списков, можно пренебречь.
    

In [258]:
A_list, F_list = list(df_rating['A_type'].values), list(df_rating['F_type'].values)

In [259]:
def mape_lists(A_list, F_list):
    mean = 0
    for cur_a, cur_f in zip(A_list, F_list):
        mean += abs((cur_a - cur_f) / cur_a)
    return (mean / len(A_list) * 100)

mape_lists(A_list, F_list)

13.325265503992636

3\.2. Создайте массивы `numpy` `A_array` и `F_array` на основе списков `A_list` и `F_list`. Напишите функцию `mape_numpy` с использованием векторизованных операций и методов массивов `numpy`.

Измерьте время выполнения данной функции на входных данных `A_array` и `F_array`. Временем, затрачиваемым на создание массивов, можно пренебречь.

In [260]:
A_array, F_array = np.array(A_list), np.array(F_list)

In [261]:
def mape_numpy(A_array, F_array):
    return (abs((A_array - F_array) / A_array).sum() / A_array.shape[0] * 100)

mape_numpy(A_array, F_array)

13.32526550399145

3\.3. Создайте объекты `numba.typed.List` `A_typed` и `F_typed` на основе списков `A_list` и `F_list`. Напишите функцию `mape_numba` без использования векторизованных операций и методов массивов `numpy`, но с использованием `numba`. 

Измерьте время выполнения данной функции на входных данных `A_typed` и `F_typed`. Временем, затрачиваемым на создание объектов `numba.typed.List`, можно пренебречь.

Измерьте время выполнения данной функции на входных данных `A_numpy` и `F_numpy`.

In [262]:
A_typed, F_typed = numba.typed.List(A_list), numba.typed.List(F_list)

In [268]:
@njit
def mape_numba(A_typed, F_typed):
    mape_sum = 0
    for cur in numba.prange(len(A_typed)):
        mape_sum += abs((A_typed[cur] - F_typed[cur]) / A_typed[cur])
    return (mape_sum / len(A_typed)) * 100

mape_numba(A_typed, F_typed)

13.325265503992636

# Сравнение эффективности функций по времени

In [264]:
%timeit mape_lists(A_list, F_list)

133 ms ± 7.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [265]:
%timeit mape_numpy(A_array, F_array)

684 µs ± 44.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [271]:
%timeit mape_numba(A_typed, F_typed)

3.51 ms ± 344 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [272]:
%timeit mape_numba(A_array, F_array)

386 µs ± 19.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


## Векторизация

Сайт-агрегатор устроил акцию: он дарит купоны на посещение ресторана тем пользователям, оставившим отзывы, идентификатор которых является _красивым числом_. Натуральное число называется _красивым_, если первая цифра числа совпадает с последней цифрой числа. 



4\.1 Напишите функцию `is_pretty`, которая для каждого идентификатора пользователя из файла определяет, получит ли он подарок. Запрещается преобразовывать идентификатор пользователя к строке. Подтвердите корректность реализации, продемонстрировав примеры.

In [177]:
ids = reviews["recipe_id"].values
ids

array([ 57993, 142201, 252013, ..., 222001, 354979, 415599], dtype=int64)

In [1]:
def is_pretty(n: int) -> bool:
    
    pow_10 = 10 ** int(np.log10(n))
    
    return n // pow_10 == n % 10

# Примеры

In [183]:
ids[36], is_pretty(ids[36])

(52035, True)

In [184]:
ids[100], is_pretty(ids[100])

(25169, False)

4\.2 Посчитайте с помощью функции `is_pretty` количество пользователей, которые получат подарок. Выведите это количество на экран. Измерьте время расчетов для входных данных `ids`.

In [188]:
%%time

counter = 0

for cur_id in ids:
    counter += is_pretty(cur_id)
    
counter

CPU times: total: 844 ms
Wall time: 904 ms


11955

4\.3. При помощи `numpy` создайте векторизованную версию функции `is_pretty`. Посчитайте с помощью этой векторизованной функции количество пользователей, которые получат подарок. Выведите это количество на экран. Измерьте время расчетов для входных данных `ids`.


In [196]:
np_is_pretty = np.vectorize(is_pretty)

In [207]:
%%time 
vect_is_pretty(ids).sum()

CPU times: total: 750 ms
Wall time: 754 ms


11955

4\.4. При помощи `numba` создайте векторизованную версию функции `is_pretty`. Посчитайте с помощью этой векторизованной функции количество пользователей, которые получат подарок. Выведите это количество на экран. Измерьте время расчетов для входных данных `ids`.


In [203]:
numba_is_pretty = numba.vectorize()(is_pretty)

In [209]:
%%time 
numba_is_pretty(ids).sum()

CPU times: total: 0 ns
Wall time: 4.09 ms


11955