## Оптимизация выполнения кода, векторизация, Numba

Материалы:
* Макрушин С.В. Лекция 3: Оптимизация выполнения кода, векторизация, Numba
* IPython Cookbook, Second Edition (2018), глава 4
* https://numba.pydata.org/numba-doc/latest/user/5minguide.html

## Задачи для совместного разбора

1. Сгенерируйте массив `A` из `N=1млн` случайных целых чисел на отрезке от 0 до 1000. Пусть `B[i] = A[i] + 100`. Посчитайте среднее значение массива `B`.

2. Создайте таблицу 2млн строк и с 4 столбцами, заполненными случайными числами. Добавьте столбец `key`, которые содержит элементы из множества английских букв. Выберите из таблицы подмножество строк, для которых в столбце `key` указаны первые 5 английских букв.

## Лабораторная работа 3

In [1]:
!pip install line_profiler

Collecting line_profiler
  Downloading line_profiler-3.3.1-cp38-cp38-macosx_10_9_x86_64.whl (53 kB)
[K     |████████████████████████████████| 53 kB 2.1 MB/s eta 0:00:01
Installing collected packages: line-profiler
Successfully installed line-profiler-3.3.1


In [4]:
import pandas as pd
import numpy as np

1. В файлах `recipes_sample.csv` и `reviews_sample.csv` (__ЛР 2__) находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами. Приведите столбцы к нужным типам.

Реализуйте несколько вариантов функции подсчета среднего значения столбца `rating` из таблицы `reviews` для отзывов, оставленных в 2010 году.

A. С использованием метода `DataFrame.iterrows` исходной таблицы;

Б. С использованием метода `DataFrame.iterrows` таблицы, в которой сохранены только отзывы за 2010 год;

В. С использованием метода `Series.mean`.

Проверьте, что результаты работы всех написанных функций корректны и совпадают. Измерьте выполнения всех написанных функций.


In [202]:
#Загружаем данные
recipes = pd.read_csv('recipes_sample.csv')
reviews = pd.read_csv('reviews_sample.csv', index_col=0)

#Приводим столбцы к нужным типам
recipes['submitted'] = pd.to_datetime(recipes['submitted'])
reviews['date'] = pd.to_datetime(reviews['date'])

#Кол-во записей в 2010 году
rev_num_2010 = reviews[reviews['date'].dt.year == 2010].shape[0]

https://stackoverflow.com/questions/16476924/how-to-iterate-over-rows-in-a-dataframe-in-pandas

In [43]:
%%timeit 
# A. С использованием метода DataFrame.iterrows исходной таблицы;
sm = 0
for index, row in reviews.iterrows():
    if row['date'].year == 2010:
        sm = sm + row['rating']
res_1A = sm / rev_num_2010

7.99 s ± 396 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [44]:
%%timeit 
# Б. С использованием метода DataFrame.iterrows таблицы, в которой сохранены только отзывы за 2010 год;
sm = 0
for index, row in reviews[reviews['date'].dt.year == 2010].iterrows():
    sm = sm + row['rating']
res_1B = sm / rev_num_2010

735 ms ± 11.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [324]:
%%timeit
#С использованием метода Series.mean
res_1C = reviews[reviews['date'].dt.year == 2010]['rating'].mean()

7.12 ms ± 85.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [62]:
res_1A

4.4544402182900615

In [61]:
res_1A == res_1B == res_1C

True

2. Какая из созданных функций выполняется медленнее? Что наиболее сильно влияет на скорость выполнения? Для ответа использовать профайлер `line_profiler`. Сохраните результаты работы профайлера в отдельную текстовую ячейку и прокомментируйте результаты его работы.

(*). Сможете ли вы ускорить работу функции 1Б, отказавшись от использования метода `iterrows`, но не используя метод `mean`?

https://stackoverflow.com/questions/23885147/how-do-i-use-line-profiler-from-robert-kern

https://coderzcolumn.com/tutorials/python/line-profiler-line-by-line-profiling-of-python-code

In [63]:
from line_profiler import LineProfiler

In [81]:
def task_1A():
    sm = 0
    for index, row in reviews.iterrows():
        if row['date'].year == 2010:
            sm = sm + row['rating']
    res_1A = sm / rev_num_2010

def task_1B():
    sm = 0
    for index, row in reviews[reviews['date'].dt.year == 2010].iterrows():
        sm = sm + row['rating']
    res_1B = sm / rev_num_2010

def task_1C():
    reviews[reviews['date'].dt.year == 2010]['rating'].mean()

def call_fun():
    task_1A()
    task_1B()
    task_1C()

In [94]:
#Вариант 1
%load_ext line_profiler
%lprun -f task_1A -f task_1B -f task_1C call_fun()

The line_profiler extension is already loaded. To reload it, use:
  %reload_ext line_profiler


In [84]:
#Вариант 2:
lp = LineProfiler()

lp.add_function(task_1A)
lp.add_function(task_1B)
lp.add_function(task_1C)

lp_wrapper = lp(call_fun)
lp_wrapper()

lp.print_stats()

Timer unit: 1e-06 s

Total time: 22.5384 s
File: <ipython-input-81-fdfa8b125d10>
Function: task_1A at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def task_1A():
     2         1          1.0      1.0      0.0      sm = 0
     3    126697   20594192.0    162.5     91.4      for index, row in reviews.iterrows():
     4    126696    1818028.0     14.3      8.1          if row['date'].year == 2010:
     5     12094     126200.0     10.4      0.6              sm = sm + row['rating']
     6         1          1.0      1.0      0.0      res_1A = sm / rev_num_2010

Total time: 2.32612 s
File: <ipython-input-81-fdfa8b125d10>
Function: task_1B at line 8

Line #      Hits         Time  Per Hit   % Time  Line Contents
     8                                           def task_1B():
     9         1          1.0      1.0      0.0      sm = 0
    10     12095    2139988.0    176.9     92.0      for index, row in reviews[revie

https://github.com/rkern/line_profiler

Line: Номер строки в функции
Hits: Кол-во раз, которое эта строка была выполнена
Time: Общее кол-во времени, которое была затрачено на исполнение строки в еденицах системного таймера. 
Per Hit: Среднее кол-во времени затраченное на выполнение строки в еденицах системного таймера
% Time: Процент времени затраченный выполнение данной строки относительно времени выполнения всей функции 
Line Contents: содержимое строки

3. Вам предлагается воспользоваться функцией, которая собирает статистику о том, сколько отзывов содержат то или иное слово. Измерьте время выполнения этой функции. Сможете ли вы найти узкие места в коде, используя профайлер? Выпишите (словами), что в имеющемся коде реализовано неоптимально. Оптимизируйте функцию и добейтесь значительного (как минимум, на один порядок) прироста в скорости выполнения.

https://stackoverflow.com/questions/46864740/selecting-a-subset-using-dropna-to-select-multiple-columns/52192431

In [95]:
def get_word_reviews_count(df):
    word_reviews = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        recipe_id, review = row['recipe_id'], row['review']
        words = review.split(' ')
        for word in words:
            if word not in word_reviews:
                word_reviews[word] = []
            word_reviews[word].append(recipe_id)
    
    word_reviews_count = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        review = row['review']
        words = review.split(' ')
        for word in words:
            word_reviews_count[word] = len(word_reviews[word])
    return word_reviews_count

In [98]:
#Используем профайлер
lp = LineProfiler()

lp_wrapper = lp(get_word_reviews_count)
lp_wrapper(reviews)

lp.print_stats()

Timer unit: 1e-06 s

Total time: 65.4384 s
File: <ipython-input-95-b1bc049bcd0c>
Function: get_word_reviews_count at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def get_word_reviews_count(df):
     2         1          2.0      2.0      0.0      word_reviews = {}
     3    126680   22185915.0    175.1     33.9      for _, row in df.dropna(subset=['review']).iterrows():
     4    126679    3147643.0     24.8      4.8          recipe_id, review = row['recipe_id'], row['review']
     5    126679     679581.0      5.4      1.0          words = review.split(' ')
     6   6918689    2522468.0      0.4      3.9          for word in words:
     7   6792010    3480574.0      0.5      5.3              if word not in word_reviews:
     8    174944     107492.0      0.6      0.2                  word_reviews[word] = []
     9   6792010    3765944.0      0.6      5.8              word_reviews[word].append(recipe_id)
    10 

In [101]:
#Задача: посчитать кол-во появлений каждого уникального слова в отзывах
def get_word_reviews_count_v2(df):
    word_reviews_count = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        recipe_id, review = row['recipe_id'], row['review']
        words = review.split(' ')
        for word in words:
            if word not in word_reviews_count:
                word_reviews_count[word] = 0
            word_reviews_count[word] = word_reviews_count[word] + 1
    return word_reviews_count

In [102]:
#Используем профайлер
lp = LineProfiler()

lp_wrapper = lp(get_word_reviews_count_v2)
lp_wrapper(reviews)

lp.print_stats()

Timer unit: 1e-06 s

Total time: 40.4893 s
File: <ipython-input-101-5a3c25391484>
Function: get_word_reviews_count_v2 at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
     2                                           def get_word_reviews_count_v2(df):
     3         1          2.0      2.0      0.0      word_reviews_count = {}
     4    126680   25277000.0    199.5     62.4      for _, row in df.dropna(subset=['review']).iterrows():
     5    126679    3636586.0     28.7      9.0          recipe_id, review = row['recipe_id'], row['review']
     6    126679     783113.0      6.2      1.9          words = review.split(' ')
     7   6918689    2731137.0      0.4      6.7          for word in words:
     8   6792010    3863361.0      0.6      9.5              if word not in word_reviews_count:
     9    174944     111139.0      0.6      0.3                  word_reviews_count[word] = 0
    10   6792010    4087009.0      0.6     10.1              word_reviews_count[w

https://stackoverflow.com/questions/45340785/update-counter-collection-in-python-with-string-not-letter

https://stackoverflow.com/questions/12282232/how-do-i-count-unique-values-inside-a-list

https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06

In [157]:
from collections import Counter
def get_word_reviews_count_v3(df):
    word_reviews_count = {}
    for i in reviews['review']:
        if not pd.isna(i): 
            words = i.split(' ')
            for word in words:
                if word not in word_reviews_count:
                    word_reviews_count[word] = 0
                word_reviews_count[word] = word_reviews_count[word] + 1
    return (word_reviews_count.keys, word_reviews_count.values)

In [158]:
#Используем профайлер
lp = LineProfiler()

lp_wrapper = lp(get_word_reviews_count_v3)
lp_wrapper(reviews)

lp.print_stats()

Timer unit: 1e-06 s

Total time: 5.71958 s
File: <ipython-input-157-2a30697f84a7>
Function: get_word_reviews_count_v3 at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
     2                                           def get_word_reviews_count_v3(df):
     3         1         98.0     98.0      0.0      word_reviews_count = Counter()
     4    126697      77534.0      0.6      1.4      for i in reviews['review']:
     5    126696     250871.0      2.0      4.4          if not pd.isna(i): 
     6    126679     529310.0      4.2      9.3              words = i.split(' ')
     7    126679    4861763.0     38.4     85.0              word_reviews_count.update(Counter(words))
     8         1          1.0      1.0      0.0      return (word_reviews_count.keys, word_reviews_count.values)



https://blog.paperspace.com/numpy-optimization-vectorization-and-broadcasting/

In [173]:
from collections import Counter
def get_word_reviews_count_v4(df):
    res = Counter()
    
    def count_uni_words(st):
        if not pd.isna(st): 
            res.update(Counter(st))
    
    vcount = np.vectorize(count_uni_words)
    vcount(df['review'])

In [174]:
get_word_reviews_count_v4(reviews)

In [175]:
#Используем профайлер
lp = LineProfiler()

lp_wrapper = lp(get_word_reviews_count_v4)
lp_wrapper(reviews)

lp.print_stats()

Timer unit: 1e-06 s

Total time: 4.59164 s
File: <ipython-input-173-b4aefa211337>
Function: get_word_reviews_count_v4 at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
     2                                           def get_word_reviews_count_v4(df):
     3         1          9.0      9.0      0.0      res = Counter()
     4                                               
     5         1          1.0      1.0      0.0      def count_uni_words(st):
     6                                                   if not pd.isna(st): 
     7                                                       res.update(Counter(st))
     8                                               
     9         1         17.0     17.0      0.0      vcount = np.vectorize(count_uni_words)
    10         1    4591610.0 4591610.0    100.0      vcount(df['review'])



In [179]:
from collections import Counter
def get_word_reviews_count_v5(df):
    res = dict()
    
    def count_uni_words(st):
        if not pd.isna(st):
            word = st.split(' ')
            res.update(Counter(st))
    
    vcount = np.vectorize(count_uni_words)
    vcount(df['review'])

In [195]:
#Используем профайлер
lp = LineProfiler()

lp_wrapper = lp(get_word_reviews_count_v5)
lp_wrapper(reviews)

lp.print_stats()

Timer unit: 1e-06 s

Total time: 2.71153 s
File: <ipython-input-179-f0fa0e39b333>
Function: get_word_reviews_count_v5 at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
     2                                           def get_word_reviews_count_v5(df):
     3         1          3.0      3.0      0.0      res = dict()
     4                                               
     5         1          2.0      2.0      0.0      def count_uni_words(st):
     6                                                   if not pd.isna(st):
     7                                                       word = st.split(' ')
     8                                                       res.update(Counter(st))
     9                                               
    10         1         20.0     20.0      0.0      vcount = np.vectorize(count_uni_words)
    11         1    2711503.0 2711503.0    100.0      vcount(df['review'])



In [197]:
from collections import Counter
def get_word_reviews_count_v6(df):
    a = (' '.join(df.dropna(subset=['review'])['review'])).split(' ')
    return Counter(a)

In [199]:
#Используем профайлер
lp = LineProfiler()

lp_wrapper = lp(get_word_reviews_count_v6)
lp_wrapper(reviews)

lp.print_stats()

Timer unit: 1e-06 s

Total time: 1.44152 s
File: <ipython-input-197-0b5efc8f2488>
Function: get_word_reviews_count_v6 at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
     2                                           def get_word_reviews_count_v6(df):
     3         1     594433.0 594433.0     41.2      a = (' '.join(df.dropna(subset=['review'])['review'])).split(' ')
     4         1     847089.0 847089.0     58.8      return Counter(a)



In [319]:
%%timeit
get_word_reviews_count_v6(reviews)

1.44 s ± 11.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [318]:
get_word_reviews_count(reviews) == get_word_reviews_count_v6(reviews)

True

4. Напишите несколько версий функции `MAPE` (см. [MAPE](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)) для расчета среднего абсолютного процентного отклонения значения рейтинга отзыва на рецепт от среднего значения рейтинга по всем отзывам для этого рецепта. 
    1. Без использования векторизованных операций и методов массивов `numpy` и без использования `numba`
    2. Без использования векторизованных операций и методов массивов `numpy`, но с использованием `numba`
    3. С использованием векторизованных операций и методов массивов `numpy`, но без использования `numba`
    4. C использованием векторизованных операций и методов массивов `numpy` и `numba`
    
Измерьте время выполнения каждой из реализаций.

Замечание: удалите из выборки отзывы с нулевым рейтингом.


![%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5.png](attachment:%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5.png)

In [203]:
reviews.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


https://thispointer.com/python-how-to-convert-a-list-to-dictionary/

In [253]:
## удаляем из выборки отзывы с нулевым рейтингом.
reviews_t4 = reviews[reviews['rating'] != 0]

#считаем среднее значение рейтинга по каждому рецепту
mean_rating = (reviews.groupby('recipe_id').mean()['rating']).to_dict()

#Созадаем словарь с уникальными рецептами
res = dict.fromkeys(reviews_t4['recipe_id'].unique(), 0)

https://realpython.com/iterate-through-dictionary-python/#iterating-through-keys

In [279]:
reviews_t4[reviews_t4['recipe_id'] == 48]

Unnamed: 0,user_id,recipe_id,date,rating,review
532499,68674,48,2004-05-03,2,I picked this recipe over the other BCP recipe...


In [280]:
reviews_t4[reviews_t4['recipe_id'] == 48]['rating'].tolist()

[2]

In [286]:
#%%timeit 
# A. Без использования векторизованных операций и методов массивов numpy и без использования numba
def find_mape_A(ratings, mn_rating):
    sm = 0
    for rating in ratings:
        sm = sm + abs((mn_rating - rating) / mn_rating)
    return sm / len(ratings) * 100

https://pandas.pydata.org/docs/reference/api/pandas.Series.tolist.html

In [322]:
%%timeit
res_A = res.copy()
for key in res_A.keys():
    ratings = reviews_t4[reviews_t4['recipe_id'] == 48]['rating'].tolist() #все рейтинге у рецепта с id key
    res_A = find_mape_A(ratings, mean_rating[key])

19 s ± 963 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [323]:
# B. Без использования векторизованных операций и методов массивов numpy, но с использованием numba
from numba import jit, njit

@jit(nopython=True)
def find_mape_B(ratings, mn_rating):
    sm = 0
    for rating in ratings:
        sm = sm + abs((mn_rating - rating) / mn_rating)
    return sm / len(ratings) * 100

In [321]:
%%timeit
res_B = res.copy()
for key in res_B.keys():
    ratings = reviews_t4[reviews_t4['recipe_id'] == 48]['rating'].tolist() #все рейтинге у рецепта с id key
    res_B = find_mape_B(ratings, mean_rating[key])

Encountered the use of a type that is scheduled for deprecation: type 'reflected list' found for argument 'ratings' of function 'find_mape_B'.

For more information visit https://numba.pydata.org/numba-doc/latest/reference/deprecation.html#deprecation-of-reflection-for-list-and-set-types
[1m
File "<ipython-input-320-cabc513709cc>", line 5:[0m
[1m@jit(nopython=True)
[1mdef find_mape_B(ratings, mn_rating):
[0m[1m^[0m[0m
[0m


17.9 s ± 422 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


https://stackoverflow.com/questions/47648133/mape-calculation-in-python

In [305]:
# С. использованием векторизованных операций и методов массивов numpy, но без использования numba
def find_mape_C(ratings, mn_rating): 
    y_pred = np.array(ratings)
    y_true = np.empty(y_pred.size)
    y_true.fill(mn_rating)
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

In [312]:
%%timeit
res_C = res.copy()
for key in res_C.keys():
    ratings = reviews_t4[reviews_t4['recipe_id'] == 48]['rating'].tolist() #все рейтинге у рецепта с id key
    res_C = find_mape_C(ratings, mean_rating[key])

Encountered the use of a type that is scheduled for deprecation: type 'reflected list' found for argument 'ratings' of function 'find_mape_C'.

For more information visit https://numba.pydata.org/numba-doc/latest/reference/deprecation.html#deprecation-of-reflection-for-list-and-set-types
[1m
File "<ipython-input-307-692ca2ea199f>", line 5:[0m
[1m@jit(nopython=True)
[1mdef find_mape_C(ratings, mn_rating): 
[0m[1m^[0m[0m
[0m


18.5 s ± 1.17 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [309]:
# D. C использованием векторизованных операций и методов массивов numpy и numba
from numba import jit, njit

@jit(nopython=True)
def find_mape_D(ratings, mn_rating): 
    y_pred = np.array(ratings)
    y_true = np.empty(y_pred.size)
    y_true.fill(mn_rating)
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

In [311]:
%%timeit
res_D = res.copy()
for key in res_D.keys():
    ratings = reviews_t4[reviews_t4['recipe_id'] == 48]['rating'].tolist() #все рейтинге у рецепта с id key
    res_D = find_mape_D(ratings, mean_rating[key])

18.2 s ± 609 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [313]:
res_A == res_B

True

#### [версия 2]
* Уточнены формулировки задач 1, 3, 4