## Оптимизация выполнения кода, векторизация, Numba

Материалы:
* Макрушин С.В. Лекция 3: Оптимизация выполнения кода, векторизация, Numba
* IPython Cookbook, Second Edition (2018), глава 4
* https://numba.pydata.org/numba-doc/latest/user/5minguide.html

## Задачи для совместного разбора

In [1]:
import numpy as np

1. Сгенерируйте массив `A` из `N=1млн` случайных целых чисел на отрезке от 0 до 1000. Пусть `B[i] = A[i] + 100`. Посчитайте среднее значение массива `B`.

In [42]:
A = np.random.randint(0, 1000, size=1_000_000)
print(len(A))

1000000


In [46]:
B = np.zeros(1_000_000)
for i in range(0, 1_000_000):
    B[i] = A[i] + 100

[0. 0. 0. ... 0. 0. 0.]


In [10]:
def mean_naiv(arr):
    my_sum = 0
    my_kolvo = 0
    for elem in arr:
        my_sum += elem
        my_kolvo += 1
    return my_sum / my_kolvo

In [48]:
%timeit mean_naiv(B)

115 ms ± 1.73 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [49]:
def mean_sum_len(arr):
    return sum(arr) / len(arr)

In [50]:
%timeit mean_sum_len(B)

56.5 ms ± 1.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [51]:
def mean_numpy(arr):
    return np.mean(arr)

In [94]:
from numba import njit

@njit
def mean_numpy_numba(arr):
    return np.mean(arr)

In [92]:
%timeit mean_numpy(B)

616 µs ± 41.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [95]:
%timeit mean_numpy_numba(B)

1.01 ms ± 15.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [53]:
print("mean_naiv = ", mean_naiv(B))
print("mean_sum_len = ", mean_sum_len(B))
print("mean_numpy = ", mean_numpy(B))

mean_naiv =  600.07441
mean_sum_len =  600.07441
mean_numpy =  600.07441


In [54]:
!pip install numba



In [24]:
#numba example
from numba import jit
import numpy as np

x = np.arange(100).reshape(10, 10)

@jit(nopython=True) # Set "nopython" mode for best performance, equivalent to @njit
def go_fast(a): # Function is compiled to machine code when called the first time
    trace = 0.0
    for i in range(a.shape[0]):   # Numba likes loops
        trace += np.tanh(a[i, i]) # Numba likes NumPy functions
    return a + trace              # Numba likes NumPy broadcasting

print(go_fast(x))

[[  9.  10.  11.  12.  13.  14.  15.  16.  17.  18.]
 [ 19.  20.  21.  22.  23.  24.  25.  26.  27.  28.]
 [ 29.  30.  31.  32.  33.  34.  35.  36.  37.  38.]
 [ 39.  40.  41.  42.  43.  44.  45.  46.  47.  48.]
 [ 49.  50.  51.  52.  53.  54.  55.  56.  57.  58.]
 [ 59.  60.  61.  62.  63.  64.  65.  66.  67.  68.]
 [ 69.  70.  71.  72.  73.  74.  75.  76.  77.  78.]
 [ 79.  80.  81.  82.  83.  84.  85.  86.  87.  88.]
 [ 89.  90.  91.  92.  93.  94.  95.  96.  97.  98.]
 [ 99. 100. 101. 102. 103. 104. 105. 106. 107. 108.]]


In [63]:
def my_print(word="hello"):
    return word + "!!!"


def my_print_2():
    def lower1(word="hello"):
        return word.lower() + "!!!"
    print(lower1())

my_print_2()
# print(lower1())

hello!!!


In [77]:
def my_print_3(type="first"):
    
    def first(word="hello"):
        return word.upper()
    
    def second(word="hello"):
        return word.lower()
    
    if type == "first":
        return first
    else:
        return second
result = my_print_3("second")
print(my_print_3("second")("DaRFHfF"))

darfhff


In [79]:
def func():
    return "hello"

def my_func(func):
    print("До Hello что то происходит")
    print(func())

my_func(func)

До Hello что то происходит
hello


In [83]:
def my_shiny_new_decorator(a_function_to_decorate):
    # Внутри себя декоратор определяет функцию-"обёртку".
    # Она будет (что бы вы думали?..) обёрнута вокруг декорируемой,
    # получая возможность исполнять произвольный код до и после неё.

    def the_wrapper_around_the_original_function():
        # Поместим здесь код, который мы хотим запускать ДО вызова
        # оригинальной функции
        print("Я - код, который отработает до вызова функции")
 
        # ВЫЗОВЕМ саму декорируемую функцию
        a_function_to_decorate()

        # А здесь поместим код, который мы хотим запускать ПОСЛЕ вызова
        # оригинальной функции
        print("А я - код, срабатывающий после")

    # На данный момент функция "a_function_to_decorate" НЕ ВЫЗЫВАЛАСЬ НИ РАЗУ

    # Теперь, вернём функцию-обёртку, которая содержит в себе
    # декорируемую функцию, и код, который необходимо выполнить до и после.
    # Всё просто!
    return the_wrapper_around_the_original_function

# Представим теперь, что у нас есть функция, которую мы не планируем больше трогать.
def a_stand_alone_function():
    print("Я простая одинокая функция, ты ведь не посмеешь меня изменять?..")
 
a_stand_alone_function()
# выведет: Я простая одинокая функция, ты ведь не посмеешь меня изменять?..
 
# Однако, чтобы изменить её поведение, мы можем декорировать её, то есть
# Просто передать декоратору, который обернет исходную функцию в любой код,
# который нам потребуется, и вернёт новую, готовую к использованию функцию:
a_stand_alone_function_decorated = my_shiny_new_decorator(a_stand_alone_function)
a_stand_alone_function_decorated()
#выведет:
# Я - код, который отработает до вызова функции
# Я простая одинокая функция, ты ведь не посмеешь меня изменять?..
# А я - код, срабатывающий после


Я простая одинокая функция, ты ведь не посмеешь меня изменять?..
Я - код, который отработает до вызова функции
Я простая одинокая функция, ты ведь не посмеешь меня изменять?..
А я - код, срабатывающий после


In [84]:
@my_shiny_new_decorator
def another_alone_func():
    print("Ok")
another_alone_func()

Я - код, который отработает до вызова функции
Ok
А я - код, срабатывающий после


In [88]:
from numba import njit, cuda

@njit
def f_numba(n):
    s = 0.
    for i in range(n):
        s += i ** 0.5
    return s

def f(n):
    s = 0.
    for i in range(n):
        s += i ** 0.5
    return s


# @cuda.jit
# def f_cuda(n):
#     s = 0.
#     for i in range(n):
#         s += i ** 0.5
#     return s

In [86]:
%timeit f_numba(1000)

1.57 µs ± 47.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [85]:
%timeit f(1000)

162 µs ± 2.53 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


ValueError: 
Kernel launch configuration was not specified. Use the syntax:

kernel_function[blockspergrid, threadsperblock](arg0, arg1, ..., argn)

See https://numba.pydata.org/numba-doc/latest/cuda/kernels.html#kernel-invocation for help.



2. Создайте таблицу 2млн строк и с 4 столбцами, заполненными случайными числами. Добавьте столбец `key`, которые содержит элементы из множества английских букв. Выберите из таблицы подмножество строк, для которых в столбце `key` указаны первые 5 английских букв.

In [102]:
import pandas as pd
col_names = ['first', 'second', 'third', 'fourth']
my_data = pd.DataFrame(np.random.randint(0, 5000, size=(2_000_000, 4)),
                  columns=col_names)
alfa = 'abcdefghijklmnopqrstuvwxyz'
my_data['key'] = np.random.choice(list(alfa), 2_000_000)
my_data

Unnamed: 0,first,second,third,fourth,key
0,2135,1104,1049,604,z
1,144,3644,823,4895,m
2,1550,3577,2647,4792,z
3,4188,1600,3604,2480,y
4,1321,1850,4428,3234,r
...,...,...,...,...,...
1999995,1262,219,1927,1872,v
1999996,1976,1428,749,2472,x
1999997,108,2702,1047,212,u
1999998,4883,2474,3992,2506,h


In [109]:
def find_naiv_pd(data):
    first_letters = ['a', 'b', 'c', 'd', 'e']
    res = []
    for lett in first_letters:
        res.append(data[data['key']==lett])
    return pd.concat(res, axis=0)
find_naiv_pd(my_data)

Unnamed: 0,first,second,third,fourth,key
33,2418,4416,3446,1519,a
47,1071,3556,1499,2291,a
49,797,3370,2645,2553,a
69,1958,504,3905,3332,a
104,2889,4508,4534,4797,a
...,...,...,...,...,...
1999875,1693,4556,4113,3714,e
1999896,3902,768,1803,3712,e
1999913,1840,2382,1336,1776,e
1999931,1816,727,4862,3618,e


In [105]:
def find_str(data):
    return data[data["key"].str.contains("a|b|c|d|e")]

In [123]:
def find_isin(df):
    first_5 = list(alfa)[:5]
    return df[df['key'].isin(set(first_5))]

In [111]:
%timeit find_naiv_pd(my_data)

448 ms ± 9.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [112]:
%timeit find_str(my_data)

635 ms ± 5.55 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [124]:
%timeit find_isin(my_data)

73.5 ms ± 2.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Лабораторная работа 3

In [1]:
!pip install line_profiler
!pip install memory_profiler

Collecting memory_profiler
  Downloading memory_profiler-0.58.0.tar.gz (36 kB)
Building wheels for collected packages: memory-profiler
  Building wheel for memory-profiler (setup.py): started
  Building wheel for memory-profiler (setup.py): finished with status 'done'
  Created wheel for memory-profiler: filename=memory_profiler-0.58.0-py3-none-any.whl size=30183 sha256=10e8e19ced44a0d52253694f8d6991e3d71302e7351083c58ab1c41a880033ef
  Stored in directory: c:\users\rerx1\appdata\local\pip\cache\wheels\6a\37\3e\d9e8ebaf73956a3ebd2ee41869444dbd2a702d7142bcf93c42
Successfully built memory-profiler
Installing collected packages: memory-profiler
Successfully installed memory-profiler-0.58.0


1. В файлах `recipes_sample.csv` и `reviews_sample.csv` (__ЛР 2__) находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами. Приведите столбцы к нужным типам.

Реализуйте несколько вариантов функции подсчета среднего значения столбца `rating` из таблицы `reviews` для отзывов, оставленных в 2010 году.

A. С использованием метода `DataFrame.iterrows` исходной таблицы;

Б. С использованием метода `DataFrame.iterrows` таблицы, в которой сохранены только отзывы за 2010 год;

В. С использованием метода `Series.mean`.

Проверьте, что результаты работы всех написанных функций корректны и совпадают. Измерьте выполнения всех написанных функций.


In [169]:
import pandas as pd
recipes = pd.read_csv("recipes_sample.csv", sep=',',parse_dates=["submitted"])
reviews = pd.read_csv("reviews_sample.csv", sep="," , parse_dates=['date'])
recipes_and_reviews = recipes.merge(reviews, how='left', left_on='id', right_on='recipe_id')
recipes_and_reviews[recipes_and_reviews['id'] == 131082]

Unnamed: 0.1,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,Unnamed: 0,user_id,recipe_id,date,rating,review
74278,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952266.0,1018029.0,131082.0,2009-03-07,5.0,This is a fabulous recipe. I make it every wee...
74279,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952260.0,169430.0,131082.0,2007-01-22,4.0,Very tasty! I made this for tonights dinner an...
74280,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952267.0,508087.0,131082.0,2010-01-12,4.0,"We really liked this casserole, but i did chan..."
74281,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952041.0,120566.0,131082.0,2005-08-08,3.0,"Made for Zaartag. If I made this again, I woul..."
74282,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952259.0,199848.0,131082.0,2006-08-07,4.0,"For a low-fat recipe, it's pretty darn good. ..."
74283,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952261.0,136997.0,131082.0,2007-08-17,4.0,I didn't choose this recipe for the low fat id...
74284,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952262.0,226066.0,131082.0,2007-08-19,5.0,This was a healthy filling dish!! Added more ...
74285,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952268.0,894563.0,131082.0,2010-05-28,1.0,"Really really gross...I put black olives, broc..."
74286,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952269.0,148221.0,131082.0,2014-09-29,3.0,"This had a great texture but, like others, I f..."
74287,low fat vegetable and pasta casserole,131082,60,121690,2005-07-25,13.0,a good casserole for dieters.,14.0,952263.0,37036.0,131082.0,2007-12-07,3.0,"I love the idea of this being low-fat, but it ..."


In [149]:
recipes_test = recipes[:5]
def A(rec, rew):
    recipes_and_reviews = rec.merge(rew, how='left', left_on='id', right_on='recipe_id')
    my_dict_sum = dict.fromkeys(list(set(recipes_and_reviews['id'])), 0)
    my_dict_kolvo = dict.fromkeys(list(set(recipes_and_reviews['id'])), 0)
    my_kolvo = 0
    for index, line in recipes_and_reviews.iterrows():

        if pd.to_datetime('31/12/2009', format='%d/%m/%Y') <= line['date'] <= pd.to_datetime('31/12/2010', format='%d/%m/%Y'):
            my_dict_sum[line['id']] += line['rating']
            my_dict_kolvo[line['id']] += 1
    result_dict = {k: my_dict_sum[k] / float(my_dict_kolvo[k]) for k in my_dict_sum if k in my_dict_kolvo and my_dict_kolvo[k] != 0}
    dfObj = pd.DataFrame.from_dict(result_dict, orient='index', columns=['mean_rate'])
    return dfObj
recipes_review = A(recipes, reviews)
recipes_review

Unnamed: 0,mean_rate
262144,5.000000
131082,3.666667
131087,5.000000
131088,4.875000
131090,4.857143
...,...
131024,5.000000
131027,4.500000
131034,5.000000
131044,4.611111


In [154]:
def C(rec, rev):
    recipes_reviews_df = rec.merge(rev, how='left', left_on='id', right_on='recipe_id')
    groupby_recipe = recipes_reviews_df.groupby('id')
    mean_recipe_ratings = groupby_recipe['rating'].mean()
    return mean_recipe_ratings
C(recipes,reviews)

id
48        1.000000
55        4.750000
66        4.944444
91        4.750000
94        5.000000
            ...   
536547    5.000000
536610    0.000000
536728    4.000000
536729    4.750000
536747    0.000000
Name: rating, Length: 30000, dtype: float64

In [69]:
d = {'1': 2, '2': 4, '3': 9}
d['1'] += 2
d['1']

4

2. Какая из созданных функций выполняется медленнее? Что наиболее сильно влияет на скорость выполнения? Для ответа использовать профайлер `line_profiler`. Сохраните результаты работы профайлера в отдельную текстовую ячейку и прокомментируйте результаты его работы.

(*). Сможете ли вы ускорить работу функции 1Б, отказавшись от использования метода `iterrows`, но не используя метод `mean`?

In [155]:
%load_ext line_profiler

The line_profiler extension is already loaded. To reload it, use:
  %reload_ext line_profiler


In [156]:
%reload_ext line_profiler

In [157]:
%load_ext memory_profiler

The memory_profiler extension is already loaded. To reload it, use:
  %reload_ext memory_profiler


In [84]:
%lprun?

In [158]:
%%prun
res = A(recipes, reviews)

 

3. Вам предлагается воспользоваться функцией, которая собирает статистику о том, сколько отзывов содержат то или иное слово. Измерьте время выполнения этой функции. Сможете ли вы найти узкие места в коде, используя профайлер? Выпишите (словами), что в имеющемся коде реализовано неоптимально. Оптимизируйте функцию и добейтесь значительного (как минимум, на один порядок) прироста в скорости выполнения.

In [160]:
def get_word_reviews_count(df):
    word_reviews = {} #словарь 
    for _, row in df.dropna(subset=['review']).iterrows():
        recipe_id, review = row['recipe_id'], row['review']
        words = review.split(' ')
        for word in words:
            if word not in word_reviews:
                word_reviews[word] = []
            word_reviews[word].append(recipe_id)

    word_reviews_count = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        review = row['review']
        words = review.split(' ')
        for word in words:
            word_reviews_count[word] = len(word_reviews[word])
    return word_reviews_count
get_word_reviews_count(reviews[:100])

{'Last': [57993],
 'week': [57993],
 'whole': [57993, 299881, 504709, 299498, 115110, 72761],
 'sides': [57993],
 'of': [57993,
  57993,
  57993,
  57993,
  142201,
  142201,
  252013,
  404716,
  33715,
  11252,
  11252,
  11252,
  21171,
  49200,
  51209,
  320714,
  320714,
  320714,
  213395,
  213395,
  213395,
  213395,
  171615,
  328668,
  44010,
  105102,
  105102,
  352053,
  90485,
  75168,
  13707,
  121352,
  142472,
  29121,
  29121,
  29121,
  29121,
  504709,
  428423,
  428423,
  370125,
  370125,
  370125,
  15787,
  299498,
  89207,
  89207,
  89207,
  178833,
  307870,
  307870,
  54715,
  53878,
  53878,
  31656,
  428289,
  428289,
  20568,
  20568,
  135350,
  54715,
  54715,
  173284,
  17566,
  49139,
  8969,
  72761,
  99272,
  99272,
  9272,
  9272,
  9272,
  9272,
  70909],
 'frozen': [57993, 11252, 90485, 90485, 280223, 20568],
 'salmon': [57993, 57993, 57993, 57993],
 'fillet': [57993],
 'was': [57993,
  57993,
  199579,
  33715,
  285773,
  109536,
  2117

In [159]:
%lprun -f get_word_reviews_count get_word_reviews_count(reviews)

In [161]:
%timeit get_word_reviews_count(reviews)

22.3 s ± 433 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [164]:
%memit get_word_reviews_count_2(reviews)

peak memory: 466.57 MiB, increment: 81.51 MiB


In [115]:
def get_word_reviews_count_2(df):
    word_reviews = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        recipe_id, review = row['recipe_id'], row['review']
        words = review.split(' ')
        for word in words:
            if word not in word_reviews:
                word_reviews[word] = []
            word_reviews[word].append(recipe_id)

    word_reviews_count = {}
    for wr in word_reviews:
        word_reviews_count[wr] = len(word_reviews[wr])
    return word_reviews_count
get_word_reviews_count_2(reviews[:100])


{'Last': 1,
 'week': 1,
 'whole': 6,
 'sides': 1,
 'of': 74,
 'frozen': 6,
 'salmon': 4,
 'fillet': 1,
 'was': 51,
 'on': 44,
 'sale': 2,
 'in': 49,
 'my': 26,
 'local': 1,
 'supermarket,': 1,
 'so': 43,
 'I': 226,
 'bought': 1,
 'tons': 2,
 '(okay,': 1,
 'only': 14,
 '3,': 1,
 'but': 31,
 'total': 1,
 'weight': 1,
 'over': 3,
 '10': 1,
 'pounds).': 1,
 '': 182,
 'This': 27,
 'recipe': 37,
 'is': 40,
 'perfect': 4,
 'for': 89,
 'fillet,': 1,
 'even': 4,
 'though': 2,
 'it': 89,
 'calls': 1,
 'steaks.': 1,
 'cut': 6,
 'up': 11,
 'the': 205,
 'into': 6,
 'individual': 1,
 'portions': 1,
 'and': 183,
 'followed': 5,
 'instructions': 1,
 'exactly.': 1,
 "I'm": 5,
 'one': 14,
 'those': 2,
 'food': 1,
 'combining': 1,
 'diets,': 1,
 'left': 2,
 'out': 18,
 'white': 5,
 'wine': 5,
 'added': 20,
 'just': 21,
 'a': 127,
 'dash': 1,
 'vinegar': 3,
 'instead': 9,
 '(just': 1,
 'little': 13,
 'bit,': 1,
 'not': 18,
 'enough': 2,
 'to': 97,
 'change': 5,
 'taste': 5,
 'dish).': 1,
 'Super': 1,
 'yu

In [148]:
#не работает, нафиг
def get_word_reviews_count_3(df):
    my_dict = dict.fromkeys(list(set(df['review'])), 0)
    print(my_dict)
#     print(rev)
#     print(rev[0])
#     for _, row in df.dropna(subset=['review']).iterrows():
#         recipe_id, review = row['recipe_id'], row['review']
#         words = review.split(' ')
        
#         for word in words:
#             if word not in word_reviews:
#                 word_reviews[word] = []
#             word_reviews[word].append(recipe_id)
#     word_reviews_count = {}
#     
get_word_reviews_count_3(reviews[:5])

{'These are a favorite for the holidays and so easy my children make them. We also use Rolo candies in place of the kisses.': 0, "So simple and so tasty!  I used a yellow capsicum in place of the green because that's what I had on hand.  This came together so fast.  Perfect meal if you don't have a lot of time.  Easy, healthy and tasty.  Thanks Stardustannie!  Made for PAC Fall 2007.": 0, 'Very nice breakfast HH, easy to make and yummy with fresh hot coffe.  Instead of toast I served on recipe #97694 by Paula G that I had made earlier and turned out great.  This will be a regular in our house - even DH loved them.': 0, 'Excellent soup!  The tomato flavor is just great.  Made this for freezer tag and the soup froze beautifully.  I prepared as directed and then allowed to cool and froze in a freezer container.  I thawed in the fridge and reheated on the stovetop.  Worked perfectly!': 0, "Last week whole sides of frozen salmon fillet was on sale in my local supermarket, so I bought tons (

In [117]:
lprun -f get_word_reviews_count_2 get_word_reviews_count_2(reviews)

Получается, самое дорогое удовольствие - iterrows(). Надо делать его как то по другому.

In [162]:
%timeit get_word_reviews_count_2(reviews)

11.1 s ± 165 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


4. Напишите несколько версий функции `MAPE` (см. [MAPE](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)) для расчета среднего абсолютного процентного отклонения значения рейтинга отзыва на рецепт от среднего значения рейтинга по всем отзывам для этого рецепта. 
    1. Без использования векторизованных операций и методов массивов `numpy` и без использования `numba`
    2. Без использования векторизованных операций и методов массивов `numpy`, но с использованием `numba`
    3. С использованием векторизованных операций и методов массивов `numpy`, но без использования `numba`
    4. C использованием векторизованных операций и методов массивов `numpy` и `numba`
    
Измерьте время выполнения каждой из реализаций.

Замечание: удалите из выборки отзывы с нулевым рейтингом.


In [177]:
#y_pred - это типо наше среднее по рецепту
#y_true - это наша оценка отзыву
#для 131082:
#y_true_1 = 5
#y_pred_1 = 3.66 ...
def С_mean_absolute_percentage_error(y_true, y_pred): 
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

result = C(recipes,reviews)
for r in result:
    print(r)

1.0
4.75
4.944444444444445
4.75
5.0
5.0
0.0
3.923076923076923
5.0
2.6666666666666665
4.777777777777778
4.071428571428571
3.0
3.857142857142857
4.62962962962963
5.0
5.0
2.6666666666666665
5.0
4.818181818181818
4.75
5.0
2.0
2.0
3.75
5.0
5.0
4.625
4.666666666666667
5.0
4.0
3.0
5.0
3.0
4.461538461538462
5.0
3.8
5.0
5.0
4.428571428571429
4.666666666666667
4.833333333333333
4.0
5.0
4.5
5.0
4.0
4.5
4.111111111111111
4.0
4.0
4.3076923076923075
5.0
4.0
4.042105263157895
3.0
4.714285714285714
3.75
0.0
1.0
4.333333333333333
nan
5.0
4.75
4.111111111111111
5.0
5.0
3.3333333333333335
5.0
5.0
3.0
3.75
4.666666666666667
1.5
5.0
4.5
3.0
1.5
3.6666666666666665
5.0
4.741935483870968
5.0
4.142857142857143
4.8
4.0
4.0
4.0
3.5
3.3333333333333335
4.333333333333333
4.0
2.0
5.0
4.875
4.0
4.5
5.0
nan
5.0
5.0
4.5
nan
5.0
5.0
5.0
5.0
4.375
5.0
4.5
4.0
4.857142857142857
4.75
3.3333333333333335
5.0
1.5
4.0
4.75
5.0
nan
0.0
5.0
4.0
5.0
3.923076923076923
4.571428571428571
3.6666666666666665
5.0
5.0
0.0
nan
4.81818181

5.0
5.0
nan
4.5
4.0
4.857142857142857
5.0
4.666666666666667
nan
4.0
4.36
3.0
4.0
5.0
5.0
4.0
2.5
4.833333333333333
4.8
4.5
5.0
4.339622641509434
4.538461538461538
4.5
5.0
5.0
5.0
5.0
4.5
5.0
5.0
4.0
nan
5.0
4.5
5.0
2.3333333333333335
2.8
2.25
5.0
4.0
4.0
4.0
4.333333333333333
2.0
5.0
4.5
5.0
5.0
4.142857142857143
nan
4.5
5.0
4.666666666666667
4.39344262295082
5.0
4.857142857142857
5.0
4.846153846153846
4.615384615384615
4.0
4.75
4.0
5.0
4.636363636363637
nan
4.5
4.444444444444445
5.0
2.5
4.7272727272727275
5.0
4.0
4.8
3.75
5.0
4.2
5.0
4.666666666666667
5.0
4.531914893617022
5.0
4.0476190476190474
5.0
2.5
4.714285714285714
4.833333333333333
4.0
5.0
5.0
2.5
5.0
nan
4.5
4.882352941176471
4.666666666666667
5.0
5.0
2.5
4.571428571428571
4.0
4.5
4.75
4.8
5.0
4.666666666666667
5.0
5.0
5.0
4.285714285714286
0.0
5.0
5.0
5.0
4.8
4.0
2.0
0.0
5.0
5.0
4.824561403508772
4.0
2.1666666666666665
4.0
5.0
4.666666666666667
5.0
3.0
4.666666666666667
5.0
5.0
3.0
4.527272727272727
3.5
4.1
5.0
5.0
4.75
5.0
4

4.0
3.0
4.0
5.0
5.0
4.0
4.0
3.75
4.5
3.0
3.0
5.0
5.0
5.0
4.0
5.0
5.0
5.0
4.741935483870968
4.666666666666667
5.0
5.0
3.0
5.0
4.5
4.0
nan
4.8
5.0
3.8
4.944444444444445
5.0
5.0
5.0
5.0
4.75
4.666666666666667
5.0
4.0
4.5
5.0
4.0
4.545454545454546
5.0
4.0
4.333333333333333
4.5
4.0
4.0
5.0
4.333333333333333
5.0
4.0
5.0
4.403381642512077
4.0
1.0
4.333333333333333
4.0
5.0
5.0
5.0
4.330097087378641
4.0
nan
4.0
3.7027027027027026
4.333333333333333
5.0
4.626086956521739
4.5
5.0
5.0
5.0
3.0
4.0
4.5
4.75
4.333333333333333
5.0
5.0
4.0
5.0
3.0
4.0
5.0
4.5
5.0
5.0
4.75
4.111111111111111
4.571428571428571
4.0
5.0
4.714285714285714
5.0
5.0
5.0
3.3333333333333335
4.586206896551724
4.363636363636363
4.529411764705882
5.0
4.75
5.0
5.0
5.0
5.0
4.75
3.75
4.75
3.0
4.0
4.368421052631579
4.5
5.0
5.0
4.8
1.6666666666666667
4.666666666666667
nan
nan
4.75
3.75
4.666666666666667
nan
4.0
4.428571428571429
5.0
4.0
5.0
4.5
5.0
5.0
4.666666666666667
4.846153846153846
5.0
5.0
2.0
5.0
5.0
5.0
5.0
4.5
4.5
4.1428571428571

5.0
5.0
5.0
5.0
nan
5.0
4.909090909090909
3.2
2.5
5.0
4.6
4.5
3.5
4.5
4.375
3.8666666666666667
4.0
5.0
1.0
4.333333333333333
4.689655172413793
4.882352941176471
4.466666666666667
5.0
5.0
4.0
5.0
5.0
4.0
4.0
3.5
5.0
4.625
4.909090909090909
4.666666666666667
5.0
4.0
5.0
5.0
3.3333333333333335
0.5
4.5
5.0
4.5
4.666666666666667
4.0
5.0
4.666666666666667
4.5
5.0
4.0
5.0
4.684210526315789
5.0
4.5
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
4.0
5.0
5.0
5.0
5.0
4.246153846153846
4.0
4.5
4.777777777777778
5.0
5.0
4.5
5.0
nan
4.642857142857143
nan
nan
2.0
0.0
4.6923076923076925
5.0
2.5
4.888888888888889
5.0
5.0
5.0
nan
4.5
5.0
4.571428571428571
nan
4.5
5.0
3.75
3.3333333333333335
5.0
4.888888888888889
3.75
4.0
5.0
3.6666666666666665
3.0
5.0
4.0
4.85
3.0
5.0
4.0
4.5
5.0
5.0
4.75
5.0
5.0
5.0
5.0
5.0
5.0
5.0
4.857142857142857
5.0
5.0
3.0
4.5
4.5
2.0
4.888888888888889
5.0
2.0
4.375
5.0
4.166666666666667
5.0
4.4
5.0
4.5
nan
4.0
nan
5.0
5.0
4.0
5.0
5.0
nan
5.0
3.6
4.5
5.0
3.8
4.722222222222222
5.0
4.566666666

4.666666666666667
5.0
1.6666666666666667
5.0
5.0
5.0
nan
1.0
nan
4.333333333333333
5.0
5.0
3.0
5.0
5.0
2.0
5.0
2.0
4.75
nan
5.0
5.0
5.0
nan
4.1923076923076925
5.0
4.75
4.0
4.5
3.3333333333333335
5.0
4.0
5.0
5.0
2.5
5.0
5.0
5.0
5.0
5.0
5.0
2.5
4.0
5.0
5.0
3.0
5.0
4.5
5.0
4.0
5.0
4.0
1.0
5.0
3.0
4.5
5.0
4.5
3.0
nan
4.833333333333333
nan
4.0
5.0
5.0
4.0
5.0
5.0
5.0
4.0
4.8
5.0
4.25
3.0
nan
nan
4.666666666666667
4.666666666666667
4.777777777777778
2.5
4.0
5.0
3.0
nan
2.5
5.0
4.0
nan
3.7142857142857144
5.0
nan
4.666666666666667
4.0
4.0
5.0
3.75
5.0
4.0
1.0
5.0
4.0
4.076923076923077
4.923076923076923
4.0
2.0
5.0
4.0
4.5
nan
4.0
5.0
nan
2.6666666666666665
5.0
4.0
3.6
5.0
5.0
4.0
4.666666666666667
4.2
5.0
nan
5.0
4.5
3.75
4.666666666666667
5.0
4.714285714285714
2.0
4.666666666666667
3.8
4.8
5.0
5.0
5.0
5.0
4.0
5.0
5.0
5.0
4.5
5.0
nan
4.5
4.2
4.5
5.0
5.0
5.0
5.0
1.0
4.5
5.0
4.0
4.166666666666667
4.0
3.3333333333333335
3.0
5.0
nan
5.0
4.0
4.714285714285714
4.5
nan
5.0
4.75
3.8
4.5
4.0
5.0
2.0
5.

5.0
5.0
5.0
3.0
4.666666666666667
4.714285714285714
4.0
4.363636363636363
2.0
nan
5.0
4.0
5.0
5.0
4.461538461538462
4.8
5.0
4.0
5.0
4.8
5.0
3.6666666666666665
4.625
4.666666666666667
4.0
4.666666666666667
5.0
5.0
4.5
4.0
5.0
4.666666666666667
5.0
5.0
5.0
5.0
4.333333333333333
4.5
5.0
5.0
5.0
5.0
4.5
4.6
4.0
nan
nan
5.0
5.0
4.666666666666667
0.0
4.0
nan
5.0
4.923076923076923
4.315789473684211
nan
5.0
5.0
5.0
4.0
5.0
4.684210526315789
5.0
5.0
4.0
5.0
4.142857142857143
4.0
5.0
2.5
4.5
3.5
5.0
4.0
4.5
5.0
3.0
3.3333333333333335
nan
2.5
4.666666666666667
4.0
4.0
5.0
5.0
5.0
4.64
5.0
5.0
4.333333333333333
5.0
5.0
5.0
nan
4.0
4.0
5.0
5.0
3.5
4.75
3.0
5.0
5.0
5.0
5.0
nan
4.0
4.75
5.0
5.0
4.0
4.0
5.0
3.8181818181818183
5.0
3.6
4.0
4.0
5.0
4.333333333333333
3.5
5.0
5.0
4.666666666666667
4.0
4.478260869565218
2.5
4.0
4.0
5.0
5.0
5.0
5.0
5.0
4.8
5.0
4.5
4.0
3.0
2.5
3.0
5.0
5.0
2.6666666666666665
5.0
4.5
5.0
4.333333333333333
5.0
5.0
5.0
5.0
nan
3.0
3.75
5.0
4.666666666666667
3.625
4.0
5.0
nan
3.0


3.3333333333333335
4.5
5.0
5.0
0.0
2.142857142857143
4.333333333333333
4.0
5.0
4.875
4.5
5.0
4.875
5.0
5.0
5.0
nan
5.0
4.5
5.0
5.0
3.0
5.0
5.0
4.0
3.6666666666666665
4.125
4.8
5.0
5.0
5.0
nan
5.0
4.0
nan
nan
5.0
5.0
4.5
5.0
4.5
5.0
nan
2.6666666666666665
2.0
4.0
5.0
5.0
4.5
5.0
4.666666666666667
5.0
4.2727272727272725
3.0
5.0
3.3333333333333335
3.3333333333333335
4.944444444444445
5.0
5.0
2.5
4.0
5.0
nan
4.6923076923076925
nan
5.0
4.0
4.0
3.0
5.0
nan
5.0
3.0
5.0
5.0
1.0
5.0
4.0
5.0
nan
5.0
5.0
4.9
5.0
4.333333333333333
5.0
3.3333333333333335
5.0
5.0
5.0
4.5
5.0
5.0
5.0
2.0
4.333333333333333
0.0
5.0
4.0
5.0
4.75
4.0
5.0
5.0
4.857142857142857
5.0
5.0
nan
3.5
4.5
5.0
4.0
4.142857142857143
4.0
5.0
4.416666666666667
0.0
4.0
5.0
4.0
5.0
3.0
5.0
4.428571428571429
5.0
4.5
4.5
3.3333333333333335
5.0
4.0
4.2
4.5
5.0
4.5
nan
5.0
4.666666666666667
4.0
4.4
0.0
5.0
4.5
4.5
4.5
5.0
5.0
4.333333333333333
4.0
5.0
5.0
4.0
4.666666666666667
nan
nan
5.0
5.0
5.0
4.75
5.0
5.0
4.333333333333333
3.57142857142

5.0
4.857142857142857
5.0
5.0
5.0
5.0
5.0
5.0
4.0
5.0
5.0
5.0
4.5
5.0
4.25
5.0
2.5
5.0
5.0
5.0
4.0
nan
5.0
5.0
4.0
2.6666666666666665
5.0
4.5
4.666666666666667
5.0
4.4
nan
4.681818181818182
4.0
5.0
0.0
0.5
5.0
5.0
5.0
5.0
4.0
5.0
4.0
5.0
4.0
4.0
3.0
5.0
5.0
nan
5.0
5.0
nan
5.0
4.428571428571429
4.0
4.75
5.0
5.0
5.0
5.0
4.0
4.333333333333333
4.0
nan
3.3333333333333335
4.5
5.0
0.0
4.0
5.0
5.0
4.75
4.0
3.3333333333333335
5.0
5.0
5.0
4.8
2.5
5.0
3.0
5.0
5.0
5.0
1.0
5.0
4.666666666666667
4.5
4.0
5.0
3.0
5.0
3.0
5.0
5.0
4.0
4.0
3.0
nan
3.7142857142857144
4.75
4.666666666666667
nan
4.0
5.0
4.0
3.3333333333333335
nan
4.714285714285714
nan
5.0
4.0
5.0
nan
3.0
4.0
4.0
4.666666666666667
nan
5.0
5.0
4.5
5.0
5.0
5.0
nan
0.0
4.75
5.0
3.3333333333333335
5.0
2.25
5.0
3.0
5.0
5.0
nan
5.0
3.9
5.0
5.0
5.0
5.0
5.0
5.0
5.0
3.0
4.0
4.4
5.0
5.0
5.0
4.5
5.0
5.0
4.0
5.0
nan
3.0
5.0
4.6
nan
4.888888888888889
5.0
5.0
5.0
4.6875
5.0
5.0
0.0
4.6
5.0
4.857142857142857
2.5
4.444444444444445
5.0
4.5
5.0
3.66666666666

3.0
5.0
5.0
5.0
5.0
5.0
3.6
2.625
5.0
4.0
5.0
4.75
0.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
3.5
4.0
5.0
nan
nan
5.0
5.0
4.875
5.0
3.875
5.0
4.0
4.666666666666667
5.0
0.0
4.0
5.0
nan
5.0
5.0
5.0
5.0
5.0
4.0
1.5
nan
4.0
5.0
nan
3.3333333333333335
5.0
3.5
5.0
5.0
3.0
5.0
5.0
5.0
5.0
4.0
5.0
5.0
5.0
4.0
0.0
4.363636363636363
5.0
5.0
3.5
4.0
0.0
4.0
5.0
5.0
5.0
nan
3.75
5.0
5.0
5.0
4.0
5.0
4.333333333333333
5.0
5.0
5.0
4.0
4.0
2.0
nan
4.666666666666667
4.857142857142857
4.125
5.0
3.0
5.0
5.0
nan
4.666666666666667
nan
4.0
nan
4.5
5.0
3.0
nan
5.0
5.0
5.0
5.0
5.0
nan
5.0
5.0
nan
5.0
nan
5.0
5.0
5.0
5.0
5.0
5.0
nan
3.5
4.0
4.8
5.0
5.0
5.0
4.0
4.666666666666667
4.5
5.0
2.5
5.0
5.0
4.285714285714286
3.3333333333333335
5.0
5.0
5.0
5.0
5.0
0.0
2.857142857142857
5.0
3.75
5.0
4.0
3.888888888888889
5.0
5.0
5.0
0.0
5.0
4.0
5.0
5.0
nan
5.0
5.0
5.0
5.0
5.0
5.0
4.0
5.0
3.6666666666666665
5.0
5.0
5.0
5.0
0.0
4.5
5.0
5.0
5.0
0.0
5.0
0.0
4.5
5.0
5.0
5.0
5.0
1.0
5.0
5.0
4.0
4.0
4.833333333333333
nan
4.0
5.0
4.6666

5.0
4.5
5.0
5.0
5.0
5.0
5.0
5.0
nan
5.0
5.0
4.833333333333333
5.0
4.0
5.0
4.25
4.0
5.0
5.0
4.333333333333333
3.0
4.6
5.0
4.666666666666667
4.0
5.0
4.0
5.0
5.0
5.0
5.0
5.0
nan
4.0
3.0
5.0
3.6666666666666665
5.0
5.0
4.0
nan
0.0
5.0
4.0
4.666666666666667
5.0
5.0
4.0
5.0
4.285714285714286
5.0
3.5
5.0
5.0
4.0
5.0
4.0
4.5
5.0
4.0
5.0
4.8
4.75
4.0
4.5
0.0
5.0
5.0
4.0
4.75
3.0
1.0
5.0
5.0
4.0
4.5
5.0
4.5
4.888888888888889
4.0
5.0
5.0
4.666666666666667
5.0
0.0
5.0
4.0
nan
5.0
3.3333333333333335
5.0
4.9
5.0
2.0
1.0
5.0
5.0
5.0
nan
4.0
5.0
5.0
5.0
4.333333333333333
5.0
4.0
5.0
nan
0.0
5.0
2.0
5.0
2.4444444444444446
3.5
2.0
4.0
4.5
5.0
5.0
nan
5.0
5.0
5.0
5.0
4.166666666666667
4.0
2.0
5.0
5.0
5.0
5.0
0.0
5.0
0.0
5.0
nan
nan
5.0
4.0
5.0
3.3333333333333335
nan
3.75
5.0
5.0
nan
2.0
4.5
3.0
3.0
3.3333333333333335
5.0
4.5
5.0
nan
4.666666666666667
5.0
5.0
nan
5.0
5.0
5.0
5.0
2.5
3.0
4.0
5.0
5.0
5.0
5.0
5.0
0.0
3.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
5.0
3.0
5.0
0.0
5.0
3.6444444444444444
3.3333333333333335
5.0

In [None]:
def A_mean_absolute_percentage_error(y_true, y_pred):
    

#### [версия 2]
* Уточнены формулировки задач 1, 3, 4