## Оптимизация выполнения кода, векторизация, Numba

Материалы:
* Макрушин С.В. Лекция 3: Оптимизация выполнения кода, векторизация, Numba
* IPython Cookbook, Second Edition (2018), глава 4
* https://numba.pydata.org/numba-doc/latest/user/5minguide.html

## Задачи для совместного разбора

1. Сгенерируйте массив `A` из `N=1млн` случайных целых чисел на отрезке от 0 до 1000. Пусть `B[i] = A[i] + 100`. Посчитайте среднее значение массива `B`.

In [None]:
import numpy as np
import numba
A = np.random.randint (0,1000,size=(1_000_000))

@numba.njit
def f1(A):
  acc,cnt = 0,0
  for ai in A:
    bi=ai+100
    acc+=bi
    cnt+=1
  return acc/cnt


%timeit f1(A)

%lprun -f f1 f1(A)

The slowest run took 264.15 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 5: 438 µs per loop


UsageError: Line magic function `%lprun` not found.


2. Создайте таблицу 2млн строк и с 4 столбцами, заполненными случайными числами. Добавьте столбец `key`, которые содержит элементы из множества английских букв. Выберите из таблицы подмножество строк, для которых в столбце `key` указаны первые 5 английских букв.

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(0, 1000, size=(2_000_000, 4)),
                  columns=['col1', 'col2', 'col3', 'col4'])
letters = ['a', 'b', 'c', 'd', 'e', 'f', 'g']
df['key'] = np.random.choice(letters, 2_000_000, replace=True)
#lettersS= ['a', 'b', 'c', 'd', 'e']
letters=letters[0:5]
print (letters)

#@numba.njit
def g(df, letters):
    
    dfs = []
    for letter in letters:
        q = df[df['key']==letter]
        dfs.append(q)
    return pd.concat(dfs, axis=0)

%timeit g(df,letters ) #
%lprun -f g  g(df, letters)

['a', 'b', 'c', 'd', 'e']
1 loop, best of 5: 667 ms per loop


## Лабораторная работа 3

In [2]:
!pip install line_profiler

Collecting line_profiler
  Downloading line_profiler-3.3.0-cp37-cp37m-manylinux2010_x86_64.whl (63 kB)
[?25l[K     |█████▏                          | 10 kB 29.2 MB/s eta 0:00:01[K     |██████████▎                     | 20 kB 23.7 MB/s eta 0:00:01[K     |███████████████▍                | 30 kB 18.0 MB/s eta 0:00:01[K     |████████████████████▌           | 40 kB 15.8 MB/s eta 0:00:01[K     |█████████████████████████▋      | 51 kB 8.4 MB/s eta 0:00:01[K     |██████████████████████████████▉ | 61 kB 7.9 MB/s eta 0:00:01[K     |████████████████████████████████| 63 kB 2.4 MB/s 
Installing collected packages: line-profiler
Successfully installed line-profiler-3.3.0


In [3]:
%load_ext line_profiler

1. В файлах `recipes_sample.csv` и `reviews_sample.csv` (__ЛР 2__) находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами. Приведите столбцы к нужным типам.

Реализуйте несколько вариантов функции подсчета среднего значения столбца `rating` из таблицы `reviews` для отзывов, оставленных в 2010 году.

A. С использованием метода `DataFrame.iterrows` исходной таблицы;

Б. С использованием метода `DataFrame.iterrows` таблицы, в которой сохранены только отзывы за 2010 год;

В. С использованием метода `Series.mean`.

Проверьте, что результаты работы всех написанных функций корректны и совпадают. Измерьте выполнения всех написанных функций.


In [None]:
#С использованием метода DataFrame.iterrows исходной таблицы;

import numpy as np
import pandas as pd




recipes  = pd.read_csv('/content/recipes_sample.csv', sep =',', names=["name","id","minutes","contributor_id","submitted","n_steps","description","n_ingredients"])
reviews = pd.read_csv('/content/reviews_sample.csv', sep =',', names=["ID","user_id","recipe_id","date","rating","review"], skiprows=1)
reviews['rating']=pd.to_numeric(reviews['rating'])

#reviews['date'] = pd.to_datetime(reviews['date'])
#reviews["date">"2009-12-30" and "date"<"2011-01-01" ]


def task_A(reviews,arr):
  #reviews=reviews.loc[(reviews['date'] >= '2009-31-12') & (reviews['date'] < '2011-01-01')]
  for i , rows in reviews.iterrows():
    arr=np.append(arr,int(rows[4]))
  return (np.mean(arr))

arr=np.array([])

%timeit print(task_A(reviews,arr))

%lprun -f  task_A  task_A(reviews, arr)

4.410802235271832
4.410802235271832
4.410802235271832
4.410802235271832
4.410802235271832
4.410802235271832
1 loop, best of 5: 25 s per loop


In [None]:
#С использованием метода DataFrame.iterrows таблицы, в которой сохранены только отзывы за 2010 год; 

import numpy as np
import pandas as pd

recipes  = pd.read_csv('/content/recipes_sample.csv', sep =',', names=["name","id","minutes","contributor_id","submitted","n_steps","description","n_ingredients"])
reviews = pd.read_csv('/content/reviews_sample.csv', sep =',', names=["ID","user_id","recipe_id","date","rating","review"], skiprows=1)
reviews['rating']=pd.to_numeric(reviews['rating'])
reviews=reviews.loc[(reviews['date'] >= '2009-31-12') & (reviews['date'] < '2011-01-01')]

def task_B(reviews,arr):
  #reviews=reviews.loc[(reviews['date'] >= '2009-31-12') & (reviews['date'] < '2011-01-01')]
  for i , rows in reviews.iterrows():
    arr=np.append(arr,int(rows[4]))
  return (np.mean(arr))

arr=np.array([])

%timeit print(task_B(reviews,arr))

%lprun -f  task_B  task_B(reviews,arr)



4.4544402182900615
4.4544402182900615
4.4544402182900615
4.4544402182900615
4.4544402182900615
4.4544402182900615
1 loop, best of 5: 1.29 s per loop


In [1]:
#С использованием метода Series.mean.

import numpy as np
import pandas as pd

recipes  = pd.read_csv('/content/recipes_sample.csv', sep =',', names=["name","id","minutes","contributor_id","submitted","n_steps","description","n_ingredients"])
reviews = pd.read_csv('/content/reviews_sample.csv', sep =',', names=["ID","user_id","recipe_id","date","rating","review"])


def Task_C(reviews):
  return (reviews.mean())

%timeit print(Task_C(reviews))

%lprun -f  Task_C  Task_C(reviews)

ParserError: ignored

2. Какая из созданных функций выполняется медленнее? Что наиболее сильно влияет на скорость выполнения? Для ответа использовать профайлер `line_profiler`. Сохраните результаты работы профайлера в отдельную текстовую ячейку и прокомментируйте результаты его работы.

(*). Сможете ли вы ускорить работу функции 1Б, отказавшись от использования метода `iterrows`, но не используя метод `mean`?



3. Вам предлагается воспользоваться функцией, которая собирает статистику о том, сколько отзывов содержат то или иное слово. Измерьте время выполнения этой функции. Сможете ли вы найти узкие места в коде, используя профайлер? Выпишите (словами), что в имеющемся коде реализовано неоптимально. Оптимизируйте функцию и добейтесь значительного (как минимум, на один порядок) прироста в скорости выполнения.

In [None]:
# def get_word_reviews_count(df):
#     word_reviews = {}
#     for _, row in df.dropna(subset=['review']).iterrows():
#         recipe_id, review = row['recipe_id'], row['review']
#         words = review.split(' ')
#         for word in words:
#             if word not in word_reviews:
#                 word_reviews[word] = []
#             word_reviews[word].append(recipe_id)
    
#     word_reviews_count = {}
#     for _, row in df.dropna(subset=['review']).iterrows():
#         review = row['review']
#         words = review.split(' ')
#         for word in words:
#             word_reviews_count[word] = len(word_reviews[word])
#     return word_reviews_count


import numba
import pandas as pd




def get_word_reviews_count(df):
    word_reviews = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        recipe_id, review = row['recipe_id'], row['review']
        words = review.split(' ')
        for word in words:
            if word not in word_reviews:
                word_reviews[word] = []
            word_reviews[word].append(recipe_id)
    
    word_reviews_count = {}
    for _, row in df.dropna(subset=['review']).iterrows():
        review = row['review']
        words = review.split(' ')
        for word in words:
            word_reviews_count[word] = len(word_reviews[word])
    return word_reviews_count

reviews = pd.read_csv('/content/reviews_sample.csv', sep =',', names=["ID","user_id","recipe_id","date","rating","review"])
#get_word_reviews_count(reviews)

%lprun -f  get_word_reviews_count  get_word_reviews_count(reviews)

{'review': 1143,
 'Last': 94,
 'week': 804,
 'whole': 5628,
 'sides': 312,
 'of': 109029,
 'frozen': 2647,
 'salmon': 729,
 'fillet': 60,
 'was': 88781,
 'on': 34583,
 'sale': 149,
 'in': 61539,
 'my': 44144,
 'local': 561,
 'supermarket,': 10,
 'so': 46090,
 'I': 285147,
 'bought': 1369,
 'tons': 161,
 '(okay,': 5,
 'only': 13965,
 '3,': 48,
 'but': 42513,
 'total': 381,
 'weight': 160,
 'over': 9065,
 '10': 2303,
 'pounds).': 2,
 '': 214145,
 'This': 39448,
 'recipe': 41098,
 'is': 55075,
 'perfect': 4398,
 'for': 121224,
 'fillet,': 14,
 'even': 7878,
 'though': 2314,
 'it': 111175,
 'calls': 520,
 'steaks.': 93,
 'cut': 6688,
 'up': 13585,
 'the': 266050,
 'into': 7031,
 'individual': 314,
 'portions': 156,
 'and': 217849,
 'followed': 4859,
 'instructions': 731,
 'exactly.': 571,
 "I'm": 7145,
 'one': 15086,
 'those': 2287,
 'food': 2413,
 'combining': 74,
 'diets,': 5,
 'left': 4690,
 'out': 23644,
 'white': 3425,
 'wine': 1256,
 'added': 21710,
 'just': 24944,
 'a': 166136,
 'da

4. Напишите несколько версий функции `MAPE` (см. [MAPE](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)) для расчета среднего абсолютного процентного отклонения значения рейтинга отзыва на рецепт от среднего значения рейтинга по всем отзывам для этого рецепта. 
    1. Без использования векторизованных операций и методов массивов `numpy` и без использования `numba`
    2. Без использования векторизованных операций и методов массивов `numpy`, но с использованием `numba`
    3. С использованием векторизованных операций и методов массивов `numpy`, но без использования `numba`
    4. C использованием векторизованных операций и методов массивов `numpy` и `numba`
    
Измерьте время выполнения каждой из реализаций.

Замечание: удалите из выборки отзывы с нулевым рейтингом.


In [None]:
#Без использования векторизованных операций и методов массивов numpy и без использования numba



In [None]:
#Без использования векторизованных операций и методов массивов numpy, но с использованием numba



In [None]:
#С использованием векторизованных операций и методов массивов numpy, но без использования numba



In [None]:
#C использованием векторизованных операций и методов массивов numpy и numba

