# Параллельные вычисления

Материалы:
* Макрушин С.В. Лекция 10: Параллельные вычисления
* https://docs.python.org/3/library/multiprocessing.html

## Задачи для совместного разбора

1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`. 

In [1]:
%%file count_letters.py
from collections import Counter
def count_letters(file):
    with open(file, encoding='windows-1251') as fp:
        text = fp.read().lower()
    return Counter(text)

Writing count_letters.py


In [61]:
from count_letters import count_letters

In [4]:
%%time

count_letters('Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt')
count_letters('Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt')

CPU times: user 158 ms, sys: 9.51 ms, total: 167 ms
Wall time: 167 ms


Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс. 

In [62]:
import multiprocessing as mp

In [6]:
%time
if __name__ == '__main__':
    files = ['Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt',
       'Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt']
    with mp.Pool(processes=len(files)) as pool:
        counters = pool.map(count_letters, files)

CPU times: user 7 µs, sys: 1 µs, total: 8 µs
Wall time: 19.8 µs


In [7]:
type(counters)

list

In [8]:
counters[1]

Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

Фрагмент одного из файлов, которые должны получиться в результате:
```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


In [92]:
import csv

In [70]:
with open('recipes_full.csv', 'r', encoding='utf-8') as f:
    text = f.readlines()
    size = len(text)
print(size)

2578848


In [71]:
2578848/9

286538.6666666667

In [72]:
files = open('recipes_full.csv')
recipes = csv.reader(files)
for item in recipes:
    header = item
    break
header

['name',
 'id',
 'minutes',
 'contributor_id',
 'submitted',
 'tags',
 'n_steps',
 'steps',
 'description',
 'ingredients',
 'n_ingredients']

In [73]:
file_no = 1
data = ['id;tag;n_steps']
for index, item in enumerate(recipes):
    indx = item[1]
    tags = item[5][2:-2].split("', '")
    n_steps = item[6]    
    for tag in tags:
        data.append(f'{indx};{tag};{n_steps}')        
    if index >= file_no*286538:
        file = open(f'id_tag_nsteps_{file_no}.csv', 'w')
        file.write('\n'.join(data))
        file.close()
        file_no += 1
        data = ['id;tag;n_steps']

file = open(f'id_tag_nsteps_{file_no}.csv', 'w')
file.write('\n'.join(data))
file.close()

files.close()

2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

In [74]:
def mean_tags(file):
    dic = dict()
    f = open(file, encoding='utf-8')
    text = csv.reader(f, delimiter=';')
    for index, item in enumerate(text):
        if index == 0:
            continue
        if item[1] in dic:
            dic[item[1]][0] += float(item[2])
            dic[item[1]][1] += 1
        else:
            dic[item[1]] = [float(item[2]), 1]
    for t in dic:
        dic[t] = dic[t][0]/dic[t][1]
    f.close()
    return dic

In [75]:
mean_tags('id_tag_nsteps_8.csv')

{'pheasant': 3.5566502463054186,
 'raspberries': 4.051792828685259,
 'macaroni-and-cheese': 3.5141333333333336,
 'shakes': 3.4577729962345347,
 'christmas': 6.098872180451128,
 'bread-pudding': 3.5205627705627704,
 'presentation': 7.083935649335509,
 'stove-top': 7.251225490196078,
 'wild-game': 3.702139037433155,
 'picnic': 5.126108754338604,
 'clear-soups': 3.6445974576271185,
 'chutneys': 3.6363168724279835,
 'sandwiches': 4.8566721581548595,
 'bass': 3.5392156862745097,
 'american': 7.591064600523244,
 'pasta-rice-and-grains': 7.881244522348817,
 'lamb-sheep': 4.079484425349087,
 'lettuces': 3.7401159725882973,
 '15-minutes-or-less': 4.988817136556938,
 'time-to-make': 9.27423292911207,
 'course': 9.283267567794475,
 'cuisine': 9.223249909321726,
 'preparation': 9.290747147003858,
 'north-american': 8.259885300332025,
 'salads': 4.97710843373494,
 'caribbean': 3.958144225920323,
 'easy': 7.24316339150749,
 'central-american': 4.011851851851852,
 'salad-dressings': 3.702427184466019

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


In [76]:
# убираем находнение самого среднего из функции
def mean_tags_3(file):
    dic = dict()
    f = open(file, encoding='utf-8')
    text = csv.reader(f, delimiter=';')
    for index, item in enumerate(text):
        if index == 0:
            continue
        if item[1] in dic:
            dic[item[1]][0] += float(item[2])
            dic[item[1]][1] += 1
        else:
            dic[item[1]] = [float(item[2]), 1]
    f.close()
    return dic

In [77]:
def all_mean(all_files):
    all_dict = dict()
    for files_dict in all_files:
        for znach in files_dict:
            if znach in all_dict:
                all_dict[znach][0] += files_dict[znach][0]
                all_dict[znach][1] += files_dict[znach][1]
            else:
                all_dict[znach] = files_dict[znach]
    for el in all_dict:
        all_dict[el] = float(all_dict[el][0])/float(all_dict[el][1])
    return all_dict

In [78]:
%%time
all_files = []
for i in range(1, 9, 1):
    all_files.append(mean_tags_3(f'id_tag_nsteps_{i}.csv'))
no_3 = all_mean(all_files)

CPU times: user 16.1 s, sys: 844 ms, total: 16.9 s
Wall time: 17 s


In [79]:
no_3

{'mexican': 5.302344316442439,
 'healthy-2': 6.384162244806188,
 'orange-roughy': 3.513425052701653,
 'chicken-thighs-legs': 4.145581465931509,
 'freezer': 4.033042234819468,
 'whitefish': 3.514734127201888,
 'pork-sausage': 4.256068444090729,
 'brunch': 6.871661962657403,
 'ham-and-bean-soup': 3.508423254789694,
 'colombian': 3.5359842260926717,
 'savory-pies': 4.298328243879716,
 'refrigerator': 4.702350782137551,
 'australian': 4.218603314493725,
 'served-cold': 4.911663673979233,
 'spaghetti': 4.0825152293208475,
 'passover': 3.658676110051757,
 'quick-breads': 5.058895036887995,
 'californian': 3.74143203627544,
 'namibian': 3.5042895887529752,
 'candy': 4.229612689762553,
 'independence-day': 4.10637159533074,
 'baking': 3.6306821245618766,
 'pennsylvania-dutch': 3.5471966710468683,
 'weeknight': 7.413649806241077,
 '60-minutes-or-less': 9.413654300607185,
 'time-to-make': 9.278520775418526,
 'course': 9.274676657987765,
 'cuisine': 9.17006030766978,
 'preparation': 9.29343297028

4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

In [96]:
%%file mean_tags_4.py
import csv
def mean_tags_4(file):
    dic = dict()
    f = open(file, encoding='utf-8')
    text = csv.reader(f, delimiter=';')
    for index, item in enumerate(text):
        if index == 0:
            continue
        if item[1] in dic:
            dic[item[1]][0] += float(item[2])
            dic[item[1]][1] += 1
        else:
            dic[item[1]] = [float(item[2]), 1]
    f.close()
    return dic

Overwriting mean_tags_4.py


In [None]:
from mean_tags_4 import mean_tags_4

5. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди `multiprocessing.queue` передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы. 