# Параллельные вычисления

Материалы:
* Макрушин С.В. Лекция 10: Параллельные вычисления
* https://docs.python.org/3/library/multiprocessing.html

## Задачи для совместного разбора

1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`.

In [None]:
%%time
from collections import Counter
with open ('Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt') as f:
    count = Counter(f.read().lower())
    print(f'Количество каждого символа в файле Prestuplenie i nakazanie: {count}\n')

with open ('Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt') as f:
    count = Counter(f.read().lower())
    print(f'Количество каждого символа в файле Igrok: {count}')

Количество каждого символа в файле Prestuplenie i nakazanie: Counter({' ': 182305, 'о': 106740, 'е': 80972, 'а': 73555, 'и': 62030, 'н': 60920, 'т': 59813, 'с': 50084, 'в': 43700, 'л': 42328, 'р': 39784, 'к': 30802, 'д': 29633, 'м': 29312, 'у': 27309, ',': 26973, 'п': 25652, 'ь': 20554, 'я': 19751, 'ч': 16492, 'г': 16174, 'б': 16016, 'ы': 15449, 'з': 14414, 'ж': 10552, '.': 9864, 'й': 9747, '\n': 8583, 'х': 8127, 'ш': 7437, '—': 6440, '\xa0': 6092, 'ю': 5418, '-': 3558, '!': 3280, 'э': 3203, 'щ': 3039, 'ц': 2782, '?': 2266, '…': 2263, ';': 1322, 'ф': 1237, '«': 1187, '»': 1175, ':': 984, 'ё': 969, '(': 528, ')': 527, '1': 384, '8': 297, '6': 271, 'i': 235, 'ъ': 223, 'e': 162, '2': 141, '5': 136, '4': 130, '7': 121, '3': 120, 'n': 114, '0': 110, 'o': 104, '9': 100, 'a': 98, 't': 98, 's': 96, 'u': 86, '[': 85, ']': 85, 'r': 76, 'v': 65, 'm': 54, 'x': 52, '–': 49, 'h': 48, '\t': 48, 'l': 46, '№': 45, '„': 44, '“': 44, 'c': 42, 'd': 38, 'p': 29, 'b': 25, 'f': 23, '/': 22, '&': 22, '#': 22,

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс.

In [None]:
%%file symb_count_.py
def symb_count(file, output):
     with open(file) as new_file:
            dct = {}
            for elem in new_file.read():
                if elem in dct.keys():
                    dct[elem] += 1
                else:
                    dct[elem] = 1
            output.put(dct)

Overwriting symb_count_.py


In [None]:
import symb_count_

In [None]:
%%time
import multiprocessing as mp
from collections import Counter

output = mp.Queue()
processes1 = mp.Process(target=symb_count_.symb_count,
                        args=('Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt', output))

processes2 = mp.Process(target=symb_count_.symb_count,
                        args=('Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt', output))

processes = [processes1, processes2]

# Run
for p in processes:
    p.start()

# Exit (wait exit) the completed processes
for p in processes:
    p.join()

# Get process results from the output queue
results = [output.get() for p in processes]

for res in results:
    print(res)
    print()

{'С': 147, 'п': 5021, 'а': 17948, 'с': 11360, 'и': 13405, 'б': 3873, 'о': 22832, ',': 6372, ' ': 45076, 'ч': 4011, 'т': 14063, 'к': 6563, 'л': 9948, 'н': 13773, 'г': 3731, 'у': 5993, 'в': 9021, 'е': 19969, 'й': 2028, 'э': 728, 'р': 9421, 'B': 151, 'o': 371, 'k': 21, 's': 422, 'C': 35, 'a': 579, 'f': 49, 'e': 1191, '.': 2954, 'N': 7, 't': 324, ':': 212, 'h': 223, 'p': 88, '/': 20, 'b': 69, 'c': 289, 'n': 452, '\n': 2734, 'В': 377, 'u': 283, 'r': 303, 'd': 185, 'v': 71, 'i': 343, 'y': 8, '_': 4, '-': 900, '1': 46, '0': 22, '9': 36, '6': 42, 'm': 354, 'l': 568, 'Э': 108, 'ж': 2289, 'д': 6384, 'х': 1520, 'ф': 591, 'м': 6899, 'g': 73, '2': 42, '4': 42, '7': 42, 'П': 468, 'я': 5090, '!': 718, 'Ф': 43, 'М': 207, 'Д': 297, 'И': 182, '(': 276, 'з': 3266, ')': 276, 'Г': 217, 'I': 26, 'Н': 467, 'ц': 817, 'ь': 4857, 'ш': 1917, 'ы': 3869, 'Р': 61, 'Я': 368, 'Б': 107, 'ю': 1323, ';': 406, 'К': 181, 'щ': 587, 'А': 288, '?': 571, 'ъ': 63, 'З': 89, 'Е': 85, 'Т': 182, '—': 1726, '\xa0': 1472, '…': 280, 

In [None]:
%%time
def symb_count(file):
    for f in file:
        with open(f) as new_file:
            dct = {}
            for elem in new_file.read():
                if elem in dct.keys():
                    dct[elem] += 1
                else:
                    dct[elem] = 1
            print(dct)
#             print(dict(Counter(new_file.read().lower())))
            print()
symb_count(['Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt', 'Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt'])

{'С': 147, 'п': 5021, 'а': 17948, 'с': 11360, 'и': 13405, 'б': 3873, 'о': 22832, ',': 6372, ' ': 45076, 'ч': 4011, 'т': 14063, 'к': 6563, 'л': 9948, 'н': 13773, 'г': 3731, 'у': 5993, 'в': 9021, 'е': 19969, 'й': 2028, 'э': 728, 'р': 9421, 'B': 151, 'o': 371, 'k': 21, 's': 422, 'C': 35, 'a': 579, 'f': 49, 'e': 1191, '.': 2954, 'N': 7, 't': 324, ':': 212, 'h': 223, 'p': 88, '/': 20, 'b': 69, 'c': 289, 'n': 452, '\n': 2734, 'В': 377, 'u': 283, 'r': 303, 'd': 185, 'v': 71, 'i': 343, 'y': 8, '_': 4, '-': 900, '1': 46, '0': 22, '9': 36, '6': 42, 'm': 354, 'l': 568, 'Э': 108, 'ж': 2289, 'д': 6384, 'х': 1520, 'ф': 591, 'м': 6899, 'g': 73, '2': 42, '4': 42, '7': 42, 'П': 468, 'я': 5090, '!': 718, 'Ф': 43, 'М': 207, 'Д': 297, 'И': 182, '(': 276, 'з': 3266, ')': 276, 'Г': 217, 'I': 26, 'Н': 467, 'ц': 817, 'ь': 4857, 'ш': 1917, 'ы': 3869, 'Р': 61, 'Я': 368, 'Б': 107, 'ю': 1323, ';': 406, 'К': 181, 'щ': 587, 'А': 288, '?': 571, 'ъ': 63, 'З': 89, 'Е': 85, 'Т': 182, '—': 1726, '\xa0': 1472, '…': 280, 


|1|2|3|
|---|---|---|
|383 ms|975 ms|941 ms|

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


In [None]:
import csv

In [None]:
with open ("recipes_full.csv", encoding='utf-8') as f:
    reader = csv.reader(f)
    rows = list(reader)

In [None]:
print(len(rows))

2231638


In [None]:
cur = 1
for i in range(1, 9):
    file_name = f'id_tag_nsteps_{i}.csv'
    writer = []
    for j in range(cur, cur + 278955):
        writer.append([rows[j][1], rows[j][5], rows[j][6]])
    with open(file_name, 'w', newline='', encoding='utf-8') as new_file:
        csvwriter = csv.writer(new_file, delimiter = ";", lineterminator="\r")
        csvwriter.writerow(['id', 'tag', 'n_steps'])
        for row in writer:
            csvwriter.writerow(row)
        writer = []
    if i != 7:
        cur += 278955
    else:
        cur += 278952

In [None]:
# import pandas as pd
# fill_rec = pd.read_csv("recipes_full.csv", usecols=['id', 'tags', 'steps'])
# display(fill_rec)

2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

In [None]:
import pandas as pd
def av_tag(file):
    df = pd.read_csv(file, delimiter=';')
    tags = df['tag'].tolist()
    n_steps = df['n_steps'].tolist()
    for i in range(len(tags)):
        tags[i] = eval(tags[i])
    dct = {i: [] for tag in tags for i in tag}
    for tag in range(len(tags)):
        for i in tags[tag]:
            dct[i].append(n_steps[tag])
    for i in dct:
        dct[i] = sum(dct[i]) / len(dct[i])
    return dct

In [None]:
%%time
av_tag('id_tag_nsteps_5.csv')

Wall time: 8.88 s


{'stocks': 3.6019677996422184,
 'ethiopian': 3.4918032786885247,
 'time-to-make': 9.240661985296542,
 'melons': 3.614401363442693,
 'fall': 5.552158840214308,
 'tomatoes': 4.718677685950413,
 'course': 9.266593789498856,
 'main-ingredient': 9.273389881079238,
 'preparation': 9.243271121426039,
 'occasion': 9.056126482213438,
 'appetizers': 6.216008537886873,
 'lunch': 6.588714368819081,
 'snacks': 4.904416403785489,
 'beef': 6.963386727688787,
 'oven': 8.31882607970652,
 'holiday-event': 8.109446652399878,
 'kid-friendly': 6.972277586519297,
 'dietary': 8.774731300723843,
 'low-carb': 7.160738345459445,
 'ground-beef': 5.647796817625459,
 'low-in-something': 8.006496519721578,
 'meat': 8.882655797490079,
 'super-bowl': 3.6576842105263156,
 'equipment': 8.545900880037054,
 'presentation': 7.004158004158004,
 'served-hot': 6.3243170862346005,
 '4-hours-or-less': 10.064928909952606,
 'rabbit': 3.482789855072464,
 'poultry': 7.636125163949784,
 'toddler-friendly': 4.593484419263456,
 'chic

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы иметь возможность получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


In [None]:
import pandas as pd
def av_tag(files, flag=False):
    frames = []
    for file in files:
        frames.append(pd.read_csv(file, delimiter=';'))
    df = pd.concat(frames, ignore_index=True)
    display(df)
    tags = df['tag'].tolist()
    n_steps = df['n_steps'].tolist()
    for i in range(len(tags)):
        tags[i] = eval(tags[i])
    dct = {i: [] for tag in tags for i in tag}
    for tag in range(len(tags)):
        for i in tags[tag]:
            dct[i].append(n_steps[tag])
    for i in dct:
        dct[i] = sum(dct[i]) / len(dct[i])
    print(f'Для файлов: {files}: {dct}')

In [None]:
%%time
av_tag(['id_tag_nsteps_1.csv', 'id_tag_nsteps_2.csv', 'id_tag_nsteps_3.csv', 'id_tag_nsteps_4.csv',
        'id_tag_nsteps_5.csv', 'id_tag_nsteps_6.csv', 'id_tag_nsteps_7.csv', 'id_tag_nsteps_8.csv'])

Unnamed: 0,id,tag,n_steps
0,683970,"['mexican', 'healthy-2', 'orange-roughy', 'chi...",4
1,1089012,"['brunch', 'ham-and-bean-soup', 'colombian', '...",1
2,1428572,"['passover', 'quick-breads', 'californian', 'n...",1
3,1400250,"['baking', 'pennsylvania-dutch']",3
4,387709,"['weeknight', '60-minutes-or-less', 'time-to-m...",8
...,...,...,...
2231635,1029131,['veggie-burgers'],4
2231636,1700703,"['college', 'savory', 'beef-liver']",6
2231637,1910650,"['high-in-something-diabetic-friendly', 'pasta...",3
2231638,713836,['honduran'],4


Для файлов: ['id_tag_nsteps_1.csv', 'id_tag_nsteps_2.csv', 'id_tag_nsteps_3.csv', 'id_tag_nsteps_4.csv', 'id_tag_nsteps_5.csv', 'id_tag_nsteps_6.csv', 'id_tag_nsteps_7.csv', 'id_tag_nsteps_8.csv']: {'mexican': 5.302344316442439, 'healthy-2': 6.384162244806188, 'orange-roughy': 3.513425052701653, 'chicken-thighs-legs': 4.145581465931509, 'freezer': 4.033042234819468, 'whitefish': 3.514734127201888, 'pork-sausage': 4.256068444090729, 'brunch': 6.871661962657403, 'ham-and-bean-soup': 3.508423254789694, 'colombian': 3.5359842260926717, 'savory-pies': 4.298328243879716, 'refrigerator': 4.702350782137551, 'australian': 4.218603314493725, 'served-cold': 4.911663673979233, 'spaghetti': 4.0825152293208475, 'passover': 3.658676110051757, 'quick-breads': 5.058895036887995, 'californian': 3.74143203627544, 'namibian': 3.5042895887529752, 'candy': 4.229612689762553, 'independence-day': 4.10637159533074, 'baking': 3.6306821245618766, 'pennsylvania-dutch': 3.5471966710468683, 'weeknight': 7.413649806

4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

In [None]:
def avg_all_files(files):


5. (*) Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы.