# Параллельные вычисления

Материалы:
* Макрушин С.В. Лекция 10: Параллельные вычисления
* https://docs.python.org/3/library/multiprocessing.html

## Задачи для совместного разбора

1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`. 

In [1]:
%%file scr/count_letters.py
from collections import Counter
def count_letters(file):
    with open(file, 'r', encoding="windows-1251") as fp:
        text = fp.read().lower()
    return Counter(text)

Overwriting scr/count_letters.py


In [2]:
from scr.count_letters import count_letters

In [3]:
%%time
count_letters(r"./data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt")
count_letters(r"./data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt")

CPU times: user 268 ms, sys: 13.9 ms, total: 282 ms
Wall time: 305 ms


Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс. 

In [4]:
import multiprocessing as mp

In [5]:
mp.cpu_count()

4

In [6]:
%%time
if __name__ == '__main__':
    files = [r"./data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt",
             r"./data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt"]

    with mp.Pool(processes=len(files)) as pool:
        counters = pool.map(count_letters, files)

CPU times: user 19.7 ms, sys: 26.8 ms, total: 46.5 ms
Wall time: 507 ms


In [7]:
type(counters)

list

In [8]:
counters[1]

Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

Фрагмент одного из файлов, которые должны получиться в результате:
```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


In [9]:
import csv
from itertools import islice

In [10]:
# сначала проверим правильность вывода на разрезе 4х первых строк
with open('./data/recipes_full.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',')
    header = next(spamreader)
    print(';'.join([header[1], header[5][:-1], header[6]])) #header
    for row in islice(spamreader, 1, 4):
        for tag in row[5][2:-2].split("', '"):
            print(';'.join([row[1], tag, row[6]]))  #other rows

id;tag;n_steps
1089012;brunch;1
1089012;ham-and-bean-soup;1
1089012;colombian;1
1089012;savory-pies;1
1089012;refrigerator;1
1089012;australian;1
1089012;served-cold;1
1089012;spaghetti;1
1428572;passover;1
1428572;quick-breads;1
1428572;californian;1
1428572;namibian;1
1428572;candy;1
1428572;independence-day;1
1400250;baking;3
1400250;pennsylvania-dutch;3


In [11]:
# посчитаем, сколько всего строк, учитывая каждый тег
rows_sum = 0
with open('./data/recipes_full.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',')
    for row in spamreader:
        rows_sum += len(row[5][2:-2].split("', '"))

In [12]:
rows_sum

14139118

In [13]:
%%time
# разделим наш файл

count = 0
current_piece = 0
file_size = rows_sum / 8
#  заодно создадим список, который понадобится ниже
list_of_files = []

with open('./data/recipes_full.csv', newline='') as csvfile:
    rows = csv.reader(csvfile, delimiter=',')
    headers_row = next(rows)
    header = [headers_row[1], headers_row[5][:-1], headers_row[6]]
    for row in rows:
        if count >= file_size * current_piece:
            current_piece += 1
            list_of_files.append(f"id_tag_nsteps_{current_piece}.csv")
            current_out_writer = csv.writer(open(f"./result/id_tag_nsteps_{current_piece}.csv", 'w'), delimiter=";")
            current_out_writer.writerow(header)
        for tag in row[5][2:-2].split("', '"):
            current_out_writer.writerow([row[1], tag, row[6]])
            count += 1   

print(f'cоздано {current_piece} файлов')

cоздано 8 файлов
CPU times: user 47.1 s, sys: 1.75 s, total: 48.8 s
Wall time: 50.3 s


In [14]:
list_of_files

['id_tag_nsteps_1.csv',
 'id_tag_nsteps_2.csv',
 'id_tag_nsteps_3.csv',
 'id_tag_nsteps_4.csv',
 'id_tag_nsteps_5.csv',
 'id_tag_nsteps_6.csv',
 'id_tag_nsteps_7.csv',
 'id_tag_nsteps_8.csv']

2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

In [15]:
def get_average_n_steps_for_tag(filename):
    
    average_n_steps_for_tag = {} 
    with open('./result/' + filename,  "r+") as csvfile:
        rows = csv.reader(csvfile, delimiter=';')
        header = next(rows)
        for row in rows:
            if row[1] in average_n_steps_for_tag.keys():
                average_n_steps_for_tag[row[1]][0] += int(row[2])
                average_n_steps_for_tag[row[1]][1] += 1
            else:
                average_n_steps_for_tag[row[1]] = [int(row[2]), 1]
    for idx, vals in average_n_steps_for_tag.items():
        average_n_steps_for_tag.update({idx : (vals[0] / vals[1])})
    return average_n_steps_for_tag

In [16]:
%%time
ex_2 = get_average_n_steps_for_tag('id_tag_nsteps_1.csv')
ex_2

CPU times: user 3.55 s, sys: 121 ms, total: 3.67 s
Wall time: 4.25 s


{'mexican': 5.303058103975535,
 'healthy-2': 6.329397250616849,
 'orange-roughy': 3.4424083769633507,
 'chicken-thighs-legs': 4.184166666666667,
 'freezer': 3.915526950925181,
 'whitefish': 3.5147697654213728,
 'pork-sausage': 4.286551993745113,
 'brunch': 6.901175446234219,
 'ham-and-bean-soup': 3.511842105263158,
 'colombian': 3.574593128390597,
 'savory-pies': 4.296676241280263,
 'refrigerator': 4.7434328895286075,
 'australian': 4.254426481909161,
 'served-cold': 4.936741214057508,
 'spaghetti': 4.12940212940213,
 'passover': 3.631768953068592,
 'quick-breads': 4.971067509145327,
 'californian': 3.7412353923205344,
 'namibian': 3.495137046861185,
 'candy': 4.303065580131936,
 'independence-day': 4.138330757341577,
 'baking': 3.590048436811977,
 'pennsylvania-dutch': 3.536144578313253,
 'weeknight': 7.400040428542551,
 '60-minutes-or-less': 9.342522151615501,
 'time-to-make': 9.248066298342541,
 'course': 9.241699153111977,
 'cuisine': 9.133372076129595,
 'preparation': 9.2928390793

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


In [17]:
def get_average_n_steps_for_tag(file):
    dict_el = {}        
    with open('./result/' + file,  "r+") as csvfile:
        rows = csv.reader(csvfile, delimiter=';')
        header = next(rows)
        for row in rows:
            if row[1] in dict_el.keys():
                dict_el[row[1]][0] += int(row[2])
                dict_el[row[1]][1] += 1
            else:
                dict_el[row[1]] = [int(row[2]), 1]
    return dict_el


def get_final_dict(filelist):
    dict_list = []
    for file in filelist:
        dict_list.append(get_average_n_steps_for_tag(file))
    final_dict = dict_list[0]
    for dct in dict_list[1:]:
        for dct_id, dct_vals in dct.items():
            if dct_id in final_dict.keys():
                final_dict[dct_id][0] += dct_vals[0]
                final_dict[dct_id][1] += dct_vals[1]
            else:
                final_dict[dct_id] = [dct_vals[0], dct_vals[1]]
    for idx, vals in final_dict.items():
        final_dict.update({idx : (vals[0] / vals[1])})
    return final_dict

In [18]:
%%time
ex_3 = get_final_dict(list_of_files)

CPU times: user 21.5 s, sys: 312 ms, total: 21.9 s
Wall time: 22.7 s


In [19]:
ex_3

{'mexican': 5.301792547834844,
 'healthy-2': 6.384162244806188,
 'orange-roughy': 3.5135644937586683,
 'chicken-thighs-legs': 4.145581465931509,
 'freezer': 4.033042234819468,
 'whitefish': 3.514734127201888,
 'pork-sausage': 4.255981694274486,
 'brunch': 6.871549922653133,
 'ham-and-bean-soup': 3.508423254789694,
 'colombian': 3.5359842260926717,
 'savory-pies': 4.298328243879716,
 'refrigerator': 4.702294079091108,
 'australian': 4.218603314493725,
 'served-cold': 4.911663673979233,
 'spaghetti': 4.0825152293208475,
 'passover': 3.658676110051757,
 'quick-breads': 5.059023265562775,
 'californian': 3.74143203627544,
 'namibian': 3.5042895887529752,
 'candy': 4.229612689762553,
 'independence-day': 4.10637159533074,
 'baking': 3.6306821245618766,
 'pennsylvania-dutch': 3.5471966710468683,
 'weeknight': 7.413649806241077,
 '60-minutes-or-less': 9.413654300607185,
 'time-to-make': 9.278496606153682,
 'course': 9.274675167972768,
 'cuisine': 9.169982611878833,
 'preparation': 9.293398651

4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

In [20]:
%%file scr/get_average_n_steps_for_tag.py

import csv

def get_average_n_steps_for_tag(filename):
    
    average_n_steps_for_tag = {} 
    with open('./result/' + filename,  "r") as csvfile:
        rows = csv.reader(csvfile, delimiter=';')
        header = next(rows)
        for row in rows:
            if row[1] in average_n_steps_for_tag.keys():
                average_n_steps_for_tag[row[1]][0] += int(row[2])
                average_n_steps_for_tag[row[1]][1] += 1
            else:
                average_n_steps_for_tag[row[1]] = [int(row[2]), 1]
    return average_n_steps_for_tag

Overwriting scr/get_average_n_steps_for_tag.py


In [21]:
import multiprocessing as mp

In [22]:
from  scr.get_average_n_steps_for_tag import get_average_n_steps_for_tag

In [23]:
def get_final_dict(dict_list):
    final_dict = dict_list[0]
    for dct in dict_list[1:]:
        for dct_id, dct_vals in dct.items():
            if dct_id in final_dict.keys():
                final_dict[dct_id][0] += dct_vals[0]
                final_dict[dct_id][1] += dct_vals[1]
            else:
                final_dict[dct_id] = [dct_vals[0], dct_vals[1]]
    for idx, vals in final_dict.items():
        final_dict.update({idx : (vals[0] / vals[1])})
    return final_dict

In [24]:
%%time
if __name__ == '__main__':
    with mp.Pool(processes=8) as pool:
        dicti = pool.map(get_average_n_steps_for_tag, list_of_files)
        ex_4 = get_final_dict(dicti)

CPU times: user 30.1 ms, sys: 41.3 ms, total: 71.4 ms
Wall time: 12.4 s


In [25]:
ex_3 == ex_4

True

In [26]:
ex_4

{'mexican': 5.301792547834844,
 'healthy-2': 6.384162244806188,
 'orange-roughy': 3.5135644937586683,
 'chicken-thighs-legs': 4.145581465931509,
 'freezer': 4.033042234819468,
 'whitefish': 3.514734127201888,
 'pork-sausage': 4.255981694274486,
 'brunch': 6.871549922653133,
 'ham-and-bean-soup': 3.508423254789694,
 'colombian': 3.5359842260926717,
 'savory-pies': 4.298328243879716,
 'refrigerator': 4.702294079091108,
 'australian': 4.218603314493725,
 'served-cold': 4.911663673979233,
 'spaghetti': 4.0825152293208475,
 'passover': 3.658676110051757,
 'quick-breads': 5.059023265562775,
 'californian': 3.74143203627544,
 'namibian': 3.5042895887529752,
 'candy': 4.229612689762553,
 'independence-day': 4.10637159533074,
 'baking': 3.6306821245618766,
 'pennsylvania-dutch': 3.5471966710468683,
 'weeknight': 7.413649806241077,
 '60-minutes-or-less': 9.413654300607185,
 'time-to-make': 9.278496606153682,
 'course': 9.274675167972768,
 'cuisine': 9.169982611878833,
 'preparation': 9.293398651

5. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди `multiprocessing.queue` передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы. 

In [27]:
%%file scr/solution_QUEUE.py

from multiprocessing import Pool, Queue
import csv

def get_average_n_steps_for_tag(filename):
    
    average_n_steps_for_tag = {} 
    with open('./result/' + filename,  "r+") as csvfile:
        rows = csv.reader(csvfile, delimiter=';')
        header = next(rows)
        for row in rows:
            if row[1] in average_n_steps_for_tag.keys():
                average_n_steps_for_tag[row[1]][0] += int(row[2])
                average_n_steps_for_tag[row[1]][1] += 1
            else:
                average_n_steps_for_tag[row[1]] = [int(row[2]), 1]
    return average_n_steps_for_tag

def solution(q_in, q_out):
    while True:
        link = q_in.get()
        q_out.put(get_average_n_steps_for_tag(link))

Overwriting scr/solution_QUEUE.py


In [28]:
int(mp.cpu_count()/2)

2

In [30]:
%%time

import multiprocessing as mp
from scr.solution_QUEUE import solution

if __name__ == '__main__':
    N = 2
    q_in = mp.Queue()
    q_out = mp.Queue()
    dict_lst = []
    
    for file in list_of_files:
        q_in.put(file)
        
    processes = []
    for i in range(int(mp.cpu_count()/2)):
        process = mp.Process(target=solution, args=(q_in, q_out))
        processes.append(process)
    
    for process in processes:
        process.start()
    
    for _ in list_of_files:
        result = q_out.get()
        dict_lst.append(result)
    
    ex_5= get_final_dict(dict_lst)

CPU times: user 13.4 ms, sys: 14.3 ms, total: 27.7 ms
Wall time: 10.3 s


In [31]:
ex_5 == ex_4

True