# Параллельные вычисления

Материалы:
* Макрушин С.В. Лекция 10: Параллельные вычисления
* https://docs.python.org/3/library/multiprocessing.html

## Задачи для совместного разбора

1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`. 

In [1]:
%%file count_letters.py
from collections import Counter

def count_letters(file):
    with open(file, 'r', encoding='windows-1251') as fp:
        return Counter(fp.read().lower())



Overwriting count_letters.py


In [2]:
from count_letters import count_letters

In [3]:
%%time
count_letters(r"./10_multiprocessing_data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt")
count_letters(r"./10_multiprocessing_data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt")

CPU times: user 127 ms, sys: 5.12 ms, total: 132 ms
Wall time: 133 ms


Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс. 

In [4]:
import multiprocessing as mp

In [5]:
%%time
with mp.Pool(processes=2) as pool:
    counters = pool.map(count_letters, ["./10_multiprocessing_data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt", "./10_multiprocessing_data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt"])

CPU times: user 6.07 ms, sys: 16.5 ms, total: 22.6 ms
Wall time: 177 ms


In [6]:
counters[1]

Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

Фрагмент одного из файлов, которые должны получиться в результате:
```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


In [7]:
with open('./10_multiprocessing_data/recipes_full.csv') as buff:
    r_count = sum(1 for _ in buff)

print(r_count) ## точно 2.3миллинона?

2578848


In [8]:
import csv
r_f=open('10_multiprocessing_data/recipes_full.csv')
text = csv.reader(r_f)
next(text)

['name',
 'id',
 'minutes',
 'contributor_id',
 'submitted',
 'tags',
 'n_steps',
 'steps',
 'description',
 'ingredients',
 'n_ingredients']

In [9]:
file_data = ['id;tag;n_steps']
count = 1

for i, k in enumerate(text):    
    ids = k[1]
    tags = k[5][2:-2].split(", ")
    n_steps = k[6]
    for tag in tags:
        file_data.append(f'{ids};{tag};{n_steps}') 
    if i >= count * (r_count//8):
        file = open(f'id_tag_nsteps_{count}.csv', 'w')
        file.write('\n'.join(file_data))
        file.close()
        print(f'id_tag_nsteps_{count}.csv create')
        count+=1
        file_data = ['id;tag;n_steps']

id_tag_nsteps_1.csv create
id_tag_nsteps_2.csv create
id_tag_nsteps_3.csv create
id_tag_nsteps_4.csv create
id_tag_nsteps_5.csv create
id_tag_nsteps_6.csv create


2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

In [10]:
def analysis_file(file_path, toggle=False):
    dic = {}
    with open (file_path) as fp:
        reader = csv.reader(fp, delimiter=';')
        next(reader)
        for row in reader:
            tag = row[1]
            steps = row[2]
            if tag in dic.keys():
                dic[tag]["tag_sum"] += float(steps)
                dic[tag]["step"] += 1
            else:
                dic[tag]= {'tag_sum': float(steps), 'step':1}
        
        if(not toggle):
            for i in dic:
                dic[i] = dic[i]['tag_sum'] / dic[i]['step']
    return dic


analysis_file('id_tag_nsteps_1.csv')       

{"mexican'": 3.5155555555555558,
 "'healthy-2'": 6.840114715898906,
 "'orange-roughy'": 3.434436274509804,
 "'chicken-thighs-legs'": 4.41606246514222,
 "'freezer'": 4.139048614741244,
 "'whitefish'": 3.5376344086021505,
 "'pork-sausage": 4.110236220472441,
 "brunch'": 3.417633410672854,
 "'ham-and-bean-soup'": 3.5577763897564023,
 "'colombian'": 3.569436021831413,
 "'savory-pies'": 4.692519251925193,
 "'refrigerator'": 5.228332600087989,
 "'australian'": 4.562747035573122,
 "'served-cold'": 4.648612945838837,
 "'spaghetti": 4.348457350272232,
 "passover'": 3.3058035714285716,
 "'quick-breads'": 5.4117158288325715,
 "'californian'": 3.888952489982828,
 "'namibian'": 3.4471299093655587,
 "'candy'": 4.61669921875,
 "'independence-day": 3.6563146997929605,
 "baking'": 3.301123595505618,
 "'pennsylvania-dutch": 3.580578512396694,
 "weeknight'": 9.857941176470588,
 "'60-minutes-or-less'": 6.099025341130604,
 "'time-to-make'": 8.745580940403828,
 "'course'": 9.374717695171825,
 "'cuisine'": 9

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


In [11]:
def all_files_analysis(dict_data_files):
    dic = {}
    for file in dict_data_files:
        for row in file:
            avg=file[row]
            tag=row
            if tag in dic:
                dic[tag]["tag_sum"] += float(avg)
                dic[tag]["step"] += 1
            else:
                dic[tag] = {'tag_sum': float(avg), 'step':1}
    for i in dic:
        dic[i] = dic[i]['tag_sum'] / dic[i]['step']        
    return dic            

In [12]:
%%time
all_files_path = []
count = 6
for i in range(1, count):
    all_files_path.append(analysis_file(f'id_tag_nsteps_{i}.csv'))    
    res = all_files_analysis(all_files_path)

CPU times: user 8.8 s, sys: 101 ms, total: 8.9 s
Wall time: 9.1 s


In [13]:
res

{"mexican'": 3.5095257677917546,
 "'healthy-2'": 6.904256896709835,
 "'orange-roughy'": 3.545545044802804,
 "'chicken-thighs-legs'": 4.375195541329445,
 "'freezer'": 4.348120953652004,
 "'whitefish'": 3.5199474388056844,
 "'pork-sausage": 3.8854675838430026,
 "brunch'": 3.465518956347695,
 "'ham-and-bean-soup'": 3.533090153371373,
 "'colombian'": 3.5604468539677283,
 "'savory-pies'": 4.7338165998622745,
 "'refrigerator'": 5.242612224476445,
 "'australian'": 4.565383429300704,
 "'served-cold'": 4.591733263334677,
 "'spaghetti": 4.240954753053862,
 "passover'": 3.448191229164094,
 "'quick-breads'": 5.473158384697836,
 "'californian'": 3.880232669540392,
 "'namibian'": 3.4752563183668053,
 "'candy'": 4.593968589582323,
 "'independence-day": 3.564956808274603,
 "baking'": 3.440189937345591,
 "'pennsylvania-dutch": 3.5040408055996677,
 "weeknight'": 9.809868827055707,
 "'60-minutes-or-less'": 6.080080936236277,
 "'time-to-make'": 8.815749473291415,
 "'course'": 9.423779700458796,
 "'cuisine

4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

In [14]:
%%file analysis_file.py
import csv
def analysis_file(file_path, toggle=False):
    dic = {}
    with open (file_path) as fp:
        reader = csv.reader(fp, delimiter=';')
        next(reader)
        for row in reader:
            tag = row[1]
            steps = row[2]
            if tag in dic.keys():
                dic[tag]["tag_sum"] += float(steps)
                dic[tag]["step"] += 1
            else:
                dic[tag]= {'tag_sum': float(steps), 'step':1}
        
        if(not toggle):
            for i in dic:
                dic[i] = dic[i]['tag_sum'] / dic[i]['step']
    return dic

Overwriting analysis_file.py


In [15]:
from analysis_file import analysis_file
import multiprocessing as mp

In [16]:
%%time    
files = []
count = 6
for i in range(1, count):
    files.append(f'id_tag_nsteps_{i}.csv')
with mp.Pool(processes = len(files)) as pool:
    counters = pool.map(analysis_file, files)
    

CPU times: user 9.59 ms, sys: 34.5 ms, total: 44.1 ms
Wall time: 3.24 s


5. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди `multiprocessing.queue` передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы. 