# Параллельные вычисления

Материалы:
* Макрушин С.В. Лекция 10: Параллельные вычисления
* https://docs.python.org/3/library/multiprocessing.html

## Задачи для совместного разбора

1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`. 

In [17]:
%%file count_letters.py 
#запихиваем весь код в отдельный файл
from collections import Counter

def count_letters(file):
    fp = open(file)
    text = fp.read().lower()
    fp.close()
    return Counter(text)

Writing count_letters.py


In [18]:
from count_letters import count_letters

In [19]:
%%time
count_letters("./data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt")
count_letters("./data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt")

Wall time: 140 ms


Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс. 

In [20]:
import multiprocessing as mp
file1 = "data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt"
file2 = "data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt"
files = [file1, file2]

In [21]:
%%time
pool = mp.Pool(processes=2)
results = pool.map(count_letters, files)
# print(type(results[0]))
results

Wall time: 230 ms


[Counter({'с': 11507,
          'п': 5489,
          'а': 18236,
          'и': 13587,
          'б': 3980,
          'о': 23130,
          ',': 6372,
          ' ': 45076,
          'ч': 4113,
          'т': 14245,
          'к': 6744,
          'л': 9961,
          'н': 14240,
          'г': 3948,
          'у': 6044,
          'в': 9398,
          'е': 20054,
          'й': 2028,
          'э': 836,
          'р': 9482,
          'b': 220,
          'o': 377,
          'k': 21,
          's': 429,
          'c': 324,
          'a': 590,
          'f': 52,
          'e': 1200,
          '.': 2954,
          'n': 459,
          't': 332,
          ':': 212,
          'h': 227,
          'p': 100,
          '/': 20,
          '\n': 2734,
          'u': 285,
          'r': 308,
          'd': 192,
          'v': 87,
          'i': 369,
          'y': 8,
          '_': 4,
          '-': 900,
          '1': 46,
          '0': 22,
          '9': 36,
          '6': 42,
          'm': 401,
 

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

Фрагмент одного из файлов, которые должны получиться в результате:
```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


In [22]:
file = open("data/recipes_full.csv")
out_file = open("small.csv", 'w')
for i in range(50):
    line = file.readline()
    out_file.write(line)
out_file.close()
file.close()

In [1]:
import csv
file = open('./data/recipes_full.csv', newline='', encoding="utf-8")
good_headers = ['id', 'tag', 'n_steps']
recipes_all = csv.DictReader(file)
count = 0

numb_str_in_file = 200000

file_number = 0
file_write = open('./output_data/id_tag_nsteps_' + str(file_number) + '.csv', 'w', encoding="utf-8")
csvwriter = csv.writer(file_write,  delimiter = ";", lineterminator="\r")   
for line in recipes_all:
    count += 1
    if count < numb_str_in_file:
        if count == 1:
            csvwriter.writerow(good_headers)
        
        tags_all = [i[1:-1] for i in line["tags"][1:-1].split(", ")]
        for tag in tags_all:
            csvwriter.writerow([line["id"], tag, line["n_steps"]])
    else:
        count = 0
        file_number += 1
        file_write.close()
        file_write = open('./output_data/id_tag_nsteps_' + str(file_number) + '.csv', 'w', encoding="utf-8")
        csvwriter = csv.writer(file_write,  delimiter = ";", lineterminator="\r")  
        
file_write.close()

2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

In [25]:
%%file steps_average.py

import pandas as pd

def avr_steps(file):
    df = pd.read_csv(file, sep=";")
    grouper = df.groupby(['tag'])
    df = grouper['n_steps'].mean().to_frame(name = 'mean_steps')
    return df.to_dict()

Overwriting steps_average.py


In [26]:
avr_steps("./output_data/id_tag_nsteps_1.csv")

{'mean_steps': {'1-day-or-more': 4.496674057649668,
  '15-minutes-or-less': 5.010361752408653,
  '3-steps-or-less': 4.656799425905992,
  '30-minutes-or-less': 7.59599204528071,
  '4-hours-or-less': 10.099601593625499,
  '5-ingredients-or-less': 5.304912708079578,
  '60-minutes-or-less': 9.377917189460478,
  'Throw the ultimate fiesta with this sopaipillas recipe from Food.com.': 3.4009840098400983,
  'a1-sauce': 3.5764847030593883,
  'african': 4.343783209351754,
  'american': 7.6511368702630405,
  'amish-mennonite': 3.5291375291375293,
  'angolan': 3.4725146198830408,
  'appetizers': 6.253538090936465,
  'apples': 4.858812074001947,
  'april-fools-day': 3.5344506517690877,
  'argentine': 3.572790845518118,
  'artichoke': 3.484171322160149,
  'asian': 6.367706422018348,
  'asparagus': 4.0388026607538805,
  'australian': 4.051606108478146,
  'austrian': 3.5354282193468887,
  'avocado': 3.443413729128015,
  'bacon': 4.176839703365659,
  'baja': 3.481322718922229,
  'baked-beans': 3.58633

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


In [3]:

import os
from collections import defaultdict

d = defaultdict(lambda: list())

def avr_steps_2(file):
    df = pd.read_csv(file, sep=";")
    
    grouper = df.groupby(['tag'])
    df = grouper['n_steps'].mean().to_frame(name = 'mean_steps')
    
    for k, v in df.to_dict()['mean_steps'].items():
        d[k].append(v)



def all_mean(dir_name):
    files_in_dir = []
    
    for _, _, files in os.walk("./output_data"):  
        for filename in files:
            files_in_dir.append(filename)
            
    for f in files_in_dir:
        avr_steps_2("./output_data/" + f)

In [4]:
all_mean("./output_data")

In [5]:
d

defaultdict(<function __main__.<lambda>()>,
            {'1-day-or-more': [4.680827277808832,
              4.496674057649668,
              4.405929304446978,
              4.785977859778598,
              4.3826086956521735,
              4.548766816143497,
              4.416805787423484,
              4.404592673592127,
              4.2763231197771585,
              4.367095691102406,
              4.500281373100732,
              4.526692350027518],
             '15-minutes-or-less': [4.944962352097526,
              5.010361752408653,
              5.00688924218336,
              4.993006993006993,
              4.944890129054761,
              5.030226700251889,
              4.957119594716844,
              5.032323982909158,
              4.943372407574391,
              5.01277437927312,
              4.9672246696035245,
              5.003635041802981],
             '3-steps-or-less': [4.708340498710232,
              4.656799425905992,
              4.755797610681658,
    

In [6]:
import numpy as np
mean_d = dict()
for k, v in d.items():
    mean_d[k] = np.mean(v)

mean_d

{'1-day-or-more': 4.482714583875265,
 '15-minutes-or-less': 4.987232270406934,
 '3-steps-or-less': 4.724993660072639,
 '30-minutes-or-less': 7.597533165761738,
 '4-hours-or-less': 10.090995288993485,
 '5-ingredients-or-less': 5.365388443272153,
 '60-minutes-or-less': 9.416259002089888,
 'Throw the ultimate fiesta with this sopaipillas recipe from Food.com.': 3.5135661100492315,
 'a1-sauce': 3.5289625177804393,
 'african': 4.360713218616161,
 'american': 7.5925649229366385,
 'amish-mennonite': 3.572428270677627,
 'angolan': 3.496959813600268,
 'appetizers': 6.239444467169388,
 'apples': 4.853148411430585,
 'april-fools-day': 3.5145067714919436,
 'argentine': 3.5610524427578185,
 'artichoke': 3.499757494353887,
 'asian': 6.4240761709756535,
 'asparagus': 4.040197687610382,
 'australian': 4.211181683802356,
 'austrian': 3.5658415695695145,
 'avocado': 3.525291996992221,
 'bacon': 4.0878892432094025,
 'baja': 3.540439522629398,
 'baked-beans': 3.487518140075284,
 'baking': 3.63008069969783

4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

In [30]:
import multiprocessing as mp

In [31]:
%%time
from steps_average import avr_steps

if __name__ == "__main__":
    our_files = ['./output_data/id_tag_nsteps_' + str(i) + '.csv' for i in range(1, 9)]
    pool = mp.Pool(processes=len(our_files))
    dict_pool = pool.map(avr_steps, our_files)

Wall time: 1.24 s


In [32]:
my_answer_dict = dict_pool[0]
for x in dict_pool[1:]:
    my_answer_dict = {**my_answer_dict, **x}
my_answer_dict

{'mean_steps': {'1-day-or-more': 4.500281373100732,
  '15-minutes-or-less': 4.9672246696035245,
  '3-steps-or-less': 4.758461538461538,
  '30-minutes-or-less': 7.6242765763021625,
  '4-hours-or-less': 10.018870993980803,
  '5-ingredients-or-less': 5.297157086532476,
  '60-minutes-or-less': 9.395204262877442,
  'Throw the ultimate fiesta with this sopaipillas recipe from Food.com.': 3.4976525821596245,
  'a1-sauce': 3.530764449968925,
  'african': 4.402263374485597,
  'american': 7.557542411737735,
  'amish-mennonite': 3.590368980612883,
  'angolan': 3.474675324675325,
  'appetizers': 6.159361393323658,
  'apples': 4.780718336483932,
  'april-fools-day': 3.550649350649351,
  'argentine': 3.6142131979695433,
  'artichoke': 3.4481525625744935,
  'asian': 6.325052484254724,
  'asparagus': 4.014976958525345,
  'australian': 4.1177410761854025,
  'austrian': 3.608642726719416,
  'avocado': 3.5208581644815258,
  'bacon': 4.090759075907591,
  'baja': 3.416454081632653,
  'baked-beans': 3.48553

5. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди `multiprocessing.queue` передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы. 

In [35]:
import pandas as pd
from multiprocessing import Process, Queue, current_process, freeze_support
from multiprocessing import Process, Queue, current_process, freeze_support

In [43]:
%%file my_queue.py
import pandas as pd
from multiprocessing import Process, Queue, current_process, freeze_support
from multiprocessing import Process, Queue, current_process, freeze_support

def avr_steps(file):
    df = pd.read_csv(file, sep=";")
    grouper = df.groupby(['tag'])
    df = grouper['n_steps'].mean().to_frame(name = 'mean_steps')
    return df.to_dict()

def worker(input_, output):
    for file in iter(input_.get, 'STOP'):
        result = avr_steps(file)
        output.put(result)

Writing my_queue.py


In [45]:
%%time
from my_queue import worker

def mean_count():
    files = ['./output_data/id_tag_nsteps_' + str(i) + '.csv' for i in range(1, 9)]
    processes = 6
    file_queue = Queue()
    file_output_queue = Queue()

    for q in files:
        file_queue.put(q)

    for i in range(processes):
        Process(target=worker, args=(file_queue, file_output_queue)).start()

    my_answer_dict = file_output_queue.get()
    for i in range(1, len(files)):
        my_answer_dict = {**my_answer_dict, **file_output_queue.get()}

    for i in range(processes):
        file_queue.put('STOP')
        
    return my_answer_dict

freeze_support()

result = mean_count()
result

Wall time: 1.44 s


{'mean_steps': {'1-day-or-more': 4.500281373100732,
  '15-minutes-or-less': 4.9672246696035245,
  '3-steps-or-less': 4.758461538461538,
  '30-minutes-or-less': 7.6242765763021625,
  '4-hours-or-less': 10.018870993980803,
  '5-ingredients-or-less': 5.297157086532476,
  '60-minutes-or-less': 9.395204262877442,
  'Throw the ultimate fiesta with this sopaipillas recipe from Food.com.': 3.4976525821596245,
  'a1-sauce': 3.530764449968925,
  'african': 4.402263374485597,
  'american': 7.557542411737735,
  'amish-mennonite': 3.590368980612883,
  'angolan': 3.474675324675325,
  'appetizers': 6.159361393323658,
  'apples': 4.780718336483932,
  'april-fools-day': 3.550649350649351,
  'argentine': 3.6142131979695433,
  'artichoke': 3.4481525625744935,
  'asian': 6.325052484254724,
  'asparagus': 4.014976958525345,
  'australian': 4.1177410761854025,
  'austrian': 3.608642726719416,
  'avocado': 3.5208581644815258,
  'bacon': 4.090759075907591,
  'baja': 3.416454081632653,
  'baked-beans': 3.48553