# Параллельные вычисления

## Задачи для совместного разбора

In [None]:
import multiprocessing as mp
import pandas as pd

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`.

In [None]:
%%file count_symbols_.py

def count_symbols_in_book(name):
  with open('/content/drive/MyDrive/ТОБД/' + name, 'r', encoding='cp1251') as f:
    text = ''.join(f.readlines()).lower()
  count = dict.fromkeys(set(text), 0)
  for letter in text:
    count[letter] += 1
  return sorted(count.items(), key=lambda x:x[1])

Overwriting count_symbols_.py


In [None]:
import count_symbols_

print(count_symbols_.count_symbols_in_book('Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt'))
print(count_symbols_.count_symbols_in_book('Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt'))

[('j', 1), ('w', 4), ('y', 5), ('_', 8), ('q', 9), ("'", 11), ('z', 11), ('k', 16), ('g', 19), ('&', 22), ('#', 22), ('/', 22), ('f', 23), ('b', 25), ('p', 29), ('d', 38), ('c', 42), ('„', 44), ('“', 44), ('№', 45), ('l', 46), ('\t', 48), ('h', 48), ('–', 49), ('x', 52), ('m', 54), ('v', 65), ('r', 76), (']', 85), ('[', 85), ('u', 86), ('s', 96), ('t', 98), ('a', 98), ('9', 100), ('o', 104), ('0', 110), ('n', 114), ('3', 120), ('7', 121), ('4', 130), ('5', 136), ('2', 141), ('e', 162), ('ъ', 223), ('i', 235), ('6', 271), ('8', 297), ('1', 384), (')', 527), ('(', 528), ('ё', 969), (':', 984), ('»', 1175), ('«', 1187), ('ф', 1237), (';', 1322), ('…', 2263), ('?', 2266), ('ц', 2782), ('щ', 3039), ('э', 3203), ('!', 3280), ('-', 3558), ('ю', 5418), ('\xa0', 6092), ('—', 6440), ('ш', 7437), ('х', 8127), ('\n', 8583), ('й', 9747), ('.', 9864), ('ж', 10552), ('з', 14414), ('ы', 15449), ('б', 16016), ('г', 16174), ('ч', 16492), ('я', 19751), ('ь', 20554), ('п', 25652), (',', 26973), ('у', 2730

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс.

In [None]:
import count_symbols_

names = ['Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt',
         'Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt']
pool = mp.Pool(processes=2)
results = [pool.apply_async(count_symbols_.count_symbols_in_book, args=(x,)) for x in names]

print(*[p.get() for p in results], sep='\n')

[('j', 1), ('w', 4), ('y', 5), ('_', 8), ('q', 9), ("'", 11), ('z', 11), ('k', 16), ('g', 19), ('&', 22), ('#', 22), ('/', 22), ('f', 23), ('b', 25), ('p', 29), ('d', 38), ('c', 42), ('„', 44), ('“', 44), ('№', 45), ('l', 46), ('\t', 48), ('h', 48), ('–', 49), ('x', 52), ('m', 54), ('v', 65), ('r', 76), (']', 85), ('[', 85), ('u', 86), ('s', 96), ('t', 98), ('a', 98), ('9', 100), ('o', 104), ('0', 110), ('n', 114), ('3', 120), ('7', 121), ('4', 130), ('5', 136), ('2', 141), ('e', 162), ('ъ', 223), ('i', 235), ('6', 271), ('8', 297), ('1', 384), (')', 527), ('(', 528), ('ё', 969), (':', 984), ('»', 1175), ('«', 1187), ('ф', 1237), (';', 1322), ('…', 2263), ('?', 2266), ('ц', 2782), ('щ', 3039), ('э', 3203), ('!', 3280), ('-', 3558), ('ю', 5418), ('\xa0', 6092), ('—', 6440), ('ш', 7437), ('х', 8127), ('\n', 8583), ('й', 9747), ('.', 9864), ('ж', 10552), ('з', 14414), ('ы', 15449), ('б', 16016), ('г', 16174), ('ч', 16492), ('я', 19751), ('ь', 20554), ('п', 25652), (',', 26973), ('у', 2730

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


In [None]:
import csv

file_size = 2.3 * 10**6 // 8

with open("/content/drive/MyDrive/ТОБД/recipes_full.csv", "r") as f:
  columns = f.readline().split(',')

  output_file = open('id_tag_nsteps_1.csv', 'w')
  writer = csv.writer(output_file, delimiter=',')

  for i, row in enumerate(csv.reader(f, delimiter=',')):
    if i % file_size == 0:
      output_file = open(f'id_tag_nsteps_{int(i // file_size)}.csv', 'w')
      writer = csv.writer(output_file, delimiter=',')
    writer.writerow([row[columns.index('id')], row[columns.index('tags')].replace('[', '').replace(']', '').replace("'", ''), row[columns.index('n_steps')]])

2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

In [None]:
def find_unique_tags(file_name):
  unique_tags = {}

  with open(file_name, 'r') as f:
    for i, row in enumerate(csv.reader(f, delimiter=',')):
      tags = row[1].split(', ')
      for tag in tags:
        if tag not in unique_tags.keys():
          unique_tags[tag] = (1, int(row[2]))
        else:
          unique_tags[tag] = (unique_tags[tag][0] + 1, unique_tags[tag][1] + int(row[2]))

  for key in unique_tags.keys():
    unique_tags[key] = unique_tags[key][1] / unique_tags[key][0]

  return unique_tags


print(find_unique_tags('id_tag_nsteps_0.csv'))

{'mexican': 5.311320754716981, 'healthy-2': 6.332820775670596, 'orange-roughy': 3.4480574324324325, 'chicken-thighs-legs': 4.181891348088532, 'freezer': 3.919798527702441, 'whitefish': 3.526072329688814, 'pork-sausage': 4.298139004937334, 'brunch': 6.906736842105263, 'ham-and-bean-soup': 3.5179180887372015, 'colombian': 3.5746367239101717, 'savory-pies': 4.291799363057325, 'refrigerator': 4.748078266946192, 'australian': 4.24545116969922, 'served-cold': 4.941708229426434, 'spaghetti': 4.131141045958795, 'passover': 3.6275109170305675, 'quick-breads': 4.967139175257732, 'californian': 3.75273168757588, 'namibian': 3.5004244482173177, 'candy': 4.291462955998496, 'independence-day': 4.142910447761194, 'baking': 3.5878839590443685, 'pennsylvania-dutch': 3.5395445134575567, 'weeknight': 7.436413361984763, '60-minutes-or-less': 9.320880644881685, 'time-to-make': 9.247593582887701, 'course': 9.237038000195039, 'cuisine': 9.12648110495688, 'preparation': 9.289580430407185, 'occasion': 9.164448

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы иметь возможность получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


In [None]:
%%time

def find_unique_tags(file_name):
  unique_tags = {}

  with open(file_name, 'r') as f:
    for i, row in enumerate(csv.reader(f, delimiter=',')):
      tags = row[1].split(', ')
      for tag in tags:
        if tag not in unique_tags.keys():
          unique_tags[tag] = (1, int(row[2]))
        else:
          unique_tags[tag] = (unique_tags[tag][0] + 1, unique_tags[tag][1] + int(row[2]))

  return unique_tags


def merge_results():
  all_unique_tags = {}
  for i in range(8):
    currect_unique_tags = find_unique_tags(f"id_tag_nsteps_{i}.csv")
    for tag in currect_unique_tags.keys():
      if tag not in all_unique_tags.keys():
        all_unique_tags[tag] = currect_unique_tags[tag]
      else:
        all_unique_tags[tag] = (all_unique_tags[tag][0] + currect_unique_tags[tag][0],
                                all_unique_tags[tag][1] + currect_unique_tags[tag][1])

  for key in all_unique_tags.keys():
    all_unique_tags[key] = all_unique_tags[key][1] / all_unique_tags[key][0]

  return all_unique_tags


print(merge_results())

{'mexican': 5.301792547834844, 'healthy-2': 6.384162244806188, 'orange-roughy': 3.5135644937586683, 'chicken-thighs-legs': 4.145581465931509, 'freezer': 4.033043922369765, 'whitefish': 3.514734127201888, 'pork-sausage': 4.255981694274486, 'brunch': 6.871549922653133, 'ham-and-bean-soup': 3.508423254789694, 'colombian': 3.5360135838308593, 'savory-pies': 4.298328243879716, 'refrigerator': 4.702294079091108, 'australian': 4.218603314493725, 'served-cold': 4.911663673979233, 'spaghetti': 4.0825152293208475, 'passover': 3.658820965457121, 'quick-breads': 5.059023265562775, 'californian': 3.74143203627544, 'namibian': 3.5042895887529752, 'candy': 4.229612689762553, 'independence-day': 4.10637159533074, 'baking': 3.6306821245618766, 'pennsylvania-dutch': 3.5471966710468683, 'weeknight': 7.413649806241077, '60-minutes-or-less': 9.413602442333785, 'time-to-make': 9.278471292592988, 'course': 9.274649020305171, 'cuisine': 9.169982611878833, 'preparation': 9.293402191225445, 'occasion': 9.136251

4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

In [None]:
%%file find_unique_tags1_.py

import csv

def find_unique_tags(file_name):
  unique_tags = {}

  with open(file_name, 'r') as f:
    for i, row in enumerate(csv.reader(f, delimiter=',')):
      tags = row[1].split(', ')
      for tag in tags:
        if tag not in unique_tags.keys():
          unique_tags[tag] = (1, int(row[2]))
        else:
          unique_tags[tag] = (unique_tags[tag][0] + 1, unique_tags[tag][1] + int(row[2]))

  return unique_tags

Overwriting find_unique_tags1_.py


In [None]:
%%time

import find_unique_tags1_

pool = mp.Pool(processes=2)
results = [pool.apply_async(find_unique_tags1_.find_unique_tags, args=(f"id_tag_nsteps_{i}.csv",)) for i in range(8)]

output = [p.get() for p in results]

all_unique_tags = {}

for i in range(8):
  for tag in output[i].keys():
    if tag not in all_unique_tags.keys():
      all_unique_tags[tag] = output[i][tag]
    else:
      all_unique_tags[tag] = (all_unique_tags[tag][0] + output[i][tag][0],
                              all_unique_tags[tag][1] + output[i][tag][1])

for key in all_unique_tags.keys():
  all_unique_tags[key] = all_unique_tags[key][1] / all_unique_tags[key][0]

print(all_unique_tags)

{'mexican': 5.301792547834844, 'healthy-2': 6.384162244806188, 'orange-roughy': 3.5135644937586683, 'chicken-thighs-legs': 4.145581465931509, 'freezer': 4.033043922369765, 'whitefish': 3.514734127201888, 'pork-sausage': 4.255981694274486, 'brunch': 6.871549922653133, 'ham-and-bean-soup': 3.508423254789694, 'colombian': 3.5360135838308593, 'savory-pies': 4.298328243879716, 'refrigerator': 4.702294079091108, 'australian': 4.218603314493725, 'served-cold': 4.911663673979233, 'spaghetti': 4.0825152293208475, 'passover': 3.658820965457121, 'quick-breads': 5.059023265562775, 'californian': 3.74143203627544, 'namibian': 3.5042895887529752, 'candy': 4.229612689762553, 'independence-day': 4.10637159533074, 'baking': 3.6306821245618766, 'pennsylvania-dutch': 3.5471966710468683, 'weeknight': 7.413649806241077, '60-minutes-or-less': 9.413602442333785, 'time-to-make': 9.278471292592988, 'course': 9.274649020305171, 'cuisine': 9.169982611878833, 'preparation': 9.293402191225445, 'occasion': 9.136251

5. (*) Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы.

In [None]:
def average_last(input_, output):
    unique_tags = {}

    for file in iter(input_.get, 'STOP'):
        with open(file, 'r', encoding='utf-8') as f:
            for i, row in enumerate(csv.reader(f, delimiter=',')):
                if row:
                    tags = row[1].split(', ')
                    for tag in tags:
                        if tag not in unique_tags.keys():
                            unique_tags[tag] = (1, int(row[2]))
                        else:
                            unique_tags[tag] = (unique_tags[tag][0] + 1, unique_tags[tag][1] + int(row[2]))
        output.put(unique_tags)


def last():
    files = ["id_tag_nsteps_1.csv", "id_tag_nsteps_2.csv", "id_tag_nsteps_3.csv",
             "id_tag_nsteps_4.csv", "id_tag_nsteps_5.csv", "id_tag_nsteps_6.csv",
             "id_tag_nsteps_7.csv", "id_tag_nsteps_0.csv"]
    number_of_processes = 4

    task_queue = mp.Queue()
    done_queue = mp.Queue()

    for file in files:
        task_queue.put(file)

    processes = [mp.Process(target=average_last, args=(task_queue, done_queue)) for i in range(number_of_processes)]

    for p in processes:
        p.start()

    for p in processes:
        p.join(3)

    output = []
    for i in range(8):
      output.append(done_queue.get())

    all_unique_tags = {}
    for i in range(8):
      for tag in output[i].keys():
        if tag not in all_unique_tags.keys():
          all_unique_tags[tag] = output[i][tag]
        else:
          all_unique_tags[tag] = (all_unique_tags[tag][0] + output[i][tag][0],
                                  all_unique_tags[tag][1] + output[i][tag][1])

    for key in all_unique_tags.keys():
      all_unique_tags[key] = all_unique_tags[key][1] / all_unique_tags[key][0]
    print(all_unique_tags)

last()

{'snacks-sweet': 3.499409942469391, 'served-cold': 4.8996655518394645, 'sugar-cookies': 3.5326591271567347, 'unprocessed-freezer': 3.5183898800818953, '60-minutes-or-less': 9.421596307251054, 'marinara-sauce': 3.519196670888366, 'mongolian': 3.5205639564613924, 'dietary': 8.847475085808545, 'new-zealand': 3.675539543180944, 'halibut': 3.6307357738310984, 'potatoes': 5.904853054459721, 'ham': 4.035313001605137, 'condiments-etc': 4.774664803249334, 'salads': 5.073807416941517, 'native-american': 3.5564752231900822, 'grains': 5.224492602167097, 'icelandic': 3.495472602984861, 'beans-side-dishes': 3.5171589921807125, 'chocolate-chip-cookies': 3.517361111111111, 'south-west-pacific': 4.41256904826587, 'finger-food': 5.242669036271105, 'super-bowl': 3.5900333656226455, 'pasta-shells': 3.692348490205785, 'beijing': 3.5082926829268293, 'clams': 3.6345715100527594, '30-minutes-or-less': 7.612898280169187, 'time-to-make': 9.281481461399151, 'course': 9.276040822485902, 'main-ingredient': 9.31933