# Параллельные вычисления

Материалы:
* Макрушин С.В. Лекция 10: Параллельные вычисления
* https://docs.python.org/3/library/multiprocessing.html

## Задачи для совместного разбора

1. Посчитайте, сколько раз встречается каждый из символов (заглавные и строчные символы не различаются) в файле `Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt` и в файле `Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt`. 

In [1]:
%%file count_letters.py
from collections import Counter

def count_letters(file):
    
    with open(file,encoding="windows-1251") as fp:
        text = fp.read().lower()
        return Counter(text)

Writing count_letters.py


In [2]:
from count_letters import count_letters

In [3]:
%%time
count_letters("./data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt")
count_letters("./data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt")

CPU times: user 95.8 ms, sys: 5.88 ms, total: 102 ms
Wall time: 112 ms


Counter({'с': 50084,
         'п': 25652,
         'а': 73555,
         'и': 62030,
         'б': 16016,
         'о': 106740,
         ',': 26973,
         ' ': 182305,
         'ч': 16492,
         'т': 59813,
         'к': 30802,
         'л': 42328,
         'н': 60920,
         'г': 16174,
         'у': 27309,
         'в': 43700,
         'е': 80972,
         'й': 9747,
         'э': 3203,
         'р': 39784,
         'b': 25,
         'o': 104,
         'k': 16,
         's': 96,
         'c': 42,
         'a': 98,
         'f': 23,
         'e': 162,
         '.': 9864,
         'n': 114,
         't': 98,
         ':': 984,
         'h': 48,
         'p': 29,
         '/': 22,
         '\n': 8583,
         'u': 86,
         'r': 76,
         'd': 38,
         'v': 65,
         'i': 235,
         'y': 5,
         '_': 8,
         '-': 3558,
         '1': 384,
         '0': 110,
         '9': 100,
         '6': 271,
         'm': 54,
         'l': 46,
         'ж': 10552,
     

2. Решить задачу 1, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создать свой собственный процесс. 

In [9]:
import multiprocessing as mp

In [10]:
if __name__ == "__main__":
    files = ["./data/Dostoevskiy Fedor. Igrok - BooksCafe.Net.txt", "./data/Dostoevskiy Fedor. Prestuplenie i nakazanie - BooksCafe.Net.txt"]
    with mp.Pool(processes=len(files)) as pool:
        counters = pool.map(count_letters, files)
    

In [12]:
len(counters)

2

In [13]:
counters

[Counter({'с': 11507,
          'п': 5489,
          'а': 18236,
          'и': 13587,
          'б': 3980,
          'о': 23130,
          ',': 6372,
          ' ': 45076,
          'ч': 4113,
          'т': 14245,
          'к': 6744,
          'л': 9961,
          'н': 14240,
          'г': 3948,
          'у': 6044,
          'в': 9398,
          'е': 20054,
          'й': 2028,
          'э': 836,
          'р': 9482,
          'b': 220,
          'o': 377,
          'k': 21,
          's': 429,
          'c': 324,
          'a': 590,
          'f': 52,
          'e': 1200,
          '.': 2954,
          'n': 459,
          't': 332,
          ':': 212,
          'h': 227,
          'p': 100,
          '/': 20,
          '\n': 2734,
          'u': 285,
          'r': 308,
          'd': 192,
          'v': 87,
          'i': 369,
          'y': 8,
          '_': 4,
          '-': 900,
          '1': 46,
          '0': 22,
          '9': 36,
          '6': 42,
          'm': 401,
 

## Лабораторная работа 10

1. Разбейте файл `recipes_full.csv` на несколько (например, 8) примерно одинаковых по объему файлов c названиями `id_tag_nsteps_*.csv`. Каждый файл содержит 3 столбца: `id`, `tag` и `n_steps`, разделенных символом `;`. Для разбора строк используйте `csv.reader`.

__Важно__: вы не можете загружать в память весь файл сразу. Посмотреть на первые несколько строк файла вы можете, написав код, который считывает эти строки.

Подсказка: примерное кол-во строк в файле - 2.3 млн.

Фрагмент одного из файлов, которые должны получиться в результате:
```
id;tag;n_steps
137739;60-minutes-or-less;11
137739;time-to-make;11
137739;course;11
```


2. Напишите функцию, которая принимает на вход название файла, созданного в результате решения задачи 1, считает среднее значение количества шагов для каждого тэга и возвращает результат в виде словаря.

3. Напишите функцию, которая считает среднее значение количества шагов для каждого тэга по всем файлам, полученным в задаче 1, и возвращает результат в виде словаря. Не используйте параллельных вычислений. При реализации выделите функцию, которая объединяет результаты обработки отдельных файлов. Модифицируйте код из задачи 2 таким образом, чтобы получить результат, имея результаты обработки отдельных файлов. Определите, за какое время задача решается для всех файлов.


4. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Для обработки каждого файла создайте свой собственный процесс. Определите, за какое время задача решается для всех файлов.

5. Решите задачу 3, распараллелив вычисления с помощью модуля `multiprocessing`. Создайте фиксированное количество процессов (равное половине количества ядер на компьютере). При помощи очереди `multiprocessing.queue` передайте названия файлов для обработки процессам и при помощи другой очереди заберите от них ответы. 