# Map Reduce

Мета: написати скріпт для підрахунку слів за допомогою алгоритму map-reduce.


## `map` function example

Функція `map(func, seq)`застосовує функцію func до всіх елементів послідовності seq. Він повертає новий список з елементами, що були змінені функцією func

In [5]:
def f(x):
    return x * x

rdd = [2, 6, -3, 7]
res = map(f, rdd )
res  # Res is an iterator

<map at 0x1ed990bf6d0>

In [6]:
print(*res)

4 36 9 49


In [7]:
from operator import mul
rdd1, rdd2 = [2, 6, -3, 7], [1, -4, 5, 3]
res = map(mul, rdd1, rdd2 ) # element wise sum of rdd1 and rdd2

In [8]:
print(*res)

2 -24 -15 21


## `functools.reduce` example

Функція`reduce(func, seq)` постійно застосовує функцію func() до послідовності seq і повертає одне значення.

Наприклад, reduce(f, [1, 2, 3, 4, 5]) обчислює f(f(f(f(1,2),3),4),5).

In [9]:
from functools import reduce
from operator import add
rdd = list(range(1,6))
reduce(add, rdd) # computes ((((1+2)+3)+4)+5)

15

## Середнє зважене та  дисперсія


Якщо генератор випадкових змінних $X$ є розподілом вірогідностей дискретної випадкової величини  $x_1 \mapsto p_1, x_2 \mapsto p_2, \ldots, x_n \mapsto p_n$ then

$$\operatorname{Var}(X) = \left(\sum_{i=1}^n p_i x_i ^2\right) - \mu^2,$$

де $\mu$ середнє значення:

$$\mu = \sum_{i=1}^n p_i x_i. $$

### Завдання 1

- Напишіть функцію для обчислення середнього значення та дисперсії на основі циклів

In [10]:
X = [5, 1, 2, 3, 1, 2, 5, 4]
P = [0.05, 0.05, 0.15, 0.05, 0.15, 0.2, 0.1, 0.25]

In [11]:
u = 0
for i in range(len(X)):
  u += X[i] * P[i]
print("mean:", u)

mean: 2.8


2 варіанти підрахунку дисперсії

In [12]:
u2 = 0
for i in range(len(X)):
  u2 += P[i] * X[i]**2
res = u2 - u**2
print("Dispersion:", res)

Dispersion: 1.9600000000000017


In [13]:
rez = 0
for i in range(len(X)):
  rez += P[i] * (X[i] - u)**2
print("Dispersion:", rez)

Dispersion: 1.9600000000000002


### Завдання 2
Напишіть функцію для обчислення середнього значення та дисперсії за допомогою `map` and `reduce`

In [14]:
from operator import mul, add
from functools import reduce
X = [5, 1, 2, 3, 1, 2, 5, 4]
P = [0.05, 0.05, 0.15, 0.05, 0.15, 0.2, 0.1, 0.25]


In [15]:
u = map(mul, X, P)
# print(*u)
u = reduce(add, u)
u

2.8

In [16]:
# використовував 2гу формулу, мінуси в тому що фонкція використовує змінну u яка використовується з глобального простору імен
def MyDispersion(x,p):
  return p * (x - u)**2
res = map(MyDispersion, X, P)
res = reduce(add, res)
res

1.9600000000000002

Наведені вище приклади та завдання наведені  для того, щоб допомогти зрозуміти процес map-reduce. Але на практиці це не найкращий спосіб. Замість цього слід використовувати  [Numpy](http://www.numpy.org).

## Wordcount

Ми змінимо додаток wordcount за допомогою алгоритму map-reduce.

Процес `map` приймає на вхід текстові файли як вхідні дані та розбиває їх на слова. Процес `reduce` підсумовує значення для кожного слова і видає єдиний ключ/значення зі словом та сумою.

Нам потрібно розділити функцію підрахунку слів, щоб використати `map` та `reduce`.


# Wordcount

[Wikipedia](https://en.wikipedia.org/wiki/Word_count)

Приклад лічильника слів читає текстові файли та підраховує, як часто зустрічаються слова.

Підрахунок слів зазвичай використовується перекладачами для визначення ціни за перекладацьку роботу.

Це програма "Hello World" у галузі Big Data.

## Створіть простий текстовий файл

In [17]:
!pip install lorem

Defaulting to user installation because normal site-packages is not writeable


In [18]:
from lorem import text

with open("sample.txt", "w") as f:
    for i in range(2):
        f.write(text())

### Завдання 3

Напишіть скріпт, який підраховує кількість рядків, різних слів та символів у цьому файлі.

%%bash
wc sample.txt
du -h sample.txt

### Завдання 4

Створіть функцію map_words, яка приймає ім’я файлу як аргумент і повертає списки, що містять усі слова як елементи.
```pytb
map_words("sample.txt")[:5] # first five words
['adipisci', 'adipisci', 'adipisci', 'adipisci', 'adipisci']
```

In [19]:
def map_words(file_name):
  res = []
  with open(file_name, "r") as f:
    for line in f:
      res.extend(line.split())
  return list(word.replace(".","") for word in res)

In [45]:
res = map_words("sample.txt")
print(len(res))
print(res)
print(res[:5])

443
['Sed', 'velit', 'labore', 'neque', 'ut', 'dolore', 'est', 'dolor', 'Amet', 'quaerat', 'quiquia', 'porro', 'magnam', 'est', 'Aliquam', 'non', 'ut', 'quaerat', 'porro', 'modi', 'labore', 'Dolore', 'voluptatem', 'sed', 'velit', 'Amet', 'quisquam', 'sed', 'eius', 'sed', 'dolorem', 'quisquam', 'Magnam', 'velit', 'consectetur', 'voluptatem', 'voluptatem', 'voluptatem', 'dolore', 'dolor', 'Consectetur', 'eius', 'dolorem', 'aliquam', 'quaerat', 'voluptatem', 'ipsum', 'ut', 'Ut', 'amet', 'eius', 'voluptatem', 'Adipisci', 'dolorem', 'adipisci', 'sit', 'ipsum', 'non', 'voluptatem', 'Modi', 'quiquia', 'quisquam', 'aliquam', 'adipisci', 'dolore', 'Eius', 'consectetur', 'dolor', 'sed', 'est', 'dolorem', 'velit', 'non', 'Voluptatem', 'adipisci', 'ut', 'quisquam', 'adipisci', 'labore', 'quiquia', 'Velit', 'modi', 'non', 'labore', 'ut', 'modi', 'velit', 'Ut', 'etincidunt', 'neque', 'eius', 'Dolor', 'velit', 'consectetur', 'adipisci', 'neque', 'consectetur', 'numquam', 'Consectetur', 'labore', 'sed

## Сортування словника за значенням

За замовчуванням, якщо ви використовуєте функцію сортування у слові, вона буде використовувати клавіші для її сортування.
Для сортування за значеннями можна використати [operator](https://docs.python.org/3.6/library/operator.html).itemgetter(1)
Повернути об'єкт, який отримує елемент з його операнда за допомогою метода операнда `__getitem__(`. Він може бути використаний для сортування результатів.

In [21]:
import operator
fruits = [('apple', 3), ('banana', 2), ('pear', 5), ('orange', 1)]
getcount = operator.itemgetter(1)
dict(sorted(fruits, key=getcount))

{'orange': 1, 'banana': 2, 'apple': 3, 'pear': 5}

функція `sorted` також має зворотний необов'язковий аргумент


In [22]:
dict(sorted(fruits, key=getcount, reverse=True))

{'pear': 5, 'apple': 3, 'banana': 2, 'orange': 1}

### Завдання 5

Створіть функцію `reduce`, щоб зменшити список слів, які повертаєтьс  `map_words`, і повернути словник, що містить усі слова як ключі (keys), та частоту зустріваності - як значення (value).

```python
recuce('sample.txt')
{'tempora': 2, 'non': 1, 'quisquam': 1, 'amet': 1, 'sit': 1}
```

In [23]:
def my_word_reduce(file_name):
  words = map_words(file_name)
  unique_words = set(words)
  values = map(words.count, unique_words)
  return dict(zip(unique_words, values))

In [24]:
res = my_word_reduce("sample.txt")
print(len(res))
print(res)

54
{'modi': 13, 'voluptatem': 23, 'Dolore': 2, 'Ipsum': 1, 'sed': 20, 'magnam': 16, 'ut': 15, 'Magnam': 6, 'Velit': 4, 'amet': 12, 'Voluptatem': 2, 'Non': 4, 'Est': 1, 'Quiquia': 3, 'Amet': 5, 'eius': 13, 'dolorem': 10, 'Dolor': 4, 'aliquam': 17, 'etincidunt': 11, 'porro': 12, 'Aliquam': 1, 'consectetur': 10, 'Porro': 5, 'numquam': 12, 'Quaerat': 2, 'Adipisci': 3, 'dolore': 16, 'neque': 9, 'Ut': 5, 'non': 12, 'ipsum': 17, 'ametSit': 1, 'sit': 9, 'Dolorem': 1, 'Modi': 2, 'Sit': 1, 'Eius': 2, 'quisquam': 15, 'Labore': 1, 'quaerat': 11, 'labore': 12, 'adipisci': 17, 'Sed': 3, 'dolor': 12, 'velit': 17, 'quiquia': 15, 'tempora': 15, 'Tempora': 1, 'Quisquam': 1, 'Neque': 2, 'Consectetur': 6, 'est': 11, 'Etincidunt': 2}


Цю просту функцію непросто реалізувати. Стандартні бібліотеки Python пропонують деякі функції, які можуть допомогти.

## Container datatypes

Модуль `collection` реалізує спеціалізовані типи даних контейнерів, що забезпечують альтернативу вбудованим контейнерам загального призначення Python: `dict`, `list`, `set`, and `tuple`.

- `defaultdict` : підклас dict, який викликає заводську функцію для надання відсутніх значень
- `Counter`	: підклас dict для підрахунку хешованих об'єктів

### defaultdict

Під час реалізації функції `wordcount`, у вас, ймовірно, виникли проблеми з додаванням пари ключ-значення до вашого словника. Якщо ви намагаєтесь змінити значення ключа, якого немає в наявній сумі, ключ не створюється автоматично.

Ви можете використовувати потік `try-except`, але `defaultdict` може бути рішенням. Цей контейнер є підкласом `dict`, який викликає заводську функцію для подання відсутніх значень. Наприклад, використовуючи список як default_factory, легко згрупувати послідовність пар ключ-значення у словник списків:

In [25]:
from collections import defaultdict
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)

dict(d)

{'yellow': [1, 3], 'blue': [2, 4], 'red': [1]}

### Завдання 6

- Змініть функцію `reduce`, яку ви написали вище, за допомогою defaultdict з найбільш підходящою "фабрикою".

In [26]:
def my_word_reduce2(file_name):
  words = map_words(file_name)
  unique_words = set(words)
  values = map(words.count, unique_words)
  res = defaultdict(int)
  for k,v in zip(unique_words, values):
    res[k] = v
  return res

res2 = my_word_reduce2("sample.txt")
print(len(res2))
print(res2)

54
defaultdict(<class 'int'>, {'modi': 13, 'voluptatem': 23, 'Dolore': 2, 'Ipsum': 1, 'sed': 20, 'magnam': 16, 'ut': 15, 'Magnam': 6, 'Velit': 4, 'amet': 12, 'Voluptatem': 2, 'Non': 4, 'Est': 1, 'Quiquia': 3, 'Amet': 5, 'eius': 13, 'dolorem': 10, 'Dolor': 4, 'aliquam': 17, 'etincidunt': 11, 'porro': 12, 'Aliquam': 1, 'consectetur': 10, 'Porro': 5, 'numquam': 12, 'Quaerat': 2, 'Adipisci': 3, 'dolore': 16, 'neque': 9, 'Ut': 5, 'non': 12, 'ipsum': 17, 'ametSit': 1, 'sit': 9, 'Dolorem': 1, 'Modi': 2, 'Sit': 1, 'Eius': 2, 'quisquam': 15, 'Labore': 1, 'quaerat': 11, 'labore': 12, 'adipisci': 17, 'Sed': 3, 'dolor': 12, 'velit': 17, 'quiquia': 15, 'tempora': 15, 'Tempora': 1, 'Quisquam': 1, 'Neque': 2, 'Consectetur': 6, 'est': 11, 'Etincidunt': 2})


### Counter

Counter - це dict subclass для підрахунку об’єктів, що хешуються. Це невпорядкована колекція, де елементи зберігаються як ключі словника, а їх кількість зберігається як значення словника. Підрахунки можуть бути будь-якими цілими значеннями, включаючи нульові або від’ємні підрахунки.

Елементи підраховуються з повторюваних або ініціалізованих з іншого процесу mapping (або Counter):

In [27]:
from collections import Counter

violet = dict(r=23,g=13,b=23)
print(violet)
cnt = Counter(violet)  # or Counter(r=238, g=130, b=238)
print(cnt['c'])
print(cnt['r'])

{'r': 23, 'g': 13, 'b': 23}
0
23


In [28]:
print(*cnt.elements())

r r r r r r r r r r r r r r r r r r r r r r r g g g g g g g g g g g g g b b b b b b b b b b b b b b b b b b b b b b b


In [29]:
cnt.most_common(2)

[('r', 23), ('b', 23)]

In [30]:
cnt.values()

dict_values([23, 13, 23])

### Завдання 7

Використовуйте об'єкт `Counter`, щоб підрахувати кількість слів у текстовому файлі-зразку.


In [31]:
def my_word_counter(file_name):
  words = map_words(file_name)
  cnt = Counter(words)
  return cnt

res2 = my_word_counter("sample.txt")
print(len(res2))
print(res2)

54
Counter({'voluptatem': 23, 'sed': 20, 'velit': 17, 'aliquam': 17, 'ipsum': 17, 'adipisci': 17, 'dolore': 16, 'magnam': 16, 'ut': 15, 'quiquia': 15, 'quisquam': 15, 'tempora': 15, 'modi': 13, 'eius': 13, 'labore': 12, 'dolor': 12, 'porro': 12, 'non': 12, 'amet': 12, 'numquam': 12, 'est': 11, 'quaerat': 11, 'etincidunt': 11, 'dolorem': 10, 'consectetur': 10, 'neque': 9, 'sit': 9, 'Magnam': 6, 'Consectetur': 6, 'Amet': 5, 'Ut': 5, 'Porro': 5, 'Velit': 4, 'Dolor': 4, 'Non': 4, 'Sed': 3, 'Adipisci': 3, 'Quiquia': 3, 'Dolore': 2, 'Modi': 2, 'Eius': 2, 'Voluptatem': 2, 'Neque': 2, 'Quaerat': 2, 'Etincidunt': 2, 'Aliquam': 1, 'Ipsum': 1, 'Dolorem': 1, 'Est': 1, 'Tempora': 1, 'Sit': 1, 'ametSit': 1, 'Quisquam': 1, 'Labore': 1})


## Process multiple files

Створіть кілька файлів, що містять текст lorem з назвою 'sample01.txt', 'sample02.txt' ...
- Якщо ви обробляєте ці файли, ви отримаєте кілька словників.
- Ви повинні пропустити їх через цикл, щоб підсумувати кількість випадків і повернути отриманий dict. Для перегляду конкретних mappings стандартна бібліотека Python надає деякі корисні функції в модулі `itertools` .
- [itertools.chain(*mapped_values)](https://docs.python.org/3.6/library/itertools.html#itertools.chain) можна використовувати для обробки кількох послідовностей як єдиної послідовності.

In [32]:
import itertools, operator
fruits = [('apple', 3), ('banana', 2), ('pear', 5), ('orange', 1)]
vegetables = [('endive', 2), ('spinach', 1), ('celery', 5), ('carrot', 4)]
getcount = operator.itemgetter(1)
dict(sorted(itertools.chain(fruits,vegetables), key=getcount))

{'orange': 1,
 'spinach': 1,
 'banana': 2,
 'endive': 2,
 'apple': 3,
 'carrot': 4,
 'pear': 5,
 'celery': 5}

### Завдання 8

- Напишіть програму, яка створює файли, обробляє їх та використовує `itertools.chain` для отримання об’єднаного словника загальної кількості слів.

In [33]:
from lorem import text

with open("sample1.txt", "w") as f:
    for i in range(2):
        f.write(text())
with open("sample2.txt", "w") as f:
    for i in range(2):
        f.write(text())

words0 = map_words("sample.txt")
words1 = map_words("sample1.txt")
words2 = map_words("sample2.txt")
cnt = Counter(itertools.chain(words0, words1, words2))

print(len(cnt))
print(cnt)

57
Counter({'voluptatem': 54, 'quisquam': 50, 'ut': 46, 'ipsum': 46, 'magnam': 45, 'sed': 42, 'labore': 40, 'neque': 37, 'modi': 37, 'eius': 37, 'sit': 37, 'tempora': 37, 'porro': 36, 'non': 36, 'quiquia': 34, 'dolorem': 34, 'velit': 33, 'consectetur': 33, 'dolor': 32, 'quaerat': 32, 'aliquam': 32, 'amet': 32, 'dolore': 31, 'adipisci': 31, 'est': 30, 'etincidunt': 29, 'numquam': 29, 'Sed': 15, 'Magnam': 13, 'Adipisci': 12, 'Porro': 10, 'Amet': 9, 'Ut': 9, 'Modi': 8, 'Velit': 8, 'Dolor': 8, 'Neque': 8, 'Quaerat': 8, 'Tempora': 8, 'Consectetur': 7, 'Non': 7, 'Quisquam': 7, 'Dolore': 6, 'Eius': 6, 'Voluptatem': 6, 'Ipsum': 6, 'Etincidunt': 6, 'Quiquia': 6, 'Est': 5, 'Numquam': 5, 'Dolorem': 4, 'Labore': 4, 'Aliquam': 3, 'Sit': 1, 'ametSit': 1, 'ipsumLabore': 1, 'nonTempora': 1})


### Завдання 9

- Create the `wordcount` function in order to accept several files as arguments and
return the result dict.
Створіть функцію wordcount, яка прийматиме кілька файлів в якості аргументів та повертатиме результуючий словник

```
wordcount(file1, file2, file3, ...)
```

[Hint: arbitrary argument lists](https://docs.python.org/3/tutorial/controlflow.html#arbitrary-argument-lists)

In [34]:
def wordcount(*args):
  words = []
  for arg in args:
    words.append(map_words(arg))
  cnt = Counter(itertools.chain(*words))
  return cnt
res = wordcount("sample.txt","sample1.txt","sample2.txt")
print(len(res))
print(res)

57
Counter({'voluptatem': 54, 'quisquam': 50, 'ut': 46, 'ipsum': 46, 'magnam': 45, 'sed': 42, 'labore': 40, 'neque': 37, 'modi': 37, 'eius': 37, 'sit': 37, 'tempora': 37, 'porro': 36, 'non': 36, 'quiquia': 34, 'dolorem': 34, 'velit': 33, 'consectetur': 33, 'dolor': 32, 'quaerat': 32, 'aliquam': 32, 'amet': 32, 'dolore': 31, 'adipisci': 31, 'est': 30, 'etincidunt': 29, 'numquam': 29, 'Sed': 15, 'Magnam': 13, 'Adipisci': 12, 'Porro': 10, 'Amet': 9, 'Ut': 9, 'Modi': 8, 'Velit': 8, 'Dolor': 8, 'Neque': 8, 'Quaerat': 8, 'Tempora': 8, 'Consectetur': 7, 'Non': 7, 'Quisquam': 7, 'Dolore': 6, 'Eius': 6, 'Voluptatem': 6, 'Ipsum': 6, 'Etincidunt': 6, 'Quiquia': 6, 'Est': 5, 'Numquam': 5, 'Dolorem': 4, 'Labore': 4, 'Aliquam': 3, 'Sit': 1, 'ametSit': 1, 'ipsumLabore': 1, 'nonTempora': 1})


Повертаємось до розділення функції підрахунку слів, щоб використати map та reduce.

## Map - Читання файлів та повернення елементів (пар key/value)

### Завдання 10

Напишіть функцію `mapper` з єдиною назвою файлу як вхідним переметром, яка повертає відсортовану послідовність значень кортежів (word, 1).

```pybt
mapper('sample.txt')
[('adipisci', 1), ('adipisci', 1), ('adipisci', 1), ('adipisci', 1), ('adipisci', 1), ('adipisci', 1), ('adipisci', 1), ('aliquam', 1), ('aliquam', 1), ('aliquam', 1), ('aliquam', 1), ('aliquam', 1), ('aliquam', 1), ('aliquam', 1), ('amet', 1), ('amet', 1), ('amet', 1)...
```

In [35]:
def mapper(file_name):
  words = map_words(file_name)
  word_counts = defaultdict(int)
  for word in words:
    word_counts[word] += 1
  list_of_tuples = []
  for key, value in word_counts.items():
    list_of_tuples.append((key, value))
  return sorted(list_of_tuples)
res = mapper("sample.txt")
print(len(res))
print(res)

54
[('Adipisci', 3), ('Aliquam', 1), ('Amet', 5), ('Consectetur', 6), ('Dolor', 4), ('Dolore', 2), ('Dolorem', 1), ('Eius', 2), ('Est', 1), ('Etincidunt', 2), ('Ipsum', 1), ('Labore', 1), ('Magnam', 6), ('Modi', 2), ('Neque', 2), ('Non', 4), ('Porro', 5), ('Quaerat', 2), ('Quiquia', 3), ('Quisquam', 1), ('Sed', 3), ('Sit', 1), ('Tempora', 1), ('Ut', 5), ('Velit', 4), ('Voluptatem', 2), ('adipisci', 17), ('aliquam', 17), ('amet', 12), ('ametSit', 1), ('consectetur', 10), ('dolor', 12), ('dolore', 16), ('dolorem', 10), ('eius', 13), ('est', 11), ('etincidunt', 11), ('ipsum', 17), ('labore', 12), ('magnam', 16), ('modi', 13), ('neque', 9), ('non', 12), ('numquam', 12), ('porro', 12), ('quaerat', 11), ('quiquia', 15), ('quisquam', 15), ('sed', 20), ('sit', 9), ('tempora', 15), ('ut', 15), ('velit', 17), ('voluptatem', 23)]


## Partition

### Завдання 11

Create a function named `partitioner` that stores the key/value pairs from `mapper`  that group (word, 1) pairs into a list as:
Напишіть функцію відображення функцій з єдиною назвою файлу як вхідним, що повертає відсортовану послідовність значень кортежів (word, 1).
```python
partitioner(mapper('sample.txt'))
[('adipisci', [1, 1, 1, 1, 1, 1, 1]), ('aliquam', [1, 1, 1, 1, 1, 1, 1]), ('amet', [1, 1, 1, 1],...]
```

In [36]:
def partitioner(mylist):
  for i in range(len(mylist)):
    mylist[i] = (mylist[i][0], [1]*mylist[i][1])
  return mylist
print(partitioner(mapper('sample.txt')))

[('Adipisci', [1, 1, 1]), ('Aliquam', [1]), ('Amet', [1, 1, 1, 1, 1]), ('Consectetur', [1, 1, 1, 1, 1, 1]), ('Dolor', [1, 1, 1, 1]), ('Dolore', [1, 1]), ('Dolorem', [1]), ('Eius', [1, 1]), ('Est', [1]), ('Etincidunt', [1, 1]), ('Ipsum', [1]), ('Labore', [1]), ('Magnam', [1, 1, 1, 1, 1, 1]), ('Modi', [1, 1]), ('Neque', [1, 1]), ('Non', [1, 1, 1, 1]), ('Porro', [1, 1, 1, 1, 1]), ('Quaerat', [1, 1]), ('Quiquia', [1, 1, 1]), ('Quisquam', [1]), ('Sed', [1, 1, 1]), ('Sit', [1]), ('Tempora', [1]), ('Ut', [1, 1, 1, 1, 1]), ('Velit', [1, 1, 1, 1]), ('Voluptatem', [1, 1]), ('adipisci', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('aliquam', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('amet', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('ametSit', [1]), ('consectetur', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('dolor', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('dolore', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('dolorem', [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), ('eius', [1, 1, 1, 1, 1, 1

## Reduce - Sums the counts and returns a single key/value (word, sum). підсумовує підрахунок і повертає єдиний ключ/значення (слово, сума)

### Завдання 12

Напишіть функцію `reducer`, яка читає кортеж (слово, [1,1,1, .., 1]) і підсумовує входження слова до остаточного підрахунку (суми), а потім виводить кортеж (слово, частота зустріваності).

```python
reducer(('hello',[1,1,1,1,1])
('hello',5)
```

In [37]:
def reducer(tuplee):
  mytuple = (tuplee[0], len(tuplee[1]))
  return mytuple
reducer(('hello',[1,1,1,1,1]))

('hello', 5)

## Обробка кількох файлів

Давайте створимо 8 файлів sample[0-7].txt. Встановіть найпоширеніші слова у верхній частині результуючого списку.

In [38]:
!pip install lorem

Defaulting to user installation because normal site-packages is not writeable


In [39]:
from lorem import text
for i in range(8):
    with open("sample{0:02d}.txt".format(i), "w") as f:
        f.write(text())

In [40]:
import glob
files = sorted(glob.glob('sample0*.txt'))
files

['sample00.txt',
 'sample01.txt',
 'sample02.txt',
 'sample03.txt',
 'sample04.txt',
 'sample05.txt',
 'sample06.txt',
 'sample07.txt']

### Завдання 13
- Цього разу використовуйте функцію `map`, щоб застосувати mapper і reducer.

In [41]:
res = list(map(mapper, files))
print(res,'\n')

[[('Adipisci', 2), ('Amet', 2), ('Consectetur', 1), ('Dolor', 1), ('Dolore', 1), ('Eius', 2), ('Est', 1), ('Magnam', 1), ('Modi', 2), ('Neque', 2), ('Porro', 1), ('Quaerat', 2), ('Quiquia', 2), ('Sed', 2), ('Ut', 1), ('Velit', 1), ('Voluptatem', 1), ('adipisci', 3), ('aliquam', 1), ('amet', 4), ('consectetur', 3), ('dolor', 3), ('dolore', 5), ('dolorem', 7), ('eius', 4), ('est', 4), ('etincidunt', 4), ('ipsum', 4), ('labore', 5), ('magnam', 3), ('modi', 7), ('neque', 6), ('non', 8), ('numquam', 6), ('porro', 4), ('quaerat', 9), ('quiquia', 3), ('quisquam', 6), ('sed', 4), ('sit', 4), ('tempora', 2), ('ut', 5), ('velit', 9), ('voluptatem', 2)], [('Adipisci', 1), ('Aliquam', 1), ('Amet', 1), ('Consectetur', 1), ('Dolor', 1), ('Dolore', 2), ('Dolorem', 1), ('Eius', 3), ('Est', 1), ('Etincidunt', 3), ('Labore', 2), ('Magnam', 2), ('Modi', 1), ('Neque', 4), ('Non', 2), ('Numquam', 6), ('Porro', 1), ('Quaerat', 1), ('Quiquia', 2), ('Quisquam', 1), ('Sed', 3), ('Sit', 2), ('Tempora', 2), ('Ut

In [42]:
res2 = list(map(partitioner, res))
print(res2)

[[('Adipisci', [1, 1]), ('Amet', [1, 1]), ('Consectetur', [1]), ('Dolor', [1]), ('Dolore', [1]), ('Eius', [1, 1]), ('Est', [1]), ('Magnam', [1]), ('Modi', [1, 1]), ('Neque', [1, 1]), ('Porro', [1]), ('Quaerat', [1, 1]), ('Quiquia', [1, 1]), ('Sed', [1, 1]), ('Ut', [1]), ('Velit', [1]), ('Voluptatem', [1]), ('adipisci', [1, 1, 1]), ('aliquam', [1]), ('amet', [1, 1, 1, 1]), ('consectetur', [1, 1, 1]), ('dolor', [1, 1, 1]), ('dolore', [1, 1, 1, 1, 1]), ('dolorem', [1, 1, 1, 1, 1, 1, 1]), ('eius', [1, 1, 1, 1]), ('est', [1, 1, 1, 1]), ('etincidunt', [1, 1, 1, 1]), ('ipsum', [1, 1, 1, 1]), ('labore', [1, 1, 1, 1, 1]), ('magnam', [1, 1, 1]), ('modi', [1, 1, 1, 1, 1, 1, 1]), ('neque', [1, 1, 1, 1, 1, 1]), ('non', [1, 1, 1, 1, 1, 1, 1, 1]), ('numquam', [1, 1, 1, 1, 1, 1]), ('porro', [1, 1, 1, 1]), ('quaerat', [1, 1, 1, 1, 1, 1, 1, 1, 1]), ('quiquia', [1, 1, 1]), ('quisquam', [1, 1, 1, 1, 1, 1]), ('sed', [1, 1, 1, 1]), ('sit', [1, 1, 1, 1]), ('tempora', [1, 1]), ('ut', [1, 1, 1, 1, 1]), ('velit

In [43]:
for item_list in res2:
  print(list(map(reducer, item_list)))

[('Adipisci', 2), ('Amet', 2), ('Consectetur', 1), ('Dolor', 1), ('Dolore', 1), ('Eius', 2), ('Est', 1), ('Magnam', 1), ('Modi', 2), ('Neque', 2), ('Porro', 1), ('Quaerat', 2), ('Quiquia', 2), ('Sed', 2), ('Ut', 1), ('Velit', 1), ('Voluptatem', 1), ('adipisci', 3), ('aliquam', 1), ('amet', 4), ('consectetur', 3), ('dolor', 3), ('dolore', 5), ('dolorem', 7), ('eius', 4), ('est', 4), ('etincidunt', 4), ('ipsum', 4), ('labore', 5), ('magnam', 3), ('modi', 7), ('neque', 6), ('non', 8), ('numquam', 6), ('porro', 4), ('quaerat', 9), ('quiquia', 3), ('quisquam', 6), ('sed', 4), ('sit', 4), ('tempora', 2), ('ut', 5), ('velit', 9), ('voluptatem', 2)]
[('Adipisci', 1), ('Aliquam', 1), ('Amet', 1), ('Consectetur', 1), ('Dolor', 1), ('Dolore', 2), ('Dolorem', 1), ('Eius', 3), ('Est', 1), ('Etincidunt', 3), ('Labore', 2), ('Magnam', 2), ('Modi', 1), ('Neque', 4), ('Non', 2), ('Numquam', 6), ('Porro', 1), ('Quaerat', 1), ('Quiquia', 2), ('Quisquam', 1), ('Sed', 3), ('Sit', 2), ('Tempora', 2), ('Ut',

### Завдання 14
- Використайте реалізовані вище функції для підрахунку (слова, частоти зустріваності) за допомогою циклів for над файлами та розділеними даними.