# MapReduce

### Что такое MapReduce

**MapReduce** — это модель параллельных вычислений и фреймворк для обработки больших объёмов данных (Big Data).
Она была предложена Google в статье *“MapReduce: Simplified Data Processing on Large Clusters”* (2004).
Основная идея — разделить обработку данных на две стадии:

1. **Map (отображение)** — применяет функцию ко всем входным данным и преобразует их в пары (ключ, значение).

2. **Reduce (свёртка)** — агрегирует результаты по ключам, полученным на предыдущем шаге.

![MapReduce](mr.png)

### Скачаем датасет

In [None]:
! mkdir seminar-2-dir

In [None]:
%cd seminar-2-dir

In [None]:
! curl -o tweets.csv https://raw.githubusercontent.com/fivethirtyeight/russian-troll-tweets/refs/heads/master/IRAhandle_tweets_10.csv

In [None]:
! du -h tweets.csv

In [None]:
! head tweets.csv

In [None]:
! sed -i -e '1d' tweets.csv

In [None]:
! head -n 3 tweets.csv

### Задача - посчитать количество вхождений каждого слова в текстах сообщений

Попробуем написать наивное решение через Python + класс Counter

In [None]:
%%writefile simple_counter.py

import csv
from collections import Counter
import re

def wordcount_from_csv():
    counter = Counter()
    
    with open('tweets.csv', 'r', encoding='utf-8') as f:
        reader = csv.reader(f)
        for row in reader:
            text = row[2].lower()
            
            words = re.findall(r'[a-z]+', text)
            counter.update(words)
    
    return counter

if __name__ == '__main__':
    c = wordcount_from_csv()
    for key in c:
        print(key, c[key])

In [None]:
%%time
! python3 simple_counter.py > counts.txt

In [None]:
! ls

In [None]:
! wc -l counts.txt

In [None]:
! head counts.txt

In [None]:
! cat counts.txt | sort -k2,2nr -k1,1 | head 

### А что если сделать mapreduce через Python и Bash?

**Map** — это первая стадия модели MapReduce, на которой входные данные разбиваются на независимые части и обрабатываются параллельно. Каждая часть поступает в функцию *map*, которая преобразует данные в набор промежуточных пар вида *(ключ, значение)*. Например, при подсчёте слов в тексте каждая строка преобразуется в список пар вроде `("слово", 1)`. Эта стадия отвечает за извлечение и предварительную структуризацию информации.

**Reduce** — это вторая стадия, которая получает сгруппированные по ключу результаты работы map-задач. Функция *reduce* сводит значения, относящиеся к одному ключу, к итоговому результату, например, суммируя, усредняя или объединяя их. В задаче подсчёта слов reduce просто складывает все единицы для каждого слова, чтобы получить общее количество его вхождений. Эта стадия отвечает за агрегацию и формирование конечного вывода.

Интересно, что базовую идею MapReduce можно реализовать даже без Hadoop, используя обычные команды Bash. Поток данных можно пропустить через три этапа: `cat text.txt | map | sort | reduce > result.txt`. Здесь `map` — скрипт, который генерирует пары ключ–значение, `sort` выполняет роль *shuffle and sort*, а `reduce` агрегирует данные по ключам. Такой подход демонстрирует суть парадигмы MapReduce — разделение обработки на этапы отображения, сортировки и свёртки — без необходимости использовать распределённые вычисления.


### Напишем Python скрипт, который сможет выполнять map и reduce

In [None]:
%%writefile wordcount.py
import sys
import csv
import re

def mapper():
    reader = csv.reader(sys.stdin)
    for row in reader:
        text = row[2].lower() 
        words = re.findall(r'[a-z]+', text)
        for word in words:
            print(f"{word}\t1")
        

def reducer():
    current_word = None
    current_count = 0

    for line in sys.stdin:
        word, count = line.strip().split('\t', 1)
        count = int(count)

        if word == current_word or current_word is None:
            current_count += count
        else:
            print(f"{current_word}\t{current_count}")
            current_count = 1
            
        current_word = word
        
    print(f"{current_word}\t{current_count}")

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


In [None]:
! ls

In [None]:
%%time
! cat tweets.csv | python3 wordcount.py mapper | sort -k1,1 | python3 wordcount.py reducer > counts2.txt

In [None]:
! ls

In [None]:
! cat counts2.txt | sort -k2,2nr -k1,1 | head

### Напишем теперь аналогичный скрипт для подсчета top10 слов

In [None]:
%%writefile top10.py

import sys
from collections import Counter

def flush_stdin():
    for line in sys.stdin:
        pass
        

def mapper():
    for line in sys.stdin:
        print(line.strip() + '\t')

def reducer():
    # читаем поток и выводим только первые 10 строк
    for i, line in enumerate(sys.stdin):
        if i < 10:
            print(line.strip())
        else:
            break
    flush_stdin()

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


In [None]:
%%time
! cat counts2.txt | python3 top10.py mapper | sort -k2,2nr -k1,1 | python3 top10.py reducer > top10.txt

In [None]:
! cat top10.txt

### Так а что с Map Reduce?
С помощью указанных двух скриптов был продемонстрирован основной принцип работы map reduce с помощью уже знакомых bash команд. Давайте теперь перейдем непосредственно к Hadoop MapReduce, ради которого здесь и собрались. Глобально, цель, которую он выполняет, это распределенный запуск скриптов Map & Reduce (на разных воркерах!) и сортировка данных между этими этапами (shuffle).

**Переместим файлы с инпутами в hdfs**

In [None]:
! hdfs dfs -mkdir /sem3
! hdfs dfs -mkdir /sem3/wordcount
! hdfs dfs -mkdir /sem3/wordcount/input

In [None]:
! hdfs dfs -put ./tweets.csv /sem3/wordcount/input/

In [None]:
! hdfs dfs -du -h /sem3/wordcount/input/

**Запустим MapReduce таску**

In [None]:
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.name="word_count" \
-D mapreduce.job.reduces=3 \
-files wordcount.py \
-mapper "python3 wordcount.py mapper" \
-reducer "python3 wordcount.py reducer" \
-input /sem3/wordcount/input/ \
-output /sem3/wordcount/output/

In [None]:
! hdfs dfs -ls /sem3/wordcount/output

In [None]:
! hdfs dfs -rm /sem3/wordcount/output/_SUCCESS

In [None]:
! hdfs dfs -cat /sem3/wordcount/output/part-* | head

In [None]:
! hdfs dfs -cat /sem3/wordcount/output/part-* > result.txt

In [None]:
! cat result.txt | sort -k2,2nr -k1,1 | head

**Давайте теперь запустим top10 скрипт через MapReduce**

In [None]:
! hdfs dfs -mkdir /sem3/top10

In [None]:
! hdfs dfs -rm -r -f /sem3/top10/output

In [None]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.job.name="top10" \
-D mapreduce.job.reduces=1 \
-D stream.num.map.output.key.fields=2 \
-D mapreduce.partition.keycomparator.options='-k2,2nr -k1,1' \
-files top10.py \
-mapper "python3 top10.py mapper" \
-reducer "python3 top10.py reducer" \
-input /sem3/wordcount/output/ \
-output /sem3/top10/output/

In [None]:
! hdfs dfs -cat /sem3/top10/output/part-* 2> /dev/null

### Distributed Cache

Кроме непосредственно **кода** в MapReduce мы также можем передавать на ноды-воркеры еще и другие файлы. Например, мы можем передать файл со словами, которые надо отфильтровать (топ 10 самых популярных слов)

In [None]:
%%writefile ban.txt
t
co
https
to
in
s
the
news
of
world

In [None]:
%%writefile top10_ban.py

import sys
from collections import Counter

def flush_stdin():
    for line in sys.stdin:
        pass

def get_banned_words():
    with open('ban.txt', 'r') as f:
        return {word.strip() for word in f}

def mapper():
    banned_words = get_banned_words()
    for line in sys.stdin:
        word, count = line.strip().split()
        if word not in banned_words:
            print(line.strip() + '\t')

def reducer():
    # читаем поток и выводим только первые 10 строк
    for i, line in enumerate(sys.stdin):
        if i < 10:
            print(line.strip())
        else:
            break
    flush_stdin()

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


In [None]:
%%time
! cat counts2.txt | python3 top10_ban.py mapper | sort  -k2,2nr -k1,1 | python3 top10_ban.py reducer > top10_ban.txt

In [None]:
! cat top10_ban.txt

In [None]:
! hdfs dfs -mkdir /sem3/top10_ban

In [None]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.job.name="top10_ban" \
-D mapreduce.job.reduces=1 \
-D stream.num.map.output.key.fields=2 \
-D mapreduce.partition.keycomparator.options='-k2,2nr -k1,1' \
-files top10_ban.py,ban.txt \
-mapper "python3 top10_ban.py mapper" \
-reducer "python3 top10_ban.py reducer" \
-input /sem3/wordcount/output/ \
-output /sem3/top10_ban/output/

In [None]:
! hdfs dfs -cat /sem3/top10_ban/output/part-*

### Combiner

![Combine](combiner.png)

**Combiner** — это вспомогательный мини-reducer, который выполняется на стороне mapper-узлов и служит для локального агрегирования промежуточных результатов перед отправкой их на этап shuffle. Он позволяет значительно сократить объём передаваемых данных в сеть: например, в задаче WordCount combiner может суммировать количество вхождений слов в пределах одного mapper’а, прежде чем эти частичные суммы будут отправлены на общий reducer. По сути, combiner использует ту же логику, что и reducer, но действует локально и не гарантируется к исполнению Hadoop’ом — это лишь оптимизация, которую фреймворк может применить, если посчитает возможным.


In [None]:
! hdfs dfs -mkdir /sem3/wordcount_comb/

In [None]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.name="word_count" \
-D mapreduce.job.reduces=3 \
-files wordcount.py \
-mapper "python3 wordcount.py mapper" \
-reducer "python3 wordcount.py reducer" \
-combiner "python3 wordcount.py reducer" \
-input /sem3/wordcount/input/ \
-output /sem3/wordcount_comb/output/

In [None]:
! hdfs dfs -cat /sem3/wordcount_comb/output/part-* | head

### Custom Partitioner

**Partitioner** — это компонент в MapReduce, который определяет, к какому reducer’у будет отправлен каждый ключ после стадии shuffle. Он отвечает за распределение промежуточных пар `key–value` между reduce-задачами, чтобы обеспечить баланс нагрузки и корректную группировку данных: все значения с одинаковым ключом должны попасть на один и тот же reducer. По умолчанию используется `HashPartitioner`, который распределяет ключи по хешу, но при необходимости можно задать **custom partitioner**, если нужно контролировать логику распределения — например, отправлять данные по диапазонам значений, по первым символам ключей или по географическим регионам.


Давайте решим следующую задачу: для каждого пользователя вычислим суммарную длину сообщений, написанных им на каждом языке. В данном случае стандартная сортировка по партициям работать не будет, вопрос - *почему?*

In [None]:
%%writefile lang_len.py
import sys
import csv
import re

def mapper():
    reader = csv.reader(sys.stdin)
    for row in reader:
        user, text, lang = row[1], row[2], row[4]
        print(f'{user}+{lang}\t{len(text)}')

def reducer():
    current_word = None
    current_count = 0

    for line in sys.stdin:
        word, count = line.strip().split('\t', 1)
        count = int(count)

        if word == current_word or current_word is None:
            current_count += count
        else:
            print(f"{current_word}\t{current_count}")
            current_count = 1
            
        current_word = word
        
    print(f"{current_word}\t{current_count}")

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


In [None]:
%%time
! cat tweets.csv | python3 lang_len.py mapper | sort | python3 lang_len.py reducer > lang_len.txt

In [None]:
! sort -k1,1 lang_len.txt | head

In [None]:
! hdfs dfs -mkdir /sem3/lang_len/

In [None]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.name="lang_len" \
-D mapreduce.job.reduces=3 \
-D stream.num.map.output.key.fields=2 \
-D map.output.key.field.separator='+' \
-D mapreduce.partition.keypartitioner.options='-k1,1' \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.partition.keycomparator.options='-k1,1 -k2,2' \
-files lang_len.py \
-mapper "python3 lang_len.py mapper" \
-reducer "python3 lang_len.py reducer" \
-input /sem3/wordcount/input/ \
-output /sem3/lang_len/output/ \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

In [None]:
! hdfs dfs -ls /sem3/lang_len/output

In [None]:
! hdfs dfs -cat /sem3/lang_len/output/part-00000 | sort -k1,1 | head -n 20

In [None]:
! hdfs dfs -cat /sem3/lang_len/output/part-00002 | grep POLITOPROS