In [None]:
# MapReduce

### Что такое MapReduce

**MapReduce** — это модель параллельных вычислений и фреймворк для обработки больших объёмов данных (Big Data).
Она была предложена Google в статье *“MapReduce: Simplified Data Processing on Large Clusters”* (2004).
Основная идея — разделить обработку данных на две стадии:

1. **Map (отображение)** — применяет функцию ко всем входным данным и преобразует их в пары (ключ, значение).

2. **Reduce (свёртка)** — агрегирует результаты по ключам, полученным на предыдущем шаге.

![MapReduce](mr.png)

### Скачаем датасет

In [3]:
! mkdir seminar-2-dir

In [4]:
%cd seminar-2-dir

/home/jovyan/work/seminar-2-dir


In [22]:
! curl -o tweets.csv https://raw.githubusercontent.com/fivethirtyeight/russian-troll-tweets/refs/heads/master/IRAhandle_tweets_10.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 90.0M  100 90.0M    0     0  2524k      0  0:00:36  0:00:36 --:--:-- 3410k


In [23]:
! du -h tweets.csv

97M	tweets.csv


In [33]:
! head tweets.csv

2260338140,POLITICS_T0DAY,https://t.co/9OgJ5RxUEV,United States,Russian,2/16/2016 23:15,2/16/2016 23:16,92,887,12939,,Russian,0,NonEnglish,0,2260338140,699733931055259648,http://twitter.com/politics_t0day/statuses/699733931055259648,https://twitter.com/politics_t0day/status/699733931055259648/photo/1,,
2260338140,POLITICS_T0DAY,Пять этажей жилого дома рухнули в Ярославле после взрыва газа https://t.co/nYwm9SVK9x с помощью @YouTube,United States,Russian,2/16/2016 5:41,2/16/2016 5:42,92,884,12895,,Russian,0,NonEnglish,0,2260338140,699468718888390656,http://twitter.com/politics_t0day/statuses/699468718888390656,https://youtu.be/STxTIceQmsA,,
2260338140,POLITICS_T0DAY,Вербовщика Джихади Джона нашли в Турции через соцсети https://t.co/kJB3G1ioAm с помощью @YouTube,United States,Russian,2/16/2016 6:10,2/16/2016 6:10,92,884,12896,,Russian,0,NonEnglish,0,2260338140,699476018063659008,http://twitter.com/politics_t0day/statuses/699476018063659008,https://youtu.be/xy5ap3xX_fs,,
2260338140,POLITIC

In [28]:
! sed -i -e '1d' tweets.csv

In [29]:
! head -n 3 tweets.csv

2260338140,POLITICS_T0DAY,https://t.co/9OgJ5RxUEV,United States,Russian,2/16/2016 23:15,2/16/2016 23:16,92,887,12939,,Russian,0,NonEnglish,0,2260338140,699733931055259648,http://twitter.com/politics_t0day/statuses/699733931055259648,https://twitter.com/politics_t0day/status/699733931055259648/photo/1,,
2260338140,POLITICS_T0DAY,Пять этажей жилого дома рухнули в Ярославле после взрыва газа https://t.co/nYwm9SVK9x с помощью @YouTube,United States,Russian,2/16/2016 5:41,2/16/2016 5:42,92,884,12895,,Russian,0,NonEnglish,0,2260338140,699468718888390656,http://twitter.com/politics_t0day/statuses/699468718888390656,https://youtu.be/STxTIceQmsA,,
2260338140,POLITICS_T0DAY,Вербовщика Джихади Джона нашли в Турции через соцсети https://t.co/kJB3G1ioAm с помощью @YouTube,United States,Russian,2/16/2016 6:10,2/16/2016 6:10,92,884,12896,,Russian,0,NonEnglish,0,2260338140,699476018063659008,http://twitter.com/politics_t0day/statuses/699476018063659008,https://youtu.be/xy5ap3xX_fs,,


### Задача - посчитать количество вхождений каждого слова в текстах сообщений

Попробуем написать наивное решение через Python + класс Counter

In [76]:
%%writefile simple_counter.py

import csv
from collections import Counter
import re

def wordcount_from_csv():
    counter = Counter()
    
    with open('tweets.csv', 'r', encoding='utf-8') as f:
        reader = csv.reader(f)
        for row in reader:
            text = row[2].lower()
            
            words = re.findall(r'[a-z]+', text)
            counter.update(words)
    
    return counter

if __name__ == '__main__':
    c = wordcount_from_csv()
    for key in c:
        print(key, c[key])

Overwriting simple_counter.py


In [77]:
%%time
! python3 simple_counter.py > counts.txt

CPU times: user 19.1 ms, sys: 18.5 ms, total: 37.6 ms
Wall time: 2.49 s


In [35]:
! ls

counts.txt  simple_counter.py  tweets.csv


In [78]:
! wc -l counts.txt

281837 counts.txt


In [79]:
! head counts.txt

https 172298
t 211293
co 200119
ogj 4
rxuev 1
nywm 1
svk 5
x 3699
youtube 2173
kjb 4


In [80]:
! cat counts.txt | sort -k2,2nr -k1,1 | head 

t 211293
co 200119
https 172298
to 51908
in 44732
s 39609
the 36215
news 34041
of 30243
world 29011
sort: write failed: 'standard output': Broken pipe
sort: write error


### А что если сделать mapreduce через Python и Bash?

**Map** — это первая стадия модели MapReduce, на которой входные данные разбиваются на независимые части и обрабатываются параллельно. Каждая часть поступает в функцию *map*, которая преобразует данные в набор промежуточных пар вида *(ключ, значение)*. Например, при подсчёте слов в тексте каждая строка преобразуется в список пар вроде `("слово", 1)`. Эта стадия отвечает за извлечение и предварительную структуризацию информации.

**Reduce** — это вторая стадия, которая получает сгруппированные по ключу результаты работы map-задач. Функция *reduce* сводит значения, относящиеся к одному ключу, к итоговому результату, например, суммируя, усредняя или объединяя их. В задаче подсчёта слов reduce просто складывает все единицы для каждого слова, чтобы получить общее количество его вхождений. Эта стадия отвечает за агрегацию и формирование конечного вывода.

Интересно, что базовую идею MapReduce можно реализовать даже без Hadoop, используя обычные команды Bash. Поток данных можно пропустить через три этапа: `cat text.txt | map | sort | reduce > result.txt`. Здесь `map` — скрипт, который генерирует пары ключ–значение, `sort` выполняет роль *shuffle and sort*, а `reduce` агрегирует данные по ключам. Такой подход демонстрирует суть парадигмы MapReduce — разделение обработки на этапы отображения, сортировки и свёртки — без необходимости использовать распределённые вычисления.


### Напишем Python скрипт, который сможет выполнять map и reduce

In [83]:
%%writefile wordcount.py
import sys
import csv
import re

def mapper():
    reader = csv.reader(sys.stdin)
    for row in reader:
        text = row[2].lower() 
        words = re.findall(r'[a-z]+', text)
        for word in words:
            print(f"{word}\t1")
        

def reducer():
    current_word = None
    current_count = 0

    for line in sys.stdin:
        word, count = line.strip().split('\t', 1)
        count = int(count)

        if word == current_word or current_word is None:
            current_count += count
        else:
            print(f"{current_word}\t{current_count}")
            current_count = 1
            
        current_word = word
        
    print(f"{current_word}\t{current_count}")

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


Overwriting wordcount.py


In [49]:
! ls

counts2.txt  counts.txt  simple_counter.py  tweets.csv	wordcount.py


In [84]:
%%time
! cat tweets.csv | python3 wordcount.py mapper | sort -k1,1 | python3 wordcount.py reducer > counts2.txt

CPU times: user 36.7 ms, sys: 23.2 ms, total: 59.9 ms
Wall time: 5.4 s


In [31]:
! ls

counts2.txt    counts.txt  simple_counter.py  top10.txt   wordcount.py
counts_mr.txt  result.txt  top10.py	      tweets.csv


In [85]:
! head -n 30 counts2.txt

a	25081
aa	131
aaa	26
aaaaaa	1
aaaaaaaaassssss	1
aaaaaaaah	1
aaaaaand	1
aaaaand	1
aaaaannnddd	1
aaaaannnnndddd	1
aaaand	1
aaaapexeva	1
aaadqyw	1
aaaf	2
aaafdob	1
aaafzgea	1
aaags	1
aaah	1
aaahjkx	1
aaaihta	1
aaailtkoc	1
aaaisela	1
aaajdsl	1
aaalc	1
aaamcsfpzs	1
aaana	1
aaaniw	2
aaanmarkaz	1
aaaqtl	1
aaarzjhw	1


### Напишем теперь аналогичный скрипт для подсчета top10 слов

In [24]:
%%writefile top10.py

import sys
from collections import Counter

def flush_stdin():
    for line in sys.stdin:
        pass
        

def mapper():
    for line in sys.stdin:
        print(line.strip() + '\t')

def reducer():
    # читаем поток и выводим только первые 10 строк
    for i, line in enumerate(sys.stdin):
        if i < 10:
            print(line.strip())
        else:
            break
    flush_stdin()

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


Overwriting top10.py


In [86]:
%%time
! cat counts2.txt | python3 top10.py mapper | sort  -k2,2nr -k1,1 | python3 top10.py reducer > top10.txt

CPU times: user 3.3 ms, sys: 11.4 ms, total: 14.7 ms
Wall time: 588 ms


In [87]:
! cat top10.txt

t	211293
co	200119
https	172298
to	51908
in	44732
s	39609
the	36215
news	34041
of	30243
world	29011


### Так а что с Map Reduce?
С помощью указанных двух скриптов был продемонстрирован основной принцип работы map reduce с помощью уже знакомых bash команд. Давайте теперь перейдем непосредственно к Hadoop MapReduce, ради которого здесь и собрались. Глобально, цель, которую он выполняет, это распределенный запуск скриптов Map & Reduce (на разных воркерах!) и сортировка данных между этими этапами (shuffle).

**Переместим файлы с инпутами в hdfs**

In [5]:
! hdfs dfs -mkdir /sem3
! hdfs dfs -mkdir /sem3/wordcount
! hdfs dfs -mkdir /sem3/wordcount/input

2025-10-07 15:36:46,699 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2025-10-07 15:36:47,775 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2025-10-07 15:36:48,791 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [6]:
! hdfs dfs -put ./tweets.csv /sem3/wordcount/input/

2025-10-07 15:36:50,973 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [4]:
! hdfs dfs -ls /sem3/wordcount/input/

2025-10-06 18:01:32,367 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rw-r--r--   1 hadoop users   94371615 2025-10-06 18:01 /sem3/wordcount/input/tweets.csv


In [5]:
! hdfs dfs -mkdir /sem3/wordcount/output

2025-10-06 18:01:35,174 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [89]:
! hdfs dfsadmin -report

2025-10-06 17:00:02,345 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Configured Capacity: 970947969024 (904.27 GB)
Present Capacity: 843524689920 (785.59 GB)
DFS Remaining: 843429511168 (785.50 GB)
DFS Used: 95178752 (90.77 MB)
DFS Used%: 0.01%
Replicated Blocks:
	Under replicated blocks: 0
	Blocks with corrupt replicas: 0
	Missing blocks: 0
	Missing blocks (with replication factor 1): 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0
Erasure Coded Block Groups: 
	Low redundancy block groups: 0
	Block groups with corrupt internal blocks: 0
	Missing block groups: 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0

-------------------------------------------------
Live datanodes (2):

Name: 172.18.0.4:9866 (map-reduce-infra-datanode1-1.map-reduce-infra_spark_mts)
Hostname: 1322b44ff6

**Запустим MapReduce таску**

In [90]:
! hdfs dfs -rm -r -f /sem3/wordcount/output

2025-10-07 16:41:16,797 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Deleted /sem3/wordcount/output


In [91]:
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.name="word_count" \
-D mapreduce.job.reduces=3 \
-files wordcount.py \
-mapper "python3 wordcount.py mapper" \
-reducer "python3 wordcount.py reducer" \
-input /sem3/wordcount/input/ \
-output /sem3/wordcount/output/



2025-10-07 16:41:22,571 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
packageJobJar: [/tmp/hadoop-unjar14582909534253861517/] [] /tmp/streamjob8303406821154922124.jar tmpDir=null
2025-10-07 16:41:23,019 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:41:23,103 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:41:23,317 INFO  [main] mapreduce.JobResourceUploader (JobResourceUploader.java:disableErasureCodingForPath(907)) - Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hadoop/.staging/job_1759851351637_0009
2025-10-07 16:41:24,540 INFO  [main] mapred.FileInputFormat (FileInpu

In [69]:
! hdfs dfs -ls /sem3/wordcount/output

2025-10-07 16:20:27,958 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 4 items
-rw-r--r--   1 hadoop users          0 2025-10-07 16:20 /sem3/wordcount/output/_SUCCESS
-rw-r--r--   1 hadoop users    3168124 2025-10-07 16:20 /sem3/wordcount/output/part-00000
-rw-r--r--   1 hadoop users    3160856 2025-10-07 16:20 /sem3/wordcount/output/part-00001
-rw-r--r--   1 hadoop users    3165548 2025-10-07 16:20 /sem3/wordcount/output/part-00002


In [70]:
! hdfs dfs -rm /sem3/wordcount/output/_SUCCESS

2025-10-07 16:20:34,233 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Deleted /sem3/wordcount/output/_SUCCESS


In [22]:
! ls

counts2.txt  simple_counter.py	top10.txt   wordcount.py
counts.txt   top10.py		tweets.csv


In [71]:
! hdfs dfs -cat /sem3/wordcount/output/part-* | head

2025-10-07 16:20:39,141 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
!!!!!!!!!!!!!!!!!!!!!!!!!!!!	1
!!!жопы	1
!#lastminutegifts2016	1
!#snl	1
!)	3
!rt	2
!�@dj_mac_nificent�@elisiomark�@beatricelacy	1
"""though	1
""(bye	1
cat: Unable to write to output stream.
cat: Unable to write to output stream.
cat: Unable to write to output stream.


In [8]:
! hdfs dfs -cat /sem3/wordcount/output/part-* > result.txt



In [9]:
! cat result.txt | sort -k2,2nr -k1,1 | head

to	49804
in	42044
в	30617
of	29036
the	27454
#world	27070
for	22297
#news,United	22007
a	17592
on	17338
sort: write failed: 'standard output': Broken pipe
sort: write error


**Давайте теперь запустим top10 скрипт через MapReduce**

In [10]:
! hdfs dfs -mkdir /sem3/top10

2025-10-07 15:38:07,367 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [96]:
! hdfs dfs -rm -r -f /sem3/top10/output

2025-10-07 16:46:53,193 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Deleted /sem3/top10/output


In [97]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.job.name="top10" \
-D mapreduce.job.reduces=1 \
-D stream.num.map.output.key.fields=2 \
-D mapreduce.partition.keycomparator.options='-k2,2nr -k1,1' \
-files top10.py \
-mapper "python3 top10.py mapper" \
-reducer "python3 top10.py reducer" \
-input /sem3/wordcount/output/ \
-output /sem3/top10/output/



2025-10-07 16:46:55,320 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
packageJobJar: [/tmp/hadoop-unjar11779773384336844669/] [] /tmp/streamjob12641805734492712068.jar tmpDir=null
2025-10-07 16:46:55,721 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:46:55,808 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:46:56,011 INFO  [main] mapreduce.JobResourceUploader (JobResourceUploader.java:disableErasureCodingForPath(907)) - Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hadoop/.staging/job_1759851351637_0010
2025-10-07 16:46:56,759 INFO  [main] mapred.FileInputFormat (FileInp

In [98]:
! hdfs dfs -cat /sem3/top10/output/part-* 2> /dev/null

2025-10-07 16:47:28,006 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
t	211293
co	200119
https	172298
to	51908
in	44732
s	39609
the	36215
news	34041
of	30243
world	29011


### Distributed Cache

Кроме непосредственно **кода** в MapReduce мы также можем передавать на ноды-воркеры еще и другие файлы. Например, мы можем передать файл со словами, которые надо отфильтровать (топ 10 самых популярных слов)

In [88]:
%%writefile ban.txt
t
co
https
to
in
s
the
news
of
world

Writing ban.txt


In [92]:
%%writefile top10_ban.py

import sys
from collections import Counter

def flush_stdin():
    for line in sys.stdin:
        pass

def get_banned_words():
    with open('ban.txt', 'r') as f:
        return {word.strip() for word in f}

def mapper():
    banned_words = get_banned_words()
    for line in sys.stdin:
        word, count = line.strip().split()
        if word not in banned_words:
            print(line.strip() + '\t')

def reducer():
    # читаем поток и выводим только первые 10 строк
    for i, line in enumerate(sys.stdin):
        if i < 10:
            print(line.strip())
        else:
            break
    flush_stdin()

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


Writing top10_ban.py


In [93]:
%%time
! cat counts2.txt | python3 top10_ban.py mapper | sort  -k2,2nr -k1,1 | python3 top10_ban.py reducer > top10_ban.txt

CPU times: user 6.52 ms, sys: 13.6 ms, total: 20.1 ms
Wall time: 637 ms


In [94]:
cat top10_ban.txt

http	27528
a	25081
for	23601
on	18823
i	16211
and	15955
u	14703
topnews	14656
is	14448
sports	13213


In [99]:
! hdfs dfs -mkdir /sem3/top10_ban

2025-10-07 16:48:42,124 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [100]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.job.name="top10" \
-D mapreduce.job.reduces=1 \
-D stream.num.map.output.key.fields=2 \
-D mapreduce.partition.keycomparator.options='-k2,2nr -k1,1' \
-files top10_ban.py,ban.txt \
-mapper "python3 top10_ban.py mapper" \
-reducer "python3 top10_ban.py reducer" \
-input /sem3/wordcount/output/ \
-output /sem3/top10_ban/output/



2025-10-07 16:49:00,794 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
packageJobJar: [/tmp/hadoop-unjar140181461329097395/] [] /tmp/streamjob17655520414586089727.jar tmpDir=null
2025-10-07 16:49:01,212 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:49:01,298 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:49:01,480 INFO  [main] mapreduce.JobResourceUploader (JobResourceUploader.java:disableErasureCodingForPath(907)) - Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hadoop/.staging/job_1759851351637_0011
2025-10-07 16:49:02,672 INFO  [main] mapred.FileInputFormat (FileInput

In [101]:
! hdfs dfs -cat /sem3/top10_ban/output/part-*

2025-10-07 16:49:56,334 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
http	27528
a	25081
for	23601
on	18823
i	16211
and	15955
u	14703
topnews	14656
is	14448
sports	13213


### Combiner

![Combiner](combiner.png)

**Combiner** — это вспомогательный мини-reducer, который выполняется на стороне mapper-узлов и служит для локального агрегирования промежуточных результатов перед отправкой их на этап shuffle. Он позволяет значительно сократить объём передаваемых данных в сеть: например, в задаче WordCount combiner может суммировать количество вхождений слов в пределах одного mapper’а, прежде чем эти частичные суммы будут отправлены на общий reducer. По сути, combiner использует ту же логику, что и reducer, но действует локально и не гарантируется к исполнению Hadoop’ом — это лишь оптимизация, которую фреймворк может применить, если посчитает возможным.


In [103]:
! hdfs dfs -mkdir /sem3/wordcount_comb/

2025-10-07 16:54:27,341 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [107]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.name="word_count" \
-D mapreduce.job.reduces=3 \
-files wordcount.py \
-mapper "python3 wordcount.py mapper" \
-reducer "python3 wordcount.py reducer" \
-combiner "python3 wordcount.py reducer" \
-input /sem3/wordcount/input/ \
-output /sem3/wordcount_comb/output/



2025-10-07 16:55:59,409 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
packageJobJar: [/tmp/hadoop-unjar8594863886566521833/] [] /tmp/streamjob15369750880871452449.jar tmpDir=null
2025-10-07 16:55:59,791 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:55:59,872 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 16:56:00,054 INFO  [main] mapreduce.JobResourceUploader (JobResourceUploader.java:disableErasureCodingForPath(907)) - Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hadoop/.staging/job_1759851351637_0013
2025-10-07 16:56:00,721 INFO  [main] mapred.FileInputFormat (FileInpu

In [110]:
! hdfs dfs -cat /sem3/wordcount_comb/output/part-* | head

2025-10-07 16:57:18,652 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
aa	131
aaaaaaaah	1
aaaaand	1
aaaand	1
aaags	1
aaah	1
aaahjkx	1
aaaihta	1
aaailtkoc	1
cat: Unable to write to output stream.
cat: Unable to write to output stream.
cat: Unable to write to output stream.


### Custom Partitioner

**Partitioner** — это компонент в MapReduce, который определяет, к какому reducer’у будет отправлен каждый ключ после стадии shuffle. Он отвечает за распределение промежуточных пар `key–value` между reduce-задачами, чтобы обеспечить баланс нагрузки и корректную группировку данных: все значения с одинаковым ключом должны попасть на один и тот же reducer. По умолчанию используется `HashPartitioner`, который распределяет ключи по хешу, но при необходимости можно задать **custom partitioner**, если нужно контролировать логику распределения — например, отправлять данные по диапазонам значений, по первым символам ключей или по географическим регионам.


Давайте решим следующую задачу: для каждого пользователя вычислим суммарную длину сообщений, написанных им на каждом языке. В данном случае стандартная сортировка по партициям работать не будет, вопрос - *почему?*

In [113]:
from itertools import groupby
?groupby

[0;31mInit signature:[0m [0mgroupby[0m[0;34m([0m[0miterable[0m[0;34m,[0m [0mkey[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
make an iterator that returns consecutive keys and groups from the iterable

iterable
  Elements to divide into groups according to the key function.
key
  A function for computing the group category for each element.
  If the key function is not specified or is None, the element itself
  is used for grouping.
[0;31mType:[0m           type
[0;31mSubclasses:[0m     

In [115]:
%%writefile lang_len.py
import sys
import csv
import re

def mapper():
    reader = csv.reader(sys.stdin)
    for row in reader:
        user, text, lang = row[1], row[2], row[4]
        print(f'{user}+{lang}\t{len(text)}')

def reducer():
    current_word = None
    current_count = 0

    for line in sys.stdin:
        word, count = line.strip().split('\t', 1)
        count = int(count)

        if word == current_word or current_word is None:
            current_count += count
        else:
            print(f"{current_word}\t{current_count}")
            current_count = 1
            
        current_word = word
        
    print(f"{current_word}\t{current_count}")

if __name__ == "__main__":
    mode = sys.argv[1]
    if mode == "mapper":
        mapper()
    elif mode == "reducer":
        reducer()


Writing lang_len.py


In [117]:
%%time
! cat tweets.csv | python3 lang_len.py mapper | sort | python3 lang_len.py reducer > lang_len.txt

CPU times: user 12.3 ms, sys: 14.6 ms, total: 26.9 ms
Wall time: 1.61 s


In [120]:
! sort -k2,2rn lang_len.txt | head

SCREAMYMONKEY+English	3451894
RIAFANRU+Russian	2156506
ROOMOFRUMOR+English	1918287
POLITICS_T0DAY+Russian	1298626
SANANTOTOPNEWS+English	1006479
ROBERTEBONYKING+English	762336
PRETTYLARAPLACE+English	700711
RH0LBR00K+English	684761
SEATTLE_POST+English	596553
SAMIRGOODEN+English	593614


In [116]:
! hdfs dfs -mkdir /sem3/lang_len/

2025-10-07 17:23:01,930 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [123]:
%%time
%%bash
hadoop jar /opt/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar \
-D mapreduce.job.name="lang_len" \
-D mapreduce.job.reduces=3 \
-D stream.num.map.output.key.fields=2 \
-D map.output.key.field.separator='+' \
-D mapreduce.partition.keypartitioner.options='-k1,1' \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.partition.keycomparator.options='-k1,1 -k2,2' \
-files lang_len.py \
-mapper "python3 lang_len.py mapper" \
-reducer "python3 lang_len.py reducer" \
-input /sem3/wordcount/input/ \
-output /sem3/lang_len/output/ \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner



2025-10-07 17:30:35,923 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
packageJobJar: [/tmp/hadoop-unjar714599146571878659/] [] /tmp/streamjob18318748059191830452.jar tmpDir=null
2025-10-07 17:30:36,275 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 17:30:36,358 INFO  [main] client.DefaultNoHARMFailoverProxyProvider (DefaultNoHARMFailoverProxyProvider.java:init(64)) - Connecting to ResourceManager at resourcemanager/172.18.0.6:8032
2025-10-07 17:30:36,526 INFO  [main] mapreduce.JobResourceUploader (JobResourceUploader.java:disableErasureCodingForPath(907)) - Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hadoop/.staging/job_1759851351637_0015
2025-10-07 17:30:36,804 INFO  [main] mapred.FileInputFormat (FileInput

In [124]:
! hdfs dfs -ls /sem3/lang_len/output

2025-10-07 17:31:24,871 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 4 items
-rw-r--r--   1 hadoop users          0 2025-10-07 17:31 /sem3/lang_len/output/_SUCCESS
-rw-r--r--   1 hadoop users      10316 2025-10-07 17:31 /sem3/lang_len/output/part-00000
-rw-r--r--   1 hadoop users      10431 2025-10-07 17:31 /sem3/lang_len/output/part-00001
-rw-r--r--   1 hadoop users       9995 2025-10-07 17:31 /sem3/lang_len/output/part-00002


In [126]:
! hdfs dfs -cat /sem3/lang_len/output/part-* | sort -k2,2rn | head

SCREAMYMONKEY+English	3451894
RIAFANRU+Russian	2156506
ROOMOFRUMOR+English	1918287
POLITICS_T0DAY+Russian	1298626
SANANTOTOPNEWS+English	1006479
ROBERTEBONYKING+English	762336
PRETTYLARAPLACE+English	700711
RH0LBR00K+English	684761
SEATTLE_POST+English	596553
SAMIRGOODEN+English	593614
