# MapReduce на mrjob

mrjob это библиотека для Python, которая позволяет создавать MapReduce jobs. 

Документация по MRJob: [https://mrjob.readthedocs.io/en/latest/](https://mrjob.readthedocs.io/en/latest/)

Возьмем файл из MapReduce(bash) `fruits.txt`

In [6]:
%%bash
ls -lh fruits.txt

-r--r--r-- 1 user123 hadoopusers 429M Apr 17 23:00 file.txt


Создадим файл `word_count.py` с помощью magic в Jupyter Notebook `%%file`

In [10]:
%%file word_count.py
from mrjob.job import MRJob

class MRWordFrequencyCount(MRJob):

    def mapper(self, _, line):
        yield "chars", len(line)
        yield "words", len(line.split())
        yield "lines", 1
        

    def reducer(self, key, values):
        yield key, sum(values)


if __name__ == '__main__':
    MRWordFrequencyCount.run()

Overwriting word_count.py


Мы можем определит кол-во мапперов и редьюсеров, на пример $10$ мапперов и $3$ редьюсеров. (игрушечный пример)

In [None]:
%%bash

DATAFILE=fruits.txt
STREAMING_JAR=/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar
N=10

# N map tasks
python word_count.py\
    --jobconf mapreduce.job.maps=$N\
    --jobconf mapreduce.job.reduces=3\
    -r hadoop\
    --hadoop-streaming-jar $STREAMING_JAR\
    $DATAFILE

Проведем эксперименты

In [None]:
%%bash
START=$(date +%s);

DATAFILE=# файл с большим набором данных
STREAMING_JAR=/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar
N=4 # кол-во мапперов

# N map tasks
python word_count.py\
    --jobconf mapreduce.job.maps=$N\
    --jobconf mapreduce.job.reduces=3\
    -r hadoop --hadoop-streaming-jar $STREAMING_JAR\
    $DATAFILE
    
2>/dev/null

END=$(date +%s);
echo $((END-START)) | awk '{print "Duration: "int($1/60)":"int($1%60)}'