# Map Reduce

Eerst maken we een aparte directory aan voor alles wat we voor deze notebook gaan gebruiken in hdfs. Dit om conflicten of het overschrijven van gegevens te vermijden.

In [1]:
import pydoop.hdfs as hdfs

In [2]:
localFS = hdfs.hdfs(host='')
client = hdfs.hdfs(host='localhost', port=9000)

if not client.exists('/user/bigdata/05_MapReduce'):
    client.create_directory('/user/bigdata/05_MapReduce')
client.set_working_directory('/user/bigdata/05_MapReduce')
print(client.working_directory())

# do some cleaning in case anything else than input.txt is present
for f in client.list_directory("."):
    if not f["name"].endswith("input.txt"):
        client.delete(f["name"], True)

2022-02-17 12:18:35,130 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


/user/bigdata/05_MapReduce


## Wat is MapReduce

MapReduce is een programmeermodel om eenvoudig distributed data te verwerken.
Het is belangrijk om te realiseren dat de programma's die je hier schrijft een parallel uitgevoerd worden op verschillende stukjes data (De map-fase) om daarna in de reduce-fase tot een finale output teruggebracht te worden.
Er gebeuren 5 stappen bij het uitvoeren van een MapReduce programma
* Bepalen op welke nodes de code uitgevoerd wordt (wordt door YARN gedaan afhankelijk van de locatie van de blocks)
* Uitvoeren van de Map-code (Geschreven door de developer naar eigen wens)
* Shuffle, ouput van de map-fase doorsturen naar andere nodes die de resultaten gaan reduceren (Automatisch)
* uitvoeren van de Reduce-code (Geschreven door de developer naar eigen wens)
* Combineren van de reduce output tot 1 gehele/finale output (Automatisch)

Uit bovenstaand stappenplan is het duidelijk dat er twee zaken moeten geimplementeerd worden bij het schrijven van een MapReduce toepassing.
Echter zullen we eerst een aantal voorbeelden bestuderen met reeds bestaande implementaties om zo meer vertrouwd te geraken met de flow van MapReduce.

## Voorbeelden van bestaande applicaties

Reeds een aantal default MapReduce applications zijn mee geinstalleerd met Hadoop.
De jar die deze toepassingen bevat kan gevonden worden in hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar.
Wanneer je deze jar uitvoert met onderstaande commando krijg je een lijst met de beschikbare applicaties

In [3]:
!hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar

An example program must be given as the first argument.
Valid program names are:
  aggregatewordcount: An Aggregate based map/reduce program that counts the words in the input files.
  aggregatewordhist: An Aggregate based map/reduce program that computes the histogram of the words in the input files.
  bbp: A map/reduce program that uses Bailey-Borwein-Plouffe to compute exact digits of Pi.
  dbcount: An example job that count the pageview counts from a database.
  distbbp: A map/reduce program that uses a BBP-type formula to compute exact bits of Pi.
  grep: A map/reduce program that counts the matches of a regex in the input.
  join: A job that effects a join over sorted, equally partitioned datasets
  multifilewc: A job that counts words from several files.
  pentomino: A map/reduce tile laying program to find solutions to pentomino problems.
  pi: A map/reduce program that estimates Pi using a quasi-Monte Carlo method.
  randomtextwriter: A map/reduce program that writes 10GB of r

In deze notebook gaan we vooral focussen op het typische probleem van wordcount.
Dit is een toepassing dat gaat tellen hoe vaak elk woord voorkomt in een bepaalde tekst.
Om meer informatie over deze toepassing te krijgen kan je gebruik maken van het volgende commando:

In [5]:
!hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount

Usage: wordcount <in> [<in>...] <out>


Voor we deze applicatie kunnen uitvoeren moeten we eerst ervoor zorgen dat er input data beschikbaar is in HDFS.
Upload hiervoor de input.txt file met onderstaande code

In [4]:
localFS.copy("input.txt", client, "input.txt")

0

Het toevoegen van dit bestand kan geverifieerd worden door het HDFS te gaan bekijken op volgende link [http://localhost:9870/explorer.html#/user/bigdata/05_MapReduce](http://localhost:9870/explorer.html#/user/bigdata/05_MapReduce)

Met onderstaande commando kan nu het precompiled word count example uitgevoerd worden

In [7]:
!hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount 05_MapReduce/input.txt 05_MapReduce/output

2022-02-17 12:25:13,339 INFO client.DefaultNoHARMFailoverProxyProvider: Connecting to ResourceManager at /0.0.0.0:8032
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/bigdata/05_MapReduce/output already exists
	at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:164)
	at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:277)
	at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:143)
	at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1576)
	at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1573)
	at java.base/java.security.AccessController.doPrivileged(Native Method)
	at java.base/javax.security.auth.Subject.doAs(Subject.java:423)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1845)
	at org.apache.hadoop.mapreduce.Job.submit(Job.java:1573)
	at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1594)
	a

Indien het bovenstaande commando een foutmelding geeft over het niet vinden van org.apache.hadoop.mapreduce.v2.app.MRAppMaster, voeg het volgende toe aan hadoop/etc/hadoop/mapred-site.xml

    <property>
	  	<name>yarn.app.mapreduce.am.env</name>
	  	<value>HADOOP_MAPRED_HOME=/home/bigdata/hadooop</value>
	</property>
	<property>
	  <name>mapreduce.map.env</name>
	  <value>HADOOP_MAPRED_HOME=/home/bigdata/hadooop</value>
	</property>
	<property>
	  <name>mapreduce.reduce.env</name>
	  <value>HADOOP_MAPRED_HOME=/home/bigdata/hadooop</value>
	</property>

Na dit toe te voegen, herstart yarn en hdfs.
Indien het hier nog niet mee opgelost is voer de volgende stappen uit:
* Voer "hadoop classpath" uit in de terminal
* Voeg het volgende toe aan hadoop/etc/hadoop/yarn-site.xml:

    <property>
        <name>yarn.application.classpath</name>
        <value>output van stap 1</value>
    </property>

Na het uitvoeren van het wordcount applicatie moet er een output.txt file aangemaakt zijn met de resultaten. **Bekijk dit nu.**
Het resultaat is een file met key-value pairs met de woorden als key en de frequentie/aantal keer dat de woorden voorkomen als key.

Probeer nu op basis van bovenstaande reeds bestaande applicaties de gemiddelde lengte van de woorden in de text te bepalen.

In [None]:
# uit te voeren op commando voor de gemiddelde lengte van de woorden te bekomen
!hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordmean 05_MapReduce/input.txt 05_MapReduce/output_mean_length

De resource manager houdt ook een overzicht bij van de uitgevoerde applicaties, hun status, runtime en eventuele loggings. Na bovenstaande commando's uit te voeren moet je iets gelijkaardigs zien als in de onderstaande screenshot.

![yarn of mapreduce](images/yarn_001.png)

## Zelf implementeren van MapReduce applicaties

Natuurlijk zijn er veel meer zaken mogelijk om te berekenen met map-reduce toepassingen dan de reeds gecompileerde in hadoop.
Zoals eerder aangehaald valt vooral het coderen van de Map- en Reducestap hierbij op de schouders van de developer.
De standaard programmeertaal van MapReduce is Java en dus ook het grootste deel van de documentatie over MapReduce is geschreven met behulp van Java.
Deze programmas moeten dan gecompileerd worden tot een jar dat geupload kan worden naar de overeenkomstige nodes en daar uitgevoerd.
De api overview van hadoop kan je [hier](https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/package-summary.html) vinden.

De code voor het wordcount example ziet er als volgt uit:

In [12]:
%%file WordCount.java
// dit schrijft onderstaande cell naar een file in de huidige directory
import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    // Mapper de classes na extends Mapper<> zijn input-key, input-value, output-key, output-value
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            // split de tekst via spaties/newlines -> itereren over woorden
            // hello world, ik ben jens
            StringTokenizer itr = new StringTokenizer(value.toString());
            // splitsen in 
            // hello
            //world,
            //ik
            //ben
            //jens
            while(itr.hasMoreTokens()){
                // next token = vraag het volgende woord op
                word.set(itr.nextToken());
                context.write(word, one);
                // (hello, 1)
                // (world, 1)
                // ...
            }
        }
    }

    // Reducer: de classes na extends Reducer<> zijn input-key, input-value, output-key, output-value
    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for(IntWritable val: values){
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    // configure the MapReduce program
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count java");
        // waar staat de map en reduce code
        job.setJarByClass(WordCount.class);
        
        // configure mapper
        job.setMapperClass(TokenizerMapper.class);
        
        //configure reducer
        job.setReducerClass(IntSumReducer.class);
        
        // configure input/output
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        // input file
        FileInputFormat.addInputPath(job, new Path(args[0]));
        
        // output file
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        // start de applicatie
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

Overwriting WordCount.java


Deze code bevat drie delen:
* De main() functie: verzorgt de configuratie van de uit te voeren taak. Geeft aan wat de Map en Reduce klassen zijn, wat de input is, hoe de output bewaard wordt ,...
* De Map-klasse met de map() functie bevat de code voor de mapping-fase
* De Reduce-klasse met de reduce() functie bevat de code voor de reduce-fase

De laatste twee klassen zijn hier gecodeerd als geneste klassen. Deze hadden ook in aparte files geplaatst kunnen worden.
Nu moet deze code eerst omgezet/gecompileerd worden tot een .jar file. Deze kan dan analoog uitgevoerd worden als hierboven met het voorbeeldcode.
Deze twee stappen kunnen uitgevoerd worden door onderstaande commando's.

In [13]:
# compileren tot .jar
!javac -d . WordCount.java
!jar cvf wordcounter.jar *.class
# execute
!hadoop jar wordcounter.jar WordCount 05_MapReduce/input.txt 05_MapReduce/output_java

added manifest
adding: WordCount$IntSumReducer.class(in = 1755) (out= 750)(deflated 57%)
adding: WordCount$TokenizerMapper.class(in = 1752) (out= 763)(deflated 56%)
adding: WordCount.class(in = 1477) (out= 808)(deflated 45%)
2022-02-17 12:41:54,993 INFO client.DefaultNoHARMFailoverProxyProvider: Connecting to ResourceManager at /0.0.0.0:8032
2022-02-17 12:41:56,385 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
2022-02-17 12:41:56,541 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/bigdata/.staging/job_1645095659020_0002
2022-02-17 12:41:57,541 INFO input.FileInputFormat: Total input files to process : 1
2022-02-17 12:41:58,073 INFO mapreduce.JobSubmitter: number of splits:1
2022-02-17 12:41:59,652 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1645095659020_0002
2022-02-17 12:41:59,652 INFO mapredu

### Oefening

Kopieer nu bovenstaand java programma en pas het aan zodat het het aantal worden telt dat begint met elke letter van het alfabet (zet eerst de woorden om naar kleine letters).
Hiervoor moet je dus het resultaat van de itr.nextToken() eerst gaan omvormen om er enkel de eerste letter eruit te halen en deze om te zetten naar lowercase).
De nodige functies om dit resultaat kun je [hier](https://docs.oracle.com/javase/7/docs/api/java/lang/String.html) en [hier](https://docs.oracle.com/javase/8/docs/api/java/lang/Character.html) vinden.
Indien dit gelukt is zorg er ook voor dat je geen entries toevoegt indien het eerste character geen letter is.
Compileer dit programma naar een .jar en voer het uit.
Controleer het resultaat.

In [None]:
%%file StartLetter.java
import java.io.IOException;
import java.util.StringTokenizer;
import java.lang.*;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class StartLetter {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            
        }
    }

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
           
        }
    }

    public static void main(String[] args) throws Exception {
       
    }
}

In [None]:
# compileren tot .jar
!javac -d . StartLetter.java
!jar cvf startletter.jar *.class # let op, dit gaat wordcount classes meenemen in de jar dus met het eerste argument kan je kiezen welke main gestart wordt
# execute
!hadoop jar startletter.jar StartLetter 05_MapReduce/input.txt 05_MapReduce/output_java_exer

## Implementeren via Python

Hoewel het Hadoop Ecosysteem geprogrammeerd is in Java en het dus er goed mee samenwerkt, is het niet verplicht om Java te gebruiken om MapReduce applicaties te schrijven.
Java krijgt namelijk veel kritiek, vooral doordat er veel code nodig is om eenvoudige zaken te programmeren.
Om andere programmeertalen te gebruiken worden er verscheidene API's aangeboden door Hadoop, namelijk
* Hadoop Streaming
    * Communicatie via stdin/stdout
    * Gebruikt door hadoopy, mrjob, ...
* Hadoop Pipes
    * C++ interface voor Hadoop
    * Communicatie via sockets
    * Gebruikt door pydoop


### Mrjob

De eerste API die we bekijken is MrJobs.
Deze API maakt gebruik van de Hadoop Streaming API.
De voordelen van MrJobs zijn:
* Uitgebreidde documentatie
* Code kan lokaal uitgevoerd worden als test
* Data serialisatie gebeurt automatisch (nadeel van Streaming API)
* Werkt met Amazon Elastic MapReduce en Google Cloud Dataproc

Het grootste nadeel is dat de StreamingAPI niet de volledige kracht heeft van het Hadoop ecosysteem omdat alles omgezet wordt naar strings (jsons)

Installatie van deze package gebeurt als volgt:

In [None]:
!echo bigdata | sudo -S pip install mrjob

In [None]:
%%file wordcount_mrjob.py


Deze code kan uitgevoerd worden door het commando hieronder.
Let op dat dit een lokale file gebruikt voor de output.
Indien je de output wil bewaren in het hdfs moet je dit nog uploaden.

In [None]:
!python wordcount_mrjob.py -r hadoop hdfs:///user/bigdata/05_MapReduce/input.txt > output.txt

### Pydoop

Het word-count example door gebruik te maken van pydoop ziet er uit als volgt:

In [None]:
%%file wordcount_script.py

Dit script kan uitgevoerd worden op de cluster als volgt:

**Let op:** Indien dit script heel lang blijft hangen op 0% is er waarschijnlijk iets misgegaan.
De timeout die gebruikt wordt om de applicatie af te sluiten is 10 minuten.
De snelste manier op de applicatie af te sluiten is door gebruik te maken van het commando:
    yarn application -kill <application-id>


In [None]:
!pydoop script wordcount_script.py 05_MapReduce/input.txt 05_MapReduce/output_python_script

Bovenstaande code werkt door gebruik te maken van een script, dit maakt het mogelijk om eenvoudige applicaties te schrijven.
Voor complexere zaken (vooral in het geval dat er een bepaalde state moet bijgehouden worden kunnen er ook Mapper en Reducer classes aangemaakt worden waarmee het mogelijk is om de volledige [Pydoop API](https://crs4.github.io/pydoop/tutorial/mapred_api.html#api-tutorial) te gebruiken.

In [None]:
%%file wordcount_pydoop.py

In [None]:
!pydoop submit --upload-file-to-cache wordcount_pydoop.py wordcount_pydoop /user/bigdata/05_MapReduce/input.txt 05_MapReduce/output_python --entry-point main

**Let in het commando hierboven ook op de entry point parameter. Deze is belangrijk omdat het anders niet gaat werken**

### Oefening

Pas nu ook bovenstaande python applicatie aan om het aantal woorden dat begint met elke letter te tellen. Let er ook hierbij op dat er geen verschil is tussen hoofd- en kleine letters.

Indien dit goed gelukt is, probeer ook de applicatie aan te passen om per letter de gemiddelde lengte van de woorden te berekenen.
Let er hierbij op dat het niet rechtstreeks mogelijk is om meerdere keren de volledige iterator met de values te gebruiken. 
Terwijl dit nodig is voor het gemiddelde te berekenen met behulp van de standaard methoden (len, sum, ...).
Een oplossing hiervoor is om gebruik te maken van de itertools package

    from itertools import tee
    
Meer informatie over het gebruik hiervan vind je [hier](https://www.geeksforgeeks.org/python-itertools-tee/).

Daarnaast is het ook belangrijk om te beseffen dat je meerdere keys kan emitten per woord indien gewenst.
Breid nu de applicatie uit om ook de maximum lengte van alle woorden te bepalen.
Denk hierbij erover na hoe je het onderscheid kan maken tussen de twee soorten keys.