# Map Reduce Oefening - Schaken

**Deadline:**

In deze oefening gaan we werken met een dataset dat informatie bevat over een groot aantal schaakspelletjes.
Deze dataset kan [hier](https://www.kaggle.com/datasnaek/chess) gevonden worden.
Om te beginnen, download deze file en upload hem naar je distributed file systeem onder het path: **Oefingen/Mapreduce**.
Voorzie ook code die deze folder reset naar een lege folder om geen naam-conflicten te hebben.

In [4]:
# download dataset
import pydoop.hdfs as hdfs
import opendatasets as od

od.download("https://www.kaggle.com/datasnaek/chess", force=True)

# reset folder to clean state
localFS = hdfs.hdfs(host='')
client = hdfs.hdfs(host='localhost', port=9000)

if not client.exists('/user/bigdata/oefeningen/mapreduce'):
    client.create_directory('/user/bigdata/oefeningen/mapreduce')

# do some cleaning in case anything else than input.txt is present
for f in client.list_directory("."):
    if not f["name"].endswith("games.csv"):
        client.delete(f["name"], True)

# upload de dataset naar hadoop
localFS.copy("chess/games.csv", client, "/user/bigdata/oefeningen/mapreduce/games.csv")

Please provide your Kaggle credentials to download this dataset. Learn more: http://bit.ly/kaggle-creds
Your Kaggle username: jensbaetensodisee
Your Kaggle Key: ········


  0%|                                               | 0.00/2.77M [00:00<?, ?B/s]

Downloading chess.zip to ./chess


100%|██████████████████████████████████████| 2.77M/2.77M [00:00<00:00, 4.58MB/s]





0

# Map Reduce applicaties

Nu dat de dataset geupload is kunnen we map-reduce applicaties schrijven om deze dataset te verwerken. 
Deze oefeningen bestaan steeds uit twee cellen:
* Een eerste cel met de nodige python code voor de map-reduce applicatie. Sla deze code op in een file met het correcte oefeningennummer (bvb: oefening_1.py) door gebruik te maken van de "%%file" tag in de notebookcellen.
* Een tweede cel die de map-reduce applicatie uitvoert op de cluster en het correcte bestand uitleest. Commando's uitvoeren naar de commandline/terminal gebeurt door een uitroepingsteken vooraan te plaatsen (!pydoop submit ...)

## Aantal rijen

De eerste gevraagde map-reduce applicatie telt het aantal rijen.
Schrijf deze nu hieronder en beantwoord de vragen na de code:

In [6]:
%%file oefening1.py
# map-reduce applicatie voor het aantal rijen te tellen

import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pipes

class Mapper(api.Mapper):
    # key-values zitten in de context
    def map(self, context):
        # context.value is de lijn die we lezen
        context.emit("aantal lijnen",1)
    
class Reducer(api.Reducer):
    # key-values zitten in de context    
    def reduce(self, context):
        context.emit(context.key, sum(context.values))
        
FACTORY = pipes.Factory(Mapper, reducer_class=Reducer)

def main():
    pipes.run_task(FACTORY)

## zeggen dat deze file de main file is
if __name__ == "__main__":
    main()# map-reduce applicatie voor het aantal rijen te tellen

Writing oefening1.py


In [None]:
# commando voor uitvoeren van de applicatie
!hdfs dfs -rm -r /user/bigdata/oefeningen/mapreduce/oef1
!pydoop submit --upload-file-to-cache oefening1.py oefening1 /user/bigdata/oefeningen/mapreduce/games.csv oefeningen/mapreduce/oef1 --entry-point main

rm: `/user/bigdata/oefeningen/mapreduce/oef1': No such file or directory
2022-03-17 12:08:40,308 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2022-03-17 12:09:18,939 INFO client.DefaultNoHARMFailoverProxyProvider: Connecting to ResourceManager at /0.0.0.0:8032
2022-03-17 12:09:22,800 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/bigdata/.staging/job_1647445965926_0002
2022-03-17 12:09:25,269 WARN mapreduce.JobResourceUploader: No job jar file set.  User classes may not be found. See Job or Job#setJar(String).
2022-03-17 12:09:25,990 INFO input.FileInputFormat: Total input files to process : 1
2022-03-17 12:09:26,895 INFO mapreduce.JobSubmitter: number of splits:1
2022-03-17 12:09:30,356 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1647445965926_0002
2022-03-17 12:09:30,357 INFO mapreduce.JobSubmitter: Executing with tokens: []
2022-03-17 

**Vragen:**

- Hoeveel rijen heb je gevonden in de dataset?
- Hoeveel spelletjes zitten er echt in de dataset (kijk hiervoor naar de link van de dataset)?
- Zijn deze waarden gelijk? Indien nee, wat is de oorzaak van het verschil? Hoe zou je dit kunnen oplossen?

**Antwoord:**

Schrijf hier je antwoord...

Indien je waarden niet overeenkomen, maak een kopie van de vorige applicatie en pas het aan zodat het aantal spelletjes in de dataset correct geteld wordt.

In [None]:
# aangepast map-reduce applicatie om het correcte aantal te bekomen.
import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pipes

class Mapper(api.Mapper):
    # key-values zitten in de context
    def map(self, context):
        # context.value is de lijn die we lezen
        if not context.value.startswith("id,"):
            context.emit("aantal lijnen",1)
    
class Reducer(api.Reducer):
    # key-values zitten in de context    
    def reduce(self, context):
        context.emit(context.key, sum(context.values))
        
FACTORY = pipes.Factory(Mapper, reducer_class=Reducer)

def main():
    pipes.run_task(FACTORY)

## zeggen dat deze file de main file is
if __name__ == "__main__":
    main()# map-reduce applicatie voor het aantal rijen te tellen

In [None]:
# commando voor uitvoeren van de applicatie

## Aantal kolommen

Naast het aantal rijen kunnen we ook het aantal kolommen bepalen. Aangezien het mogelijk zou zijn dat verschillende rijen een verschillend aantal kolommen hebben is het nodig om hier het maximum aantal kolommen in de verschillende rijen te bepalen.

In [None]:
# map-reduce applicatie om het aantal kolommen te berekenen
import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pipes

class Mapper(api.Mapper):
    # key-values zitten in de context
    def map(self, context):
        # context.value is de lijn die we lezen
        context.emit("aantal kolommen",len(context.value.split(",")))
    
class Reducer(api.Reducer):
    # key-values zitten in de context    
    def reduce(self, context):
        context.emit(context.key, max(context.values))
        
FACTORY = pipes.Factory(Mapper, reducer_class=Reducer)

def main():
    pipes.run_task(FACTORY)

## zeggen dat deze file de main file is
if __name__ == "__main__":
    main()# map-reduce applicatie voor het aantal rijen te tellen

In [None]:
# commando voor uitvoeren van de applicatie

**Vragen:**

- Hoeveel kolommen heb je gevonden in de dataset?
- Hoeveel kolommen zitten er echt in de dataset (kijk hiervoor naar de link van de dataset)?
- Zijn deze waarden gelijk? Indien nee, wat is de oorzaak van het verschil? Hoe zou je dit kunnen oplossen?

**Antwoord:**

Schrijf hier je antwoord...

Indien je waarden niet overeenkomen, maak een kopie van de vorige applicatie en pas het aan zodat het aantal spelletjes in de dataset correct geteld wordt.

In [None]:
# aangepast map-reduce applicatie om het correcte aantal te bekomen.

## Aantal uitkomsten

Er zijn vier verschillende uitkomsten mogelijk bij een schaakspel: mate (schaakmat), resign (opgave), draw(gelijkspel), out of time (tijd overschreden).
Maak nu een map-reduce applicatie dat telt hoe vaak elk van deze uitkomsten plaatsvindt

In [None]:
# map-reduce applicatie om het aantal keer dat de verschillende uitkomsten voorkomen te berekenen

In [None]:
# commando voor uitvoeren van de applicatie

**Vragen:**

* Hoeveel komt elke waarde voor?

**Antwoord:**

Schrijf hier je antwoord...

## Welke kleur wint het meest

Schrijf nu een map-reduce applicatie dat telt hoevaak elk kleur wint. Zorg er ook voor dat je naast de totaal aantal gewonnen spelletjes, ook enkel de spelletjes telt waar de rating van de spelers niet sterk verschilt (max 100 verschil).

In [None]:
# map-reduce applicatie om de winstkansen van een kleur te bepalen.

In [None]:
# commando voor uitvoeren van de applicatie

**Vragen:**

* Welke kleur heeft het meeste gewonnen?
* Is hetzelfde vast te stellen wanneer we enkel kijken naar gelijkwaardige spelers? (Bereken hiervoor de percentages!)

**Antwoord:**

Schrijf hier je antwoord...

## Verschillende openingen

Een belangrijk onderdeel van schaakspelletjes is de openingset die gebruikt wordt. Schrijf nu een map-reduce applicatie dat telt hoevaak elke openingsset resulteert in een winst of verlies voor de witte speler. 
Emit hierbij in de mapping fase enkel key-value pairs waar de keys de namen van de openingszetten zijn.
Filteren tussen winst en verlies moet dan in de reduce fase gebeuren.

In [None]:
# winst of verlies van openingszetten

In [None]:
# commando voor uitvoeren van de applicatie

De output van bovenstaande applicatie zou een groot aantal rijen moeten bevatten. Download het bestand en bekijk het aantal rijen in dit bestand. 

**Hoeveel verschillende openingszetten zijn er aanwezig in de dataset?**

Schrijf hier je antwoord

## Verificatie van de kolom met het aantal zetten

In de dataset zijn twee manieren aanwezig om het aantal zetten in een schaakspel te bekomen.
* Er is een turns kolom dat het totaal aantal beurten vast heeft
* Er is ook een moves kolom dat alle uitgevoerde zetten bevat (gescheidden door een spatie)

Kijk of deze waarden voor alle rijen overeenkomt en tel de volgende waarden:
* Totaal aantal schaakspelletjes
* Aantal waar de kolommen overeenkomen
* Aantal waar de kolommen niet overeenkomen.

Zorg ervoor dat deze drie waarden aanwezig zijn in het uiteindelijke resultaat.

In [None]:
# verificatie "turns" kolom
import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pipes

class Mapper(api.Mapper):
    # key-values zitten in de context
    def map(self, context):
        # context.value is de lijn die we lezen
        if not context.value.startswith("id,"):
            context.emit("aantal lijnen",1)
            
            row = context.value.split(",")
            zetten_from_data = int(row[4])
            zetten_calculated = len(row[12].split(" "))
            if zetten_from_data == zetten_calculated:
                context.emit("komen_overeen", 1)
            else:
                context.emit("komen niet overeen", 1)
        else:
            context.emit("aantal lijnen", 0)
            context.emit("komen_overeen", 0)
            context.emit("komen niet overeen", 0)
            
    
class Reducer(api.Reducer):
    # key-values zitten in de context    
    def reduce(self, context):
        context.emit(context.key, sum(context.values))
        
FACTORY = pipes.Factory(Mapper, reducer_class=Reducer)

def main():
    pipes.run_task(FACTORY)

## zeggen dat deze file de main file is
if __name__ == "__main__":
    main()# map-reduce applicatie voor het aantal rijen te tellen

In [None]:
# commando voor uitvoeren van de applicatie

**Plaats hieronder de bekomen output voor dit commando:**

Vervang dit door je output.

## Aantal verschillende spelers en aantal verschillende openingen

Schrijf nu een map-reduce applicatie dat zowel het aantal verschillende spelers als het aantal verschillende openingen in de dataset telt. Tip: een set in python bevat geen duplicaten

In [None]:
# aantal spelers en openingen

In [None]:
# commando voor uitvoeren van de applicatie

**Plaats hieronder de bekomen output voor dit commando:**

Vervang dit door je output.

## verscheidene statistieken in 1 applicatie

Maak nu een map-reduce applicatie dat de volgende zaken in 1 keer berekend:
* Het aantal minuten dat een schaakspel geduurd heeft (de tijden aanwezig in de dataset zijn in [Unix-format](https://en.wikipedia.org/wiki/Unix_time))
* Het minimum, maximum en gemiddeld aantal beurten
* Percentage rated
* Het minimum, maximum en gemiddeld aantal keer dat er schaak voorkwam in een spel dat eindige in schaakmat. (Schaak wordt aangegeven door een "+" in de moves kolom.)

In [None]:
# verscheidene statistieken
import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pipes

import statistics

class Mapper(api.Mapper):
    # key-values zitten in de context
    def map(self, context):
        # context.value is de lijn die we lezen
        if not context.value.startswith("id,"):
            row = context.value.split(",")
            
            # aantal beurten
            context.emit("beurten", int(row[4]))
            
            # percentage rate
            if lower(row[1]) == "true":
                context.emit("rated", 1)
            else:
                context.emit("rated", 0)
            
            # aantal keer schaak
            context.emit("schaak", row[12].count("+"))
            
            # duur van een spel
            aantal_ms = float(row[3]) - float(row[2])
            aantal_min = aantal_ms / 1000 / 60
            context.emit("aantal_minuten", aantal_min)
            
    
class Reducer(api.Reducer):
    # key-values zitten in de context    
    def reduce(self, context):
        values = list(context.values)
        
        if context.key == "rated":
            context.emit("rated %", sum(values)/len(values)*100)
        elif context.key == "aantal_minuten":
            context.emit("mediaan minuten", statistics.median(values))
        else: # dit gebeurd voor beurten en schaak
            context.emit("minimum " + context.key, min(values))
            context.emit("maximum " + context.key, max(values))
            context.emit("average " + context.key, sum(values) / len(values))        
        
FACTORY = pipes.Factory(Mapper, reducer_class=Reducer)

def main():
    pipes.run_task(FACTORY)

## zeggen dat deze file de main file is
if __name__ == "__main__":
    main()# map-reduce applicatie voor het aantal rijen te tellen

In [None]:
# commando voor uitvoeren van de applicatie

**Plaats hieronder de bekomen output voor dit commando:**

Vervang dit door je output.