# Met DASK

We hebben beschikking tot twee verschillende databronnen:
- EÃ©n CSV-bestand [beers.csv](./beers.csv) met daarin een lijst van verschillende bieren met enkele bijbehorende kenmerken.
- Verschillende CSV-bestanden in de map [data](./data) die reviews bevatten over de bieren.

Binnen dit notebook gaan we voor een bierstijl bepalen wat de gemiddele gegeven rating is voor alle bieren die vallen onder de opgegeven bierstijl.

Dit doen we door de volgende stappen uit te voeren:
1. Het starten van een cluster waarop Dask de verschillende taken kan uitvoeren.
2. Het inladen van het CSV-bestand met alle bieren.
3. Het filteren van de beer id's die horen bij de opgegeven bierstijl.
4. Het inladen van de CSV-bestanden met reviews en het berekenen van de gemiddelde gegeven score.

## 1. Het starten van een cluster waarop Dask de verschillende taken kan uitvoeren.

In [None]:
from dask.distributed import Client

client = Client()
client.cluster

## 2. Het inladen van het CSV-bestand met alle bieren.

In [None]:
import pandas as pd
import os

In [None]:
df_beers = pd.read_csv("beers.csv")

In [None]:
df_beers.groupby("style")["style"].count().sort_values(ascending=False)

## 3. Het filteren van de beer id's die horen bij de opgegeven bierstijl.

In [None]:
style_to_search = "American IPA"
beer_ids = df_beers[df_beers["style"]==style_to_search]["id"].unique()
beer_ids

## 4. Het inladen van de CSV-bestanden met reviews en het berekenen van de gemiddelde gegeven score.

In [None]:
filename = os.path.join("data", "reviews-*.csv")

In [None]:
import dask.dataframe as dd
df = dd.read_csv(filename)

In [None]:
# Print the dataframe to see that we already know the columns inside our CSV's although the data inside it is not loaded.
df

In [None]:
average = df[df["beer_id"].isin(beer_ids)]["overall"].mean()

[Afbeelding](./graph.svg)
![image](./graph.svg)

In [None]:
%%time

average.compute()

In [None]:
client.close()