# Zonder DASK

We hebben beschikking tot twee verschillende databronnen:
- Eén CSV-bestand [beers.csv](./beers.csv) met daarin een lijst van verschillende bieren met enkele bijbehorende kenmerken.
- Verschillende CSV-bestanden in de map [data](./data) die reviews bevatten over de bieren.

Binnen dit notebook gaan we voor een bierstijl bepalen wat de gemiddele gegeven rating is voor alle bieren die vallen onder de opgegeven bierstijl.

Dit doen we door de volgende stappen uit te voeren:
1. Het inladen van het CSV-bestand met alle bieren.
2. Het filteren van de beer id's die horen bij de opgegeven bierstijl.
3. Het inladen van de CSV-bestanden met reviews en het berekenen van de gemiddelde gegeven score.

## 1. Het inladen van het CSV-bestand met alle bieren.

In [None]:
import pandas as pd
import os

In [None]:
df_beers = pd.read_csv("beers.csv")

In [None]:
# Group all beers by style and count them, to see which beer style is most used in our dataset
df_beers.groupby("style")["style"].count().sort_values(ascending=False)

## 2. Het filteren van de beer id's die horen bij de opgegeven bierstijl.

In [None]:
style_to_search = "American IPA"
beer_ids = df_beers[df_beers["style"]==style_to_search]["id"].unique()
beer_ids

## 3. Het inladen van de CSV-bestanden met reviews en het berekenen van de gemiddelde gegeven score.

In [None]:
import glob
csv_files = glob.glob(os.path.join("data", "reviews-*.csv"))

In [None]:
%%time

means = []
for csv_file in csv_files:
    df = pd.read_csv(csv_file)
    mean = df[df["beer_id"].isin(beer_ids)]["overall"].mean()
    means.append(mean)
    
print("Average rating:", sum(means) / len(means))