<a href="https://colab.research.google.com/github/RJuro/AS2021/blob/main/AS_5_groupby_%26_join.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Groupby & Join (merge)

I denne tutorial arbejder vi med **MovieLens 100k data** for at se på nogle datamanipulerings teknikker
tutorial udvider en opgave lavet af Kevin Markham som kan findes her: https://github.com/justmarkham/pandas-videos/blob/master/pandas_merge.ipynb


Vores opgave er at beregne den gennemsnitlige bedømmelse samt antallet af bedømmelser for en film og tilføje disse oplysninger til en film-dataframe


In [None]:
# Vi bruger kun pandas her
import pandas as pd

In [None]:
# Definere webadresser med data (husk, du kan altid uploade/åbne data lokalt)
movies_url= "https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/u.item"
ratings_url = "https://github.com/justmarkham/pandas-videos/raw/master/data/u.data"

In [None]:
# åbne film

movie_cols = ['movie_id', 'title']
movies = pd.read_table(movies_url, sep='|', header=None, names=movie_cols, usecols=[0, 1])
movies.head()

Som du kan se har vi her et tildalde af en CSV fil, som ikke har headers (1. række med navne på kolonner) og | som symbol, der adskiller kolonner.
Pandas giver os mulighed at indlæse filen men vi skal være eksplicite omkring disse specielle egenskaber af CSVen

In [None]:
movies.info()

In [None]:
# Hvor mange 'unikke' film er der
movies.movie_id.nunique()

In [None]:
# Vi åbner ratings

rating_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(ratings_url, sep='\t', header=None, names=rating_cols)
ratings.head()

In [None]:
ratings.index = pd.to_datetime(ratings['timestamp'], unit='s')

In [None]:
ratings.info()

In [None]:
# hvor mange unikke film-id er der? burde være lige så mange som der er film!

ratings.movie_id.nunique()

In [None]:
# oprette Series med gennemsnitlige filmbedømmelser

avg_ratings_series = ratings.groupby(by='movie_id')['rating'].mean()

avg_ratings_series.head()

In [None]:
# oprette Series med det antal ratings en film har modtaget
n_ratings_series = ratings.groupby(by='movie_id')['rating'].size()

n_ratings_series.name = 'n_ratings'

n_ratings_series.head()

In [None]:
# Merge de gennemsnitlige bedømmelser sammen med movies dataframe

movies_extended = pd.merge(movies, avg_ratings_series, left_on='movie_id', right_index=True)

movies_extended.head()

In [None]:
# Merge antallet af ratings til movies_extended dataframe

movies_extended = pd.merge(movies_extended, n_ratings_series, left_on='movie_id', right_index=True)

movies_extended.head()

In [None]:
# Hvad er filmen med den højeste gennemsnitlige bedømmelse?

movies_extended.sort_values(by='rating', ascending=False)

# Så er det din tur!


- Hvad er filmen med den højeste rating, når vi kun overvejer film, der i det mindste fik et "rimeligt" antal bedømmelser (f.eks.> 25. percentil)
- Ældre film havde dog flere chancer for at få ratings. Hvad kan der gøres for at afhjælpe dette problem.
- Kan du identificere folk, der bedømmer rigtig meget?
- Er nogle brugere måske alt for kritiske eller alt for positive (outliers)? Måske skulle vi filtrere deres anmeldelser fra?
- Hvilke andre spørgsmål kan du komme med? Prøv at finde 2-3 andre og løse dem.


## Opgave til gruppen

Brug data herfra: https://github.com/fivethirtyeight/data/blob/master/alcohol-consumption/drinks.csv om alkoholforbrug på verdensplan (pr. indbygger) for 2010.
Du kan læse artiklen baseret på dataene her: [Dear Mona Followup: Where Do People Drink The Most Beer, Wine And Spirits?](https://fivethirtyeight.com/features/dear-mona-followup-where-do-people-drink-the-most-beer-wine-and-spirits/)


Prøv at beregne det samlede forbrugstal ved at gange tallene pr. Indbygger med befolkningen i landene i 2010
https://github.com/datasets/population/blob/master/data/population.csv

I Python kan du bruge Contrycode-pakken: https://pypi.org/project/countrycode/ til at omdanne contry-navne til koder for mere præcise joins (contry-navne skrives ofte på forskellige måder)

du kan installere pakken enten fra terminal (på din maskine) eller med `!pip install countrycode` fra jupyter (virker også i Colab)


