## Het bouwen van een Simpel aanbevelingssysteem voor Films

# 1. Business vraagstuk
*Data River Movies* is een online film platform en wil net zich profileren als de beste film aanbieder. Het huidige platform heeft een groot assortiment aan films, maar gebruikers blijven niet lang op het platform. 

Sterker nog, na het kijken van een film zijn de gebruikers weg. Dit wil *Data River Movies* graag verbeteren. Ze hebben gehoord over een 'recommendation system' en vragen of jij hun hiermee kunt helpen. 

## 1.2 Recommendation Systems
De snelle groei van dataverzameling heeft geleid tot een nieuw informatietijdperk. Data worden gebruikt om efficiëntere systemen te creëren en dit is waar *Recommendation Systems* (of aanbevelingssystemen) in het spel komen. Recommendation Systems zijn een soort informatie filtersystemen omdat zij de kwaliteit van zoekresultaten verbeteren en items aanbieden die relevanter zijn voor het zoekitem of gerelateerd zijn aan de zoekgeschiedenis van de gebruiker. De systemen worden gebruikt om de waardering of voorkeur te voorspellen die een gebruiker aan een item zou geven.


# 2. Data Understanding
Nu we weten wat de business wil, kunnen we beginnen met het verzamelen van de data. Gelukkig is deze overzichtelijk bijeen gebracht in verschillende excel bestanden

* films
* film_finance
* film_metadata
* film_genre
* film_languages
* film_keywords 
* film_production_companies
* film_production_countries

Deze bevatten alle gegevens van de 5000 films waarvoor een systeem gemaakt moet worden. Laten we beginnen met de eerste stap van het CRISP-DM model, *Data Understanding*. 

De eerste en gemakkelijkste stap is om de data even te downloaden en te openen. In dit geval zijn het excel bestanden die niet heel groot zijn en handmatig kunnen worden bekeken. Op die manier kun je alvast bekend worden met de data waar we mee gaan werken. 

## 2.1. Data inlezen

In [2]:
# Importeren van de benodige packages
import os
import pandas as pd 

In [3]:
# Opgeven van de hoofdmap
root_dir = ""

# Opgeven van de project map
project_folder = "Casus"     # ZELF AANPASSEN NAAR EIGEN MAP


In [4]:
# Methode om de project map te maken op je Google drive als die niet bestaat
# En om je werkmap aan te passen naar de project map 
def create_and_set_working_directory(project_folder):
  # Controleren of de map bestaan en anders aanmaken
  if os.path.isdir(root_dir + project_folder) == False:
    os.mkdir(root_dir + project_folder)
    print(root_dir + project_folder + ' did not exist but was created.')

  # Aanpassen van de werkmap naar de project map
  os.chdir(root_dir + project_folder)

  print('\nYour working directory was changed to ' + root_dir + project_folder )
  

In [5]:
# Aanroepen van de methode om je werkmap aan te passen naar je project map
# Dat maakt het lezen van de bestanden een stuk eenvoudiger
create_and_set_working_directory(project_folder)



Your working directory was changed to Casus


De basis instellingen staan nu goed. We werken nu direct in de Google map van het project. Zo kunnen we gemakkelijker de bestanden inlezen en bekijken, maar ook gemakkelijker data opslaan. 

Laten we nu de data inlezen en bekijken. 

In [6]:
# Inlezen van de datasets
# Movie dataset
movie_df = pd.read_excel('films.xlsx', index_col=0)
# Bekijken van de eerste 5 regels van de movie datasetd
display(movie_df.head(5))
# Geef alle kolomnamen van de movie dataset
print(movie_df.columns)


Unnamed: 0,id,original_title,title,original_language,runtime,release_date,status
0,19995,Avatar,Avatar,en,162.0,2009-12-10,Released
1,285,Pirates of the Caribbean: At World's End,Pirates of the Caribbean: At World's End,en,169.0,2007-05-19,Released
2,206647,Spectre,Spectre,en,148.0,2015-10-26,Released
3,49026,The Dark Knight Rises,The Dark Knight Rises,en,165.0,2012-07-16,Released
4,49529,John Carter,John Carter,en,132.0,2012-03-07,Released


Index(['id', 'original_title', 'title', 'original_language', 'runtime',
       'release_date', 'status'],
      dtype='object')


In [7]:
# Inlezen van de dataset: film_finance
finance_df = pd.read_excel('film_finance.xlsx', index_col=0)
display(finance_df.head(5))


Unnamed: 0,id,budget,revenue,popularity,vote_average,vote_count
0,19995,237000000,2787965087,150.437577,7.2,11800
1,285,300000000,961000000,139.082615,6.9,4500
2,206647,245000000,880674609,107.376788,6.3,4466
3,49026,250000000,1084939099,112.31295,7.6,9106
4,49529,260000000,284139100,43.926995,6.1,2124


In [8]:
# Inlezen van de dataset: film_metadata
metadata_df = pd.read_excel('film_metadata.xlsx', index_col=0)
display(metadata_df.tail(5))


Unnamed: 0,id,overview,homepage,keywords,tagline,production_companies,production_countries
4798,9367,El Mariachi just wants to play his guitar and ...,,"[{""id"": 5616, ""name"": ""united states\u2013mexi...","He didn't come looking for trouble, but troubl...","[{""name"": ""Columbia Pictures"", ""id"": 5}]","[{""iso_3166_1"": ""MX"", ""name"": ""Mexico""}, {""iso..."
4799,72766,A newlywed couple's honeymoon is upended by th...,,[],A newlywed couple's honeymoon is upended by th...,[],[]
4800,231617,"""Signed, Sealed, Delivered"" introduces a dedic...",http://www.hallmarkchannel.com/signedsealeddel...,"[{""id"": 248, ""name"": ""date""}, {""id"": 699, ""nam...",,"[{""name"": ""Front Street Pictures"", ""id"": 3958}...","[{""iso_3166_1"": ""US"", ""name"": ""United States o..."
4801,126186,When ambitious New York attorney Sam is sent t...,http://shanghaicalling.com/,[],A New Yorker in Shanghai,[],"[{""iso_3166_1"": ""US"", ""name"": ""United States o..."
4802,25975,Ever since the second grade when he first saw ...,,"[{""id"": 1523, ""name"": ""obsession""}, {""id"": 224...",,"[{""name"": ""rusty bear entertainment"", ""id"": 87...","[{""iso_3166_1"": ""US"", ""name"": ""United States o..."


In [None]:
# Inlezen van de dataset: film_genre
genres_df = pd.read_excel('XXX', index_col=0)                                   # ZELF INVULLEN
display(genres_df.head(5))


In [None]:
# Inlezen van de dataset: film_languages
languages_df = pd.read_excel('XXX', index_col=0)                                # ZELF INVULLEN
display(languages_df.tail(5))


In [None]:
# Inlezen van de dataset: film_keywords
keywords_df = pd.read_excel('XXX', index_col=0)                                 # ZELF INVULLEN
display(keywords_df.tail(15))


In [None]:
# Inlezen van de dataset: film_production_companies
production_companies = pd.read_excel('XXX', index_col=0)                        # ZELF INVULLEN
display(production_companies.head(5))


In [None]:
# Inlezen van de dataset: film_production_countries
production_countries = pd.read_excel('XXX', index_col=0)                        # ZELF INVULLEN
display(production_countries.head(5))

## 2.2 Data bekijken en begrijpen
Alle bestanden samen vormen de movies dataset.  De volgende kolommen komen voor in de verschillende datasets: 

* budget - Het totale budget om de film te maken
* genre - Het genre waarin de film valt, zoals Action, Comedy ,Thriller etc.
* homepage - Een link naar de website van de film
* id - De unieke ID van de film
* keywords - De sleutelwoorden of tags van de film
* original_language - De orignele taal van de film
* original_title - De originele titel van de film
* overview - Een korte beschrijving van de film
* popularity - Een nummerieke waarde die de populatiteit van de film aangeeft.
* production_companies - Het filmhous die de film heeft gemaakt
* production_countries - Het land waarin de film is gemaakt
* release_date - De datum waarop de film is uitgekomen
* revenue - De wereldwijde opbrengsten van de film
* runtime - De speeltijd in minuten
* status - Al uitgebracht "Released" of verwacht "Rumored"
* tagline - Movie's tagline.
* title - Titel van de film
* vote_average - Gemiddelde rating
* vote_count - Totaal aantal stemmen
 
### 2.2.1 Basis statistieken
Laten we als eerste kijken naar de film dataset en wat eerste statistieken. Een standaad functie helpt ons hierbij, het zogenaamde *beschrijven* van de dataset. 

In [None]:
# Als eerste kunnen we de numerieke waarden van de filmset bekijken
display(movie_df.describe())


In [None]:
# Als eerste kunnen we de numerieke waarden van de filmset bekijken
display(finance_df.describe())


Kunnen we iets met deze twee kolommen? We hebben een id en runtime. Zijn beide inderdaad te gebruiken zoals we nu hebben gedaan? 


Laten we dan nu even inzoomen op de film dataset. We beginnen met de top 5 films met de langste speelduur. 

In [None]:
# De top 5 films met de langste speelduur
print('Top 5 Movies with the Longest Runtime')
display(movie_df[['id', 'original_title', 'runtime']].sort_values('runtime', ascending = False).head(5))


Welke film heeft de langste speelduur en hoelang was die? 

Laten we meteen verder kijken naar de financiele film dataset. Laten we ook kijken welke film de hoogste opbrengst had.  

In [None]:
# De top 5 met de hoogste opbrengst
print('Top 5 Movies with highest Revenue')
display(finance_df[['id', 'revenue']].sort_values('revenue', ascending = False).head(5))


Jammer dat we nu niet direct kunnen zien welke film dat is. Gelukkig kunnen we dat wel opzoeken op basis van de film ID. Welke film had nu de hoogste opbrengst als we de titel zoeken? 

In [None]:
# Filter de film dataset op basis van het id om de titel te achterhalen van de film met de hoogste opbrengst
movie_df[(movie_df['id']== 19995)]


Perfect, alleen stel nu dat we dit 100x moeten doen. Niet handig en vooral saai werk. Dit kan beter

### 2.2.2 Mergen van datasets
Gelukkig kunnen we de data aan elkaar koppelen, oftewel *mergen*. Met het mergen van de datasets, plakken we ze als het ware aan elkaar. Dit doen we uiteraard niet zomaar, maar op basis van de film ID die in beide bestanden aanwezig is. Zo kunnen we in 1x zien welke film titel de hoogste opbrengst had. 

In [None]:
# Het mergen van de film dataset aan de finance dataset 
# Deze slaan we op in 1 grote dataframe df
df = movie_df.merge(finance_df, on = 'id')
display(df)


In [None]:
# De top 5 met de hoogste opbrengst
print('Top 5 Movies with highest Revenue')
display(df[['id', 'original_title', 'revenue']].sort_values('revenue', ascending = False).head(5))


Nu zou ik graag willen weten wat de top 5 aan films is met het hoogste budget om de film te maken. Kun jij die geven? 


In [None]:
# De top 5 met het hoogste budget
print('Top 5 Movies with the higest budget')
display(df[['id', 'original_title', 'XXX']].sort_values('XXX', ascending = False).head(5))    # ZELF AANPASSEN


Wow, Pirates of the Caribbean: On Stranger Tides had het hoogste budget van 380.000.000. 

Laten we nu kijken of we meer kunnen met de genres. Deze zitten in de genres_df dataset. Laten we die eerste bekijken en daarna toevoegen aan onze grote dataset df. 

In [None]:
# Bekijken van de genres_df
display(genres_df.head(5))


Best interessant die genres. Laten we eens kijken naar de verdeling van de genres. Welke hebben we en hoeveel films zijn er per genre? 

In [None]:
# Een simpele grafiek op basis van de aantal films per genre
genres_df['genre'].value_counts().plot(kind = 'bar')

# Overzicht in getallen van het aantal films per genre
# Omdat dat some makkelijker is 
display(genres_df['genre'].value_counts())


### 2.2.3 Maken van een grote dataset
De eerste data hebben we samengevoegd in één grote dataset. Laten we nu alle losse bestanden samenvoegen om er één bestand van de te maken. Dan kunnen we gemakkelijker naar verschillende doorsnedes van de data kijken om deze beter te begrijpen. 

We beginnen met het *mergen* van alle datasets aan de grote **df** dataset. 

**Tip 1:** Weet je niet zeker of je het goed doet? Sla het dan eerst op onder een andere naam. Dat voorkomt dat je de **df** hebt overschreven en dus kwijt bent. 

**Tip 2:** Merge de datasets één voor één en controleer elke stap of het goed is gegaan. Dat voorkomt dat je straks terug moet mocht er iets verkeerd gegaan zijn. 

Om jullie het iets gemakkelijker te maken, hieronder een overzicht van de datasets

* movie_df --> films.xlsx
* finance_df --> film_finance.xlsx
* metadata_df --> film_metadata.xlsx
* genres_df --> film_genre.xlsx
* languages_df --> film_languages.xlsx
* keywords_df --> film_keywords.xlsx
* production_companies --> film_production_companies.xlxs
* production_countries --> film_production_countries.xlsx


In [None]:
# Merge de verschillende datasets met de df dataset 
# Datasets: 
df = df.merge(XXX, on = 'id')                                                   # ZELF AANPASSEN
display(df.head(1))


In [None]:
# Merge de verschillende datasets met de df dataset 
# Datasets: 
df = df.merge(XXX, on = 'id')                                                   # ZELF AANPASSEN
display(df.head(5))


In [None]:
# Merge de verschillende datasets met de df dataset 
# Datasets: 
df = df.merge(XXX, on = 'id')                                                   # ZELF AANPASSEN
display(df.head(1))


In [None]:
# Merge de verschillende datasets met de df dataset 
# Datasets: 
df = df.merge(XXX, on = 'id')                                                   # ZELF AANPASSEN
display(df.head(2))


In [None]:
# Merge de verschillende datasets met de df dataset 
# Datasets: 
df = df.merge(XXX, on = 'id')                                                   # ZELF AANPASSEN
display(df.head(1))


In [None]:
# Merge de verschillende datasets met de df dataset 
# Datasets: 
df = df.merge(XXX, on = 'id')                                                   # ZELF AANPASSEN
display(df.head(1))


Zo nu we een grote dataset hebben als *df* kunnen we opnieuw naar de data kijken. Kun jij de overzichten genve? 

1. Overzicht van de originele talen
2. Top 10 meest gewaarde films?
3. Top 10 van de films met het laagste budget?
4. Top 10 van de meest recente uitgekomen films?
5. Top 10 van de minst populaire films? 

In [None]:
# Overzicht van de originele talen


In [None]:
# Top 10 meest gewaarde films?


In [None]:
# Top 10 van de films met het laagste budget?


In [None]:
# Top 10 van de meest recente uitgekomen films?


In [None]:
# Top 10 van de minst populaire films?


Voor de zekerheid kunnen we de data ook wegschrijven. Dan hoeven we een volgende keer niet alle stappen opnieuw te doorlopen. De onderstaande code schrijft de data weg naar de drive die je eerder hebt gekoppeld. 

In [None]:
# Schrijf het grote dataframe weg naar een excel bestand
df.to_excel("Complete_Film_dataset.xlsx")

Na al deze overzichten hebben we nu een goed beeld van de aanwezige data. Volgende stap is dan natuurlijk de data voorbereiden om verder te kunnen met het bouwen van een *Recommendation System*. 

# 3 Data Preparation
Voordat we verder kunnen met het recommendation sytem hebben we nog een aantal maatstaven nodig die nu niet in de data zit. Denk hierbij aan

* een maatstaaf om films te scoren of te beoordelen
* een de score voor elke film
* de scores sorteren en de best beoordeelde film aanbevelen aan de gebruikers.

We kunnen de gemiddelde waardering van de film als score gebruiken, maar dit is niet eerlijk. Een film met een gemiddelde waardering van 8,9 en slechts 3 stemmen is niet beter per definitie beter dan een film met een gemiddelde waardering van 7,8 en 140 stemmen. 

Voor een eerlijke gewogen gemiddelde kunnen we de IMDB's gewogen score gebruiken. De formule daarvoor is als volgt: 

\begin{equation}
Weighted Rating (WR) = (\frac{v}{v+m}\times R) + (\frac{m}{v+m} \times C)
\end{equation}
waar 
* v is het aantal stemmen voor de film;
* m is het minimum aantal stemmen dat nodig is om in de grafiek te worden opgenomen;
* R is de gemiddelde waardering van de film; en
* C is het gemiddeld aantal stemmen over de gehele dataset

Het aantal stemmen (v) is al aanwezig in de dataset, net al het gemiddelde aantal stemmen (R). C kunnen we gemakkelijk berekenen en m kunnen we zelf bepalen aan de hand van statistiek. 


In [None]:
# Het berekenen van de gemiddelde stem
C = df['XXXX'].mean()                 # ZELF AANPASSEN
print(f'Het het gemiddelde aantal stemmen over de gehele dataset is: {C}')

In [None]:
# Het berekenen van het minimum aantal stemmen dat nodig is
# Hiervoor nemen we aan dat 10% van de data buiten de normaalverdeling valt en dus voor ruis veroorzaakt. 
# Hier mag je uiteraard van afwijken. 
m = df['XXX'].quantile(0.9)           # ZELF AANPASSEN
print(f'Het minimum aantal stemmen dat nodig is om meegenomen te worden is: {m}')

In [None]:
# Selecteren van de films die voldoende stemmen hebben. Hiervoor geldt dat het aantal stemmen (vote_count) groter of gelijk moet zijn aan m
qualified_movies = df.copy().loc[df_movies['XXX'] >= m]        # ZELF AANPASSEN
# Door de shape te bekijken zien we het aantal rijen (films) en het aantal kolommen (eigenschappen)
print(qualified_movies.shape)
print(f'In totaal zijn er {qualified_movies.shape[0]} films geselecteeds met voldoende stemmen')

Nu alle elementen van de formule om het de gewoge score te berekenen, kunnen we de formule toepassen. Om te voorkomen dat we de formule meerdere keren moeten uitschrijven, maken we een functie om de berekening gemakkelijk voor de gehele dataset uit te rekenen. 

In [None]:
# Functie voor het berekenen van het gewogen gemiddelde
def weighted_rating(x, m = m, C = C):
    v = x['vote_count']
    R = x['vote_average']
    # Calculation based on the IMDB formula
    return (v/(v+m) * R) + (m/(m+v) * C)

In [None]:
# Aan de gefilterde dataset voegen we de berekende score toe als nieuwe kolom. 
qualified_movies['score'] = qualified_movies.apply(weighted_rating, axis=1)

In [None]:
# We kunnen de data sorteren op de hoogste score om de beste film te achterhalen
qualified_movies = qualified_movies.sort_values('XXX', ascending=False)         # ZELF AANPASSEN

# Weergeven van de top 10 meest gewaardeerde films
qualified_movies[['title', 'vote_count', 'vote_average', 'score']].head(10)

Hoera de basis is gezet voor het recommendation system. Op basis van de gewogen waardering kunnen we al betere algemene suggesties doen aan de gebruikers van *River data Movies*. 
