# Onderzoek Data Science: Films
----

Voor de casusopdracht van het vak Data Science moet er een pipeline worden gemaakt, waarbij een toegewezen dataset wordt geanalyseerd. Dit data onderzoek is gebaseerd op de dataset over films en is opgezet door groep 6 van klas V2C. De dataset is toegewezen door de Hogeschool Utrecht en bevat onder andere:
- filmgegevens, waaronder: duur, genres, taal, land van herkomst, budget en opbrengst;
- likes op facebook voor regisseur, hoofdrolspelers, totale cast en de film zelf;
- score op IMDB en aantal reviews. 


#### Hoofdvraag
Voor dit onderzoek is er een verplichte onderzoeksvraag, die luidt als volgt: 
- In hoeverre is de omzet van een film te voorspellen op basis van de populariteit op Facebook en IMDB zelf?

#### Onderzoeksvragen
Dit onderzoek bevat een aantal onderzoeksvragen die wij zullen behandelen:

|Beoordeling                    |Onderzoeksvraag                                                                       |
|:------------------------------|:-------------------                                                                  |
|Externe dataset                |Hoeveel effect heeft de lengte van een trailer op de omzet van de film?               |
|Correlatieonderzoek            |Is een film succesvoller op basis van het aantal likes die een acteur (of acteurs) heeft/hebben op Facebook?                                                                                              | 
|Supervised machine learning    |In hoeverre is de omzet van een film te voorspellen op basis van de populariteit op Facebook en IMDB zelf?                                                                                                          |
|Unsupervised machine learning  |Wat voor voorspelling kan er worden gemaakt over de omzet gebaseerd op de combinatie van het budget en het aantal likes op Facebook e.d.?                                                                                              |
|Interactieve visualisatie      |Wat is de netto omzet van de films in een specifiek jaar van uitkomst?                |

#### Z-toets
Voor de hypothesetoets Z-toets moet het volgende gebeuren.	
Een filmcriticus stelt dat de score van Engelstalige films lager is dan gemiddeld.
Wij moeten onderzoeken met de dataset of deze filmcriticus gelijk heeft. We nemen een steekproef (met pandas.DataFrame.sample(n=100,random_state=1)) van 100 Engelstalige films en beschouwen de hele dataset als populatie. Ook nemen we als betrouwbaarheid 90%. We gebruiken van de dataset alleen de filmgegevens waarbij zowel de taal (language) als de score (imdb_score) bekend zijn.

#### Teamleden
Het team bestaat uit de volgende drie personen:
- Sebastiaan Jansen
- Skott de Koster
- Mustafa Toprak

### Inhoudsopgave
---
1. Data collection
2. Data processing
3. Data cleaning
4. Data exploration & analysis
5. Model building
6. Visualization
7. Communication

## Stap 1: Data collection
---

De dataset is aan ons gegeven door de Hogeschool Utrecht als onderdeel van de opdracht. Deze dataset houdt een groot CSV bestand in met informatie over films. We hebben dus nu de data verzameld en gaan het nu inlezen.
De dataset is opgehaald van de volgende GitHub link: https://github.com/tijmenjoppe/ComputationalModelling-student/tree/master/casus/movie

Ook maken wij gebruik van een externe dataset. Deze externe dataset bevat een link ID naar de trailers van de films die op YouTube te vinden zijn. De externe dataset is opgehaald van de link: https://grouplens.org/datasets/movielens/20m-youtube/

## Stap 2: Data processing
---

We gaan nu de dataset inlezen en verwerken om het beter te kunnen bekijken. Om te beginnen importeren we de benodigde Python libraries:

In [None]:
# Deze libraries zijn voor het verwerken van de data.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as scipy

import holoviews as hv
from holoviews import opts
hv.extension("bokeh")

from sklearn import metrics
from scipy import stats

# Deze libraries zijn voor het verkrijgen van YouTube video gegevens. Dit is relevant voor het gebruik van de externe dataset.
import pafy
from youtube_dl import YoutubeDL
import datetime 

Vervolgens lezen we de eerste (toegewezen) dataset in. Hiervoor gebruiken we pandas.read_csv en slaan we dit op in de dataframe "films". 
Aangezien de dataset erg groot is, laten we voor nu alleen de eerste 5 rijen zien. Dit doen we door een variabele films.head() aan te roepen:

In [None]:
films = pd.read_csv("movie.csv", sep=",")
films.head()

Hetzelfde doen we met de tweede (externe) dataset, deze noemen we "films_extern": 

In [None]:
films_extern = pd.read_csv("ml-youtube.csv", sep=",")
films_extern.head()

We zien dus dat de eerste dataset uit veel films bestaat. De tweede dataset heeft er nog veel meer, maar niet alle data in de sets is bruikbaar, dus dat gaan we nu schoonmaken.

# Stap 3: Data cleaning
---

We gaan nu de data schoon maken. Om te beginnen schonen we beide datasets op door alle data die niet relevant is te verwijderen:

In [None]:
# Verwijder irrelevante kolommen.
to_drop = ["color", "facenumber_in_poster", "country", "aspect_ratio", "content_rating"]
films.drop(to_drop, inplace=True, axis=1)

films_extern.drop("movieId", inplace=True, axis=1)

In [None]:
# Verwijder de rijen met NaN gegevens in beide datasets, aangezien dit data is die niet gebruikt kan worden.
films = films.dropna()
films_extern = films_extern.dropna()

In [None]:
# Haal alle duplicates eruit.
films = films.drop_duplicates(subset="movie_title")
films_extern = films_extern.drop_duplicates(subset="title")

In [None]:
# Haal een whitespace weg in de eerste dataset die er niet in hoort te zitten.
# We slicen de laatste 7 characters van de title column (het jaar dat de film uitkwam) in de tweede dataset weg,
# zodat de column overeen komt met de column in de eerste dataset.
films.update(films["movie_title"].str[:-1])
films_extern.update(films_extern["title"].str[:-7])

In [None]:
# We setten de indexes van beide datasets naar de titel van de films.
films.set_index("movie_title", inplace=True)
films_extern.set_index("title", inplace=True)

In [None]:
# We sorteren beide datasets zodat de waardes gelijk zullen zijn.
films = films.sort_index()
films_extern = films_extern.sort_index()

Nu ziet de eerste dataset er zo uit:

In [None]:
films.head()

En ziet de tweede dataset er zo uit:

In [None]:
films_extern.head()

We zijn nu klaar met het opschonen van de datasets. We kunnen ze nu gaan analyseren.

# Stap 4: Data exploration & analysis
---

Om de data te verkennen en er een betere grip op te krijgen zullen wij een paar commando's loslaten op de verwerkte data. Als eerste zullen wij een *.describe()* functie gebruiken om een overzicht te krijgen van alle info van de numerieke waardes. Op deze manier kunnen wij bijvoorbeeld de gemiddelde lengte van een film zien. Dit is bij deze dataset dus 105 minuten.

In [None]:
films.describe()

Om de data verder te verkennen en een beter gevoel te krijgen kunnen wij gebruik maken van grafieken. Zo staat hieronder bijvoorbeeld een staafdiagram van het aantal films per jaartal. In de x-as staat het jaartal, deze zijn gesorteerd bij het aantal films (in de y-as) er in dat jaartal zijn uitgekomen die in deze dataset staan. De meeste films uit deze dataset komen dus uit 2002.

In [None]:
# Maak een bar-chart met behulp van Matplotlib
films["title_year"].value_counts().plot(kind="bar", 
                                        figsize=(20,5),
                                        width=0.5, 
                                        color="#444444");

plt.xlabel("Jaartal", labelpad=14)
plt.ylabel("Aantal films", labelpad=14)
plt.title("Aantal films per jaartal", y=1.02)

plt.show()

## Onderzoeksvragen
---

Voor deze pipeline moeten er verschillende onderzoeksvragen worden uitgewerkt, elk met hun eigen antwoord en andere manier van oplossen. Deze zullen nu één voor één worden behandeld.

### Vraag 1: Hoeveel effect heeft de lengte van een trailer op de omzet van de film?
---

Trailers zijn een belangrijk onderdeel van films. Je wilt immers wel enigzins weten wat je kan verwachten van de film.<br>
Dit kan ook een factor spelen in de omzet van de film, want als de trailer slecht is zal je waarschijnlijk ook niet snel naar de film gaan en dan zal de film dus ook minder omzet hebben.<br>
We gebruiken hier alleen de lengte van de trailer om het simpel te houden.

Voor deze vraag maken we gebruik van de externe dataset. Zoals je misschien al hebt kunnen raden bestaat de externe dataset uit ID's voor YouTube video's. Deze verwijzen naar de trailers van de films van de toegewezen dataset. We hebben bij stap 3 beide datasets geprocessed en gecleaned. Deze gaan we nu mergen tot 1 dataframe en noemen we *'films_extern_merge'*.<br>Het idee is om de youtubeId column van de tweede dataset te verwerken in de eerste dataset.

In [None]:
# Omdat de youtubeId column het enige is wat relevant is, is dat ook het enige veld dat we toevoegen. 
# De indexes van de eerste en tweede dataset worden samengevoegd tot 1 index genaamd title.
films_extern_merge = pd.merge(films, films_extern, left_index=True, right_index=True)
films_extern_merge.index.name = "title"

# Tot slot droppen we de niet-relevante kollomen. 
# Om code te besparen, overschrijven we alleen de dataframe met de relevante kollomen.
films_extern_merge = films_extern_merge[["gross", "youtubeId"]]
films_extern_merge

Je kunt zien dat er nu ongeveer 3000 films zijn. Dit is bijna de helft minder dan er in de oorspronkelijke eerste dataset stond. Dit is omdat veel films geen trailer op YouTube hebben staan.<br>
We zullen deze gemergede dataset alleen voor deze vraag gebruiken. Laten we beginnen.

Hier komt de **pafy** library ter zake. Om een voorbeeld te geven over wat het kan doen maken we eerst een video variabele aan:

In [None]:
# Om het simpel te houden gebruiken we voor nu maar de youtubeId van de eerste film in de dataframe.
url = films_extern_merge.iloc[0, -1]
video = pafy.new(url)

Van deze video kunnen we nu verschillende data ophalen, hier een paar voorbeelden:

In [None]:
# De titel van de video
print("De titel van de video is: \n" + str(video.title))
print("\n")

# De lengte van de video in secondes
print("De lengte van de video in secondes is: \n" + str(video.length))
print("\n")

# De concrete duratie van de video
print("De concrete duratie van de video is: \n" + str(video.duration))

Er zijn nog veel andere gegevens die kunnen worden opgehaald met behulp van pafy, maar hiervoor is een YouTube API account nodig en is ook niet voor ons relevant. We focussen ons op de **concrete duratie** van de video.

Nu komen we op onze vraag, want heeft de duratie van de trailer invloed op de omzet van de film? Om daar achter te komen maken we nieuwe dataframe aan, deze pakt 100 willekeurige films uit de dataset:

In [None]:
# De dataframe heet "random_films".
random_films = films_extern_merge.sample(n = 100)

# In deze list slaan we zometeen de duraties op.
duratie = []

# We loopen door random_films heen en extracten van elke video de duratie in secondes.
# LET OP! Dit duurt een tijdje, aangezien er elke keer opnieuw een HTTP request wordt gemaakt. 
# Je kunt ook de errors en warnings negeren.
for x in random_films["youtubeId"].values:
    try:
        # We appenden de lengte van de trailer toe aan de list.
        duratie.append(pafy.new(x).length)
    except Exception:
        # Sommige video's zijn niet meer te zien op YouTube, hier kan de data dus ook niet van worden opgehaald.
        # Maar aangezien de waardes niet door elkaar mogen lopen, appenden we een Null waarde.
        duratie.append(None)
        continue

# We voegen een kolom toe met de waardes van duratie.
random_films["trailer_length"] = duratie

# We halen alle trailers eruit met een duratie van meer dan 400 seconden, aangezien deze vaak niet kloppen.
random_films = random_films[random_films.trailer_length < 400]
random_films

Nu maken we een mooie scatter-plot om te zien of er een verband is tussen de omzet en trailer duratie:

In [None]:
# Maak een (regressie) scatter-plot met behulp van Seaborn.
reg_plot = sns.regplot(random_films["trailer_length"], random_films["gross"],
                       scatter_kws={"color": "black"}, 
                       line_kws={"color": "red"})

# Voeg kenmerken toe aan de plot.
reg_plot.set_xlabel("Trailer lengte in seconden")
reg_plot.set_ylabel("Omzet")
reg_plot.set_title("Scatter-plot van trailer lengte en omzet")

Elke uitkomst die je krijgt zal een ander resultaat geven, maar wat wel duidelijk is in elke uitkomst is dat er geen specifiek partroon te zien is.

#### Conclusie

We kunnen dus concluderen dat er **geen** duidelijk verband is tussen de lengte van de trailer en de omzet van de film.

# Stap 5. Model building
---

Bij deze stap worden de geleerde methoden en machine learning technieken toegepast om de onderzoeksvragen te beantwoorden. Hierbij worden de resultaten gevalideerd en gevisualiseerd en worden de uitkomsten verklaard. 

### Vraag 2: Is een film succesvoller op basis van het aantal likes die een acteur (of acteurs) heeft/hebben op Facebook?
---

Social media speelt tot op de dag van vandaag een hele belangrijke rol in ons dagelijks leven. Overal zien we beroemdheden en sommige mensen willen heel graag op deze beroemdheden lijken. Hierdoor wordt het gedrag van een individu bepaald. 

Tegenwoordig draaien de meeste dingen om likes en dat geldt ook voor deze deelvraag. Is het echt waar dat een film succesvoller is op basis van het aantal likes die een acteur (of acteurs) heeft/hebben op Facebook?

Om die vraag te kunnen beantwoorden, moeten we eerst een beoordelingscriterium langs. Dit criterium zal gaan over het correlatieonderzoek.

#### Correlatieonderzoek

Met behulp van correlatie wordt de samenhang gemeten tussen twee variabelen. 

Het is belangrijk dat je de waarde van een andere variabele goed kunt voorspellen o.b.v. waardes van een variabele die je al kent. Hoe groter de correlatie, des te hoger de voorspellingskracht is.<br>
Om deze vraag te kunnen beantwoorden, worden de variabelen IMDB-score en het gemiddelde aantal likes van de acteurs genomen.</br>

Hieronder maken we eerst een extra kolom aan die het gemiddelde neemt van het aantal likes van de acteurs. Deze kolom voegen we toe aan de dataset films:

In [None]:
# Voeg een kolom van het gemiddeld aantal likes van de acteurs toe aan de dataset films.
films["mean_likes_actors"] = (films["actor_1_facebook_likes"] + 
                              films["actor_2_facebook_likes"] + 
                              films["actor_3_facebook_likes"]) / 3
films

Zoals gezegd hebbende worden de variabelen IMDB-score en mean_likes_actors gebruikt. Hieronder wordt een scatter-plot gemaakt van deze variabelen:

In [None]:
# Maak gebruik van de Seaborn style.
plt.style.use("seaborn")

# Maak een scatter-plot van de variabelen.
plt.scatter(films.imdb_score, films.mean_likes_actors, 
            s=40, 
            c="red", 
            edgecolor="black", 
            linewidth=0.75, 
            alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("IMDB-score")
plt.ylabel("Aantal likes")
plt.title("Correlatie tussen IMDB-score en aantal likes")

plt.show()

Zoals te zien is liggen de punten heel dicht op elkaar. Nu laten we nog even de r-waardes (richtingscoëfficient) zien van de correlatie tussen deze twee variabelen. Hiervoor maken we een aparte dataset aan:

In [None]:
# Voeg de kolommen imdb_score en mean_likes_actors toe aan een nieuwe dataset.
films_correlation = films[["imdb_score", "mean_likes_actors"]]
films_correlation

In [None]:
# Toon de correlatie tussen de twee variabelen.
films_correlation.corr().style.background_gradient(cmap="coolwarm")

*We hebben een aparte dataset aangemaakt voor deze correlatie, omdat de andere gegevens niet relevant zijn voor het beantwoorden van de vraag. Mocht u geïntereseerd zijn in de correlatie met alle variabelen, kunt u het onderstaande statement runnen:*

In [None]:
# Geef een overzicht van de correlatie met alle variabelen.
# films.corr().style.background_gradient(cmap="coolwarm")

Voor een goede correlatie is het belangrijk dat de richtingscoëfficient dicht bij de 1 zit ($ -1 ≤ r ≤ 1$). We zien uit de bovenstaande gegevens dat de richtingscoëfficient voor imdb_score en mean_likes_actors 0.187995 is.

#### Conclusie

Er is sprake van een positieve correlatie, maar er is **geen** sprake van een sterk verband tussen het succes van een film en het aantal likes van acteurs.

### Vraag 3: In hoeverre is de omzet van een film te voorspellen op basis van de populariteit op Facebook en IMDB zelf?
---

Omzet is erg belangrijk voor een film. Het is immers waar een film voor wordt gemaakt: om omzet te draaien. Deze omzet komt natuurlijk van alle mensen die deze film hebben gezien in de bioscoop en uiteindelijk ook de DVD's. <br>
Maar natuurlijk gaat de gemiddelde persoon niet naar elke film die ooit uitkomt. Als een film een lage score heeft op IMDB of weinig Facebook likes heeft, geeft dat al gauw een signaal dat de film niet zo goed is. Het is dus veilig om te zeggen dat zo'n score invloed heeft op de populariteit van een film.

Maar heeft dit ook veel effect op de omzet van de film? En tot hoeverre kunnen we hiermee de omzet van toekomstige films voorspellen? Het criterium dat valt onder deze vraag is **supervised machine learning**.

#### Supervised machine learning

Supervised machine learning is gebaseerd op een dataset waarvan de uitkomst al bekend is (*labeled*). Dit houdt in dat we de machine letterlijk "begeleiden" in zijn taak om iets uit te voeren. We geven de machine data om te onderzoeken en zorgen dat we deze een goed antwoord kan geven.<br>
Onder supervised machine learning worden er binnen het vak Data Science twee technieken verstaan:
    
|Techniek                       |Omschrijving                          |                                
|:------------------------------|:-------------------------------------|
|Lineaire regressie             |Lineaire regressie probeert de relatie tussen twee variabelen te modelleren door een **lineaire vergelijking** aan te passen aan de waargenomen gegevens.   |
|Classificatie                  |Classificatie is een geordende reeks gerelateerde categorieën die wordt gebruikt om gegevens te **groeperen op basis van overeenkomsten**. Binnen het vak Data Science bevat het 2 onderdelen: **Decision Trees** en **k-Nearest Neighbours**.                                                  |

Om een betrouwbaar onderzoek uit te voeren kunnen we kiezen tussen lineaire regressie of classificatie. We beginnen met kijken of lineaire regressie geschikt is, dan classificatie. Maar voordat we beginnen moeten we de data **standaardiseren** aan de hand van een **z-score**:

In [None]:
# We defineren een nieuwe dataframe met alleen de relevante data.
films_sml = films[["gross", "imdb_score", "movie_facebook_likes"]].copy()
cols = list(films_sml.columns)
cols.remove('gross')

# We genereren een z-score voor imdb_score en movie_facebook_likes.
for col in cols:
    col_zscore = col + '_zscore'
    films_sml[col_zscore] = (films_sml[col] - films_sml[col].mean())/films_sml[col].std(ddof=0)
    
# We vervangen de dataframe met de z-score waardes en 500 willekeurige films.
films_sml = films_sml[["gross", "imdb_score_zscore", "movie_facebook_likes_zscore"]].sample(n=500, random_state=1)
films_sml

We hebben de data nu gestandaardiseerd. Dit betekent dat de data is veranderd om een gemiddelde van 0 en een standdaardeviatie van 1 te hebben.

We gaan nu kijken of we lineaire regressie kunnen gebruiken. Een eis daarvoor is dat de data een **correlatie** moet hebben van minimaal _0.7_ (positieve correlatie) of maximaal _-0.7_ (negatieve correlatie). We kunnen de correlatie op deze manier berekenen:

In [None]:
# Toon de correlatie.
films_sml.corr().style.background_gradient(cmap="coolwarm")

We zien dat tussen de kolommen te weinig correlatie ligt. Alleen bij dezelfde kolom zien we een correlatie van 1, maar dat kunnen we niet gebruiken.<br>
Kortom: we kunnen lineaire regressie **niet** gebruiken omdat er simpelweg te weinig correlatie is, ook al is de data genormaliseerd.

Maar hoe zit het met classificatie? Dat gaan we nu uitzoeken.

Zoals eerder vermeld vallen er binnen het vak Data Science 2 technieken onder classificatie: **Decision Trees** en **k-Nearest Neighbours**. Binnen deze context kunnen we alleen gebruik maken van Decision Trees. De techniek k-Nearest Neighbours is namelijk voor het indelen van een **nieuw object**, wat in principe niet kan bijdragen aan het beantwoorden van de vraag.

Decision trees is een algoritme dat telkens een vraag bedenkt om de bestaande objecten in te delen in groepen, totdat deze uiteindelijk nauwkeurig zijn ingedeeld. Er wordt mee voorspeld wat het type is van verschillende cultivars, bijvoorbeeld een appel als je fruit gaat onderzoeken.<br>
In dit geval zal het proberen om de types IMDB score of facebook likes te vinden.<br>
Laten we beginnen.

In [None]:
# We importeren de benodigde libraries van scikit learn.
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree
from graphviz import Source
from IPython.display import SVG

# We stellen de variabele X op, deze vertegenwoordigd de feature matrix (X-as).
# Het bevat de totale filmscore op IMDB en de het totale aantal facebook likes per film.
feature_cols = ["imdb_score_zscore","movie_facebook_likes_zscore"]

X = films_sml[feature_cols]

# We stellen we de variabele Y op, deze vertegenwoordigd de target vector(Y-as).
# Het bevat de totale omzet per film.
Y = films_sml.gross

# We splitten de data op in test en training sets. 75% van de data gaat naar de training set, 25% gaat naar de test set.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=1)

# We instantieeren de decision tree classifier.
clf = DecisionTreeClassifier(max_depth=10, random_state=10) 

# We fitten de decision tree op de training sets.
clf.fit(X_train, Y_train)

# We printen de nauwkeurigheidsscore van de voorspelling.
clf.score(X_test, Y_test)

Er is een 0.0 in nauwkeurigheid. Dit is heel slecht, want het betekent dat er helemaal geen prediction gemaakt kan worden van deze gross. We kunnen dit checken met graphviz:

In [None]:
# We genereren een graph met de decision tree en visualiseren die.
graph = Source(tree.export_graphviz(clf, out_file=None, feature_names=X.columns))
SVG(graph.pipe(format="svg"))

Deze graphic is absoluut veel te groot en je wordt er niet wijzer uit. We kunnen dus concluderen dat ook met decision trees de omzet niet goed voorspeld kan worden.

#### Conclusie

Met lineaire regressie kan **geen** goede voorspelling worden gemaakt, aangezien de correlatie tussen de omzet en IMDB score/facebook likes te laag is en er dus geen regressie toegepast mag worden. Met decision trees kan er ook **geen** goede voorspelling worden gemaakt omdat de data niet goed te scheiden is.

### Vraag 4: Wat voor voorspelling kan er worden gemaakt over de omzet gebaseerd op de combinatie van het budget en het aantal likes op Facebook e.d.?
---

Het criterium dat valt onder deze vraag is **unsupervised machine learning**.

#### Unsupervised machine learning

Unsupervised machine learning is gebaseerd op datasets zonder specifieke uitkomst (*unlabeled*). Hierbij probeer je groepen/indelingen te vinden die nuttig zijn (*pattern recognition*). Onder supervised machine learning worden er binnen het vak Data Science twee technieken verstaan:

|Techniek                       |Omschrijving                          |                                
|:------------------------------|:-------------------------------------|
|Clustering                     |Het doel van clustering is om vanuit de kenmerken zelf groepen te laten vormen. Binnen het vak Data Science valt het onder twee onderdelen: **k-Means** en **Gaussian Mixture Model**|
|Dimensionality Reduction       |Het doel van dimensionality reduction is eerst de dataset vereenvoudingen door het verminderen of samenvoegen van kenmerken; en dan groepen laten vormen. Deze valt buiten de scope van het vak.|

Voor het gebruik van unsupervised machine learning moeten we dus clustering toepassen. De techniek die we gaan gebruiken is k-Means. Hiervoor is gekozen omdat k-Means een veelgebruikte en eenvoudig te begrijpen clustering techniek is. Je zoekt *k* verchillende clusters in een verzameling gegevens.

Voor deze vraag gaan we een voorspelling van omzet maken gebaseerd op het budget, het aantal likes op facebook en de score op IMDB van de films. Om te beginnen maken we een paar nieuwe dataframes met de relevante data en normaliseren we deze 1 voor 1:

In [None]:
films_facebook = films[["gross", "movie_facebook_likes"]].copy()
films_facebook = (films_facebook - films_facebook.mean()) / (films_facebook.max() - films_facebook.min())

films_imdb = films[["gross", "imdb_score"]].copy()
films_imdb = (films_imdb - films_imdb.mean()) / (films_imdb.max() - films_imdb.min())

films_budget = films[["gross", "budget"]].copy()
films_budget = (films_budget - films_budget.mean()) / (films_budget.max() - films_budget.min())

We gaan nu voor de 3 verschillende kolommen (budget, imdb_score en movie_facebook_likes) scatterplots en clusters maken met de gross kolom. We beginnen met gross en budget.

In [None]:
# We maken een scatter-plot tussen gross en budget.
plt.scatter(films_budget["budget"], films_budget["gross"],
                          s=40, 
                          c="blue", 
                          edgecolor="black", 
                          linewidth=0.75, 
                          alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("Budget")
plt.ylabel("Omzet")
plt.title("Scatter-plot van budget en omzet")

plt.show()

We gaan nu kijken of we enige clusters kunnen vinden in dit scatter-plot.

In [None]:
# We importeren de benodigde libraries.
from sklearn.cluster import KMeans

# We instantieeren een KMeans, stellen het aantal clusters in en fitten deze op de dataframe. Voor nu zoeken we er 2.
kmeans = KMeans(n_clusters=2).fit(films_budget)

# We printen de middelpunten.
print(kmeans.cluster_centers_)

# We voegen een nieuwe kolom "group" aan, dat weergeeft in welke cluster elke rij zich in bevindt.
films_budget["group"] = kmeans.labels_
films_budget

# We genereren een scatter-plot met k-mean opties.
plt.scatter(films_budget["budget"], films_budget["gross"], 
            s=40,
            c=films_budget["group"], 
            cmap="plasma",
            edgecolor="black", 
            linewidth=0.75, 
            alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("Budget")
plt.ylabel("Omzet")
plt.title("Cluster tussen budget en omzet")

plt.show()

We zien hier 2 duidelijke clusters voor budget en gross. We zien dat de meeste films veel meer omzet draaien dan hun oorspronkelijk budget. Maar in de onderste cluster zien we ook een klein dozijn aan films die een heel hoog budget had, maar minder omzet maakte dan het budget. We kunnen hieruit concluderen dat een budget meestal lager is dan omzet.

We gaan nu hetzelfde doen, maar met movie_facebook_likes in plaats van budget.

In [None]:
# We maken een scatter-plot tussen gross en movie_facebook_likes.
plt.scatter(films_facebook["movie_facebook_likes"], films_facebook["gross"],
                            s=40, 
                            c="blue", 
                            edgecolor="black", 
                            linewidth=0.75, 
                            alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("Movie Facebook likes")
plt.ylabel("Omzet")
plt.title("Cluster tussen omzet en movie Facebook likes")

plt.show()

De data is hier meer verspreid, dus we zullen nu 3 clusters zoeken.

In [None]:
# We instantieeren een KMeans, stellen het aantal clusters in en fitten deze op de dataframe. Voor nu zoeken we er 3.
kmeans = KMeans(n_clusters=3).fit(films_facebook)

# We printen de middelpunten.
print(kmeans.cluster_centers_)

# We voegen een nieuwe kolom "group" aan, dat weergeeft in welke cluster elke rij zich in bevindt.
films_facebook["group"] = kmeans.labels_
films_facebook

# We genereren een scatter-plot met k-mean opties.
plt.scatter(films_facebook["movie_facebook_likes"], films_facebook["gross"],
            s=40,
            c=films_facebook["group"], 
            cmap="plasma",
            edgecolor="black", 
            linewidth=0.75, 
            alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("Movie Facebook likes")
plt.ylabel("Omzet")
plt.title("Cluster tussen omzet en movie Facebook likes")

plt.show()

We zien nu 3 clusters. Alle drie clusters zeggen 1 ding: omzet aan de hand van facebook likes kunnen erg verschillen. We zien bijvoorbeeld een film met een (genormaliseerde) omzet van 0.97, maar met een aantal (genormaliseerde) facebook likes van 0.09. En een film met een omzet van 0.19 maar met een aantal facebook likes van 0.98.<br>
De bovenste cluster bevat de meest varierende data, de onderste cluster bevat de meeste standaard data en de middelste cluster bevat iets daar tussenin.<br>
We kunnen concluderen dat facebook likes geen concreet effect hebben op de omzet van een film.

Als laatste voeren we hetzelfde uit, maar met de score op IMDB. Hopelijk kunnen we hier een betere conclusie uit trekken.

In [None]:
# We maken een scatter-plot tussen gross en imdb_score.
plt.scatter(films["imdb_score"], films["gross"],
            s=40, 
            c="blue", 
            edgecolor="black", 
            linewidth=0.75, 
            alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("IMDB-score")
plt.ylabel("Omzet")
plt.title("Scatter-plot van IMDB-score en omzet")

plt.show()

We zien hier een duidelijke **links-scheeve verdeling.** Dit kan betekenen dat de IMDB score de meeste betrouwbare bron is. Of dat zo is gaan we nu zien.

In [None]:
# We instantieeren een KMeans, stellen het aantal clusters in en fitten deze op de dataframe. Voor nu zoeken we er 2.
kmeans = KMeans(n_clusters=2).fit(films_imdb)

# We printen de middelpunten.
print(kmeans.cluster_centers_)

# We voegen een nieuwe kolom "group" aan, dat weergeeft in welke cluster elke rij zich in bevindt.
films_imdb["group"] = kmeans.labels_
films_imdb

# We genereren een scatter-plot met k-mean opties.
plt.scatter(films_imdb["imdb_score"], films_imdb["gross"], 
            s=40,
            c=films_imdb["group"], 
            cmap="plasma",
            edgecolor="black", 
            linewidth=0.75, 
            alpha=0.75)

# Voeg kenmerken toe aan de plot.
plt.xlabel("IMDB-score")
plt.ylabel("Omzet")
plt.title("Cluster tussen IMDB-score en omzet")

plt.show()

We zien hier 2 clusters. We zien en vrij duidelijk verschil tussen deze clusters. De linkse clusters weergeeft de data met de laagste (genormaliseerde) IMDB score. Als we kijken tussen de eerste en tweede cluster zien we dat de tweede cluster begint bij een steile verhoging van de (genormaliseerde) omzet, die ook bij de hoogste IMDB scores hoort.<br>
We kunnen dus concluderen dat de omzet wel degelijk te voorspellen is via de score op IMDB. 

#### Conclusie

De omzet is wel goed te voorspellen met de score op IMDB, aangezien hier een duidelijke links-scheeve verdeling in te zien is.<br> 
De omzet kan minder goed worden voorspeld met het budget, aangezien de meeste films sowieso veel meer omzet draaien dan hun budget, en een laag budget ook niet altijd een lage omzet betekent.
<br>
De omzet kan bijna niet worden voorspeld met facebook likes, omdat deze data heel veel verschilt. Een film kan bijvoorbeeld 2 keer zoveel likes hebben als een andere film, maar alsnog minder omzet draaien dan de andere film.

### Hypothese-toets
---

Een filmcriticus heeft een hypothese: **de score van Engelstalige films is lager dan gemiddeld.**<br>
Is deze hypothese correct? Dat gaan we uitzoeken aan de hand van een z-toets.

De bekende gegevens zijn als volgt:
- De steekproef (n) is 100 films.
- De betrouwbaarheid van de steekproef is 90%.
- De foutmarge (a) van de steekproef is 10%.

Laten we beginnen.<br>
#### Stap 1: stel hypothesen op
- **H0** = µ_engelstalige films >= gemiddelde score
- **HA** = µ_engelstalige films < gemiddelde 
<br>

Er is sprake van een **linkszijdige** toets.

#### Stap 2: neem een voldoende grote steekproef

In [None]:
# We importeren de benodigde libraries.
import scipy.stats as stats

# We stellen het aantal van de steekproef in.
n = 100

# We nemen het gemiddelde van de populatie.
mu = round(films["imdb_score"].mean(), 1)
print ("Het gemiddelde van de populatie is {:.2f}.".format(mu)) 

# We maken de steekproef van 100 willekeurige films. Van deze films is de IMDB score bekend en zijn ze engelstalig.
sample = films[films["imdb_score"] != None][films["language"] == "English"].sample(n=n, random_state=1)

# We berekenen het gemiddelde van de steekproef.
x_ = round(sample["imdb_score"].mean(), 1)
print("Het gemiddelde van de steekproef is {:.2f}.".format(x_))

# We berekenen de standaarddeviatie van de steekproef.
s = sample["imdb_score"].std()
print("De standaarddeviatie van de steekproef is {:.2f}.".format(s))
                     
# We berekenen de standard error.
se = s / np.sqrt(n)
print("De standard error is {:.2f}.".format(se)) 

#### Stap 3: bepaal de foutmarge

In [None]:
# We stellen de foutmarge in.
a = 0.1
print("De foutmarge van de steekproef is {:.2f}.".format(a))

# We berekenen de grens van de Z-waarde
z_grens = stats.norm.ppf((1-a))
print("De grens z_waarde is {:.2f}".format(z_grens))

# We berekenen de concrete grenswaarde.
grens = z_grens * se + mu
print("De grenswaarde is {:.2f}".format(grens))

#### Stap 4: bereken z-waarde en p-waarde

In [None]:
# We berekenen de Z-waarde.
z = (x_ - mu) / se
print("De Z-waarde is {:.2f}.".format(z)) 

# We berekenen de P-waarde.
p = stats.norm.sf(z)
print("De P-waarde is {:.2f}.".format(p) + "\n") 

#### Stap 5: conclusie

In [None]:
# We kijken of de P-waarde meer of minder is dan de foutmarge.
# Is het minder, dan wijzen we de nul hypothese af.
# Is het meer of gelijk, dan accepteren we de nul hypothese.
if p < a:
    print("De P-waarde ({:.2f}) is kleiner dan de foutmarge ({:.2f}), dus we wijzen de nul hypothese af.".format(p, a))
elif p == a:
    print("De P-waarde ({:.2f}) is gelijk aan de foutmarge ({:.2f}), dus we accepteren de nul hypothese.".format(p, a))
elif p > a:
    print("De P-waarde ({:.2f}) is groter dan de foutmarge ({:.2f}), dus we accepteren de nul hypothese.".format(p, a))

We zien dat de P-waarde hoger is dan de foutmarge en we de nul hypothese accepteren. We blijven dus nog sceptisch over de alternatieve hypothese.<br>
Dit hoeft **niet** te betekenen dat de nul hypothese klopt, het betekent alleen dat we sceptisch blijven.

# Stap 6. Visualization
---

Deze stap is om niet alleen voor onszelf, maar ook voor u als lezer, inzicht te krijgen in de data van onze Data Science pipeline. 

Dankzij de interactieve visualisate met Holoviews kunt u invloed uitoefenen op wat u te zien krijgt qua analyses. Er wordt gebruik gemaakt van de Bokeh extensie en ipywidgets. De bijbehorende vraag bij deze stap is: *Wat is de netto omzet van de films in een specifiek jaar van uitkomst?* 

### Vraag 5: Wat is de netto omzet van de films in een specifiek jaar van uitkomst?
---

Het is voor een regisseur uiterst belangrijk om zoveel mogelijk geld te verdienen wanneer hij zijn film uitbrengt. Geld speelt immers een grote rol in ons leven. 

Daarom laten wij u nu zien wat de netto omzet is van alle films in het jaar van uitkomst. Dit doen wij eerst a.d.h.v. een bubble chart, omdat we hiervoor een vergelijking willen maken met drie categorieën (winst, jaar, film), over een tijd/periode. Daarna volgen enkele bar charts.

Hieronder maken we eerst een kopie van de films dataset. Daarna voegen we een extra kolom aan de nieuwe dataset die de omzet neemt van een film. Ook resetten we de index:

In [None]:
# Maak een kopie van de films dataset
films_revenue = films[["title_year"]].copy()

# Voeg een extra kolom toe aan de dataset
films_revenue["movie_net_revenue"] = films["gross"] - films["budget"]

# Reset de index zodat je makkelijker de gegevens van de filmtitel kan krijgen
films_revenue.reset_index(inplace=True)
films_revenue

> *N.B.: om de omzet te kunnen berekenen zijn er slecht twee kolommen beschikbaar; vandaar dat we de omzet - het budget gebruiken.*

Nu we de dataset hebben met de benodigde gegevens, kunnen we onze chart maken.

In [None]:
# Maak een bubble chart, waarbij je elke film indeeld in een subgroep als het ware.
revenue_points = hv.Points(films_revenue, kdims=["title_year", "movie_net_revenue"])

# Style de plot.
revenue_points.opts(xlabel="Jaar van de films",
                    ylabel="Netto omzet in $",
                    color="movie_title",
                    cmap="Category20",
                    line_color="black",
                    size=10,
                    padding=0.1,
                    width=1000,
                    height=500,
                    legend_position="right",
                    title="Netto omzet van films")

revenue_points

Zoals te zien is, is deze plot niet echt overzichtelijk en de datapunten staan te dicht op elkaar. Daarom gaan we laten zien hoe je wel voor elk jaar de omzet van alle films kunt zien. <br>
Maar eerst, moet er een apart dataframe worden aangemaakt zodat de jaartallen netjes gesorteerd staan.

In [None]:
# Maak een kopie van de films_revenue dataset en sorteer op het jaar van nieuwste naar oudste film
films_sort_year = films_revenue.copy().sort_values(by="title_year", ascending=False)
films_sort_year

Nu kunnen we de interactieve visualisatie voor de netto omzet van films in een specifiek jaar van uitkomst tonen.

In [None]:
# Gebruik van ipywidgets.
import ipywidgets

# Maak een dropdown voor jaartal.
year_widget = ipywidgets.Dropdown(options=films_sort_year.title_year.unique().tolist(),
                                  value=2016.0,
                                  description="Kies een jaar:")

# Maak een select optie voor de omzet.
measure_widget = ipywidgets.Select(options=["movie_net_revenue"],
                                     value="movie_net_revenue",
                                     description="Maatstaf:")

def create_bar_chart(year, measure):
    """ Functie die ervoor zorgt dat er een bar chart wordt gemaakt per geselecteerd jaar """
    chart = hv.Bars(films_sort_year[films_sort_year.title_year == year], kdims="movie_title", vdims=measure)
    chart.opts(xlabel="Films",
               ylabel="Netto omzet in $",
               color="#444444",
               width=1200, 
               height=700, 
               xrotation=90,  
               line_width=0.75, 
               alpha=1.75,
               tools=["hover"])
    display(chart.opts(title="Jaar: " f"{year}"))
    
    
ipywidgets.interact(create_bar_chart, year=year_widget, measure=measure_widget)

Als extraatje kunt u hieronder ook voor elke film specifiek de netto omzet bekijken. Hierbij is er ook een bar chart gemaakt. 
> *Let op: de negatieve en positieve waardes blijven op dezelfde positie. Het kan dus even wennen zijn om dit goed te interpreteren, maar gelukkig hebben we daarvoor de Hovertool.*

In [None]:
# Gebruik van ipywidgets.
import ipywidgets

# Maak een dropdown voor films.
films_widget = ipywidgets.Dropdown(options=films_revenue.movie_title.unique().tolist(),
                                  value="10 Things I Hate About You",
                                  description="Kies een film:")

# Maak een select optie voor de omzet.
measure_widget = ipywidgets.Select(options=["movie_net_revenue"],
                                     value="movie_net_revenue",
                                     description="Maatstaf:")

def create_bar_chart(film, measure):
    """ Funcite die ervoor zorgt dat er een Bar chart wordt gemaakt per geselecteerde film"""
    chart = hv.Bars(films_revenue[films_revenue.movie_title == film], kdims="title_year", vdims=measure)
    chart.opts(xlabel="Jaar van de film",
               ylabel="Netto omzet in $",
               color="#444444",
               width=600, 
               height=450,
               line_width=0.75, 
               alpha=1.75,
               tools=["hover"])
    display(chart.opts(title=f"{film}"))
        
          
ipywidgets.interact(create_bar_chart, film=films_widget, measure=measure_widget)

#### Conclusie

Er is met behulp van Holoviews, Bokeh en ipywidgets een plot gemaakt waarin te zien is wat de netto omzet van een film in het jaar van uitkomst is. Ook is het mogelijk om per specifieke film te kijken wat de omzet is. Deze deelvraag heeft geen concrete conclusie.

#### Leuk weetje
- De eerste film die in onze dataset is opgenomen kwam uit in 1927. De film genaamd Metropolis had een verlies van 5.000.000 dollar. 
- De laatste film die in onze dataset is opgenomen kwam uit in 2016. De film genaamd Deadpool was het meest succesvol in dit jaar met een omzet van 305.024.263 dollar.
- De totale omzet van de films in de periode van 1927 tot en met 2016 bedraagt maar liefst 33.980.758.451 dollar!

# Stap 7. Communication
---

Als laatste stap volgt hier een beschrijving van enkele punten. 

Allereerst wordt er een beschrijving gegeven van hoe het bouwen van de Data Science-pipline is aangepakt. Daarna wordt er een beschrijving van de methode van dataverzamelingen en -bewerkingen gegeven. <br>Vervolgens wordt de dataopbouw, de analyses en de betekenis van de resultaten besproken. Er wordt concreet antwoord gegeven op de onderzoeksvragen en er volgt een beargumenteerde conclusie. Als laatst zijn er gebruikte bronnen te vinden.

## Aanpak Data Science-pipeline
---

Voor de aanpak van de Data Science-pipele hebben we eerst enkele onderzoeksvragen moeten bedenken en deze moeten inleveren bij de docent. Er was slechts één vraag waar er twijfel over was. Deze is later aangepast. In de eerste week zijn de stappen 1 t/m 3 van de pipeline uitgewerkt. Ook hebben we in de eerste week een externe dataset gevonden die aansloot op de deelvraag waarvoor deze nodig was. Nadat deze stappen waren afgerond, was het tijd voor het uitwerken van de deelvragen.

Voor het uitwerken van deze deelvragen werd er in het begin gecommuniceerd via WhatsApp, maar later grotendeels via Discord.
Voor de samenwerking werd er gebruik gemaakt van GitHub. Hierdoor konden we onderling mekaars werk lokaal overnemen en pushen naar de remote repository. Er werd eerst geprobeerd om samen te werken met Google Colaboratory, maar dit zorgde voor enkele performance problemen.

In de laatste weken hebben we dit notebook gezamelijk in elkaar gezet en zijn we alle punten langsgelopen. Hierbij is er ook gecontroleerd op spelling, zinsopbouw, typo's en dergelijke.

## Methode dataverzameling en -bewerking
---

Voor de dataverzameling is er gebruik gemaakt van de dataset die we van de Hogeschool Utrecht hebben gekregen. Overigens hebben wij zelf via het internet een externe dataset gevonden. De link van deze datasets zijn te vinden in de bronnenlijst. Dit was stap 1 Data Collection van de pipeline.

Voor de databewerking zijn de stappen 2 Data Processing en 3 Data Cleaning gedaan a.d.h.v. de college slides van de cursus Data Science. Ook is er gekeken naar een voorbeeld van een Jupyter Notebook over het onderzoek naar de Titanic. De link naar deze Kaggle is te vinden in de bronnenlijst.

Voor stap 2 - Data Processing - hebben we de rauwe data ingeladen in Jupyter Notebook als dataframe. We hadden toen 2 datasets ingeladen: de toegewezen dataset en de externe dataset.

Voor stap 3 - Data Cleaning - hebben we een aantal dingen gedaan:
- Alle niet-relevante data gedropt.
- Alle NaN gegevens gedropt.
- Alle duplicates gedropt.
- De movie titel kolommen in beide datasets overeen laten komen.
- Nieuwe indexes ingesteld voor de dataframe. 
- De dataframes gesorteerd op de index. 

## Dataopbouw, analyses en resultaten
---

Voor de dataopbouw hebben we eerst de data verzameld. Vervolgens hebben de data opgeschoond en geprocessed (verwerkt). Daarna hebben we de data opgeschoond en zijn we begonnen met het verkennen en analyseren hiervan. Voor uitgebreider uitleg kunt u helemaal aan het begin kijken naar stap 1 t/m 4.

Voor de analyses zijn er eerst een paar onderzoeksvragen bedacht. Vervolgens zijn deze onderzoeksvragen uitgewerkt in stap 4 t/m 6. De resultaten worden in het volgend hoofdstuk nader toegelicht.

## Conclusies onderzoeksvragen
---

Hier volgt een overzicht van de antwoorden op alle onderzoeksvragen die in deze Data Science-pipeline zijn behandeld.

|Beoordeling                    |Onderzoeksvraag     |Conclusie                                                                  |
|:------------------------------|:-------------------|:------------------------                                                                  |
|Externe dataset                |Hoeveel effect heeft de lengte van een trailer op de omzet van de film?               |We kunnen concluderen dat er **geen** duidelijk verband is tussen de lengte van de trailer en de omzet van de film.
|Correlatieonderzoek            |Is een film succesvoller op basis van het aantal likes die een acteur (of acteurs) heeft/hebben op Facebook?|Er is sprake van een positieve correlatie, maar er is **geen** sprake van een sterk verband tussen het succes van een film en het aantal likes van acteurs.                                                                                              | 
|Supervised machine learning    |In hoeverre is de omzet van een film te voorspellen op basis van de populariteit op Facebook en IMDB zelf?|Met lineaire regressie kan **geen** goede voorspelling worden gemaakt, aangezien de correlatie tussen de omzet en IMDB score/facebook likes te laag is en er dus geen regressie toegepast mag worden. Met decision trees kan er ook **geen** goede voorspelling worden gemaakt omdat de data niet goed te scheiden is.                                                                                                          |
|Unsupervised machine learning  |Wat voor voorspelling kan er worden gemaakt over de omzet gebaseerd op de combinatie van het budget en het aantal likes op Facebook e.d.?|De omzet is wel goed te voorspellen met de score op IMDB, aangezien hier een duidelijke links-scheeve verdeling in te zien is.<br>De omzet kan minder goed worden voorspeld met het budget, aangezien de meeste films sowieso veel meer omzet draaien dan hun budget, en een laag budget ook niet altijd een lage omzet betekent.<br>De omzet kan bijna niet worden voorspeld met facebook likes, omdat deze data heel veel verschilt. Een film kan bijvoorbeeld 2 keer zoveel likes hebben als een andere film, maar alsnog minder omzet draaien dan de andere film.                                                                                              |
|Z-toets|Een filmcriticus heeft een hypothese: **de score van Engelstalige films is lager dan gemiddeld.**<br>Is deze hypothese correct?|De P-waarde is hoger dan de foutmarge en we accepteren dus de nul hypothese. We blijven dus nog sceptisch over de alternatieve hypothese.<br>Dit hoeft **niet** te betekenen dat de nul hypothese klopt, het betekent alleen dat we sceptisch blijven.
|Interactieve visualisatie      |Wat is de netto omzet van de films in een specifiek jaar van uitkomst?                      |Er is met behulp van Holoviews, Bokeh en ipywidgets een plot gemaakt waarin te zien is wat de netto omzet van een film in het jaar van uitkomst is. Ook is het mogelijk om per specifieke film te kijken wat de omzet is. Deze deelvraag heeft geen concrete conclusie.

## Bronnen
---

De dataset van de Hogeschool Utrecht: <br>
https://github.com/tijmenjoppe/ComputationalModelling-student/blob/master/casus/movie/movie.csv <br>

De externe dataset: <br>
https://grouplens.org/datasets/movielens/20m-youtube/ <br>

Het voorbeeld Jupyter Notebook: <br>
https://www.kaggle.com/nadintamer/titanic-survival-predictions-beginner <br>

Voor het samenvoegen van het gemiddelde van meerdere kolommen: <br> 
https://stackoverflow.com/questions/34734940/row-wise-average-for-a-subset-of-columns-with-missing-values <br>

Voor het correlatieonderzoek: <br>
https://canvas.hu.nl/courses/7546/files/folder/slides?preview=765874 & https://canvas.hu.nl/courses/7546/pages/lineaire-regressie?module_item_id=248049 <br>

Voor de uitleg van supervised machine learning: <br>
https://canvas.hu.nl/courses/7546/files/folder/slides?preview=661608 <br>

Voor de uitleg van lineaire regressie: <br> http://www.stat.yale.edu/Courses/1997-98/101/linreg.htm <br>

Voor de uitleg van classificatie: <br>
https://www.cso.ie/en/methods/classifications/classificationsexplained/ <br>

Voor de uitleg van unsupervised machine learning en bijbehorende categorieën: <br>
https://canvas.hu.nl/courses/7546/files/folder/slides?preview=661608 <br>

Voor het tonen van de film met de meeste omzet: <br>
https://stackoverflow.com/questions/15741759/find-maximum-value-of-a-column-and-return-the-corresponding-row-values-using-pan <br>

Voor het resetten van de index: <br> 
https://www.youtube.com/watch?v=OYZNk7Z9s6I <br>

Voor het sorteren van de kolommen op jaar: <br>
https://www.youtube.com/watch?v=eu_pS_NWGD0 <br>

Voor het maken van een scatter(point)-plot/bubble-chart: <br>
https://www.youtube.com/watch?v=TRS8kyOimZI <br>

Voor het stylen van de scatter-plot: <br> 
https://www.youtube.com/watch?v=zZZ_RCwp49g <br> 

Voor het sylen van Matplotlib plots: <br>
https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.scatter.html<br>

Voor het stylen van Seaborn plots: <br>
https://seaborn.pydata.org/generated/seaborn.regplot.html & https://stackoverflow.com/questions/48145924/different-colors-for-points-and-line-in-seaborn-regplot <br>

Voor het gebruik van ipywidgets: <br>
https://ipywidgets.readthedocs.io/en/latest/user_install.html <br>

Voor het werken met Holoviews: <br>
https://www.youtube.com/watch?v=TRS8kyOimZI <br>

Voor het customizen van de Holoviews plot: <br>
http://holoviews.org/user_guide/Customizing_Plots.html <br>

> *Dat is voor mij om te weten, voor jullie om uit te zoeken*
> *- Martijn J.*