In [51]:
#%load_ext nb_black

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from scipy.stats import zscore
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

# TODO: Kolommen van int omzetten naar "Int64" zodat np.NaN kan worden opgeslagen ipv 0 als placeholder
# TODO: NaN-types als laatste verwijderen na alle cleanup
# TODO: Negatieve waardes beter filteren op één regel

# TODO: Correlatiematrix toevoegen bij het selecteren van de kolommen

# In hoeverre is het mogelijk om de budget-omzet verhouding te voorspellen?
Ook voor deze onderzoeksvraag zullen de zeven stappen van het Data Science-proces worden toegepast. 
Stappen 1, 2 en 3 zullen in grote maten hetzelfde zijn als bij de overige twee onderzoeksvragen.
### Het Data Science-proces
1. Data collection
2. Data processing (ook wel data munging)
3. Data cleaning
4. Data exploration & analysis
5. Model building
6. Visualization
7. Communication

## 1. Data Collection
Voor het beantwoorden van deze onderzoeksvraag zal alleen gebruik worden gemaakt van `movie.csv`.
Om te zien of de dataset `movie.csv` goed is ingeladen, worden de eerste vijf rijen getoond:

In [2]:
df_movies = pd.read_csv("../../data/movie.csv")
print(f"In totaal zijn er {len(df_movies)} films.\n")
df_movies.head()

Te zien is dat de data goed wordt ingelezen en de waardes in de juiste kolommen komen te staan.
Verder zijn er al NaN-waardes te zien en staan veel gegevens opgeslagen als floats.

## 2. Data Processing
Ook deze stap is grotendeels voor ons gedaan. De data is goed opgeslagen in een `.csv`-bestand
en kan direct worden opgeslagen als een _Pandas_ DataFrame.

Verder rest ons nog de volgende drie stappen:
1. Het selecteren van de gewenste kolommen
2. Het aanpassen van onduidelijke kolomnamen
3. Het aanpassen van de datatypen

4. Het berekenen van de budget-gross verhouding van iedere film
5. Het berekenen van de Zscore-afstand tussen budget en film 

In [3]:
# Selecteren gewenste kolommen
df_movies = df_movies[["movie_title", "budget", "gross", "title_year", "num_voted_users", "num_user_for_reviews", "num_critic_for_reviews"]]

# Onduidelijke kolomnamen aanpassen
df_movies.rename(
    columns={
        "movie_title": "Movie title",
        "budget": "Budget",
        "gross": "Gross",
        "title_year": "Release year",
        "num_voted_users": "Number of voted users",
        "num_user_for_reviews": "Number of user reviews",
        "num_critic_for_reviews": "Number of critics"}, inplace=True,)

# Datatypen aanpassen: Floats naar integers omzetten
df_movies.fillna(0, inplace=True)
df_movies = df_movies.astype({"Budget": int,
                              "Gross": int,
                              "Number of voted users": int, 
                              "Number of user reviews": int,
                              "Number of critics": int})


# Datatypes aanpassen: De kolom `Release year` omzettten van integers naar het datetime-datatype
df_movies["Release year"] = pd.to_datetime(df_movies["Release year"], format="%Y", errors="coerce")

In [4]:
# Verhouding tussen budget en gross berekenen en opslaan in nieuwe kolom
df_movies["Budget Gross verh"] = df_movies["Gross"] / df_movies["Budget"]

# Zscores berekenen van Budget en Gross.
df_movies["Budget Gross Zscore afst"] = abs(zscore(df_movies[["Budget"]]) - zscore(df_movies[["Gross"]]))

df_movies.dtypes


Het DataFrame `df_movies` ziet er nu als volgt uit:

In [5]:
df_movies.head()

Alle kolommen van het DataFrame hebben nu het juiste datatype.
`Budget` en `Gross` bestaan uit integers en `Release year` bestaat uit het `datetime` datatype.
Echter zijn er nog wel 0-waardes en NaT-waardes zichtbaar. Deze rijen dienen tijdens _stap 3. Data
Cleaning_ nog te worden opgeschoont.

De kolom `Budget Gross verh` bevat de mate waarin het budget en gross zich verhouden.
Dit werkt middels de formule $Gross / Budget$. Een waarde groter dan 1 betekend winst. Alles onder
de 1 betekend verlies.

In `Budget Gross Zscore afst` staat het (absolute) verschil tussen de Zscore van het budget
en de gross. Als het budget van een film een zscore heeft van 1 terwijl de omzet een zscore van
4 heeft kunnen we concluderen dat de film veel beter heeft gepresteerd dan te verwachten was.

Om betere modellen te maken die algemener werken worden films met een zscore van meer
dan 6 bij _stap 3. Data Cleaning_ verwijderd. Dit zal later verder worden toegelicht.

## 3. Data Cleaning
Nu de data in de juiste kolommen met de juiste datatypes is opgeslagen kunnen we de data gaan opschonen.
Na het uitvoeren van de volgende stappen hebben we een DataFrame die klaar voor analyse is.
1. Het verwijderen van NaN-types
2. Het verwijderen van dubbele `Movie titles`
3. Het omzetten van onrealistische waardes naar 0
4. Het verwijderen van rijen met een budget van 0
5. Het verwijderen van rijen met een `Budget Gross zscore verh` van meer dan 6

In [6]:
# NaN-types verwijderen uit de titels
df_movies.dropna(inplace=True)
print(f"In totaal zijn er {len(df_movies)} films die een titel hebben.")

# Dubbele titels verwijderen
df_movies.sort_values("Release year", inplace=True)  # Sorteren op uitgavejaar
df_movies.drop_duplicates(subset="Movie title", keep="last", inplace=True)  # Alleen meest recente versie blijft bewaard
print(f"In totaal zijn er {len(df_movies)} films zonder duplicaten over.")

# Onrealistische waardes omzetten
print(f"In totaal zijn er {df_movies[['Budget', 'Gross']].lt(0).sum().sum()} films met een negatief Budget of Gross.")
print(f"In totaal zijn er {df_movies[['Budget']].gt(400_000_000).sum().sum()} films met een budget hoger dan de duurste film ooit.")
print(f"In totaal zijn er {df_movies[['Budget', 'Gross']].gt(2_800_000_000).sum().sum()} films met een hogere omzet dan de meest succesvolle film ooit.")
print(f"In totaal zijn er {df_movies['Budget Gross Zscore afst'].gt(6).sum().sum()} films met een extreem verschil tussen budget en gross.")

# Negatieve waardes omzetten
df_movies = df_movies[(df_movies["Budget"] >= 0)]
df_movies = df_movies[(df_movies["Gross"] >= 0)]

# 'Te dure' films verwijderen
df_movies = df_movies[(df_movies["Budget"] < 400_000_000)]

# Verwijderen films met budget van 0
df_movies = df_movies[(df_movies[["Budget", "Gross"]] != 0).all(axis=1)]

# Verwijderen films met zscore afstand van meer dan 6
df_movies = df_movies[(df_movies["Budget Gross Zscore afst"] <= 6)]

Na _stap 3. Data Cleaning_ ziet het DataFrame er als volgt uit:

In [7]:
df_movies.head()

Het DataFrame is nu volledig opgeschoond en klaar voor de volgende stap.
  
NaN-types kunnen niet worden opgeslagen in kolommen met het datatype `int32`*.
Als oplossing werden onder andere de onrealistische waardes opgeslagen als `0` om 
later te kunnen worden verwijderd uit het DataFrame.  
*Bron: pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html

Het omzetten van alle onrealistische waardes van `Budget` en `Gross` worden vervolgens omgezet naar `0`.
Onrealistische waardes van `Budget` en `Gross` zijn onder andere de
negatieve waardes. Andere onrealistische waardes zijn films met een `Budget` en/of `Gross` van meer dan
2.8 miljard. Er is immers nog nooit een film* geweest die meer dan 2.8 miljard opbracht.
Verder werden alle films met een `Budget` van meer dan 400 miljoen gedropped, de duurste film ooit
kostte niet meer dan 400 miljoen. Door deze stap worden ook enkele extreme outliers gefilterd uit
de data wat de visualisatie ten goede komt.  
Zodra de onrealistische waardes omgezet zijn naar `0` worden deze uit de dataset verwijderd.  
*Bron: nl.wikipedia.org/wiki/Lijst_van_succesvolste_films 

Door het DataFrame te sorteren op `Release year` en vervolgens de laatste waarde te behouden, wordt
de meest recente uitgave van een film bewaard. Te zien is dat maar liefst $(4808-4689=)$ 119 films dubbel
in de dataset voorkwamen.

Uit het DataFrame worden alle waardes gegooid met een zscore afstand van meer dan 6 standaard
deviaties. Dit zijn extreme uitschieters die slechts 16 maal voorkomen.
Om het model beter te laten werken en te generaliseren voor meer punten worden deze waardes verwijderd.
Er is gekozen voor 6 standaard deviaties aangezien dan verwacht kan worden dat 99.8%
procent van de waardes overblijven. Hiermee worden alle extremen uit het DataFrame gefilterd.


## 4. Data Exploration & Analysis

Nu de data is geprepareerd, kan begonnen worden aan de eerste verkenning. Door middel van
describe krijgen we in één oogopslag een duidelijk beeld van het DataFrame.

In [8]:
df_movies.describe(include="all")

Enkele verwachtingen:
1. Het meerendeel van de films zal winst maken
2. Nieuwere films zullen relatief meer winst maken dan oudere films
3. Het budget van relatief oudere films zal lager zijn dan dat van relatief nieuwe films 

Enkele eerste observaties:
- Het DataFrame bevat nog 3772 (74.9%) van de originele 5043 rijen 
- `Movie title` bevat zoals beoogd alleen maar nog unieke waardes.
- Gemiddeld brengt een film 49 miljoen op en is er een budget van 37 miljoen. Echter heeft
 het budget een standaard deviatie van 42 miljoen en de omzet een standaard deviatie van 65 miljoen.
- Het `Release year` 2002 komt met 189x het vaakst voor
- Het DataFrame bevat films die uitgegeven zijn tussen 1920 en 2016. Een interval van bijna 100 jaar.


In de volgende scatterplot zijn het budget en de omzet van films geplot.
Dit geeft een eerste beeld van de spreiding van de data en de relatie tussen het budget en de omzet.
Er wordt een sample van 350 (+- 10%) stuks genomen om de data beter te visualiseren.

Tevens wordt de baseline al getekend. Deze wordt vastgesteld op $y = x$ oftewel het break-even point.
Alles films onder de lijn hebben verlies geleden, allen boven de lijn maakten winst. De baseline
wordt gebruikt om vast te stellen een geproduceerd model wel echt beter is dan geen model.

In [9]:
fig, ax = plt.subplots()
df_movies_sample = df_movies.sample(350, random_state=42)
sns.scatterplot("Budget", "Gross", data=df_movies_sample)

coords = [np.min([ax.get_xlim(), ax.get_ylim()]),
          np.max([ax.get_xlim(), ax.get_ylim()])]

ax.plot(coords, coords, zorder=0, color='black')
plt.show()

Een mogelijke functie om, in plaats van een selectie, alle films te analyseren is `jointplot`.
Jointplots geven op een snelle manier de verspreiding maar vooral dichtheid van punten weer.
Er is goed te zien dat de meeste films onder een budget van één miljoen blijven en 
dat veruit de meeste films onder een omzet van twee miljoen blijven.
Er valt zelfs al een kleine positieve correlatie te spotten.

Om de plot overzichtelijk te houden is gekozen om de dichtheid weer te geven.
Het grote aantal films kan, zoals we hierboven al zagen, tot een onoverzichtelijke plot leiden.
Credits: seaborn.pydata.org/generated/seaborn.jointplot.html

In [10]:
sns.jointplot("Budget", "Gross", data=df_movies, kind="kde", space=0)
plt.show()

In de vorige jointplot waren individuele outliers niet te zien.
Boxplots zijn uitermate geschikt om deze wel weer te geven.

De omzet van films is veel verspreider dan het budget van films. Tevens zijn
er bij de omzet veel meer extreme outliers te zien.
Door het grote aantal uitschieters kunnen zelfs boxplots heel onoverzichtelijk worden.

In [11]:
df_movies[["Budget", "Gross"]].boxplot(grid=False)
plt.show()

Een laatste poging om ook de outliers in kaart te brengen wordt gedaan door twee
histogrammen te plotten. Bovenop de histogrammen worden streepjes getekend. Ieder streepje is een
film. De outliers zijn nu zichtbaar geworden. Direct valt te zien dat het budget
twee extreme uitschieters heeft bij drie en resp. vier miljoen.
Gross heeft uitschieters die door gaan tot zo'n ongeveer 8 miljoen.

Ook hier wordt weer duidelijk dat het meerendeel van de films het budget onder de één miljoen houdt
en de opbrengst vooral onder de twee miljoen blijft. Er zijn slechts enkele films met een extreme
verhouding tussen het budget en de omzet.

In [12]:
fig, axes = plt.subplots(1, 2, figsize=(12, 3), sharex="row", sharey="row")
sns.distplot(df_movies["Budget"], rug=True, kde=False, ax=axes[0], color="r")
sns.distplot(df_movies["Gross"], rug=True, kde=False, ax=axes[1], color="g")


sns.distplot(df_movies["Budget Gross verh"], rug=True, kde=False, ax=axes[0], color="b")
sns.distplot(df_movies["Number of critics"], rug=True, kde=False, ax=axes[1], color="c")
plt.show()

Pandas heeft een hele handige methode ingebouwd voor DataFrames. Deze methode berekend direct de
correlatie tussen iedere combinatie van twee variabelen. Standaard wordt de correlatie
door middel van Pearsons correlatiecoëfficiënt berekend.

Volgens Pearsons correlatiecoëfficiënt blijkt dat er een correlatie van 0.64 is tussen Budget en
Gross. Verder geven `Number of voted users`, `Number of user reviews` en `Number of critics` ook redelijke correlaties bij
Budget en ook Gross. Echter willen we voor het beantwoorden van de onderzoeksvraag de correlatie tussen
de verschillende features en `Budget Gross verh` weten.

In [13]:
df_movies.corr()

## 5. Model Building
Om een beeld te krijgen van de verhouding tussen het budget en de omzet bouwen we een klein
Linear Regressie-model. Voor de x-as wordt het budget geselecteerd en voor de y-as de omzet. Vervolgens wordt
de data gesplit in een test- en trainset. Aangezien er redelijk veel data tot de beschikking is,
wordt er getraind met een 80/20 verhouding.

In [14]:
X = df_movies[["Budget"]]
y = df_movies["Gross"]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, train_size=0.8)
print(f"Aantal trainwaarden: {len(X_train):5}")
print(f"Aantal testwaarden: {len(y_test):6}")

Vervolgens dient het model te worden aangemaakt en getraind. Zodra dit model getraind is kan de
formule $Y = AX + B$ worden ingevuld. Dit maakt het mogelijk om ieder mogelijk budget $x$ in
te vullen waarna $y$ zal resulteren in de voorspelde omzet.

In [15]:
linReg = LinearRegression()
linReg.fit(X_train, y_train)
print(f"Formule van de lijn:\nY = {linReg.coef_[0]:.4f} * X + {linReg.intercept_:.4f}")

Zodra het model is gemaakt en getraind dient het te worden gevalideerd. Belangrijke 
prestatieindicatoren voor Lineare Regressie zijn de $R^2$ en de Root Mean Squared Error (RMSE).
 

In [16]:
y_pred = linReg.predict(X_test).reshape(-1, 1)
print(f"R2 score: {linReg.score(y_pred, y_test):.4f}")
print(f"Root Mean Squared Error: {np.sqrt(mean_squared_error(y_test, y_pred)):_.4f}\n")  # Werkt

Om bovenstaand model weer te geven wordt bovenop een scatterplot de vastgestelde lineare formule getekend.
Deze lijn wordt in het rood weergegeven. In het zwart is weer de baseline te zien.

Te zien is dat de vastgestelde formule, de y-as
bij een x-waarde van 0, hoger snijdt dan de baseline. Aangezien $A$ kleiner dan 1 is, zal
de lijn na verloop van tijd de baseline snijden.

In [17]:
fig, ax = plt.subplots()
sns.scatterplot(X_test["Budget"], y_test)
plt.plot(X_test, y_pred, color="red")

coords = [np.min([ax.get_xlim(), ax.get_ylim()]),
          np.max([ax.get_xlim(), ax.get_ylim()])]

ax.plot(coords, coords, zorder=0, color='black', alpha=0.5)
plt.show()
print(df_movies.columns)

# In hoeverre is het mogelijk om de budget-omzet verhouding te voorspellen?
Na het evalueren van bovenstaand model en het opnieuw bestuderen van de onderzoeksvraag zijn
we tot de conclusie gekomen dat bovenstaand model iets anders doet dan waar de onderzoeksvraag
naar vraagt. Met bovenstaand model kan, tot op zekere hoogte, de omzet worden voorspeld bij
een bepaald budget.

Waar de onderzoeksvraag echter naar vraagt is het voorspellen van de budget/omzet-verhouding.
Aan ons de taak om een goede combinatie van features te selecteren waardoor de 
budget/omzet-verhouding kan worden voorspeld. Tijdens de dataprocessing is een correlatiematrix
getoond waaruit bleek dat `Number of voted users`, `Number of user reviews` en `Number of critics`
de beste correlatie vertonen met `Budget` en/of `Gross`.

Er wordt een nieuw model opgesteld met deze set features als X. Verder wordt `Budget Gross verh`
als Y genomen.

In [75]:
X = df_movies[["Number of voted users", "Number of user reviews", "Number of critics"]]
y = df_movies["Budget Gross verh"]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, train_size=0.8)
print(f"Aantal trainwaarden: {len(X_train):5}")
print(f"Aantal testwaarden: {len(y_test):6}")

Ook zoals bij het vorige model wordt het getraind en zal de formule van de lijn worden berekend.

In [76]:
linReg = LinearRegression()
linReg.fit(X_train, y_train)
print(f"Formule van de lijn:\nY = {linReg.coef_[0]:.4f} * X + {linReg.intercept_:.4f}")

Ten slotte worden de R2 Score en de RMSE ook voor dit model berekend.
Een R2 score van 0.0592 is extreem laag. De drie geselecteerde features samen lijken geen
correlatie te hebben met de budget/omzet-verhouding. Deze features hadden individueel
tijdens de Data Exploration echter wel enige maat van correlatie met budget en/of omzet.

In [77]:
y_pred = linReg.predict(X_test)
print(f"R2 score: {linReg.score(X_test, y_test):.4f}")
print(f"Root Mean Squared Error: {np.sqrt(mean_squared_error(y_test, y_pred)):_.4f}\n")