# Dataset opschonen
Hier kijk ik naar de data en schoon ik deze op. Dit gedeelte moet eerst gerund worden als u de notebooks wilt uitvoeren.

Als we kijken naar de twee onderzoeksvragen die ik behandel, dan zijn dat:

1. In hoeverre is de omzet van een film te voorspellen op basis van de populariteit op Facebook en IMDb?

2. In hoeverre is het mogelijk om logische clusters te vinden op basis van onder andere budget en omzet?



| Feature                     | Beschrijving                           | Type     |
| --------------------------- | -------------------------------------- | -------- |
| `director_facebook_likes`   | Aantal Facebook-likes van de regisseur | numeriek |
| `actor_1_facebook_likes`    | Likes hoofdrolspeler 1                 | numeriek |
| `actor_2_facebook_likes`    | Likes hoofdrolspeler 2                 | numeriek |
| `actor_3_facebook_likes`    | Likes hoofdrolspeler 3                 | numeriek |
| `cast_total_facebook_likes` | Totale likes van de cast               | numeriek |
| `movie_facebook_likes`      | Likes van de film zelf                 | numeriek |
| `imdb_score`                | IMDB-score                             | numeriek |
| `num_voted_users`           | Aantal IMDB-stemmers                   | numeriek |
| `budget`                    | Budget van de film (controlevariabele) | numeriek |
| `gross`                     | **Targetvariabele** – omzet  | numeriek |
We kijken vooral naar deze variabelen vanwege onderzoeksvraag 1, waarin we willen bepalen in hoeverre online populariteit (zoals Facebook-likes en IMDb-scores) helpt bij het voorspellen van hoeveel een film gaat verdienen.

Hieronder beschrijf ik vervolgens welke kolommen en rijen ik verwijder, en waarom ik dat doe.

In [7]:
import pandas as pd
import numpy as np

bestand = "dataset/movie-1.csv"
df = pd.read_csv(bestand, encoding='utf-8')

df = df.dropna(subset=['budget', 'gross'])

df = df.dropna(subset=['actor_1_facebook_likes', 
                       'actor_2_facebook_likes', 
                       'actor_3_facebook_likes'])

df = df.dropna(subset=['num_critic_for_reviews'])

# Categorische kolommen
categorical_cols = ['director_name', 'actor_1_name', 'actor_2_name', 'actor_3_name',
                    'plot_keywords', 'language', 'country', 'content_rating', 'genres', 'movie_title']
for col in categorical_cols:
    if col in df.columns:
        df[col] = df[col].fillna('Unknown')


df = df.drop(columns=['color', 'movie_imdb_link', 'aspect_ratio'], errors='ignore')

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 2000)
pd.set_option('display.max_colwidth', None)

output_bestand = "dataset/movie-1-cleaned.csv"
df.to_csv(output_bestand, index=False, encoding='utf-8')


print("Opschonen voltooid: nieuwe file 'movie-1-cleaned.csv' aangemaakt!")
print("Aantal rijen in de dataset:", len(df))


Opschonen voltooid: nieuwe file 'movie-1-cleaned.csv' aangemaakt!
Aantal rijen in de dataset: 3880


Ik verwijder hier elke rij die gross of budget mist. Dit doe ik omdat bij beide vragen geld een belangrijke rol speelt. Dit zijn er best veel; we verwijderen hiermee ongeveer 1.200 rijen uit de dataset. Dit is helaas wel nodig, want we hebben de gross nodig om te kunnen controleren of het goed gaat, en het budget is natuurlijk al een goede indicatie van hoeveel geld een film kan opleveren.
Ik kies er dus voor om elke rij die gross of budget mist te verwijderen, en niet om de mediaan te gebruiken. Dit doe ik omdat ik denk dat het onderzoek daardoor heel onnauwkeurig zou worden, vooral omdat het vaak de kleinere films zijn die deze twee waarden missen. Daarom verwijder ik liever deze rijen volledig.

Met wat overblijft na het verwijderen van alle rijen zonder gross of budget valt het gelukkig mee hoeveel gegevens we nog missen. Hiermee bedoel ik dat we nu niet veel NaN’s overhouden. We missen alleen nog een paar waarden bij de Facebook-likes, die belangrijk zijn voor vraag 1. Dit zijn er maar tien, dus ik kies ervoor om deze ook te verwijderen, omdat deze rijen ook meteen alle likes van de drie acteurs missen.

Hierna ontbreken er nog een paar gegevens, maar die zijn minder belangrijk voor mijn onderzoek. Daarom kies ik ervoor om bij de overige features de NaN-waarden te vervangen door 'Unknown'. Zo kan ik ze toch meenemen in de analyse en bekijken of ze misschien nog een nuttige correlatie hebben.

Er zijn ook een paar features die niet goed passen bij het onderzoek en waarvan ik zeker weet dat ze geen groot verschil zullen maken. Deze kolommen verwijder ik daarom: color, movie_imdb_link en aspect_ratio. Deze zeggen namelijk niet veel — het gaat hier vooral om een link, of de film in kleur was, en de beeldverhouding.

De rest van de kolommen laat ik erin, zodat ik ze kan gebruiken bij mijn onderzoeksvragen en bij het clusteren. Ik denk dat er met de overige kolommen namelijk nog interessante correlaties gevonden kunnen worden.

In [8]:
unknown_counts = {col: (df[col] == 'Unknown').sum() for col in categorical_cols}

print("Aantal waarden die op 'Unknown' zijn gezet per kolom:\n")
for col, count in unknown_counts.items():
    print(f"{col}: {count}")

Aantal waarden die op 'Unknown' zijn gezet per kolom:

director_name: 0
actor_1_name: 0
actor_2_name: 0
actor_3_name: 0
plot_keywords: 29
language: 4
country: 0
content_rating: 47
genres: 0
movie_title: 0
