# Casusopdracht - Onderzoeksvraag 3

*Klas*: V2B
*Studenten*: 
- Roan Gaasbeek
- Luc Pikaar
- Mathijs de Jong


Dit bestand bouwt voort op de algemene stappen die zijn uitgevoerd in het bestand `CM_casusopdracht.ipynb`. In dat bestand zijn de fasen **Business Understanding**, **Data Understanding** en **Algemene Data Preparation** behandeld. In dit bestand gaan we verder met **Data Preparation** specifiek voor deze onderzoeksvraag en starten we de **Modelling**-fase.

### Onderzoeksvraag
In hoeverre is het mogelijk om logische clusters te vinden o.b.v. `budget`, `omzet` en `IMDB-score`?

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

In [None]:
dataset = pd.read_csv('films.csv')

films = dataset[['titel', 'imdb_score', 'budget', 'omzet']]
films.head()

## 2. Data understanding

### Features
In dit deel van het onderzoek richten we ons op de volgende kenmerken (features) die van invloed kunnen zijn op de clustering van films:

**Budget**: Het budget van de film in USD. Dit kenmerk helpt ons om te begrijpen hoeveel middelen er zijn geïnvesteerd in de productie van een film.

**Omzet**: De totale omzet van de film in USD. Dit kenmerk wordt gebruikt om het succes van een film te kwantificeren.

**IMDB-score**: De gemiddelde beoordeling van de film door gebruikers op IMDB. Deze feature geeft een indicatie van de populariteit en kwaliteit van een film, zoals beoordeeld door het publiek.


### Correlatieanalyse
Na het analyseren van de gegevens hebben we een pairplot gemaakt om de onderlinge relaties tussen de geselecteerde features te visualiseren. De berekende correlaties tussen de IMDB-score, budget, en omzet zijn als volgt:

In [None]:
pairplot = sns.pairplot(films[['imdb_score', 'budget', 'omzet']], diag_kind='hist', markers='o')

plt.suptitle('Pairplot van IMDB-score, Budget en Omzet', y=1.02)
plt.show()

# Bereken en print de correlaties
correlation_matrix = films[['imdb_score', 'budget', 'omzet']].corr()
print("Correlatie tussen IMDB-score, budget en omzet:")
print(correlation_matrix)

### Voorlopige Conclusie
De zwakke correlaties tussen de IMDB-score en zowel budget als omzet kunnen erop wijzen dat deze variabelen niet direct met elkaar in verband staan. Deze bevindingen zullen worden verder onderzocht tijdens de modellering en evaluatie van de resultaten, waarbij we zullen kijken naar de effectiviteit van verschillende machine learning-modellen in het identificeren van clusters op basis van deze variabelen.

## 3. Specific Data Preparation


### Feature engineering
Omdat de budgetten en omzetten sterk variëren in schaal, is een log-transformatie toegepast om de verschillen te verkleinen en de patronen duidelijker zichtbaar te maken.

In [None]:
# Log-transformatie voor budget en omzet
films.loc[:, 'log_budget'] = np.log10(films['budget'] + 1)
films.loc[:, 'log_omzet'] = np.log10(films['omzet'] + 1)

# Controleer de eerste paar rijen
films[['titel', 'imdb_score', 'budget','log_budget', 'omzet', 'log_omzet']].head(10)

\

In dit onderzoek hebben we ervoor gekozen om de IMDB-score niet te normaliseren of te schalen, en wel om de volgende redenen:

- De IMDB-score is een gestandaardiseerde maatstaf die altijd ligt tussen 0 en 10. Dit beperkt bereik zorgt ervoor dat alle waarden binnen een herkenbare en constante schaling vallen, wat de interpretatie van de resultaten vergemakkelijkt.
- Het niet schalen van de IMDB-score behoudt de oorspronkelijke betekenis en schaal. Scores van bijvoorbeeld 7.5 en 8.5 zijn eenvoudig te interpreteren en bieden directe inzichten in de populariteit en kwaliteit van de films in de dataset.

## 4. Modelling

In [None]:
pairplot = sns.pairplot(films[['imdb_score', 'log_budget', 'log_omzet']], diag_kind='hist', markers='o')

plt.suptitle('Pairplot van IMDB-score, Budget en Omzet', y=1.02)
plt.show()

# Bereken en print de correlaties
correlation_matrix = films[['imdb_score', 'log_budget', 'log_omzet']].corr()
print("Correlatie tussen IMDB-score, budget en omzet:")
print(correlation_matrix)