# PO Data science 

In deze opdracht gaan jullie aan de slag met een relationele SQL-database over films. Het doel van de opdracht is om verschillende aspecten van de filmindustrie te analyseren met behulp van SQL-query's. Door het schrijven van minimaal 10 query's en gebruik te maken van verschillende SQL-technieken zoals JOINs, GROUP BY, ORDER BY en WHERE, ontdek je interessante patronen en statistieken in de filmindustrie.

## Entity Relationship Diagram van deze database

![download.png](attachment:download.png)

## Opdrachtstructuur

De opdracht bestaat uit drie verschillende onderwerpen, elk met specifieke onderzoeksvragen. Voor elk onderwerp schrijf je meerdere SQL-query’s, waarbij je gebruik maakt van de database die is weergegeven in het schema. Om jullie op gang te helpen, heb ik bij elk onderwerp 3 voorbeeld onderzoeksvragen en queries gemaakt, maar je mag natuurlijk ook je eigen vragen en queries bedenken (bijvoorbeeld over je favoriete genre of acteur).

**Minimale vereisten voor de opdracht:**

* **Minimaal 10 verschillende SQL-query's.**
* **Minimaal 5 JOIN's gebruiken in totaal.**
* **Gebruik van ten minste 1 GROUP BY.**
* **Gebruik van ten minste 1 ORDER BY om resultaten te sorteren.**
* **Gebruik van ten minste 1 WHERE-filter.**
* **Gebruik van aggregatiefuncties zoals COUNT(), SUM(), AVG(), etc.**

### Onderwerp 1: Analyse van films en hun genres

**Voorbeeld onderzoeksvragen:**

1. Wat zijn de meest populaire genres in de database, op basis van het aantal films?
2. Welke genres hebben gemiddeld de hoogste "vote_average"?
3. Welke films met een budget van meer dan 100 miljoen hebben het hoogste stemmenaantal (vote_count)?

**Vereiste Query's:**

* Query 1: Toon een lijst van genres en het aantal films in elk genre. Gebruik een **JOIN** tussen de `movie_genres` en `genre` tabellen.
* Query 2: Bereken het gemiddelde stemcijfer (`vote_average`) per genre. Gebruik een **JOIN** tussen `movie_genres`, `genre` en `movie`, en groepeer op genre.
* Query 3: Toon de top 10 films met een budget van meer dan 100 miljoen, gesorteerd op stemmenaantal. Gebruik een **WHERE**-clausule en **ORDER BY** om op stemmenaantal te sorteren.

### Titel
#### Onderzoekvraag?

In [4]:
SELECT * FROM movie
LIMIT 5;

movie_id,title,budget,homepage,overview,popularity,release_date,revenue,runtime,movie_status,tagline,vote_average,vote_count
5,Four Rooms,4000000,,It's Ted the Bellhop's first night on the job...and the hotel's very unusual guests are about to place him in some outrageous predicaments. It seems that this evening's room service is serving up one unbelievable happening after another.,22.87623,1995-12-09,4300000,98,Released,"Twelve outrageous guests. Four scandalous requests. And one lone bellhop, in his first day on the job, who's in for the wildest New year's Eve of his life.",6.5,530
11,Star Wars,11000000,http://www.starwars.com/films/star-wars-episode-iv-a-new-hope,Princess Leia is captured and held hostage by the evil Imperial forces in their effort to take over the galactic Empire. Venturesome Luke Skywalker and dashing captain Han Solo team together with the loveable robot duo R2-D2 and C-3PO to rescue the beautiful princess and restore peace and justice in the Empire.,126.393695,1977-05-25,775398007,121,Released,"A long time ago in a galaxy far, far away...",8.1,6624
12,Finding Nemo,94000000,http://movies.disney.com/finding-nemo,"Nemo, an adventurous young clownfish, is unexpectedly taken from his Great Barrier Reef home to a dentist's office aquarium. It's up to his worrisome father Marlin and a friendly but forgetful fish Dory to bring Nemo home -- meeting vegetarian sharks, surfer dude turtles, hypnotic jellyfish, hungry seagulls, and more along the way.",85.688789,2003-05-30,940335536,100,Released,"There are 3.7 trillion fish in the ocean, they're looking for one.",7.6,6122
13,Forrest Gump,55000000,,"A man with a low IQ has accomplished great things in his life and been present during significant historic events - in each case, far exceeding what anyone imagined he could do. Yet, despite all the things he has attained, his one true love eludes him. 'Forrest Gump' is the story of a man who rose above his challenges, and who proved that determination, courage, and love are more important than ability.",138.133331,1994-07-06,677945399,142,Released,"The world will never be the same, once you've seen it through the eyes of Forrest Gump.",8.2,7927
14,American Beauty,15000000,http://www.dreamworks.com/ab/,"Lester Burnham, a depressed suburban father in a mid-life crisis, decides to turn his hectic life around after developing an infatuation with his daughter's attractive friend.",80.878605,1999-09-15,356296601,122,Released,Look closer.,7.9,3313


### Onderwerp 2: Cast en Crew Analyse

**Onderzoeksvragen:**

1. Welke acteurs (personen in de cast) hebben in de meeste films gespeeld?
2. Welke regisseurs (crew in de "department" regie) hebben de hoogste gemiddelde filmwaardering (vote_average) voor hun films?
3. Is er een verband tussen het aantal films waarin een acteur speelt en de gemiddelde populariteit van die films?

**Vereiste Query's:**

* Query 4: Toon een lijst van acteurs (personen in `movie_cast`) en het aantal films waarin ze hebben gespeeld. Gebruik een **JOIN** tussen `movie_cast` en `person`.
* Query 5: Toon een lijst van regisseurs (crew in de regie-afdeling) en het gemiddelde stemcijfer van de films die zij hebben geregisseerd. Maak een **JOIN** tussen `movie_crew`, `movie`, en `person`, en groepeer per regisseur.
* Query 6: Bereken voor elke acteur het gemiddelde populariteitscijfer van de films waarin zij hebben gespeeld. Gebruik een **JOIN** tussen `movie_cast`, `movie`, en `person`.

### Onderwerp 3: Productielanden en Budget Analyse

**Onderzoeksvragen:**

1. Welke landen produceren de meeste films?
2. Wat is het gemiddelde budget van films geproduceerd per land?
3. Zijn er landen die een verband laten zien tussen een hoger budget en een hogere "vote_average"?

**Vereiste Query's:**

* Query 7: Toon een lijst van landen en het aantal films die daar zijn geproduceerd. Gebruik een **JOIN** tussen `production_country` en `country`.
* Query 8: Bereken het gemiddelde budget van films geproduceerd in elk land. Gebruik een **JOIN** tussen `movie`, `production_country`, en `country`, en groepeer per land.
* Query 9: Toon een lijst van landen en de correlatie tussen budget en stemcijfer van de films geproduceerd in die landen. Gebruik **JOIN's** tussen `movie`, `production_country`, en `country`.

### Eigen onderwerp:

Voor de laatste query (Query 10), is de onderzoeksvraag geheel vrij. Kies een onderwerp dat je interessant vindt, bijvoorbeeld acteurs, genres, of productiebedrijven. Schrijf een SQL-query waarin je een **JOIN** combineert met andere technieken zoals **GROUP BY**, **ORDER BY**, en gebruik eventueel een aggregatiefunctie zoals SUM of AVG.

### Voorbeeld van een SQL-query met een JOIN:

```markdown
## Meest populaire genres

*Vraag*: welke genres zijn het best vertegenwoordigd in deze dataset?

*Antwoord*: Drama en Comedy zijn het best vertegenwoordigd, met bijna 2300 resp. meer dan 1700 films. Daarna Thriller en Action met rond de 1200-1300 films elk. De andere genres hebben allemaal minder dan 1000 films in deze database. Het is mogelijk dat sommige films meerdere genres hebben, hier zou nog vervolgonderzoek naar gedaan kunnen worden.
```

```sql
SELECT genre.genre_name, COUNT(movie_genres.movie_id) AS aantal_films
FROM genre
JOIN movie_genres ON genre.genre_id = movie_genres.genre_id
GROUP BY genre.genre_name
ORDER BY aantal_films DESC;
```

### Opdracht Uitvoeren:

> [!WARNING]  
> Basthon slaat niets op, dus als je je werk niet wilt verliezen, zorg dan dat je je notebook regelmatig opslaat op je computer (meest linkse icoontje, met de diskette).

1. Gebruik Basthon/Jupyter notebook om je queries te schrijven. 
2. Zorg dat je voor elke query een tekstblok invoegt, waarin je 3 elementen zet, namelijk titel, onderzoeksvraag, en interpretatie van het resultaat. Zie hierboven voor een voorbeeld. Om een nieuw blok in te voegen, klik op (+). Vervolgens kun je met de dropdown Markdown selecteren voor een tekstblok, of Code voor een SQL-query. Bij beide kun je op 'Voer uit' klikken om de query uit te voeren.
3. Voer je SQL-queries uit. Als het resultaat te groot (te veel regels) is om goed te interpreteren, gebruik dan `LIMIT` of pas je onderzoeksvraag aan om deze kleiner te maken.
4. Lever je opdracht in door het Jupyter notebook bestand te uploaden in Magister.

### Beoordelingscriteria:

* Correctheid en juiste aantal van de SQL-query's.
* Gebruik van minimaal 5 JOIN's
* Correct gebruik van aggregatiefuncties
* Gebruik van GROUP BY, WHERE en ORDER BY.
* Het vermogen om zinvolle conclusies te trekken op basis van de resultaten.
* Creativiteit in het formuleren van de onderzoeksvragen en interpretaties.

Succes en veel plezier met het maken van deze opdracht!