# 🎮 Case Study: EDA & Datacleaning op de *Steam Video Games* dataset

Deze notebook doorloopt een **end-to-end verkenning (EDA)** en **datacleaning** van een gaming dataset (Steam).

## Probleemstelling
We willen een goed beeld krijgen van het aanbod op Steam: welke genres en categorieën zijn populair, hoe evolueert het aanbod in de tijd, en hoe verhouden prijs en (een maat voor) populariteit zich tot elkaar? Daarnaast willen we datakwaliteit verbeteren door missende waarden, ongeldige waarden en onjuiste datatypes aan te pakken.

Concreet beantwoorden we o.a. de volgende vragen:

1. **Datakwaliteit & structuur**
   - Welke kolommen zijn aanwezig? Welke datatypes horen daarbij?
   - Hoeveel missende waarden zijn er en waar?
   - Zijn er dubbele rijen of inconsistenties (bv. datums, prijzen)?

2. **Samenstelling van het aanbod**
   - Hoe is de verdeling over **genres** en **categories**?
   - Welke **developers** en **publishers** brengen het meeste uit?
   - Hoe evolueert het aantal releases **per jaar**?

3. **Prijs en populariteit**
   - Wat is de verdeling van **prijzen**?
   - Bestaat er een relatie tussen **prijs** en een maat voor **populariteit** (bv. *owners*, *recommendations*, *playtime*, afhankelijk van wat beschikbaar is)?

4. **Regio’s / leeftijd / tags** (optioneel, afhankelijk van dataset)
   - Hoe verhouden **leeftijdsvereisten** (required_age) of tags zich tot populariteit/prijs?

Tot slot genereren we een **automatisch EDA-rapport** met *Sweetviz* als aanvulling op onze handmatige verkenning.


## 🔧 Setup

**Benodigdheden**:
- `pandas`, `numpy`, `matplotlib`, `seaborn`
- *Voor automatische download*: `kagglehub`
- *EDA-rapport*: `sweetviz`

⚠️ **Sweetviz & NumPy**: sommige Sweetviz-versies zijn (nog) niet volledig compatibel met `numpy>=2`. Als je een fout krijgt over `VisibleDeprecationWarning`, patch het tijdelijk (zie verder).

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub

## 📥 Data inladen
We gaan eerst de dataset via **KaggleHub** op te halen: `nikdavis/steam-store-games`.
Enkel de csv met naam steam.csv moet ingeladen worden.

In [None]:
DATASET = "nikdavis/steam-store-games"  # Kaggle dataset slug

## 🧹 Eerste cleaning & verkenning
We bekijken rijen/kolommen, datatypes, missende waarden en dubbels.

### Datatype fixes (afhankelijk van beschikbare kolommen)
We proberen enkele veelvoorkomende kolommen te normaliseren: 

* `release_date` → Zet het om naar een datetime. Voeg ook een kolom release_year toe dat enkel het jaar bevat
* `price` →  Hou enkel cijfers (en '.' als decimaal teken) over en verwijder komma's en speciale symbolen. Rond af op twee cijfers na de komma
* `owners` → Is momenteel tekst in de vorm van "min-max", pas het aan naar een numerieke waarde midden van het bereik
* `genres/categories` → momenteel tekst met genres/categorieen gesplitst door ';'. Pas het aan naar python-lijsten

## ❓ Vragen & analyses
### V1. Hoe ziet de verdeling van genres eruit?
We tellen frequenties van genres (als de kolom aanwezig is).

### V2. Hoe evolueert het aantal releases per jaar?

### V3. Wat is de verdeling van prijzen? (indien beschikbaar)

### V4. Relatie tussen prijs en populariteit
We proberen een scatterplot *prijs vs populariteit* te maken. Populariteit meten we met wat beschikbaar is: `owners` (midpoint), `recommendations`, `positive_ratings`, `average_playtime`, ...

### V5. Top developers/publishers (aantal titels en (optioneel) gemiddelde populariteit)

## 🧪 Train/Test splits voor vergelijkende EDA (optioneel)

## 📗 Sweetviz-rapport genereren
Als je een fout krijgt over `numpy.VisibleDeprecationWarning`, gebruik tijdelijk `numpy<2.0` **of** de *monkey patch* hieronder.

## 📌 Samenvatting & vervolgstappen
- We hebben de dataset opgeschoond (datatypes, missende waarden, eenvoudige parsers) en eerste inzichten verkregen in **genres**, **tijdsevolutie**, **prijzen** en **populariteit**.
- Voor verdere analyse kun je:
  - Geavanceerdere feature-engineering doen (bijv. *tags* one-hot encoden, *owners* log-transformeren).
  - Meer robuuste outlier-detectie (IQR/mad) toepassen op prijs en speeltijd.
  - Een eenvoudig model bouwen om populariteit te voorspellen op basis van metadata (genre, developer, release_year, prijs).
