# 📊 Telco Data Cleaning & Exploratie
In dit notebook laden we de ruwe data, doen we joins, en schonen we de data op.

In [None]:
import pandas as pd
import numpy as np

pad = '../data/raw/'

# Inladen datasets
klanten = pd.read_csv(pad + 'klanten.csv')
contracten = pd.read_csv(pad + 'contracten.csv')
support = pd.read_csv(pad + 'support_tickets.csv')
gebruik = pd.read_csv(pad + 'maandgebruik.csv')
producten = pd.read_csv(pad + 'productcatalogus.csv')
opzeggingen = pd.read_csv(pad + 'opzeggingen.csv')

## 👁️ Eerste Blik op de Data

In [None]:
klanten.head()

In [None]:
contracten.head()

In [None]:
support.head()

In [None]:
gebruik.head()

In [None]:
producten.head()

In [None]:
opzeggingen.head()

## 🧼 Data Cleaning

In [None]:
# KLANTEN
klanten['segment'] = klanten['segment'].fillna('Onbekend')
klanten['regio'] = klanten['regio'].str.lower().str.strip().replace({
    'noord': 'Noord',
    'zuid': 'Zuid',
    'oost': 'Oost',
    'west': 'West',
    'noordoost': 'Noordoost'
}).str.capitalize()

# CONTRACTEN
contracten = contracten.dropna(subset=['klant_id', 'abonnementstype'])
contracten['startdatum'] = pd.to_datetime(contracten['startdatum'], errors='coerce')
contracten['einddatum'] = pd.to_datetime(contracten['einddatum'], errors='coerce')

# SUPPORT
support['tevredenheidsscore'] = pd.to_numeric(support['tevredenheidsscore'], errors='coerce')
support['tevredenheidsscore'] = support['tevredenheidsscore'].fillna(support['tevredenheidsscore'].median())
support['aangemaakt_op'] = pd.to_datetime(support['aangemaakt_op'], errors='coerce')
support['opgelost_op'] = pd.to_datetime(support['opgelost_op'], errors='coerce')

# MAANDGEBRUIK
gebruik['gb_verbruikt'] = gebruik['gb_verbruikt'].fillna(0)
gebruik['minuten_gebeld'] = gebruik['minuten_gebeld'].fillna(0)

# OPZEGGINGEN
opzeggingen['opgezegd'] = opzeggingen['opgezegd'].fillna(0).astype(int)
opzeggingen['opzeggingsdatum'] = pd.to_datetime(opzeggingen['opzeggingsdatum'], errors='coerce')

## 🔗 Join Dataframes

In [None]:
klantdata = klanten.merge(contracten, on='klant_id', how='left')
klantdata = klantdata.merge(opzeggingen, on='klant_id', how='left')
klantdata.head()

## ❓ Missende Waardes

In [None]:
klantdata.isnull().sum()