# Quick Test Scripts 

### Testing out the Feed API for bulk download

In [None]:
# Quick test in Python console or notebook:
import requests

# Test if Feed API accepts large query
url = "https://opendata.cbs.nl/ODataFeed/odata/82211NED/TypedDataSet"
params = {
    "$format": "json",
    "$filter": "Perioden ge '2015MM01' and Perioden le '2015MM12'",  # 1 year
    "$top": 20000  # More than Standard API limit!
}

response = requests.get(url, params=params)
print(f"Status: {response.status_code}")
print(f"Rows: {len(response.json()['value'])}")

# If this works (status 200, >10k rows), Feed API is the solution!

Status: 200
Rows: 10000


### Quickly check both datasets

In [5]:
import pandas as pd
import os

# Load datasets
df_doorloop = pd.read_csv(os.path.join("..", "data", "processed", "doorlooptijden_latest.csv"))
df_pijplijn = pd.read_csv(os.path.join("..", "data", "processed", "woningen_pijplijn_latest.csv"))

print("="*70)
print("DATASET 1: DOORLOOPTIJDEN - COLUMNS")
print("="*70)
print(df_doorloop.columns.tolist())
print(f"\nFirst 5 rows:")
print(df_doorloop.head())

print("\n" + "="*70)
print("DATASET 2: WONINGEN PIJPLIJN - COLUMNS")
print("="*70)
print(df_pijplijn.columns.tolist())
print(f"\nFirst 5 rows:")
print(df_pijplijn.head())

DATASET 1: DOORLOOPTIJDEN - COLUMNS
['ID', 'Regiokenmerken', 'Gebruiksfunctie', 'Woningtype', 'Perioden', 'Doorlooptijd_Mediaan', 'Doorlooptijd_Gemiddelde', 'Doorlooptijd_P10', 'Doorlooptijd_P25', 'Doorlooptijd_P75', 'Doorlooptijd_P90', 'Nieuwbouw_Aantal', 'Regio_Naam', 'Gebruiksfunctie_Naam', 'Woningtype_Naam', 'Periode_Naam', 'Jaar', 'Kwartaal', 'Doorlooptijd_IQR', 'Doorlooptijd_P10_P90_Range', 'Hoge_Variabiliteit', 'Doorlooptijd_CV']

First 5 rows:
   ID Regiokenmerken Gebruiksfunctie Woningtype  Perioden  \
0   0        NL01            T001419    T001100  2015KW01   
1   1        NL01            T001419    T001100  2015KW02   
2   2        NL01            T001419    T001100  2015KW03   
3   3        NL01            T001419    T001100  2015KW04   
4   5        NL01            T001419    T001100  2016KW01   

   Doorlooptijd_Mediaan  Doorlooptijd_Gemiddelde  Doorlooptijd_P10  \
0                  18.6                     21.8               7.1   
1                  15.1              

In [6]:
import pandas as pd
import os

# Load both datasets
df_doorloop = pd.read_csv(os.path.join("..", "data", "processed", "doorlooptijden_latest.csv"))
df_pijplijn = pd.read_csv(os.path.join("..", "data", "processed", "woningen_pijplijn_latest.csv"))

print("="*70)
print("DATASET 1: DOORLOOPTIJDEN")
print("="*70)
print(f"Rows: {len(df_doorloop):,}")
print(f"Columns: {len(df_doorloop.columns)}")
print(f"Year range: {df_doorloop['Jaar'].min()}-{df_doorloop['Jaar'].max()}")  # 'Jaar' met hoofdletter
print(f"Unique regio's: {df_doorloop['Regio_Naam'].nunique()}")
print(f"Avg median doorlooptijd: {df_doorloop['Doorlooptijd_Mediaan'].mean():.1f} maanden")  # Doorlooptijd_Mediaan

print("\n" + "="*70)
print("DATASET 2: WONINGEN PIJPLIJN")
print("="*70)
print(f"Rows: {len(df_pijplijn):,}")
print(f"Columns: {len(df_pijplijn.columns)}")
print(f"Year range: {df_pijplijn['Jaar'].min()}-{df_pijplijn['Jaar'].max()}")  # 'Jaar' met hoofdletter
print(f"Unique gemeentes: {df_pijplijn['Regio_Naam'].nunique()}")
print(f"Avg bottleneck (>2yr): {df_pijplijn['Bottleneck_2Jaar_Pct'].mean():.1f}%")  # Bottleneck_2Jaar_Pct
print(f"Avg in vergunningsfase: {df_pijplijn['Vergunning_Fase_Pct'].mean():.1f}%")  # Vergunning_Fase_Pct

print("\n" + "="*70)
print("FASE 1 COMPLEET! ✓")
print("="*70)

DATASET 1: DOORLOOPTIJDEN
Rows: 9,234
Columns: 22
Year range: 2015-2025
Unique regio's: 19
Avg median doorlooptijd: 19.1 maanden

DATASET 2: WONINGEN PIJPLIJN
Rows: 88,825
Columns: 25
Year range: 2015-2025
Unique gemeentes: 415
Avg bottleneck (>2yr): 20.8%
Avg in vergunningsfase: 51.6%

FASE 1 COMPLEET! ✓
