# Aanbod huurwoningen in Nederland

In [17]:
import pandas as pd

pararius = pd.read_csv("../data/pararius_listings2.csv")
pararius.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1675 entries, 0 to 1674
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Link                1675 non-null   object 
 1   Huurprijs           1516 non-null   object 
 2   Locatie             1516 non-null   object 
 3   m2                  1674 non-null   object 
 4   Kamers              1674 non-null   object 
 5   Interieur           1423 non-null   object 
 6   Huurovereenkomst    750 non-null    object 
 7   Type woning         0 non-null      float64
 8   Bouwjaar            1418 non-null   object 
 9   Badkamers           1151 non-null   float64
 10  Faciliteiten        927 non-null    object 
 11  Balkon              1353 non-null   object 
 12  Tuin                1261 non-null   object 
 13  Omschrijving tuin   191 non-null    object 
 14  Energie label       1217 non-null   object 
 15  Opslag              903 non-null    object 
 16  Parker

### Opschonen

Om de dataset te kunnen analyseren moeten eerst een aantal kolommen een ander datatype krijgen, worden opgeschoond en waar nodig worden bijgevuld:

1. Er zijn twee links die geen waarden hebben voor `Huurprijs`, `Locatie` en `Beschrijving`. Deze links werken niet meer dus we verwijderen deze rijen.
2. De `Huurprijs` kolom moet worden omgezet naar een `float` datatype.
    - Sommige van deze waarden worden als volgt weergeven: '€ 1.075 - 1.775 per month'. In dat geval berekenen we het gemiddelde van de prijs.
    - Voor sommige huurwoningen moet je de prijs opvragen, de waarde is dan 'Price on request'. Voor dat geval voegen we een nieuwe kolom toe `Verzoek` met als waarde `True` of `False`.
3. De `m2` moet ook worden omgezet naar `float`.
    - Hier geldt dezelfde uitzondering als bij de huurprijs. We berekenen ook het gemiddelde aantal vierkante meter in dit geval.
4. De `Kamers` kolom moet alleen een cijfer bevatten en worden omgezet naar `int` datatype.
5. De `Bouwjaar` kolom moet worden omgezet naar `int` datatype.
6. De `Locatie` kolom bevat een postcode en de naam van de buurt. Dit gaan we opsplitsen in twee kolommen.
7. De URL in de `Link` kolom bevat de stad waarin de woning staat. Hiervoor maken we een nieuwe kolom `Stad`.

In [18]:
def schoon_huurprijs(prijs):
    """Functie om de 'Huurprijs' kolom op te schonen."""
    if isinstance(prijs, float) or prijs is None:
        return prijs
    
    if "Price on request" in str(prijs):
        return None # Lege waarde voor de huurprijs
    
    prijs = prijs.replace("€", "").replace("per month", "").replace(",", "").strip()

    # Check of de huurprijs twee prijzen kan zijn
    if "-" in prijs:
        laag, hoog = prijs.split("-")
        laag = float(laag.strip())
        hoog = float(hoog.strip())
        return (laag + hoog) / 2 # Bereken het gemiddelde van de twee prijzen
    else:
        return float(prijs)


def schoon_m2(waarde):
    """Functie om de 'm2' kolom op te schonen."""
    if pd.isnull(waarde):
        return None
    
    waarde = waarde.replace("m²", "").replace("㎡", "").strip()

    # Bereken het gemiddelde als er twee waarden voor 'm2' zijn
    if "-" in waarde:
        laag, hoog = waarde.split("-")
        laag = laag.strip()
        hoog = hoog.strip()
        return (float(laag) + float(hoog)) / 2
    else:
        return float(waarde)


def schoon_kamers(waarde):
    """Functie om de 'Kamers' kolom op te schonen."""
    return int(waarde.replace("rooms", "").replace("room", "").strip())


def krijg_buurt(locatie):
    """Functie die de 'Locatie' kolom opsplits in de postcode en buurt."""
    if pd.isnull(locatie):
        return None
    
    if "(" in locatie and ")" in locatie:
        buurt = locatie.split("(")[-1].split(")")[0].strip()
        return buurt
    else:
        return None


def krijg_stad(link):
    """Functie die de stad uit de URL in de 'Link' kolom haalt."""
    if pd.isnull(link):
        return None
    
    # Splits de URL op en haal de naam van de stad op
    try:
        return link.split("/")[4] #
    except IndexError:
        return None

In [19]:
# Vind de lege rijen en verwijder ze
lege_rijen = pararius[pararius[['Huurprijs', 'Locatie', 'Beschrijving']].isnull().all(axis=1)]
pararius = pararius.drop(lege_rijen.index)

# Huurprijs opschonen
pararius["Verzoek"] = pararius["Huurprijs"].apply(lambda x: True if "Price on request" in str(x) else False)
pararius["Huurprijs"] = pararius["Huurprijs"].apply(schoon_huurprijs)

# Vierkante meter opschonen
pararius["m2"] = pararius["m2"].apply(schoon_m2)

# Kamers opschonen
pararius["Kamers"] = pararius["Kamers"].apply(schoon_kamers)

# Bouwjaar omzetten naar integer
pararius["Bouwjaar"] = pd.to_numeric(pararius["Bouwjaar"], errors='coerce')

# Locatie opschonen
pararius['Buurt'] = pararius['Locatie'].apply(krijg_buurt)
pararius['Locatie'] = pararius['Locatie'].apply(lambda x: x.split('(')[0].strip() if pd.notnull(x) else x)

# Voeg de 'Stad' kolom toe
pararius["Stad"] = pararius["Link"].apply(krijg_stad)

pararius.head()

Unnamed: 0,Link,Huurprijs,Locatie,m2,Kamers,Interieur,Huurovereenkomst,Type woning,Bouwjaar,Badkamers,...,Omschrijving tuin,Energie label,Opslag,Parkeren,Type parkeerplaats,Garage,Beschrijving,Verzoek,Buurt,Stad
0,https://www.pararius.com/apartment-for-rent/am...,1900.0,1012 ES,65.0,2,Furnished,Unlimited period,,1950.0,1.0,...,,,Not present,No,,No,"Description\r\nGreat Location , 1 bedroom apt ...",False,Burgwallen-Oude Zijde,amsterdam
1,https://www.pararius.com/apartment-for-rent/zo...,2100.0,2718 SJ,106.0,3,Upholstered,Unlimited period,,1996.0,1.0,...,,A+,Not present,Yes,Public,No,Description\r\nUnfurnished 4-room apartment lo...,False,Lansinghage c.a.,zoetermeer
2,https://www.pararius.com/apartment-for-rent/de...,800.0,2563 BH,35.0,2,Upholstered,Unlimited period,,1900.0,1.0,...,,,Not present,Yes,Permit,No,Description\r\nSuper nice apartment on Laan va...,False,Valkenboskwartier,den-haag
3,https://www.pararius.com/apartment-for-rent/ti...,1725.0,5038 BW,84.0,2,Furnished,Temporary rental,,2007.0,1.0,...,,A,Not present,Yes,Garage,Yes,Description\r\nCan be rented for a maximum of ...,False,Binnenstad Oost,tilburg
6,https://www.pararius.com/house-for-rent/noordw...,1950.0,2201 WH,113.0,5,Furnished,Unlimited period,,1986.0,1.0,...,,B,Not present,Yes,Public,No,Description\r\nFor Rent: Temporary Home in Noo...,False,Vinkeveld Zuid,noordwijk-zh


## 1. Middenhuurwoningen

Op 25 juni 2024 heeft de Eerste Kamer ingestemd met de [Wet betaalbare huur](https://www.vbk.nl/legalupdate/wet-betaalbare-huur-middenhuur-aangenomen). Dit betekent o.a. dat de huurprijzen van woningen t/m 186 punten (middenhuurwoningen) begrensd worden. Het middenhuursegment gaat dus bestaan uit woningen met een huurprijs van meer dan € 879,66 per maand en maximaal € 1.165,81.

We gaan dus woningen filteren tussen deze prijsgrenzen. Hoeveel woningen uit de gehele dataset behoren tot dit middenhuursegment?


In [20]:
# Filter het middenhuursegment
middenhuur = pararius[(pararius['Huurprijs'] > 879.66) & (pararius['Huurprijs'] < 1165.81)]

rijen = len(pararius)
middenhuur_rijen = len(middenhuur)

percentage_middenhuur = (middenhuur_rijen / rijen) * 100

print(f"Percentage huurwoningen die tot het middenhuursegment horen: {percentage_middenhuur:.2f}%")

Percentage huurwoningen die tot het middenhuursegment horen: 9.43%


Wat is de gemiddelde prijs en aantal vierkante meter voor een middenhuurwoning?

In [21]:
# Bereken de gemiddelden
gem_huurprijs = middenhuur["Huurprijs"].mean()
gem_m2 = middenhuur["m2"].mean()

print(f"Gemiddelde huurprijs voor een middenhuurwoning: €{gem_huurprijs:.2f}")
print(f"Gemiddeld aantal vierkante meter voor een middenhuurwoning: {gem_m2:.2f} m²")

Gemiddelde huurprijs voor een middenhuurwoning: €1016.73
Gemiddeld aantal vierkante meter voor een middenhuurwoning: 60.53 m²


In welke steden staan de meeste middenhuurwoningen?

In [22]:
top_5_steden = middenhuur["Stad"].value_counts().head(5)

print(top_5_steden)

Stad
groningen     18
rotterdam     10
maastricht     7
nijmegen       5
utrecht        5
Name: count, dtype: int64


## 2. Puntenstelsel 

Het [woningwaarderingsstelsel](https://www.huurcommissie.nl/huurcommissie-helpt/beleidsboeken_html/waarderingsstelsel-zelfstandige-woonruimte/de-rubrieken-van-het-woningwaarderingsstelsel-zelfstandige-woning#anker-11-rubriek-11-punten-voor-de-woz-waarde) van de Huurcommissie kent punten toe op basis van bepaalde eigenschappen van de woning (oppervlakte, verwarming, energieprestatie, etc.). 

In [None]:
import os
import openai
from dotenv import load_dotenv, find_dotenv

# API key ophalen
load_dotenv(find_dotenv())

openai_api_key = os.getenv('OPENAI_API_KEY')
openai.api_key = openai_api_key


def punten_toekennen(df, vraag, model="gpt-4o"):
    punten = []

    for _, row in df.iterrows():
        # Construeer de vraag over de rij 
        prompt = vraag.format(**row.to_dict())

        response = openai.ChatCompletion.create(
            model=model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=1024,
            temperature=0.7
        )

        punten.append((prompt, response.choices[0].message["content"].strip(), model))
    
    return punten