# Take-home-opdracht: analyse verkoopsprestaties van een immokantoor
### Voor 1BA: voorbereiding op de toets van woensdag 5/11/25
### Voor Schakel: voorbereiding op het examen van donderdag 29/1/26

## Concept van deze *Take Home-opdracht* 

De eerste taak had als doelstelling om jullie aan te moedigen om op tijd te beginnen met écht te oefenen. Leren programmeren doe je immers niet door alleen de oefeningen in de les over te typen (zoals spijtig genoeg te veel studenten doen), maar door wel zelf actief na te denken, dingen te proberen, fouten te maken en door daar van te leren.

De eerste taak over week 1-2-3 was dus niet meer dan een opwarming. De punten van die taak zijn dan ook géén voorspelling van hoe goed je op het examen zal presteren. Dat examen zal immers ook over de materie van week 1-2-3 én die van week 4-5-6 gaan en zonder dat je genAI of medestudenten kan gebruiken. Het gemiddelde op het examen ligt dan ook véél lager dan het gemiddelde op de eerste taak, maar laat ons daar niet te lang bij stilstaan en vooruitblikken naar wat je nu kan verwachten.

Omdat we in week 4-5-6 veel met dataframes en modellen gewerkt hebben, zal je op de toets ook met dataframes en modellen moeten werken. Via deze **Take Home-opdracht** leer je de inhoud van de csv-bestand kennen waarmee we werken, zodat je daar op het examen geen tijd meer moet insteken en we kunnen focussen op het evalueren van hoe goed je via Python de informatie in die csv in een dataframes kan steken en dan allerlei bewerkingen op het dataframe kan uitvoeren, en dingen kan visualiseren en verwerken. 

## Concreet 

In deze taak (en op het examen) werken we (fake) gegevens van een immokantoor met informatie over de panden die te koop aangeboden worden, en de naam van de koper + koopprijs indien het pand al verkocht is.
Pand is hierbij de verzamelnaam voor alle soorten vastgoed die een immokantoor kan verkopen: huizen, appartementen, ...

De csv heeft volgende kolommen:
 
- eigenaar
- koper
- beschrijving
- stijl  => een van volgende waarden: rijhuis, halfopen, open, villa, landelijk, appartement, hoeve
- vraagprijs
- verkoopprijs
- oppervlakte
- tuin
- verdiepingen
- slaapkamers
- afwerkingsniveau => een getal van 1 t.e.m. 5 waarbij 5 het hoogste afwerkingsniveau is
- bouwjaar

## Specifieke doelstellingen

Nadat de eerste taak over de inhoud van week 1 t.e.m. 3 ging, focust deze take-home-opdracht op de inhoud van week 4 en 5. Concreet is dit:

- werken met een dataframe
- het maken van grafieken

Op de toets gaan we dan variaties hierop laten maken + nieuwe dingen van week 6 (de probleemoplossende slimme functies), zoals bij de oefening van de klimaatopwarming. De dingen die we in weken 1-2-3 geleerd hebben, moet je natuurlijk ook nog altijd kunnen op de toets.

## Praktisch

- Open je jupyterhub en ga naar de map *take_home_opdracht*.
- Los alle opgaven op in taak2_voorbereiding_toets.ipynb.
- Breng een afgedrukte versie van je eigen project mee naar de test. Afdrukken kan je door ctrl-P te typen in dit jupyterhubvenster (druk eventueel het eerste deel met deze uitleg niet af om papier te besparen.)
- Je moet géén extra witruimte tussen de cellen of de regels code laten. De vragen van de toets moet je op aparte papieren beantwoorden.
- Schrijf op elk afgedrukt blad aan de rechterbovenkant je naam + volgnummer. Dit is vooral belangrijk wanneer je iets extra met de hand opschrijft op die papieren. Tijdens het examen mogen er immers alleen papieren voor je liggen met je eigen naam op, of papieren waarop niks geschreven is.

- Je moet je oplossing dus niet uploaden op Toledo (er is trouwens ook geen plaats voor), maar wel meebrengen naar de toets en daar dan op verder werken.
- Er is dan ook geen deadline, behalve natuurlijk het testmoment zelf. 
- Je krijgt géén punten op de oplossing van deze take-home-opdracht; alléén op de aanpassingen die in de toets gevraagd worden en op de andere vragen van de toets.

# Introductie

In de volgende codecel vind je alle imports die je nodig hebt voor dit project en kan je (na uitvoering van de cel) de inhoud van immokantoor.csv bekijken in een grid.

In [None]:
import math
import numpy as np
import pandas as pd
from qgridnext import show_grid
from matplotlib import pyplot as plt
%matplotlib widget

immo = pd.read_csv("immokantoor.csv",sep=";",encoding="latin-1")
show_grid(immo)

De functies die je moet schrijven hebben (bijna) altijd een dataframe als optionele parameter.
Dit is een beetje anders dan bij de oefeningen uit hoofdstuk 5 waar we een bestandsnaam als parameter hadden, maar wel gelijkaardig aan hoofdstuk 6 waar we wél een dataframe meegaven als parameter.
Het voordeel van een dataframe als parameter is dat je gemakkelijk functieoproepen kan nesten.

In de codecel hieronder laten we hiervan een voorbeeld zien.


In [None]:
# hulpfunctie om niet altijd volledig pd.read_csv te moeten uitschrijven.
def getDF(bestand):
    return pd.read_csv(bestand, sep = ";", encoding="latin-1")

def effect1(df = getDF("immokantoor.csv")):
    df["kolom1"] = 1
    return df

def effect2(df = getDF("immokantoor.csv")):
    df["kolom2"] = 2
    return df

def effect1en2(df = getDF("immokantoor.csv")):
    df1 = effect1(df)  # voegt kolom1 toe in return-waarde df1
    df2 = effect2(df)  # voegt kolom2 toe in return-waarde df2
    df2["kolom3"] = df2["kolom1"] + df2["kolom2"] # derde kolom
    return df2  # dataframe met drie extra kolommen in vergelijking met df

vb_in = pd.DataFrame(columns=["A","B"])
vb_in["A"] = [4,10]
vb_in["B"] = [-5,3]

vb_uit = effect1en2(vb_in)
show_grid(vb_uit)

# Opgave 1

Zoals bijna altijd is verkoopprijs lager dan de vraagprijs. In deze opgave zijn we geïnteresseerd in het verschil tussen de vraagprijs en de verkoopprijs.

Gevraagd is om een functie te schrijven die één kolom toevoegt:
    - *Korting*: dit is het verschil tussen de verkoopprijs en de vraagprijs
     
De functie heeft één optionele parameter met de bestandsnaam van het dataframe bevat waarvan je vertrekt.
De returnwaarde van de functie is het aangepaste dataframe.

Opgelet: niet alle rijen gaan over verkochte panden.
Je moet dus éérst filteren op de aanwezigheid van een verkoopprijs (of koper). Dit kan je doen door alle rijen te selecteren bij wie de verkoopprijs groter is dan 0; of door die functie math.isnan(x) te gebruiken die een True terug geeft wanneer de waarde x géén getal is. Stel dat cel *c* in het dataframe leeg is, dan zal *math.isnan(c)* dus True terug geven.

In [None]:
def vraag1_korting(df = getDF("immokantoor.csv")):
    return df #TODO: juiste dataframe terug geven


In [None]:
# als je wil testen kan je het volgende doen
show_grid(vraag1_korting())

# Opgave 2

De tuin is voor veel mensen een belangrijke factor om een huis te kopen. Daarom willen we een functie die filtert op huizen met een voldoende grote tuin.

Deze functie neemt als parameter een dataframe en geeft een dataframe terug met daarin alleen de panden met een tuin die minstens 4x zo groot is als de oppervlakte van het huis.


In [None]:
def vraag2_grote_tuin(df = getDF("immokantoor.csv")):
    return df #TODO: juiste dataframe terug geven

In [None]:
# eventuele test
def vraag2_test():
    df = getDF("immokantoor.csv")
    return vraag2_grote_tuin(df)
vraag2_test()

# Opgave 3

Een andere belangrijke factor om een huis te kopen, is het soort huis. Daarom moet je in deze opgave een andere filter implementeren, nl. op het soort huis.
Deze functie neemt twee parameters: de stijl van het huis (bijvoorbeeld "hoeve") en optioneel een dataframe.
De functie moet het dataframe terug geven met daarin alleen de panden in de opgegeven stijl.

In [None]:
def vraag3_stijl(stijl, df = getDF("immokantoor.csv")):
    return df #TODO: juiste dataframe terug geven


In [None]:
def vraag3_test():
    return vraag3_stijl("halfopen")
vraag3_test()

# Opgave 4

Deze functie neemt twee parameters: een stijl en optioneel een dataframe.
De returnwaarde van de functie moet voor een bepaalde stijl de verhouding geven tussen 
- de gemiddelde vraagprijs van de huizen in die stijl met een voldoende grote tuin (cfr. opgave 2), en
- de gemiddelde vraagprijs van alle huizen in die stijl

Voorbeeld: als de gemiddelde vraagprijs van alles villa's € 500.000 is, en die van de villa's met een grote tuin € 600.000, dan is de verhouding 600.000/500.000, is gelijk aan het getal 1,2.

Tip: gebruik de vorige opgaven om deze functie optimaal op te lossen.

In [None]:
def vraag4_verhouding_tuinen(stijl, df = getDF("immokantoor.csv")):
    return 1 # TODO: correcte berekening

In [None]:
def vraag4_test():
    df4 = getDF("immokantoor.csv")
    print(vraag4_verhouding_tuinen("hoeve", df4))

# Opgave 5

Stel: een rijke oligarch wil alle sjieke panden opkopen, of een projectontwikkelaar wil alle versleten panden opkopen om op die plaats nieuwe panden te zetten. De vraag is dan hoeveel oppervlakte grond zij dan kopen.

We willen dus een functie die de totale oppervlakte (huis + tuin) van een opgegeven afwerkingsniveau berekent.
 

In [None]:
def vraag5_totaleOppervlakte(afwerkingsgraad, df = getDF("immokantoor.csv")):
    return 1 # TODO: correcte berekening

In [None]:
def vraag5_test():
    print(vraag5_totaleOppervlakte(5))
    


# Opgave 6

Een immokantoor pakt graag uit met verhalen die moeten bewijzen dat zij beter zijn de concurrentie.

Daarom willen we (in opgave 7) een lijst van alle panden die ze verkocht zijn, maar die eigenlijk relatief moeilijk te verkopen zijn. Maar voordat we aan opgave 7 beginnen, willen we eerst dat je in deze opgave  voor elk huis een moeilijkheidsgraad berekent.

We definiëren de moeilijkheidsgraad als volgt:

1. Bereken eerst de *intrinsieke kwaliteit* van een pand. Dit is het product van afwerkingsniveau
en oppervlakte. Als het afwerkingsniveau bijvoorbeeld 3 is en de oppervlakte is 200 m², dan is de intrinsieke kwaliteit 600.
2. Deel de vraagprijs door deze *intrinsieke kwaliteit*.
3. Als het een rijhuis is, vermenigvuldig dan met 0.8.
4. Als het een villa is, en de tuin is minder dan 10.000 m², vermenigvuldig met 0.6.
5. Deel door 100 en rond af (met de functie *round()*). 

Het getal dat je nu bekomt, is de moeilijkheidsgraad.
 
Schrijf een functie die als parameter een dataframe neemt en dat dataframe terug geeft met voor elke rij een extra kolom 'moeilijkheidsgraad'.

In [None]:
def vraag6_moeilijkheidsgraad(df = getDF("immokantoor.csv")):
    return df # TODO: correct dataframe

In [None]:
def vraag6_test():
    df6 = getDF("immokantoor.csv")
    return vraag6_moeilijkheidsgraad(df6)

show_grid((vraag6_test()))

# Opgave 7

Schrijf een functie die gegeven een minimum moeilijkheidsgraad, en optioneel een dataframe, alle verkochte huizen teruggeeft met een moeilijkheidsgraad groter dan de opgegeven parameter.


In [None]:
def vraag7_moeilijk_verkocht(minimum_moeilijkheidsgraad, df = getDF("immokantoor.csv")):
    return df # TODO: correct dataframe

In [None]:
def vraag7_test():
    df7 = getDF("immokantoor.csv")
    return vraag7_moeilijk_verkocht(20)
    
show_grid(vraag7_test())

# Opgave 8

Grafieken zijn natuurlijk ook heel belangrijk. Omdat de panden in het csv-bestand in een vervelende volgorde staan, smokkelen we wat nog-niet-behandelde extra functionaliteit van pandas in deze opgave, nl. het sorteren van de rijen van een dataframe. 

Om een dataframe te sorteren moet je de methode **sort_values** gebruiken. Deze neemt als eerste parameter de naam van de kolom waarop je wil sorteren, of een lijst van namen. In dat laatste geval wordt de tweede kolom gebruikt als tweede sorteercriterium als er twee rijen zijn met dezelfde waarde voor het eerste sorteercriterium. De methode geeft een nieuw dataframe terug.

Hieronder twee voorbeelden

df1  = mensen.sort_values(["naam", "voornaam"]) # sorteert dataframe mensen volgens naam en voornaam
df2 = studenten.sort_values("percentage") # sorteert dataframe studenten volgens stijgend percentage

De methode heeft ook nog een aantal optionele parameters, maar die heb je niet nodig.

Maak nu een functie met drie  parameters:
- sorteerX: de naam van de kolom waarop je wil sorteren, en die op de x-as moet komen
- kolomY: de naam van de kolom waarvan de waarden op de y-as moeten komen
- dataframe: optionele parameter voor het dataframe waaruit de waarden moeten komen



In [None]:
def vraag8_grafiek(sorteerX, kolomY, df = getDF("immokantoor.csv")):
    #TODO: code voor de juiste grafiek
    plt.show() 

In [None]:
def vraag8_test():
    vraag8_grafiek("oppervlakte","prijs")
    
vraag8_test()