<a href="https://colab.research.google.com/github/mcldwitt/workshops/blob/main/computationeel_denken_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="darkorange"> Computationeel denken
# <font color="darkorange"> Verkopen voorbeeld

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
sns.set_style("darkgrid")
from sklearn.linear_model import LinearRegression
import warnings
warnings.filterwarnings("ignore")
sns.set_style("darkgrid") # geeft de grafiek een achtergrond
!wget "https://raw.githubusercontent.com/mcldwitt/workshops/refs/heads/main/computationeel%20denken/diamonds.csv"
!wget "https://raw.githubusercontent.com/mcldwitt/workshops/refs/heads/main/computationeel%20denken/verkopen.csv"

## <font color="deeppink"> Inlezen van een dataset en deze verkennen </span>
Het inlezen van een csv-file gaan we doen met een built
-in functie van de pandas library.<br/> Deze functie is: <br/>
`dataset = pd.read_csv(path/to/file)` <br/>
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
dataset = pd.read_csv('/content/verkopen.csv')

Om te zien of het inlezen van de data correct gelukt is kun je gebruik maken van de functie:<br/>`dataset.head()`  
Deze functie zal de eerste 5 lijntjes afdrukken, of meer indien je het aantal meegeeft als parameter:<br/> https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html

In [None]:
dataset.head()

## <font color="deeppink"> Verkenning van de statistische parameters
Om een samenvatting te krijgen van de belangrijkste statistische parameters van de kolommen die bestaan uit kwantitatieve gegevens, kun je gebruik maken van de functie: <br/> `dataset.describe()`  
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

In [None]:
dataset.describe()

## <font color="deeppink"> Berekenen van de correlatiecoefficienten
Om de correlatie tussen de numerieke kolommen in een dataset te berekenen, kun je gebruik maken van de functie:
<br/> `dataset.corr()` <br/>
Deze functie geeft een correlatiematrix terug die we opslaan onder de naam correlatiecoefficienten.  
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html

In [None]:
# Correlatiecoefficient via Pandas
correlatiecoefficienten = dataset.corr()
correlatiecoefficienten # zorgt ervoor dat de berekende correlatiecoefficienten worden getoond

## <font color="deeppink"> Visualiseren van de correlatiecoefficienten
Om de correlatiematrix van de dataset beter te interpreteren, kun je een heatmap maken. Dit helpt om snel visuele inzichten te krijgen in de sterkte en richting van de relaties tussen de variabelen. Hiervoor kun je gebruik maken van de functie:
<br/> `sns.heatmap(corr)`  
https://seaborn.pydata.org/generated/seaborn.heatmap.html



In [None]:
# Visualiseer de onderlinge correlatiecoëfficiënten
plt.figure(figsize=(15,15)) #stelt de grootte van de figuur in
sns.heatmap(data= correlatiecoefficienten,square=True, annot=True) # creert de effectieve figuur

Welke kolom heeft de hoogte correlatie (positief of negatief) met het aantal verkopen?  


## <font color="deeppink"> Visualiseren van de bivariate variabelen    
De functie `sns.pairplot(dataset)` gaat een scatterplot maken per bivariate variabelen, op de diagonaal worden de histogrammen weergeven. Deze functie kan een schat aan informatie in een zeer snelle tijd geven en toont mooi aan wat het voordeel is van parallellisatie, maar het nadeel is zodra je gaat werken met zeer grote datasets zal deze functie zeer veel tijd nodig hebben om de plot te genereren!

In [None]:
# pairplot
sns.pairplot(dataset,hue='Ancieniteit')

We zullen toch nog de individuele scatterplot van de gekozen kolom gaan weergeven. We zullen gebruik maken van de functie `sns.scatterplot` <br/>
https://seaborn.pydata.org/generated/seaborn.scatterplot.html <br/>
Onder de variabele `x` zullen we de gekozen kolom invullen <br/>
Onder de variabele `y` zullen we de kolom aantal verkopen invullen

In [None]:
## Scatterplot tussen de gekozen onafhankelijke variabele en het aantal verkopen
x = "Aantal maanden in dienst" # "Vul hier de gekozen kolom in (inclusief hoofdletters)"
y = "Aantal verkopen"
sns.scatterplot(x=x, y=y, data=dataset,color='orange',s=100)
plt.title("scatterplot van de gekozen kolom en het aantal verkopen") # titel van de grafiek

Indien we willen weergeven of een categorische variabele, in dit geval de ancieniteit, een invloed heeft, welke parameter zouden we dan moeten gebruiken in de functie `sns.scatterplot(x, y, dataset)` <br/>
Hint: bekijk de voorbeelden in de documentatie...

In [None]:
# Scatterplot tussen gekozen onafhankelijke variabele en het aantal verkopen en Ancieniteit
# Scatterplot
sns.scatterplot(x="Aantal maanden in dienst", y=y, data=dataset,color='orange',s=100)
sns.set_style("darkgrid")
plt.title("scatterplot van de gekozen kolom en het aantal verkopen")



## <font color="deeppink"> Berekenen en weergeven van de regressielijn  
Het volgende stukje code is een zelfgeschreven functie in python die ervoor zorgt dat je niet telkens dezelfde code opnieuw moet schrijven en zeer eenvoudig kunt hergebruiken! <br/>
Deze cel hoef je enkel te runnen ;)

In [None]:
# zelfgeschreven functie die herbruikbaar is om plotjes te gaan genereren.

# Regressielijn
def find_regressionline(dataset: pd.DataFrame, x: str, y: str) -> LinearRegression:
    onafhankelijke_variabele = dataset[x].values
    afhankelijke_variabele = dataset[y].values

    regressionline = LinearRegression()
    regressionline.fit(onafhankelijke_variabele.reshape(-1,1), afhankelijke_variabele)

    return regressionline

def plot_regressionline(dataset: pd.DataFrame, x: str, y:str, regressielijn: LinearRegression, title:str) -> None:
    plt.figure()
    sns.scatterplot(x=dataset[x], y=dataset[y], data=dataset,color='orange',s=100)
    sns.lineplot(x=dataset[x],y=regressielijn.predict(dataset[x].values.reshape(-1,1)),color='violet',linewidth=3)
    sns.set_style("darkgrid")
    plt.title(title)
    plt.show()

In deze cel gaan we de zelfgeschreven functies gaan effectief gebruiken, we geven de dataset mee, de x-variabele en de y-variabele. In de 2de functie geven we de dataset, de x-variabele, de y-variabele, de uitgerekende regressielijn en een gepaste titel mee. Je mag 'Titel' vervangen door een gepaste titel.

In [None]:
regressielijn = find_regressionline(dataset, x, y)
plot_regressionline(dataset, x, y, regressielijn, 'Titel')

Het volgende stukje code berekent de R² score van de regressielijn

In [None]:
score = regressielijn.score(dataset[x].values.reshape(-1,1), dataset[y])
print('De R²-score bedraagt {:.2f}'.format(score) )

## <font color="deeppink"> Visualisatie invloed anciniteit op de verkopen
Soms kan een categorische variabele een invloed hebben op de onafhankelijke variabele...  
We zullen eerst kijken welke waarden aanwezig zijn in de kolom `Ancieniteit` met behulp van de functie `dataset['kolomnaam'].unique()`  
https://pandas.pydata.org/docs/reference/api/pandas.unique.html


In [None]:
dataset['Ancieniteit'].unique()

Vervolgens zullen we dit visualiseren aan de hand van de functie `sns.countplot()`  
https://seaborn.pydata.org/generated/seaborn.countplot.html



In [None]:
sns.countplot(data=dataset, x='Ancieniteit')
plt.title('Verdeling juniors vs seniors')

Met een boxplot die we opsplitsen volgens de categorische variabelen kun je kijken of een bepaalde categorische waarde invloed zou kunnen hebben op de onafhankelijke veranderlijke...  
https://seaborn.pydata.org/generated/seaborn.boxplot.html

In [None]:
sns.boxplot(data=dataset, x='Ancieniteit', y='Aantal verkopen')

## <font color="deeppink"> Voorspelling van het aantal verkopen opgesplitst volgens ancieniteit

In [None]:
juniors = dataset[dataset.Ancieniteit=='Junior']

regressielijn_juniors = find_regressionline(juniors, x, y)
juniors_score = regressielijn_juniors.score(juniors[x].values.reshape(-1,1),juniors[y])
print(juniors_score)


In [None]:
plot_regressionline(juniors, x, y, regressielijn_juniors, 'Titel')

In [None]:
seniors = dataset[dataset.Ancieniteit=='Senior']

regresielijn_seniors = find_regressionline(seniors, x, y)
score = regresielijn_seniors.score(seniors[x].values.reshape(-1,1), seniors[y].values)
print("R-squared value seniors: ", round(score, 2))


In [None]:
plot_regressionline(seniors, x, y, regresielijn_seniors, 'Titel')

# <font color="darkorange"> Diamonds dataset  </font>
De diamonds dataset is een zeer grote dataset die een zeer groot aantal diamanten bevat, met veel variabelen en als doel om te kunnen de prijs waaraan een diamand verkocht werd te kunnen voorspellen.  

| Variable Name |Description | Type variabele?
| --- | --- | --- |
|Price 	| price in US dollars | |
|Carat | weight of the diamond | |
|Cut | quality of the cut (Fair, Good, Very Good, Premium, Ideal)| |
|Color | diamond colour, from J (worst) to D (best)| |
|Clarity | A measurement of how clear the diamond is (I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best))| |
|x | length in mm| |
|y 	|width in mm| |
|z  |depth in mm| |
|depth |total depth percentage = z / mean(x, y) = 2 * z / (x + y) | |
|table  | width of top of diamond relative to widest point | |

Welk datatype hebben de verschillende kolommen?

In [None]:
dataset = pd.read_csv('/content/diamonds.csv')
dataset.head()

Er zit 1 nutteloze kolom in de dataset, je kunt deze verwijderen met de functie:  
`dataset.drop()`  
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

Hierna kun je de logica en volgorde van het voorgaand voorbeeld volgen. <br/> Welke kolom zou je kiezen om de prijs mee te voorspellen? <br/> Zou er een van de categorische features een invloed kunnen hebben? <br/> Welke stappen zul je moeten doorlopen om dit te bewerkstelligen?