# Datavisualisatie en analyse in python #
Welkom bij deze tutorial reeks over python voor studenten Chemie. 

In deze reeks tutorials maak je kennis met **python** als tool voor **data-analyse en-visualisatie**. Je leert de *basisconcepten kennen* van deze programmeertaal en doet eerste *praktische ervaring* op. Bij het opstellen van deze tutorials zijn we er van uit gegaan dat je geen praktische voorkennis in python of programmeren in het algemeen hebt. Indien dit toch het geval zou zijn, zullen de eerste notebooks uitermate eenvoudig zijn. Gezien het beperkte tijdsbestek zijn er ook keuzes gemaakt met betrekking tot de onderwerpen welke aan bod komen en hun uitdieping. Wens je meer over een bepaald onderwerp te leren dan zijn er voldoende online bronnen beschikbaar om via zelfstudie de nodige uitdieping te bekomen. 

Met het oog op het zo laagdrempelig mogelijk houden van deze tutorials, maken we gebruik van __*Jupyter notebooks*__ zoals deze. Het is de bedoeling dat je deze notebooks uitvoert en aanpast waar gevraagd. Dit laatste doe je op je eigen *google drive* waar je de tutorials gebruikt in de vorm van *google colaboratory* documenten. Indien je dit nog niet gedaan hebt, lees dan eerst [00_PythonInstallatie.md](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/00_PythonInstallatie.md), waarbij je **puntje 1.1.** uitvoert.

Dit is de derde tutorial in een reeks, en bouwt verder op de reeds opgedane kennis tijdens de [eerste turorial](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/01_IntroPython.ipynb) en [tweede turorial](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/02_PythonProgramParts.ipynb). We raden dan ook aan deze eerdere tutorials te doorlopen voor je aan deze begint.

In dit derde notebook verschuift de focus naar datavisualisatie en analyse, en minder over de werking van python zelf. Je leert data importeren, visualiseren en analyseren.

## Inhoudstafel ##
1. [Data importeren](#1.-Data-importeren)<br/>
   1.1. [Bestanden op Google Drive](#1.1.-Bestanden-op-Google-Drive)<br/>
   1.2. [Bestanden op het web](#1.2.-Bestanden-op-het-Web)<br/>
2. [Datavisualisatie & -analyse](#2.-Datavisualisatie-en-analyse)<br/>
   2.1. [Pandas dataframes](#2.1.-Pandas-dataframes)<br/>
   2.2. [Seaborn plots](#2.2.-Seaborn-Plots)<br/>
   <!--2.3. [Scipy fitting](#2.3.-Scipy-fitting)<br/>-->

<a name="1.-Data-importeren"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
# 1. Data importeren #

Voor deze tutorial wordt gebruik gemaakt van de [wijn-dataset](https://archive.ics.uci.edu/ml/datasets/wine+quality). Deze dataset werd opgesteld met het oog op machine-learning, maar is ook handig met het oog op eenvoudige datavisualisatie en-analyse. De dataset bevat zowel informatie over chemische samenstelling als fysicochemische eigenschappen, wat vergelijkbaar is met het soorten informatie welke beschikbaar zijn bij synthese processen. De dataset is beschikbaar in twee csv-bestanden: één voor [rode](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv) en één voor [witte](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv) wijn. Voor praktische doeleinden is er ook een kopie (gedownload op 02/02/2023) van deze bestanden beschikbaar in de data-map van dit GitHub-repo.

<a name="1.1.-Bestanden-op-Google-Drive"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 1.1. Bestanden op Google Drive ##
<img align="right" width="250" src="https://github.com/DannyVanpoucke/PythonTutorials/blob/main/images/UploadColab1.png?raw=true" />

Omdat de nodige bestanden nog niet op je google drive staan beginnen we hiermee zullen we dit eerst doen.
1. Download de dataset voor rode wijn van de [GitHub-repo](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/data/wine/winequality-red.csv) of [ML-website](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv). Indien je de file van GitHub wenst te downloaden, klik je rechts of de **Raw knop**, en kies je **Save link as...**. Pas de extensie aan naar csv.
2. In Colaboratory klik je op het (***2a***) **map-icoontje** (linker balk), en dan op het (***2b***) **eerste icoontje** (een blad met een pijltje omhoog) en kies het bestand dat je in puntje 1 had gedownload. Het bestand is nu geüpload naar een tijdelijke locatie en zal gewist worden wanneer de python kernel ontkoppeld (disconnect) of het colaboratory notebook afsluit. 
3. Voer de onderstaande cel uit om je google drive te mounten (= zichtbaar te maken) in colaboratory. Selecteer de juiste account en geef de nodige toestemming.

In [None]:
from google.colab import drive # Dit werkt enkel indien je in de google Colaboratory omgeving werkt, 
                               # niet in een lokaal Jupyter Notebook..
drive.mount('/content/gdrive')

<img align="right" width="350" src="https://github.com/DannyVanpoucke/PythonTutorials/blob/main/images/UploadColab2.png?raw=true" />

4. Je ziet nu een **gdrive** map verschijnen in het mappen paneel (links). Versleep het geüploade document uit stap 3 naar een map/locatie in je gdrive. Bekijk je gdrive online, en verifieer dat je het bestand ziet staan.
5. **Klik rechts** op het bestand (de verplaatste versie) en daarna klik je op **Copy path**. Plak dit pad in de variabele ``filepath`` in de cel hieronder.
6. In deze tutorial wordt de ***pandas*** bibliotheek gebruik om de data te bekijken en te bewerken. Deze bibliotheek bevat een functie welke het direct inlezen van csv-bestanden toelaat. Er dient wel even opgelet te worden, hoewel *CSV* staat voor *__C__omma __S__eparated __V__alues* dienen de waarden in een csv-bestand niet door komma's gescheiden te zijn. Dit kan ook met tabs of puntkomma's zijn. In de wijn-databestanden werd een puntkomma als separator gebruikt, wat dus dient in rekening gebracht te worden. Dit gebeurt met het ``delimiter`` keyword.

(**Let Op**: de onderstaande cel zal een ``FileNotFoundError`` geven indien er niet in google Colaboratory wordt gewerkt. Dit is normaal.)

In [None]:
import pandas as pd
           # Vervang dit pad door je eigen pad.
filepath = "/content/gdrive/MyDrive/Colab Notebooks/winequality-red.csv"
df = pd.read_csv(filepath, delimiter=";")
df.head() # Deze functie toont de eerste 5 rijen van het databestand

**_Doe-opdracht:_**<br/>
Voer de bovenstaande stappen uit om de rode wijn dataset in te lezen vanop je eigen google drive.

<a name="1.2.-Bestanden-op-het-Web"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 1.2. Bestanden op het Web ##
Het is natuurlijk ook mogelijk bestanden rechtstreeks van een weblocatie in te laden. De aanpak met pandas is exact hetzelfde als voorheen. Enkel de filepath variabele dient aangepast te worden zodat deze het webadres bevat. In het geval van de rode-wijn dataset is dit ``https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv``.

In [None]:
import pandas as pd

filepath = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"#rode wijn

df = pd.read_csv(filepath, delimiter=";")
df.head() # Deze functie toont de eerste 5 rijen van het databestand

<a name="2.-Datavisualisatie-en-analyse"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
# 2. Datavisualisatie en-analyse #

Eénmaal de dataset is ingelezen begint het echte werk van het analyseren en visualiseren. Ook hier zijn verschillende bibliotheken beschikbaar elk gericht op specifieke toepassingen en met eigen functies en mogelijkheden. In deze tutorial zullen we enkele bibliotheken introduceren (een volledige bespreking is onmogelijk gezien de uitgebreidheid van deze bibliotheken): [pandas](https://pypi.org/project/pandas/) en [seaborn](https://seaborn.pydata.org/). 

<a name="2.1.-Pandas-dataframes"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 2.1. Pandas dataframes #
De [pandas](https://pypi.org/project/pandas/) bibliotheek is gericht op het werken met tabulaire data (zoals te vinden in excel en csv bestanden), en biedt verschillende functies om deze te bekijken, te manipuleren en te analyseren. In een voorgaande tutorial werd numpy gebruikt om een csv bestand in te lezen en de data als een matrix te bestuderen. Pandas laat hetzelfde toe, maar geeft een uitgebreidere functionaliteit (met het oog op datascience). De centrale klasse waar het bij pandas voor ons om draait zijn zogenaamde [dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html). Voor we verder gaan geven we nog even twee belangrijke standaard conventies: **pandas** wordt afgekort als **pd** en **dataframe** als **df**.

Hierboven werd een csv bestand ingeladen met de [``read_csv()``](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) functie, daarnaast bestaat er ook een [``read_excel()``](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) functie. De pandas bibliotheek bevat ook functies om basis eigenschappen van de dataset te bekijken en te bestuderen evenals functies welke een snelle initiële statistische beschrijving van de data toelaten.

### <u>Standaard functies</u> ###
- [**``df.head(n)``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html): deze functie geeft de **_n_ eerste rijen** van de dataset evenals de kolomhoofding. Een voorbeeld zie je in de voorgaande cel.
- [**``df.tail(n)``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html): deze functie geeft de **_n_ laatste rijen** van de dataset evenals de kolomhoofding.
- [**``df.info()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html): de info functie print uitgebreide praktische informatie over het dataframe, zoals het aantal rijen, het aantal kolommen, het aantal elementen in elke kolom en het type.

In [None]:
df.info()

Uit bovenstaande informatie leren we dat deze dataset 1599 rijen bevat en dat alle kolommen reële getallen bevatten op de laatste kolom na (*quality*). Waar bij een numpy-matrix de kolommen een geheel getal als kolomindex hebben, kan bij een pandas dataframe een kolom geselecteerd worden met de kolomnaam: *e.g.* ``df['citric acid']`` geeft de kolom met de *citric acid* waarden.

In [None]:
df['citric acid']

Omdat het aantal rijen zeer groot is, worden enkel de eerste en laatste paar rijen getoond, met drie puntjes tussenin.

&nbsp;

**_Doe-opdracht:_**<br/>
1. Toon een tabel met de kolommen *density*, *pH*, en *alcohol*.
2. Bestudeer de foutboodschap welke je waarschijnlijk kreeg. Wat was het centrale probleem?
3. Er wordt blijkbaar gezocht naar een kolom met een naam welke de drie kolomnamen bevat. Hoe zouden we kunnen duidelijk maken dat we een lijst of set van kolomnamen doorgeven?
4. Voer deze aanpassing door.
5. Kun je de volgorde van de kolommen aanpassen zodat *pH* de eerste kolom vormt?
6. Geeft het gebruik van een set of een lijst een verschillend resultaat in punt 5? Wat is/zijn deze verschillen.

### <u>Simpele statistische functionaliteit</u> ###
Met meer dan 1000 datapunten is het niet langer praktisch mogelijk (en zelden zinvol) om de waarden van elk individueel sample te bekijken. Het wordt dan belangrijker om de eigenschappen van de volledige set (of distributie) te kennen. Interessante waarden zijn dan vaak:
- [**``df.max()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.max.html) en [**``df.min()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.min.html): het maximum en minimum
- [**``df.mean()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html), [**``df.median()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.median.html): het gemiddelde en het middelste element
- [**``df.std()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.std.html) en [**``df.var()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.var.html): de standaard deviatie en variantie
- ...

Deze functies worden standaard op alle kolommen uitgevoerd, maar kun je ook op de rijen laten uitvoeren door het argument ``axis=1`` te stellen. Het is ook mogelijk de bewerking te beperken tot één of enkele kolommen.
- ``df['pH'].mean()`` : voor één kolom
- ``df[['pH','density','alcohol']].mean()`` : voor een set van kolommen, aangegeven als een lijst.
- ``df[['pH','density','alcohol']].mean(axis=1)`` : voor alle rijen, over de gegeven kolommen.


In [None]:
df[['pH','density','alcohol']].max()

Pandas is erop gericht om het leven van de datawetenschapper zo eenvoudig mogelijk te houden. Met de bovenstaande functionaliteiten is het mogelijk om al deze statistische tests stuk voor stuk op elke kolom uit te voeren. Dit geeft aanleiding tot een flink aantal commando's. Daarom heeft pandas de [``df.describe()``](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) functie welke al deze functies met één commando laat uitvoeren, op alle of geselecteerde kolommen.
- ``df.describe()``: op alle kolommen
- ``df[['pH','density','alcohol']].describe()``: op de geselecteerde kolommen ['pH','density','alcohol']

In [None]:
df.describe()

Wanneer je te maken hebt met een set samples die uit verschillende subgroepen bestaat (*e.g.* verschillend solvent tijdens de synthese, of verschillende synthese route) wil je misschien de bovenstaande analyse per subgroep met elkaar vergelijken. Ook hier heeft pandas een functie ter beschikking: [``df.groupby()``](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html). In het geval van de wijnen zouden we geïnteresseerd kunnen zijn hoe de verschillende eigenschappen zich gedragen in functie van de toegekende kwaliteit. Voor de sulfaten zien we dat een hogere toegekende kwaliteit samen gaat met een gemiddeld hoger sulfaatwaarde.

In [None]:
df.groupby(["quality"])[["sulphates"]].describe()

**_Doe-opdracht:_**<br/>
1. Pas het voorgaande commando aan zodat er wordt gegroepeerd per *pH*.
2. Wat is er gebeurd met de tabel met resultaten?
3. Het is duidelijk dat bovenstaande resultaat niet echt zinvol is. Kun je een manier bedenken welke wel tot een meer zinvolle voorstelling zou leiden (*i.e.* sulfaten verdeling als functie van pH)? (Op dit moment dien je deze nog niet te kunnen uitvoeren, maar dat zal wel lukken voor het einde van deze tutorial.) 

### <u>Simpele operaties</u> ###
In voorgaande tutorials zagen we hoe operaties met numpy matrices konden worden uitgevoerd. Ook met pandas dataframes is het mogelijk op eenvoudige wijze operaties op de gehele dataset uit te voeren zoals het verwijderen of toevoegen van kolommen. Ook meer cosmetische operaties zijn mogelijk zoals het hernoemen van een kolom.

- [**``df.rename()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html): Deze functie laat toe één of meerdere rijen of kolommen te hernoemen. Het hernoemen gebeurt met behulp van een ***woordenboek*** waarbij de originele naam wordt gekoppeld aan de nieuwe naam. In het geval van kolommen wordt hiervoor het **columns** argument gebruikt, terwijl het **index** argument voor rijen wordt gebruikt. *e.g.*: ``df.rename(columns={"density":"dichtheid"})``. 
- [**``df.drop()``**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html): Het verwijderen van één of meerdere rijen of kolommen gebeurt met de *drop* functie. Welke rijen of kolommen er moeten gewist worden wordt nu aangegeven in een ***lijst***. De keuze tussen rijen of kolommen wordt opnieuw met de argumenten **index** of **columns**.

In het voorbeeld hieronder hernoemen we de kolom met dichtheden naar het Nederlands. Het resultaat van deze operatie wordt uitgeschreven, wat betekent dat deze functie een dataframe teruggeeft.

In [None]:
df.rename(columns={"density":"dichtheid"})

We controleren voor de zekerheid het dataframe om te kijken of onze aanpassing goed is gelukt met de ``head()`` functie.

In [None]:
df.head()

Helaas, het dataframe lijkt niet aangepast, hoewel de ``rename()`` functie wel degelijk het juiste resultaat naar de output schreef. Wat is hier aan de hand? De ``rename()`` functie, maar ook ``drop()`` en vele andere dataframe manipulatiefuncties, maken telkens een kopie van het dataframe waarop de aanpassing wordt doorgevoerd. Het resultaat wordt teruggeven door de functie. Wensen we onze variabele *df* aangepast zien dan zouden we deze hieraan kunnen toekennen via ``df = df.rename(columns={"density":"dichtheid"})``. Dit is eigenlijk een dure toekenning gezien het maken van een kopie meer tijd en geheugen in beslag neemt dan het aanpassen van één string. Zeker bij grotere datasets of grote aantallen van dergelijke operaties wordt dit een bottleneck. Het is daarom mogelijk het dataframe zelf aan te passen door het **argument ``inplace = True``** toe te voegen in deze functies.

&nbsp;

**_Doe-opdracht:_**<br/>
1. Hernoem de *density* kolom tot *dichtheid*.
2. Ga na dat de aanpassing wel degelijk in het dataframe is gebeurd.

- **Kolommen toevoegen**. Er zijn verschillende manieren om een kolom toe te voegen aan een dataframe. Eén eenvoudige manier is door het toekennen van waarden aan een nieuwe kolom. Deze nieuwe kolom wordt aangegeven door deze te benoemen; *e.g.* ``df["nieuwe kolom"]``. (De onderstaande methode kan ook gebruikt worden om een bestaande kolom te overschrijven, let dus op met de kolom naamgeving)
   - **``df["new"] = 0.0``** : Een nieuwe kolom wordt aangemaakt met alle rijen geïnitialiseerd op de decimale waarde 0. (Dit kan echter elke mogelijke waarde zijn, numeriek of niet.
   - **``df["new"] = pd.Series([0,1,2]) ``**: Een nieuwe kolom wordt aangemaakt waarbij de eerste drie rijen de waarden 0, 1, en 2 respectievelijk krijgen. De overige rijen worden als NaN geïnitialiseerd. De ``Series()`` functie van pandas genereert een soort lijst (net zoals numpy.array dat deed voor numpy) welke gebruikt kan worden als lijst of reeks. Een python lijst of numpy array kan je echter niet rechtstreeks gebruiken, deze moet je steeds omzetten naar een pandas series wat met de ``Series()`` functie gebeurt.
   - **``df["new"] = df['pH']*2 ``**: Een nieuwe kolom kan ook aangemaakt worden door een bewerking op een bestaande kolom uit te voeren. De toegestane operaties zijn wel beperkt tot de operaties welke mogelijk zijn op het datatype van de elementen in de kolom. (Gebruik ``df.info()`` om zeker te zijn van het datatype.) In het voorbeeld werd de waarde van de *pH* kolom verdubbeld, maar we zouden deze ook kunnen [afronden](https://www.w3schools.com/python/ref_func_round.asp) naar het dichtstbijzijnde gehele getal en opslaan als een geheel getal.<br/>
   ``df["new"]= round(df['pH'],0)`` zal de afgeronde waarde geven, weliswaar als een kommagetal. Om het type om te zetten kan gebruik gemaakt worden van de dataframefunctie [``astype()``](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html). De gekozen kolom(men) dienen als lijst te worden gegeven wat tot dubbele ``[[ ]]`` leidt, en het resultaat dient toegekend te worden. Op dit moment is het niet mogelijk deze operatie *inplace* uit te voeren. ``df[["new"]]=df[["new"]].astype(int)``

&nbsp;

**_Doe-opdracht:_**<br/>
Voer volgende opdrachten uit in de onderstaande cel.
1. Maak een nieuwe kolom aan genaamd *pH index* waarin de afgeronde pH waarden worden opgeslagen. Check het resultaat door de eerste rijen van het dataframe te printen.
2. Zet het datatype om naar gehele getallen. Check of dit is gelukt via de informatie van het dataframe. Zie je ook een aanpassing in de weergave van de waarden in de kolom?
3. Kijk terug naar de vorige doe-opdracht en genereer nu een eenvoudige statistische analyse van de sulfaten als functie van *het pH*, maar dit maal in een overzichtelijke en zinvolle tabel.

<a name="2.2.-Seaborn-Plots"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 2.2. Seaborn Plots #

*Eén afbeelding zegt meer dan duizend woorden* is een gekend adagium. Waar Pandas een ideale tool is voor de manipulatie van een dataset en het verkrijgen van numerieke inzichten, is seaborn een handige tool bij de visuele statistische analyse van data. De [seaborn bibliotheek](https://seaborn.pydata.org/) per conventie afgekort tot ***sns***. Alle functionaliteit welke in dit deel aan bod komt zou je zelf kunnen implementeren met behulp van *matplotlib*, *numpy* en *pandas*. Dit zijn ook de bibliotheken welke gebruikt zijn bij het opbouwen van de seaborn bibliotheek.

## <u>Histogrammen</u> ##
Wanneer er veel data beschikbaar is, kan een dataset beschreven worden in statistische termen zoals gemiddelde en standaard deviatie. Dit zegt echter niet alles over een distributie, welke zeer kan verschillen, zelfs als het gemiddelde en de standaard deviatie exact hetzelfde zijn. Je kan natuurlijk ook andere statistische termen toevoegen zoals maximum en minimum, of hogere orde momenten zoals skewness en kurtosis (*cf.* cursus statistiek). Het is echter veel eenvoudiger om de distributie te bekijken en daar een eerste begrip uit te ontwikkelen. Een manier om een distributie te visualiseren is met behulp van een histogram.


In [None]:
import seaborn as sns

hist=sns.histplot(x="pH", data=df)

De [**``histplot()``**](https://seaborn.pydata.org/generated/seaborn.histplot.html) functie voert alle zware werk uit voor ons. Op basis van een pandas dataframe *df* en een gekozen kolom *"pH"* bepaald de functie de breedte en hoogte van het plot, evenals een redelijke keuze voor de bins (zowel hun aantal als grenzen) waarin de dataset verdeeld wordt. Het blijft weliswaar mogelijk al deze opties manueel te overschrijven. Hiervoor verwijzen we naar de [handleiding](https://seaborn.pydata.org/generated/seaborn.histplot.html) van deze functie.

Bekijk je de figuur aandachtig, dan wordt het duidelijk dat dit een matplotlib afbeelding is, wat wordt bewezen door het type van de **hist** variabele na te gaan.

In [None]:
type(hist)

Dit is hetzelfde type als de **ax** variabele [eerder bekomen](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/02_PythonProgramParts.ipynb) via ``fig, ax = plt.subplots(figsize=(7,5))``. Alle functionaliteit welke in de voorgaande tutorial ter beschikking stond om een grafiek beter op te maken is ook nu beschikbaar. 

### <u>Breaking free of defaults</u> ###
Het is opnieuw mogelijk de *ketens van de standaard opmaak af te werpen*. Er is wel een bijzonder gedrag om rekening mee te houden, de ``sns.histplot()`` functie dien je te beschouwen als een alternatief voor de ``plt.plot()`` functie van voorheen. We kunnen dus het eerdere *Matplotlib*-script gebruiken waarbij de plotfunctie vervangen wordt door de ``sns.histplot()`` functie waarbij een *ax* en *fig* object gebruikt worden om de opmaak aan te passen, of we kunnen de ``sns.histplot()`` gebruiken om de *hist* variabele een waarde toe te kennen en deze in plaats van de *ax* variabele aan te passen.

In [None]:
## Met hist als ax variabele
import matplotlib.pyplot as plt
from matplotlib.ticker import MultipleLocator

hist=sns.histplot(x="pH", data=df)

hist.xaxis.set_major_locator(MultipleLocator(0.5))
hist.xaxis.set_minor_locator(MultipleLocator(0.1))
hist.yaxis.set_major_locator(MultipleLocator(25))
hist.yaxis.set_minor_locator(MultipleLocator(5))
# opmaak van de major ticks
hist.tick_params(axis='both',direction='in',length=10,width=2,
               bottom=True, top=True, left=True, right=True, labelsize=10)
# opmaak van de minor ticks (deze hebben geen label)
hist.tick_params(axis='both',which='minor',direction='in',length=6,width=1,
              bottom=True, top=True, left=True, right=True)

hist.spines['top'].set_linewidth(2) # In welk geval de verschillende spines, stuk per stuk dienen
hist.spines['left'].set_linewidth(2)# aangeroepen te worden.
hist.spines['bottom'].set_linewidth(2)
hist.spines['right'].set_linewidth(2)

## Bijkomende functies om de labels aan te passen
hist.set_xlabel("pH waarde ( )",fontsize=14)
hist.set_ylabel("Aantal (tellen)",fontsize=14)


plt.show()

In [None]:
## Met histplot als vervanging van plot
import matplotlib.pyplot as plt
from matplotlib.ticker import MultipleLocator

fig, ax = plt.subplots(figsize=(7,5))
plt.xlim([2,4])
plt.ylim([0,200])
ax.xaxis.set_major_locator(MultipleLocator(0.5))
ax.xaxis.set_minor_locator(MultipleLocator(0.1))
ax.yaxis.set_major_locator(MultipleLocator(25))
ax.yaxis.set_minor_locator(MultipleLocator(5))
# opmaak van de major ticks
ax.tick_params(axis='both',direction='in',length=10,width=2,
               bottom=True, top=True, left=True, right=True, labelsize=10)
# opmaak van de minor ticks (deze hebben geen label)
ax.tick_params(axis='both',which='minor',direction='in',length=6,width=1,
              bottom=True, top=True, left=True, right=True)

# ax.spines[:].set_linewidth(2) # Hiervoor is python >3.9 en matplotlib >3.5 nodig, 
                                # dit is misschien niet het geval in google colab
ax.spines['top'].set_linewidth(2) # In welk geval de verschillende spines, stuk per stuk dienen
ax.spines['left'].set_linewidth(2)# aangeroepen te worden.
ax.spines['bottom'].set_linewidth(2)
ax.spines['right'].set_linewidth(2)

sns.histplot(x="pH", data=df, legend=True)
plt.xlabel("pH waarde ( )", fontsize='x-large', fontweight="bold")
plt.ylabel("Aantal (tellen)", fontsize='x-large', fontweight="bold")
plt.legend(labels=["pH"], loc='upper center', fontsize='large')
plt.show()

### <u>Extra histogramfunctionaliteit</u> ###
Seaborn histogrammen kunnen veel meer dan eenvoudigweg een histogram genereren. Het is mogelijk om een gladde curve aan het histogram te genereren met behulp van een [kernel density estimate](https://en.wikipedia.org/wiki/Kernel_density_estimation). Dit vereist niet meer dan het toevoegen van het argument ``kde=True``. Het is ook mogelijk de dataset op te delen naar subsets. Terugdenkend aan de pandas statistieken voor de sulfaat distributies in functie van het kwaliteitslabel, kan dit hier gevisualiseerd worden met het ``hue`` argument. Dit laatste dient gelijk gesteld te worden aan de kolom welke de informatie bevat over de subsetindeling. Beide aanpassingen worden hieronder getoond.

In [None]:
hist=sns.histplot(x="sulphates", data=df, hue='quality', kde=True)

Meerdere datasets kunnen ook in één afbeelding worden samengebracht. Dit gebeurt door meerdere ``histplot()`` functies na elkaar uit te voeren waarbij de verschillende gewenste dataframe kolommen worden aangegeven bij het **x** argument.

In [None]:
hist=sns.histplot(x="sulphates", data=df, kde=True, legend=True)
hist=sns.histplot(x="pH", data=df, kde=True , legend=True)
plt.legend(labels=["sulphates","pH"], loc='upper center', fontsize='large')
plt.plot()

**_Doe-opdracht:_**<br/>
Voer volgende opdrachten stap voor stap uit in de onderstaande cel.
1. Creëer een histogramplot met zowel de *sulfaat* als de *pH* data.
2. Voeg een gladde curve toe aan beide histogrammen.
3. Voeg een legende toe.
4. Zorg er voor dat de beide histogrammen worden geplot als sets van histogrammen op basis van hun *pH index*.
5. Fix de legende.
6. Pas je script verder aan om een wetenschappelijk acceptabele grafiek te hebben.

## <u>Andere plots</u> ##
Seaborn geeft toegang tot een zeer uitgebreide set van mogelijke plotfuncties, te veel om allemaal hier te vernoemen. Bekijk de lijst gerust zelf in de [handleiding](https://seaborn.pydata.org/generated/seaborn.scatterplot.html) in de linker kolom. Hier vermelden we enkele interessante gevallen.

- [**``sns.scatterplot()``**](https://seaborn.pydata.org/generated/seaborn.scatterplot.html): Een scatterplot laat toe twee variabele tegen elkaar te plotten om zo inzicht in de correlatie tussen de twee te verwerven. *E.g.* ``sns.scatterplot(x='sulphates', y='pH', data=df)``. Indien er zeer veel datapunten aanwezig zijn kun je ook gebruik maken van de transparantie van de punten. Dit doe je door het **alpha** argument aan te passen. ``alpha=1.0`` is volledig niet transparant, en ``alpha=0.0`` is volledig transparant.
- [**``sns.boxplot()``**](https://seaborn.pydata.org/generated/seaborn.boxplot.html): Een boxplot geeft een vereenvoudigde grafische weergave van een dataset die toelaat verschillende datasets met elkaar te vergelijken. Het bevat verschillende elementen:
   - box: Geeft de grenzen van het 25-75 percentiel (Q1&rarr;Q3) aan. De mediaan wordt door de centrale lijn aangegeven
   - *whiskers*: Geven het minimum en maximum van de verdeling aan, waarbij veronderstelde *outliers* zijn verwijderd.
   - punten: Geven veronderstelde *outliers* aan.
  De opmaak van een boxplot kan aangepast worden met verschillende argumenten. Standaard wordt een boxplot horizontaal weergegeven, maar de oriëntatie kan aangepast worden door van horizontaal naar verticaal door het argument **y** in plaats van **x** te gebruiken. De breedte van de box kan aangepast worden met het argument **width**. Verder is het opnieuw mogelijk een dataset op te splitsen in subsets, en de verschillende subdistributies te vergelijken. Om de sulfaat verdeling per kwaliteitsmaat te visualiseren gebruik je ``sns.boxplot(x='quality',y='sulphates', data=df)``.
- [**``sns.violinplot()``**](https://seaborn.pydata.org/generated/seaborn.violinplot.html): Een violinplot is gerelateerd aan het boxplot van hierboven. Echter, in plaats van een abstracte voorstelling wordt hier de distributie zelf getoond in de vorm van de *kernel density estimation* (kde). De twee middelste kwartielen worden aangegeven met een dikke lijn terwijl een dunne lijn een minimum-maximum range geeft waarbij veronderstelde *outliers* genegeerd zijn.

**Kleuren kiezen**<br />
In voorgaande afbeelding is het misschien al opgevallen dat het kleurenpalet niet altijd ideaal is. Dit is gelukkig manueel aanpasbaar door het argument **palette** mee te geven. Je kan hierbij zelf een kleurpallet opstellen of gebruik maken van een van de vele bestaande kleurenpaletten: *e.g.* [``palette=sns.color_palette("tab10",6)``](https://seaborn.pydata.org/generated/seaborn.color_palette.html). Extra hulp bij het kiezen van een goed kleurenpalet kun je in de [handleiding](https://seaborn.pydata.org/tutorial/color_palettes.html) terugvinden.


**Opmerking**: sommige van bovenstaande plots maken een afschatting van het al dan niet *outlier* zijn van een datapunt. Hou er rekening mee dat dit enkel een afschatting is, en dus incorrect kan zijn.

&nbsp;

**_Doe-opdracht:_**<br/>
1. Genereer een scatterplot dat de sulfaatwaarde uitzet tegen het pH.
2. Pas de kleur van de datapunten aan en varieer de transparantie om een beter idee te hebben van de puntendichtheid.
3. Gebruik het **hue** argument om het scatterplot verschillende subsets te laten weergeven als functie van de kwaliteit.

Om een beter begrip te krijgen van de mogelijkheden van de verschillende plots is het interessant om dezelfde taken uit te voeren met de verschillende plots. In elk van de gevallen wordt de sulfaten data bekeken, waarbij onderverdeling per kwaliteit gebeurt. 

4. Maak een boxplot van alle sulfaatwaarden (doe dit zowel horizontaal als verticaal).
5. Pas het boxplot aan zodat de dataset per kwaliteit wordt gegeven.
6. Pas het boxplot verder aan zodat per kwaliteitslabel ook onderscheid wordt gemaakt tussen de *pH index* waarden.
7. Voer punten 4, 5 en 6 uit met een violinplot.

Net zoals voor de pandas bibliotheek bestuderen we hier maar enkele voorbeelden. Er is veel meer mogelijk met seaborn, en het verdere ontdekken van deze mogelijkheden laten we aan jou, de lezer, over. Je ontdekkingsreis zal immers veel nuttiger zijn, wanneer deze aangedreven wordt door eigen noden en interesses, dan wanneer deze bestaat uit het doorploegen van een opsomming van mogelijkheden welke je misschien nooit meer zal gebruiken.

Dit is voorlopig de laatste tutorial in deze reeks. Wie zichzelf verder wil bekwamen in het gebruik van python en de verschillende bibliotheken kan zich verdiepen in de verschillende handleidingen waarnaar gelinkt werd tijdens deze tutorials, evenals de (beperkte) lijst met verdere bronnen welke te vinden is in het [GitHub repo](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/99_VerdereBronnen.md).

<!--
<a name="2.3.-Scipy-fitting"> </a>
## 2.3. Scipy fitting #
-->