# Z-score en correlatie - voorbeeld
Hogeschool Utrecht (c) 2020

Tijmen Muller (tijmen.muller@hu.nl) en nabewerking Josot Vanstreels (joost.vanstreels@hu.nl)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data inlezen en analyseren

In [None]:
# inlezen tabel met fruit gegevens
fruits = pd.read_table('knn_fruit.txt')
print('Aantal meetwaarden {0:d}'.format(len(fruits)))
fruits.head()

De kolommen zijn als volgt:
* `fruit_label` is een identificatienummer, overeenkomend met `fruit_name`
* `fruit_name` is het fruittype
* `fruit_subtype` is het subtype (bijvoorbeeld het soort appel)
* `mass` is het gewicht in grammen
* `width` is de breedte in cm
* `height` is de hoogte in cm
* `color_score` is een waarde uit het kleuren spectrum:
  * groen: 0.45-0.65
  * geel: 0.65-0.75
  * oranje: 0.75-0.85
  * rood: 0.85-1.00

De features van het fruit zijn de `mass`, `width`, `heigth` en `color_score`. Dit zijn allemaal continue waarden.
De waardes zijn heel verschillend wanneer je de centrum- en spreidingsmaten bekijkt.
De mass heeft veel hogere waardes dan de width en height, die ongeveer hetzelfde eruit zien.
En de waardes van color_score zijn nog veel lager.

In [None]:
fruits.describe()

De boxplots van de features laten ook zien dat de spreidingen zeer divers zijn en voor problemen kunnen zorgen wanneer we gaan werken met afstandsmaten.

In [None]:
boxplot = fruits.boxplot(column=['mass','width','height', 'color_score'])

## Normaliseren

We gaan daarom de features normaliseren. Dat doen we door handmatig de Z-score te berekenen.
De Z-score kon je berekenen met: 
- (waarde van item i in kolom x - gemiddelde waarde kolom x) / standaard deviatie kolom x

en dat uiteraard voor alle items i.

**Belangrijk**: je wilt die genormaliseerde gegevens later gebruiken, dus je slaat ze op in nieuwe kolommen

In [None]:
fruits['mass_norm'] = (fruits['mass']-fruits['mass'].mean())/fruits['mass'].std()
fruits['width_norm'] = (fruits['width']-fruits['width'].mean())/fruits['width'].std()
fruits['height_norm'] = (fruits['height']-fruits['height'].mean())/fruits['height'].std()
fruits['color_score_norm'] = (fruits['color_score']-fruits['color_score'].mean())/fruits['color_score'].std()
fruits.head(5)

Je ziet nu dat de gemiddeldes van de nieuwe kolommen nagenoeg hetzelfde zijn en conform de verwachtingen: gemiddelde = 0 en standaard deviatie = 1

In [None]:
fruits[['mass_norm', 'width_norm', 'height_norm', 'color_score_norm']].round(2).describe()

De boxplots van de features tonen aan dat de spreidingen nu wel vergelijkbaar zijn.
Ze zijn niet hetzelfde, maar dat hoeft natuurlijk ook niet: het blijven verschillende waardes.


In [None]:
boxplot = fruits.boxplot(column=['mass_norm','width_norm','height_norm', 'color_score_norm'])

## Correlatie

Met behulp van de pairplot van Seaborn kun je heel eenvoudig scatter plots van verschillende kolommen maken
Hiermee kun je zelf al inschatten of er sprake is van correlatie tussen de verschillende kolommen


In [None]:
sns.pairplot(fruits[['mass_norm','width_norm','height_norm', 'color_score_norm']])

Met oude versies van Matplotlib en Seaborn kon je het Pearson coëfficient in de pairplot weergeven, maar dat lukt (mij in ieder geval...) nu niet meer...
De correlatiematrix is een makkelijke manier om de verschillende coëfficienten weer te geven.

Merk op: je kan hier ook de originele waardes gebruiken, Pearson zet waardes eerst om naar een Z-score.


In [None]:
corrMatrix = fruits[['mass_norm','width_norm','height_norm', 'color_score_norm']].corr()
corrMatrix

Aangezien wij visueel ingesteld zijn, kunnen we deze waardes beter weergeven in een heatmap.
Hierin kun je sneller zien welke kolommen goed en niet goed correleren

In [None]:
sns.heatmap(corrMatrix, annot=True)