<a href="https://colab.research.google.com/github/RJuro/AS2021/blob/main/Notebooks/AS_S4_korrelation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd #pandas (som næsten altid)
import numpy as np #numpy hvis der skal laves mere komplekse beregninger
import seaborn as sns #seaborn til plots
 
from matplotlib import pyplot as plt #plot control
 
sns.set() #plot style
 
 
from IPython.display import HTML #Youtube embed

# Anvendt statistik S2 - Hands-on

Her kommer vi til at se på et datasæt af pingviner (man kan læse mere om data her: https://github.com/allisonhorst/palmerpenguins)

![](https://github.com/allisonhorst/palmerpenguins/raw/master/man/figures/lter_penguins.png)

Hvis du har 2 minutter og vil vide mere om disse pingviner, så er der en kort video om dem...

## Bivariat analyse
Ind til videre har vi som udgangspunkt bearbejdet enkelte variable som udgangspunkt for analyse og visualisering. I dette afsnit vil i blive introduceret for *bivariat* analyse, hvor man undersøger sammenhængen mellem to variable i et datasæt. Her vil i, blandt andet, blive introduceret for *kovarians* og *Pearson's korrelations koefficient*.

---

Som det første vil i blive introduceret for, hvordan man visualiserer fordelingen mellem to variable. Denne visualisering opstilles i en graf ved at sætte en variabel på x-aksen og en variabel på y-aksen. Her opdeles datasættets observationer i grafen, alt efter hvordan de placerer sig i mellem variablen x og variablen y. Dette kaldes et *scatter plot*

In [None]:
# Vi åbner vores penvin data direkte fra github
penguins = pd.read_csv("https://github.com/allisonhorst/palmerpenguins/raw/5b5891f01b52ae26ad8cb9755ec93672f49328a8/data/penguins_size.csv")

In [None]:
# her sletter vi alle rækker, hvor der mangler data for en eller anden variabel

penguins = penguins.dropna()

In [None]:
penguins.info()

In [None]:
penguins.head()

In [None]:
# Med Seaborn
sns.relplot(x="body_mass_g", y="flipper_length_mm", data=penguins);

In [None]:
# Seaborn does it fancy
sns.relplot(x="body_mass_g", y="flipper_length_mm", hue="species_short", style="sex", data=penguins)

In [None]:
# (avanceret) stats import
import scipy.stats as stats

In [None]:
penguins['flipper_length_normalized'] = stats.zscore(penguins.flipper_length_mm)

In [None]:
penguins['body_mass_normalized']  = stats.zscore(penguins.body_mass_g)

In [None]:
sns.relplot(x = 'body_mass_normalized', y = 'flipper_length_normalized', hue="species_short", style="sex", data=penguins )

#### Kovarians
Kovarians er et mål for sammenhængen mellem to skaleringsafhængige variable - altså, hvor meget en variabel vil ændres når en anden variabel ændres.  

In [None]:
# Kovarians matrix med pandas
penguins[['body_mass_g', 'flipper_length_mm']].cov()

In [None]:
# Kovarians
penguins.body_mass_g.cov(penguins.flipper_length_mm)

#### Korrelations koefficient (Pearson's R)
Eftersom kovarians er udregnet med baggrund i de givne variables skalering, giver det ikke analytisk mening at udlede indsigt fra kovariansen alene. Man anvender derfor korrelations koefficienten til at standardisere værdierne i variablene. 

Korrelations koefficienten vil altid have en værdi mellem -1 og 1. Hvis koefficienten er tæt på 1 vil der være en *positiv* sammenhæng mellem x og y (når x stiger, stiger y også). Hvis koefficienten er tæt på -1 vil der være en *negativ* sammenhæng mellem x og y (når x stiger, falder y). Værdier tæt på 0 indikerer at der er lav eller ingen sammenhæng mellem x og y (når x stiger, gør y hvad den vil). 

In [None]:
# Pandas .corr() kan anvendes til at vurdere korrelationen mellem samtlige numeriske variable i et datasæt. 
penguins.corr()

In [None]:
# Korrelations matrix med pandas
# Note: Der er forskellige måder at udregne korrelation, hvor Pearson's er den mest udbredte. 
# Pandas .corr() har pearson som default, men kan ændres efter behov.
penguins[['body_mass_g', 'flipper_length_mm']].corr(method='pearson')

In [None]:
# Pearson's R (korrelations koefficient)
penguins.body_mass_g.corr(penguins.flipper_length_mm)

In [None]:
# Ud med de normaliserede igen
penguins = penguins.drop(['body_mass_normalized', 'flipper_length_normalized'], axis = 'columns')

In [None]:
sns.pairplot(penguins, hue="species_short")

### Klasseøvelse
Udregn korrelations koefficient for næblængde ift. næbdybde for samtlige observationer og for hver af de 3 racer - Visualiser det i et scatterplot. 

##### Løsning 

###### Svar 1

In [None]:
penguins.culmen_length_mm.corr(penguins.culmen_depth_mm)

###### Svar 2

In [None]:
penguins.groupby('species_short').culmen_length_mm.corr(penguins.culmen_depth_mm)

###### Svar 3

In [None]:
sns.relplot(x="culmen_length_mm", y="culmen_depth_mm", hue="species_short", data=penguins);