# Bivariate Daten (bivariate data)
* Daten basierend auf 2-Tupeln (pairs) aus einer X-Koordinate und einer Y-Koordinate
* Die X-Koordinate wird auch unabhängige Variable (independent variable) genannt.
* Die Y-Koordinate wird auch abhängige Variable (dependent variable) genannt.
* Auf der Suche nach Beziehungen (Relationships) ist es wichtig, dass die für X- und Y-Koordinate verwendeten Größen in einem sinnvollen Zusammenhang stehen.

# Lineare Korrelationen (linear correlations)

## Streudiagramme (scatter plots)
* Darstellung von Bivariate Daten
* als Punkte im Kartesischen 2D-Koordinatensystem
* Häufig werden lineare Korrelationen hier sichtbar.

### Beispieldaten:

| Horizontaler Sprung in cm | Vertikaler Sprung in cm |
| --- | --- |
| 215 | 46 |
| 200 | 43 |
| 168 | 46 |
| ... | ... |

* Die Horizontale Sprungweite wird zur unbhängigen Variable, da wir mithilfe unserer Analyse die vertikale sprunghöhe vorhersagen wollen.

In [None]:
# plot sample data

import matplotlib.pyplot as plt

SprungDaten = [
    (215,46),
    (200,43),
    (168,46),
    (191,57),
    (240,49),
    (128,23),
    (112,25),
    (121,28),
    (150,34),
    (140,30),
    (261,62),
    (170,37),
    (232,58),
    (212,52),
    (162,23 )
]

# Convert data
(x , y) = zip(*SprungDaten)

# plot data
plt.scatter(x, y)

# Setup plot
plt.xlabel('Horizontaler Sprung')
plt.ylabel('Vertikaler Sprung')
plt.show()

# Korrelationskoeffizient (Pearson's correlation coefficient)
* Werte von -1 bis 1
* -1: negative Korrelation
* 0: keine Korrelation
* 1: positive Korrelation

$
    r_{X,Y}=
    \frac{
        \operatorname{cov}(X,Y)
    }{
        \sigma _X  \sigma _Y
    }
$

$
    r_{X,Y}
    \frac{
        \sum{(x-\bar x)(y-\bar y)}
    }{
        \sqrt{
            \sum{(x-\bar x)^2}
            \sum{(y-\bar y)^2}
        }
    }
$

* Bestimmung durch Computer oder TR

In [None]:
# Correlation coefficient visualization

import pandas as pd

TestDaten = [
    (2,19),
    (9,4.5),
    (3,11),
    (7,5),
    (5,3),
    (4,9),
    (6,7),
    (8,6),
]

# convert data
(x , y) = zip(*TestDaten)

# plot data
plt.scatter(x,y)

# calculate pearson correlation
df = pd.DataFrame(TestDaten, columns=['x', 'y'])
print("Pearsons correlation coefficient of the data is:")
print(df.corr(method='pearson'))

# Regressionsgerade (regression line)
* Die Regressionsgerade versucht den Trend der Daten in einer linearen Funktion darzustellen.
## Abschätzen der besten Regressionsgeraden (best fit line)
* Ohne Berechnung nur schwer möglich.

In [None]:
# Custom regression visualization

import matplotlib.pyplot as plt
from ipywidgets import interact

@interact(slope=(-0.5,0.5,0.01), intercept=(-50,50,0.1))
def updateplt(slope, intercept):
    # load and convert data
    (x , y) = zip(*SprungDaten)
    # calculate regression line
    yR=[]
    for i in x:
        yR.append(slope*i + intercept)
    # Plot data
    plt.scatter(x, y)
    # Plot regression line
    plt.plot(x,yR)

    # Setup plot
    plt.xlabel('Horizontaler Sprung')
    plt.ylabel('Vertikaler Sprung')
    plt.show()

* Nutzung des Median-Punktes (mean point)
* Der Median-Punkt hat als X-Koordinate den Median aller X-Werte und als Y-Koordinate den Median aller Y-Werte.
* Also teilt er die Werte horizontal und vertikal in jeweils zwei gleich große Gruppen.

In [None]:
# Custom regression through mean point visualization

import matplotlib.pyplot as plt
from ipywidgets import interact
import statistics

@interact(slope=(-0.5,0.5,0.01))
def updateplt(slope,):
    # load and convert data
    (x , y) = zip(*SprungDaten)
    # Plot data
    plt.scatter(x, y)
    # Plot median point
    medianX = statistics.median(x)
    medianY = statistics.median(y)
    plt.scatter(medianX, medianY, color='red')

    # calculate regression line
    yR = []
    for i in x:
        yR.append(slope * (i-medianX) + medianY)
    plt.plot(x,yR)

    # Setup Plot
    plt.xlabel('Horizontaler Sprung')
    plt.ylabel('Vertikaler Sprung')
    plt.show()

#  Linear least squares regression - LLS
* Minimierung der mittleren quadratischen Abweichung (mean squared error)

$
    R^2= \frac 1 n \sum _{i=0} ^{n} {
        (Y_i - \hat Y_i)^2
    } \\
    \hat Y_i = f(X_i)
$

In [None]:
# best fit line visualization

import matplotlib.pyplot as plt
from ipywidgets import interact
import numpy as np

@interact(slope=(-0.5,0.5,0.01), intercept=(-50,50,0.1))
def updateplt(slope, intercept):
    # load and convert data
    (x , y) = zip(*SprungDaten)
    # plot data
    plt.scatter(x,y)

    # calculate regression line
    yR=[]
    for i in x:
        yR.append(slope*i + intercept)
    # plot regression line
    plt.plot(x,yR)

    # calculate optimal regression line
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    m = len(x)
    numer = 0
    denom = 0
    for i in range(m):
        numer += (x[i] - mean_x) * (y[i] - mean_y)
        denom += (x[i] - mean_x) ** 2
    m = numer / denom
    c = mean_y - (m * mean_x)
    yRopt=[]
    for i in x:
        yRopt.append(m*i + c)
    # plot regression line
    plt.plot(x,yRopt,color='red')
    
    # calculate MSE
    d = zip(x,y,yR)
    MSE = 0
    for i in d:
        MSE += (i[1]-i[2])**2 / len(x)
    plt.title("MSE: " + str(MSE))

    # Setup Plot
    plt.xlabel('Horizontaler Sprung')
    plt.ylabel('Vertikaler Sprung')
    plt.show()

# Interpolation
* Vorhersage einer Y-Koordinate aus einer X-Koordinate anhand der Regressionsgerade
* Durch die Regressionsgerade wird eine Y-Koordinate aus einer X-Koordinate berechnet.
* $X \in (min(d),max(d))$ => Interpolation
* $X \notin (min(d),max(d))$ => Extrapolation