# Einführung in SoloVPE, Lineare Regression und Python

## SoloVPE & Beer-Lambert Gesetz

SoloVPE ist ein UV-Vis-NIR Spektrometer. Es ermöglicht die präzise Bestimmung von Konzentrationen und Extinktions Koeffizienten mittels mehreren Absorbtions Messungen über unterschiedliche Weglängen. Eine ausführlichere Einführung kann hier [Slope Spectroscopy](https://www.repligen.com/ctech-resources/pdf/The-Power-of-Slope-Spectroscopy-1.pdf) gefunden werden. Das Beer-Lambert Gesetz liefert die physikalische Grundlage für die Funktion das Spektrometers:

$$ A = \alpha * l * c $$
* A: gemessene Absorbtion 
* $\alpha$ : molarer Absorbtions-Koeffizient (Wellenlängen-Abhängig)
* l: Weglänge 
* c: Konzentration 

Von den vier Variablen (A, $\alpha$, l, c) liefert das Spektrometer die Absorbtion A sowie die Weglänge l, wobei l jeweils bekannt ist bzw. durch das Gerät eingestellt wird und keine "gemessene" Grösse ist. 

Um ein Gefühl für lineare Abhängigkeiten, deren graphische Darstellung und eine erste kleine Einführung in die Programmiersprache Python zu erhalten dienen folgende Abschnitte.

<font color='orange'>

## SoloVPE & Beer-Lambert Law

SoloVPE is a UV-Vis-NIR spectrometer. It allows the precise determination of concentrations and extinction coefficients using multiple absorbance measurements over different path lengths. A more detailed introduction can be found here [Slope Spectroscopy](https://www.repligen.com/ctech-resources/pdf/The-Power-of-Slope-Spectroscopy-1.pdf). The Beer-Lambert law provides the physical basis for the spectrometer function:

$$ A = \alpha * l * c $$
* A: measured absorbance 
* $\alpha$ : molar absorption coefficient (wavelength dependent)
* l: path length 
* c: concentration 

Of the four variables (A, $\alpha$, l, c), the spectrometer provides the absorbance A as well as the path length l, where l is known or set by the instrument in each case and is not a "measured" quantity. 

To get a feeling for linear dependencies, their graphical representation and a first small introduction into the programming language Python, the following sections serve.
</font>


### Python: Variablen, Arrays und Ausgaben <font color='orange'>Variables, Arrays and Output</font>

In [None]:
# Initialize Otter
import otter
grader = otter.Notebook("Intro_beer_lambert.ipynb")
from nose.tools import assert_is_instance, assert_equal, assert_almost_equal, assert_true

In [None]:
# Kommentar: Definiere die Variable alpha als eine Zahl (in diesem Fall einen sogenannten Float bzw. Gleitkommazahl)
# Comment: Define Variable alpha as a float
alpha = 1.000

# Kommentar: Die Variable A oder in unserem Beispiel die Absorbtion wird als eine Aneinanderreihung von mehreren Messpunkten über
# verschiedene Weglängen definiert.
# Python liefert für diesen Zweck die Möglichkeit einen sogennanten Array zu definierten.
# Comment: The variable A or in our example the absorption is defined as a string of several measurement points over
# different path lengths.
# Python provides for this purpose the possibility to define a so-called array.

A = [0,1,2,3,4,5,6,7,8,9,10]

# Kommentar: Die Variable "l" die Weglänge wird ebenfalls als Array definiert. Folgend wird genau der gleich Array wie in der Variablen A 
# definiert. Benutzt wird die range funktion. Mit dem Startwert 0, Stopwert 6 und Schrittwert 1. Ergebnis dieser Funktion ist der Array
# [0,1,2,3,4,5]. Wir erhalten also für jeden Messwert in A eine entsprechende Weglänge in l. Es ist deshalb nötig, dass beide Arrays die selbe
# Länge haben. Die Funktion len() gibt in diesem Fall für A und l jeweils den Wert 6 zurück. Die Bedingung ist also erfüllt.
# Comment: The variable "l" the path length is also defined as an array. Following exactly the same array is defined as in the variable A 
# is defined. The range function is used. With the start value 0, stop value 6 and step value 1. Result of this function is the array
# [0,1,2,3,4,5]. So for each measured value in A we get a corresponding path length in l. It is therefore necessary that both arrays have the same
# length. In this case the function len() returns the value 6 for A and l respectively. The condition is therefore fulfilled.

l = range(0,11,1)
x = range(0,11,1)

len_A = len(A)
len_l = len(l)
len_x = len(x)

# Kommentar: Folgend werden die Variablen len_A und len_l mittels der Funktion print() ausgegeben. Die Funktion str() dient zur 
# Umwandlung oder "Type-Cast" einer Zahl (Integer oder Float) in einen String bzw. eine Abfolge von Buchstaben wie z. Bsp. "Länge Array A: ".
# Comment: The following variables len_A and len_l are printed with the function print(). The function str() is used to 
# The function str() is used to convert or type-cast a number (integer or float) into a string or a sequence of letters, e.g. "Length array A: ".
print("Länge Array A: " + str(len_A))
print("Länge Array l: " + str(len_l))



### Aufgaben 1a <font color='orange'>Exercise 1a</font>

In [None]:
# Aufgabe 1 a: Speichere einen String "Hallo Python" in der Variable S
# Task 1 a: Store a string "Hello Python" in the variable S
S = ...
# Aufgabe 1 a: Speichere eine Array der Länge 1000 in der Variablen B. Der Array startet mit 5 und ended mit 1004.
# Task 1 a: Store an array of length 1000 in variable B. The array starts with 5 and ends with 1004.
B = ...
# Aufgabe 1 a: Speichere den Array B in der Variablen B2
# Task 1 a: Store the array B in variable B2
B2 = ...
# Aufgabe 1 a: Speichere die Länge vom Array B2 in der Variablen len_B2
# Task 1 a: Store the length of the array B2 in the variable len_B2
len_B2 = ...
# Aufgabe 1 a: Gib einen String sowie einen Array mittels der Funktion print() aus. Wird nicht automatisch kontrolliert aber verifiziere ob das gewünschte Ausgabe stattfindet
# Task 1 a: Print a string and an array using the print() function. Will not be checked automatically but verify that the desired output occurs
print()

In [None]:
grader.check("Aufgabe 1a")

### Python: Grafiken

Zur Übersicht über die verwendete Bibliothek Matplotlib hier das Cheat-Sheet:
[matplotlib](https://matplotlib.org/cheatsheets/_images/cheatsheets-1.png)

<font color='orange'>

### Python: Graphics

For an overview of the Matplotlib library used, here is the cheat sheet:
[matplotlib](https://matplotlib.org/cheatsheets/_images/cheatsheets-1.png)

</font>

In [None]:
# Kommentar: Somit sind die bekannten und gemessenen Variablen A, l vom Beer-Lambert Gesetz definiert. Als nächstes werden diese graphisch
# dargestellt bzw. geplottet. Die Messpunkte A auf der Y-Achse und die zugehörige Weglänge l auf der X-Achse.


# Comment: Thus the known and measured variables A, l are defined by the Beer-Lambert law. Next these are graphically
# represented and/or plotted. The measured points A on the Y-axis and the corresponding path length l on the X-axis.

# Import of a library for graphics 
# Import einer Bibliothek für Grafiken 
import matplotlib.pyplot as plt

# Plot der Datenpunkte als "Scatter-Plot"
# Plot datapoint in a scatter plot
plt.scatter(x=l,y=A)

# Beschriftungen
# Labelling
plt.ylabel('y-Achse: Absorbtion')
plt.xlabel('x-Achse: Weglänge')
plt.title('Beer-Lambert Gesetz')

### Python: Arrays 2

In folgenden Abschnitten wird von der Bibliothek Numpy Gebrauch gemacht um einen Überblick zu erlangen ist folgend ein Cheat-Sheet verlinkt. [numpy](https://assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf) Beachte insbesondere die Funktionen np.add() sowie np.multiply()

<font color='orange'>

### Python: Arrays 2

In the following sections, the library Numpy is used to get an overview, a cheat sheet is linked below. [numpy](https://assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf) Note in particular the functions np.add() and np.multiply().
</font>

In [None]:
# Arrays können einzelne Werte zurückliefern.
# Variable a1 speichert den Wert aus Array A aus der Position 1, a0 aus der Position 0
# Arrays can return single values.
# variable a1 stores the value from array A from position 1, a0 from position 0
a1 = A[1]
a0 = A[0]

print("a1: " + str(a1))
print("a0: " + str(a0))

# Einzelne Wert können innerhalb des Arrays verändert werden
# Individual values can be changed within the array
A[0] = a1
A[1] = a0

print("A: " + str(A))

# Für folgende Illustrationen wird die Veränderung des Arrays wieder rückgängig gemacht
# For the following illustrations the change of the array is undone again
A[1] = 1
A[0] = 0

# Um mehrere Werte gleichzeitig zu verändern können mathematische Operationen auf den ganzen Array angewendet werden. Dazu verwendet man
# in diesem Beispiel die Bibliothek Numpy.
# To change multiple values at once, mathematical operations can be applied to the whole array. For this purpose we use
# in this example the library Numpy.
import numpy as np

print("A * 2: " + str(np.multiply(A,2)))
print("A + 1: " + str(np.add(A,1)))

# Was fällt in folgender Ausgabe auf?
# What stands out in the following issue?
print("A: " + str(A))

# Um Arrays zu verändern reicht es nicht mathematische Operatoren darauf anzuwenden - die Ausgaben dieser Operationen müssen oder können auch 
# gespeichert/ zugewiesen werden.
# To modify arrays it is not enough to apply mathematical operators to them - the outputs of these operations must or can also be # stored/assigned. 
# be stored/assigned.
A2 = np.multiply(A,2)
A3 = np.multiply(A,3)
A4 = np.multiply(A,4)

print("A2: " + str(A2))
print("A3: " + str(A3))
print("A4: " + str(A4))

A4_plus5 = np.add(A4,5)

print("A: " + str(A))
print("A4_plus5" + str(A4_plus5))

### Lineare Gleichungen 

<font color='orange'> 

### Linear equations

</font>

In [None]:
# Folgend die kreierten Variablen in einer Plot dargestellt.
# Following the created variables shown in a plot.

# Plot of the data points as a "scatter plot"
# Plot der Datenpunkte als "Scatter-Plot"
plt.scatter(x=l, y=A,label="A")
plt.scatter(x=l,y=A2,label="A2")
plt.scatter(x=l,y=A3,label="A3")
plt.scatter(x=l,y=A4,label="A4")
plt.scatter(x=l,y=A4_plus5,label="A4+5")

# Beschriftungen
# labeling
plt.ylabel('y-Achse: Absorbtion')
plt.xlabel('x-Achse: Weglänge')
plt.title('Beer-Lambert Gesetz')
plt.legend()
plt.grid()

Die dargestellten Daten folgen einem Muster. Es ist offensichtlich, dass die Steigung mit dem Faktor zunimmt so hat zum Beispiel A4 (Faktor 4) einen zwei Mal so starken Anstieg wie A2 (Faktor 2). Mehr noch A, A2, A3, A4 starten alle bei 0. Was ist aber mit A4+5? Während die Steigung von A4 gleich ist mit A4+5 so ist der Startwert nicht bei 0 sondern bei 5. Dies kann mittels folgender Gleichung dargestellt. $$y = a*x + b_0$$ y ist ganz allgemein das Ergebnis aus der Steigung (a) multipliziert mit einem Wert (x) plus dem y-Achsenabschnitt $b_0$. Beachte $a$ und $b_0$ sind Konstanten x kann einen beliebigen Wert annehmen. 

Folgend wird aufgezeigt wie man eine Unbekannte Steigung bzw. den Y-Achsenabschnitt mittels Python berechnen kann.

<font color='orange'>

The data shown follow a pattern. It is obvious that the slope increases with the factor, so for example A4 (factor 4) has two times the slope of A2 (factor 2). Even more A, A2, A3, A4 all start at 0. But what about A4+5? While the slope of A4 is equal to A4+5, the starting value is not at 0 but at 5. This can be represented by the following equation. $$y = a*x + b_0$$ y is in general the result of the slope (a) multiplied by a value (x) plus the y-axis intercept $b_0$. Note that $a$ and $b_0$ are constants x can be any value. 

The following shows how to calculate an unknown slope or the y-axis intercept using Python.


</font>

In [None]:
# Berechne die Steigung/ Y-Achsenabschnitt von A4_plus5
# Calculate the slope/ Y-axis intercept of A4_plus5
i = 1
j = 2


a = (A4_plus5[i]-A4_plus5[j])/(x[i]-x[j])
b_0= A4_plus5[0]

print("Steigung A4_plus5 a = " + str(a))
print("Y-Achsenabschnitt b_0 = " + str(b_0))

Mathematisch kann dies folgendermassen dargestellt werden: $$a = (y_i - y_j)/ (x_i - x_j) = \Delta y / \Delta x $$ wobei $$i \neq j$$ 

Für den Y-Achsenabschnitt b_0 gilt: $$b_0 = y-a*x_0$$ mit $$x_0 = 0$$

Man beachte, dass die Steigung unabhängig vom Y-Achsenabschnitt berechnet werden kann.

Bisher waren die Steigung a sowie b_0 jeweils bekannt, in folgender Übung werden a und b_0 Zufällig generierte Zahlen sein.


<font color='orange'>

Mathematically, this can be represented as follows: $$a = (y_i - y_j)/ (x_i - x_j) = \Delta y / \Delta x $$ where $$i \neq j$$. 

For the y-axis intercept b_0, $$b_0 = y-a*x_0$$ where $$x_0 = 0$$.

Note that the slope can be calculated independently of the y-axis intercept.

So far the slope a as well as b_0 were known in each case, in the following exercise a and b_0 will be randomly generated numbers. 


</font>

In [None]:
# Generiere eine zufällige Zahl zwischen 1 und 10 für a, sowie eine für b_0
# Generate a random number between 1 and 10 for a, and one for b_0
import random

a = random.randint(1,10)
b_0 = random.randint(1,10)

# Generiere x als Array mit Zahlen von 1 bis 9
# Generate x as an array with numbers from 1 to 9
x = range(0, 10,1)
# Berechne y als Ergebnis einer linearen Gleichung
# Calculate y as the result of a linear equation
y = np.add(np.multiply(x,a),b_0)

# Stelle x,y graphisch dar
# Beschriftungen
# Display x,y graphically
# Labels
plt.scatter(x=x,y=y)
plt.ylabel('y-Achse: y')
plt.xlabel('x-Achse: x')
plt.title('Lineare Gleichung a*x+b_0=y')
plt.grid()

# Aufgabe 2: Berechne die Steigung a
# Task 2: Calculate the slope a
a_calc = ...
# Aufgabe 2: Berechne den y-Achsenabschnitt b_0
# Task 2: Calculate the y-axis intercept b_0
b_0_calc = ...

# Aufgabe 2: Sind die Berechnungen mit den zufällig generierten Werten a, b_0 identisch?
# Task 2: Are the calculations with the randomly generated values a, b_0 identical?
...


In [None]:
grader.check('Aufgabe 2')

## Beer Lambert Gesetz 2

Lineare Gleichungen: $$y = a*x+b_0$$
Beer Lambert Gesetz: $$A = \alpha * l * c$$

Bei einer SoloVPE Messung sind die Absorbtion A und die Weglänge l bekannt. Man kann das nun wie bei der Aufgabe zu den linearen Gleichungen so auffassen, dass man um die Konzentration (c) einer Substanz herauszufinden die Steigung von A über verschiedene Weglängen berechnen kann.

In die uns bekannte lineare Gleichung übersetzt wären die Absorbtion A das Ergebnis y. Die Weglänge l entspricht x. Somit entspricht die Steigung a $\alpha * c$. Da $\alpha$ ein uns bekannter Extinktionskoeffizient ist kann man die erhaltene Steigung a um $\alpha$ korrigieren und erhält dann die gesuchte Konzentration c.

<font color='orange'>

## Beer Lambert law 2

Linear equations: $$y = a*x+b_0$$
Beer Lambert law: $$A = \alpha * l * c$$

For a SoloVPE measurement the absorption A and the path length l are known. As in the task of the linear equations, one can calculate the slope of A over different path lengths to find out the concentration (c) of a substance.

Translated into the linear equation we know, the absorption A would be the result y. The path length l corresponds to x. Thus the slope a corresponds to $\alpha * c$. Since $\alpha$ is an extinction coefficient known to us, we can correct the obtained slope a by $\alpha$ and then obtain the concentration c we are looking for.

</font>

### Messfehler

In einer idealen Welt wäre jetzt das Problem gelöst und man könnte mittels der gegebenen Formeln die Konzentration von Substanzen mittels UV-Vis Messungen bestimmen. Da aber jede Messung die irgendwo durchgeführt wird mit einem grösseren oder kleineren Messfehler belegt ist bauen wir folgend einen solchen in unser Beispiel ein.

<font color='orange'>

### Measurement error

In an ideal world, the problem would now be solved and the concentration of substances could be determined by UV-Vis measurements using the given formulas. However, since every measurement that is carried out somewhere is subject to a larger or smaller measurement error, we will build such an error into our example.

</font>

In [None]:
# Generiere Messfehler (Zufällige Störung) in A4_plus5
error_small = [random.gauss(0,3) for i in range(len(A))] # Gauss Verteilung wird benutzt um in unserem Fall mehrere Zufallszahlen zu generieren
error_large = [random.gauss(0,5) for i in range(len(A))]

A4_plus5_error_small = np.add(A4_plus5,error_small) # Zufallszahlen werden als Messfehler addiert
A4_plus5_error_large = np.add(A4_plus5,error_large) 

# Stelle x,y graphisch dar
# Beschriftungen
plt.scatter(x=l,y=A4_plus5_error_small, label="y=4x+5 mit kleiner Streuung")
plt.scatter(x=l,y=A4_plus5_error_large, label="y=4x+5 mit grosser Streuung")
plt.ylabel('y-Achse: y')
plt.xlabel('x-Achse: x')
plt.title('Lineare Gleichung/ Streuung')
plt.grid()

plt.plot([l[0],l[len_A-1]],[A4_plus5[0],A4_plus5[len_A-1]], color='r',marker='x', label='y=4x+5')
plt.legend()

Die oben dargestellte rote Linie stellt die Gleichung y=4x+5 für beliebige Werte x dar (x=[0,5]). Die blauen und orangen Punkte sind Werte der selben Gleichung (y=4x+5) aber mit einer Streuung bzw. einem "Messfehler". Was passiert nun wenn man den uns bekannten Lösungsansatz für die Bestimmung einer unbekannten Steigung oder dem Y-Achsenabschnitt versucht zu berechnen? Je nach Streuung und je nach ausgewählten Datenpunkten wird die Steigung/b_0 ein Resultat liefern, dass zwar für die ausgewählten Datenpunkte stimmt aber über das ganze Datenset mehr oder weniger ungenau ist. Diese Relation wird in der Grafik unten dargestellt. 

<font color='orange'>

The red line above represents the equation y=4x+5 for any value x (x=[0,5]). The blue and orange points are values of the same equation (y=4x+5) but with a scatter or "measurement error". What happens now if one tries to calculate the solution known to us for the determination of an unknown slope or the y-axis intercept? Depending on the scatter and depending on the selected data points, the slope/b_0 will give a result that is correct for the selected data points but more or less inaccurate over the whole data set. This relation is shown in the graph below. 

</font>

In [None]:
# Stelle x,y graphisch dar
# Beschriftungen
plt.scatter(x=l,y=A4_plus5_error_large, label="y=4x+5 mit grosser Streuung")
plt.ylabel('y-Achse: y')
plt.xlabel('x-Achse: x')
plt.title('Lineare Gleichung/ Streuung Lösungsansatz 1')
plt.grid()

plt.plot([l[0],l[len_A-1]],[A4_plus5[0],A4_plus5[len_A-1]], color='r',marker='x', label='y=4x+5')
# Datenpunkte i,j und k,l
i, j = 3,4
k, m = 2,5

a_ij, b0_ij = (A4_plus5_error_large[i]-A4_plus5_error_large[j])/(l[i]-l[j]), A4_plus5_error_large[0]
A_ij = np.add(np.multiply(l,a_ij),b0_ij)


a_km, b0_km = (A4_plus5_error_large[k]-A4_plus5_error_large[m])/(l[k]-l[m]), A4_plus5_error_large[0]
A_km = np.add(np.multiply(l,a_km),b0_km)


plt.plot([l[0],l[len_A-1]],[A_ij[0],A_ij[len_A-1]], color='g',marker='x', label='y=a_ij * x + b0_ij')
plt.plot([l[0],l[len_A-1]],[A_km[0],A_km[len_A-1]], color='b',marker='x', label='y=a_km * x + b0_km')
print(A_ij[0])
print(A_ij[len_A-1])
plt.legend()

In der Grafik "Lineare Gleichung/ Streuung Lösungsansatz 1" wird offensichtlich dass der bisherige Ansatz fehlschlägt. Es gibt aber diverse Lösungsansätze wie man trotz der Fehler behafteten Datenpunkte eine möglichst genaue Lösung i.e. eine Gerade durch die Datenpunkte berechnen kann. Einen Ansatz wird im im nächsten Kapitel genauer betrachtet.

<font color='orange'>
In the graphic "Linear equation/ scattering solution approach 1" it is obvious that the previous approach fails. However, there are various approaches how to calculate an accurate solution i.e. a straight line through the data points. One approach will be considered in more detail in the next chapter.
</font>

## Lineare Regression

In [None]:
# Stelle x,y graphisch dar
# Beschriftungen
plt.scatter(x=l,y=A4_plus5_error_large, label="y=4x+5 mit grosser Streuung")
plt.ylabel('y-Achse: y')
plt.xlabel('x-Achse: x')
plt.title('Lineare Gleichung/ Streuung - Regression')
plt.grid()

plt.plot([l[0],l[len_A-1]],[A4_plus5[0],A4_plus5[len_A-1]], color='r',marker='x', label='y=4x+5')

plt.vlines(x=l,ymin=A4_plus5,ymax=A4_plus5_error_large,colors='b',label='error')


plt.legend()

Ein möglicher Ansatz für eine lineare Regression zur bestimmung einer "idealen" linearen Gleichung über einen Datensatz ist die Minimierung des hier blau dargestellten "error". Sprich die Summe der Abstände der gemessenen Datenpunkte ($\hat{y}$) zur linearen Gleichung y=ax+b_0 soll möglichst klein sein. Es ist gängige Praxis, dass man dafür den MSE (Mean Square Error) benutzt. Sprich den durchschnittlichen, quadrierten Fehler. Wobei $n$ die Anzahl Datenpunkte ist und der Durchschnitt allgemein als $\bar{y} = \sum_{i=1}^{n}(y_i)/n$ geschrieben wird.

$$MSE= \frac{\sum_{i=1}^{n}(\hat{y}_i - y_i)^2}{n} = \frac{\sum_{i=1}^{n}(\hat{y}_i - (ax_i+b_0))^2}{n}$$

Um den MSE zu minimieren bzw. die Konstanten a und $b_0$ zu bestimmen die den MSE minimieren verwendet man folgenden Ansatz:
$$\frac{\partial}{\partial b} MSE \stackrel{!}{=} 0$$
$$\frac{\partial}{\partial b} MSE = \frac{\partial}{\partial b} \frac{\sum_{i=1}^{n}(\hat{y}_i - (ax_i+b_0))^2}{n} = \frac{2}{n}\sum_{i=1}^{n}(\hat{y}_i - ax_i - b_0)(-1) \stackrel{!}{=} 0$$
$$\Rightarrow b_0 =  \bar{y} - a\bar{x}$$


$$\frac{\partial}{\partial a} MSE \stackrel{!}{=} 0$$

$$\frac{\partial}{\partial a} MSE = \frac{\partial}{\partial a} \frac{\sum_{i=1}^{n}(\hat{y}_i - (ax_i+b_0))^2}{n} = \frac{2}{n}\sum_{i=1}^{n}(\hat{y}_i - ax_i-b_0)(-x_i) = 2(-\overline{yx}+a\overline{x^2}+b_0\bar{x}) \stackrel{!}{=} 0$$



$$\Rightarrow 0 = \overline{yx} - a\overline{x^2} - b_0\bar{x}$$

$$\stackrel{b_0}{\Rightarrow} = \overline{yx} - a\overline{x^2} + a\bar{x}^2 - \bar{y}\bar{x} = 0$$

$$\Rightarrow a= \frac{\overline{xy}-\bar{y}\bar{x}}{\overline{x^2}-\bar{x}^2}$$


<font color='orange'>

A possible approach for a linear regression to determine an "ideal" linear equation over a data set is the minimization of the "error" shown here in blue. That means the sum of the distances of the measured data points ($\hat{y}$) to the linear equation y=ax+b_0 should be as small as possible. It is common practice to use the MSE (Mean Square Error) for this. That is, the average squared error. Where $n$ is the number of data points and the average is generally written as $\bar{y} = \sum_{i=1}^{n}(y_i)/n$.

$$MSE= \frac{\sum_{i=1}^{n}(\hat{y}_i - y_i)^2}{n} = \frac{\sum_{i=1}^{n}(\hat{y}_i - (ax_i+b_0))^2}{n}$$

To minimize the MSE or to determine the constants a and $b_0$ that minimize the MSE one uses the following approach:
$$\frac{\partial}{\partial b} MSE \stackrel{!}{=} 0$$
$$\frac{\partial}{\partial b} MSE = \frac{\partial}{\partial b} \frac{\sum_{i=1}^{n}(\hat{y}_i - (ax_i+b_0))^2}{n} = \frac{2}{n}\sum_{i=1}^{n}(\hat{y}_i - ax_i - b_0)(-1) \stackrel{!}{=} 0$$
$$\rightarrow b_0 = \bar{y} - a\bar{x}$$


$$\frac{\partial}{\partial a} MSE \stackrel{!}{=} 0$$

$$\frac{\partial}{\partial a} MSE = \frac{\partial}{\partial a} \frac{\sum_{i=1}^{n}(\hat{y}_i - (ax_i+b_0))^2}{n} = \frac{2}{n}\sum_{i=1}^{n}(\hat{y}_i - ax_i-b_0)(-x_i) = 2(-\overline{yx}+a\overline{x^2}+b_0\bar{x}) \stackrel{!}{=} 0$$



$$\rightarrow 0 = \overline{yx} - a\overline{x^2} - b_0\bar{x}$$

$$\stackrel{b_0}{\Rightarrow} = \overline{yx} - a\overline{x^2} + a\bar{x}^2 - \bar{y}\bar{x} = 0$$

$$\Rightarrow a= \frac{\overline{xy}-\bar{y}\bar{x}}{\overline{x^2}-\bar{x}^2}$$


</font>


Es gibt also eine analytische Lösung. Sowohl die Steigung a als auch der y-Achsenabschnitt $b_0$ die den MSE minimieren können mittels der gegebenen Daten berechnet werden. In folgendem Beispiel wird das illustriert.

<font color='orange'>

So there is an analytical solution. Both the slope a and the y-axis intercept $b_0$ that minimize the MSE can be calculated using the given data. This is illustrated in the following example.

</font>

In [None]:
# Stelle x,y graphisch dar
# Beschriftungen
plt.scatter(x=l,y=A4_plus5_error_large, label="y=4x+5 mit grosser Streuung")
plt.ylabel('y-Achse: y')
plt.xlabel('x-Achse: x')
plt.title('Lineare Gleichung/ Streuung - Regression MSE')
plt.grid()

# Durchschnitt y
y_mean = np.mean(A4_plus5_error_large)
# Durschnitt x
x_mean = np.mean(l)

# Durchschnitt xy
xy_mean = np.mean(np.multiply(A4_plus5_error_large,l))

# Durchschnitt x^2
xx_mean = np.mean(np.multiply(l,l))

# Quadrat von Durschnitt x
x_mean_sq = np.multiply(x_mean,x_mean)

# Steigung a
a_calc = (xy_mean-y_mean*x_mean)/(xx_mean-x_mean_sq)

# Y-Achsenabschnitt b_0
b_0_calc = y_mean - a_calc*x_mean

# Berechne Datenpunkte optimale (min MSE) Datenpunkte
A_calc = np.add(np.multiply(l,a_calc),b_0_calc)

# Berechne den MSE und R^2 siehe später
n = len(A_calc)
MSE_calc = np.sum(np.power(np.subtract(A4_plus5_error_large, A_calc),2))/n
R_sq_calc = np.subtract(1,np.divide(MSE_calc,np.var(A4_plus5_error_large)))

plt.plot([l[0],l[len_A-1]],[A_calc[0],A_calc[len_A-1]], color='r',marker='x', label='A_calc MSE')

plt.vlines(x=l,ymin=A_calc,ymax=A4_plus5_error_large,colors='b',label='error')

#plt.scatter(x=l,y=A_calc,label="A_calc MSE")
s = "MSE = {:.4f} \n R^2 = {:.4f}".format(MSE_calc, R_sq_calc)
print(s)
plt.text(6,20,s)

plt.legend()

print("Die nach minimierung des MSE optimale Lösung für die Steigung a_calc ist: "+str(a_calc))
print("Die nach minimierung des MSE optimale Lösung für den Y-Achsenabschnitt b_0_calc ist: "+str(b_0_calc))




Aufgabe: In der Grafik "Lineare Gleichung/ Streuung - Regression MSE" sieht man, dass die berechneten Werte für die Steigung und den y-Achsenabschnitt nicht exakt mit denjenigen der Daten generierenden linearen Gleichung übereinstimmen. Wieso?

<font color='orange'>

Task: In the graph "Linear Equation/Scatter - Regression MSE" you can see that the calculated values for the slope and the y-axis intercept do not exactly match those of the linear equation generating the data. Why?

</font>

...

Die Grafik "Lineare Gleichung/ Streuung - Regression MSE" sieht einer Ausgabe von SoloVPE schon sehr ähnlich. Und die Berechnungen die im Hintergrund ablaufen um eine Konzentration mittels Absorbtionswerten über mehrere Weglängen zu erhalten sind genau die Selben die wir jetzt hergeleitet haben.

Weiter hat man jetzt die möglichkeit $R^2$ zu berechnen.

$$R^2 = 1 - \frac{MSE}{Var(y)} = 1 - \frac{MSE}{\frac{1}{n}\sum_{i=1}^n(\hat{y}_i-\bar{y})^2}$$

$R^2$ ist neben dem MSE ein Mass dafür wie gut der berechnette Fit ist, wie gut die lineare Gleichung die gemessenen Werte repräsentiert. Man weiss nun, dass je kleiner der MSE ist, desto besser ist der lineare Fit. 

<font color='orange'>

The graph "Linear Equation/Scatter - Regression MSE" looks very similar to an output of SoloVPE. And the calculations that run in the background to obtain a concentration by means of absorption values over several path lengths are exactly the same as we have now derived.

Further one has now the possibility to calculate $R^2$.

$$R^2 = 1 - \frac{MSE}{Var(y)} = 1 - \frac{MSE}{\frac{1}{n}\sum_{i=1}^n(\hat{y}_i-\bar{y})^2}$$

$R^2$, along with the MSE, is a measure of how good the calculated fit is, how well the linear equation represents the measured values. We now know that the smaller the MSE, the better the linear fit. 

</font>

In [None]:
# Aufgabe 3: Ein perfekter Fit hat einen Wert MSE von zwischen 0 und 1?
# Task 3: A perfect fit has a value MSE of between 0 and 1?
MSE = ...

# Aufgabe 3: Ein perfekter Fit hat einen Wert R^2 von zwischen 0 und 1?
# Task 3: A perfect fit has a value R^2 of between 0 and 1?
R_sq = ...

In [None]:
grader.check('Aufgabe 3')

Es gibt diverse Bibliotheken die genau den Lösungsansatz benutzen den man vorhergehend hergeleitet und programmiert hat. Unter anderem die sehr mächtige und populäre Bibliothek [scikit-learn](https://scikit-learn.org/stable/). 

<font color='orange'>

There are various libraries which use exactly the solution approach which one derived and programmed before. Among other things the very powerful and popular library [scikit-learn](https://scikit-learn.org/stable/). 

</font>

In [None]:
# Lineare Regressionsanalyse
 
from sklearn.linear_model import LinearRegression   # Bibliothek sklearn wird benutzt um die Klasse LinearRegression zu importieren
 
lr = LinearRegression()                             # instanziieren der Klasse
 
lr.fit(np.array(l).reshape(-1,1), A4_plus5_error_large)                            # trainieren

In [None]:
print('Lineare Regression')
print('Lineare Gleichung (sklearn): y = %.15f * x + %.15f' % (lr.coef_[0], lr.intercept_))
print("b_0: {}".format(lr.intercept_))
print("a: {}".format(lr.coef_[0]))
print("R² : {:.2f}".format(lr.score(np.array(l).reshape(-1,1), A4_plus5_error_large)))
print("\n")

## Beispiel / <font color='orange'>

## Example
</font>

Folgend wird der Ablauf einer SoloVPE Messung dargestellt.  <font color='orange'> Following a workflow for a SoloVPE measurement. </font>
- Setze die Weglänge Null. <font color='orange'>Find zero pathlength</font>
- Bestimme Weglänge mit 1.0 AU. <font color='orange'>Find pathlength at approx. 1.0 AU.</font>
- Messe 10 Datenpunkte (Weglänge vs. AU). <font color='orange'>Measure 10 Datapoints at different pathlengths</font>
- Führe eine Regressions Analyse auf den gemessenen Datenpunkten aus. <font color='orange'> Linear Regression on measured Datapoints.</font>


<img src='workflow_solovpe.png' style='max-width: 80%; border: solid 5px #CCC; text-align: center;'>

SoloVPE liefert die folgende Analyse zurück. <font color='orange'>SoloVPE returns the following Data on the performed Analysis</font>


<img src='solovpe_result_window.png' style='max-width: 80%; border: solid 5px #CCC; text-align: center;'>


In der folgenden Aufgabe sollen die in der Analyse-Ausgabe berechneten Werte (1,3,4) mittels der Datenpunkte (PL (mm) und QS Abs at 280.00nm) reproduziert werden. <font color='orange'>In the following exercise the values (1,3,4) shown in the analysis window should be reproduced based only on the measured datapoints (PL (mm) and QS Abs at 280.00nm)</font>





In [None]:
# Aufgabe 4 / Exercise 4
from sklearn.linear_model import LinearRegression
import numpy as np

# Erstelle einen Array mit den gemessenen Datenpunkten (PL, Weglänge) / Create an array with the measured data points (PL, path length) 
pl = ...
# Erstelle einen Array mit den gemessenen Datenpunkten (AU, Absorption) / Create an array with the measured data points (AU, absorption)
AU = ...

# Setze den Wert für den Extinktions-Koeffizienten Epsilon / Set the value for the extinction coefficient Epsilon
eps = ...
print('EC Value {:.5f} ml/(mg*cm)'.format(eps))

# Berechne die Absorption pro Weglänge (Abs/mm) (die Steigung, Nr. 4) mittels linearer Regression ob eine Bibliothek benutzt wird 
# oder die Steigung mittels analytischer Methode ausgerechnet wird, oder beides ist freigestellt.
# Calculate the absorbance per path length (Abs/mm) (the slope, No. 4) by linear regression whether a library is used 
# or the slope is calculated by analytical method, or both is optional.
slope = ...
slope = np.floor(slope*100000)/100000.0 # Aus technischen Gründen wird die Steigung nur auf 5 Nachkommastellen genau dargestellt / 
# For technical reasons, the slope is only displayed with an accuracy of 5 decimal places
print('Abs/ mm {:.5f}'.format(slope))

# Berechne R^2 (3) / Calculate R^2 (3)
r_square = ...
print('R-Sqr: {:.5f}'.format(r_square))

# Berechne die Konzentration (1). Achte auf die Einheiten ;) / # Calculate the concentration (1). Pay attention to the units ;) 
conc = ...
print('Concentration Results based on Extinction Coefficient: {:.5f} mg/ml'.format(conc))

# Der MSE ist nicht im Ausgabefenster aufgelistet, wie würde er lauten? / # The MSE is not listed in the output window, what would it be?
MSE_4 = ...
print('MSE: {}'.format(MSE_4))

# Angenommen man ist besonders an der Absorption zwischen der Weglänge 0.41 mm und 0.37 mm interessiert - ist es möglich gegeben der 
# linearen Regression Absorptionswerte für das Intervall [0.41,0.37] mit Schrittlänge 0.01 mm vorherzusagen?
# Assuming one is particularly interested in the absorption between the path length 0.41 mm and 0.37 mm - is it possible given the 
# linear regression to predict absorption values for the interval [0.41,0.37] with step length 0.01 mm?
pl_genau = ...
prediction = ...
for i in range(len(prediction)):
    print('{0}: Pathlength: {1:.2f} has AU: {2:.5f}'.format(i,pl_genau[i],prediction[i]))

# Welche Einheit hat die Konzentration (mehrere Werte sind möglich)? / Which unit has the concentration (several values are possible)?
# 1) mg/ml
# 2) g/L
# 3) g/cm
# 4) mg
lsg_conc = [1,2,3,4]

# Welche Einheit hat AU? / Which unit has AU?
# 1) g
# 2) keine / none
# 3) 1/cm
# 4) nm
lsg_au = [1,2,3,4]

# Bei welcher Wellenlänge wurden die Messungen durchgeführt (mehrere Werte sind möglich)? / 
# At which wavelength were the measurements performed (multiple values are possible)?
# 1) 280 nm
# 2) 0,28 um
# 3) 0,25 mm
# 4) 260 nm
lsg_delta = [1,2,3,4]


In [None]:
grader.check('Aufgabe4')

In [None]:
# Aufgabe 4 / Exercise 4 - Lösungen
from sklearn.linear_model import LinearRegression
import numpy as np

# Erstelle einen Array mit den gemessenen Datenpunkten (PL, Weglänge) / Create an array with the measured data points (PL, path length) 
pl = [0.43,0.41,0.39,0.37,0.35,0.33,0.31,0.29,0.27,0.25]
# Erstelle einen Array mit den gemessenen Datenpunkten (AU, Absorption) / Create an array with the measured data points (AU, absorption)
AU = [1.00168,0.96585,0.92997,0.89424,0.85784,0.82050,0.78402,0.74714,0.71115,0.67496]

# Setze den Wert für den Extinktions-Koeffizienten Epsilon / Set the value for the extinction coefficient Epsilon
eps = 0.66700
print('EC Value {:.5f} ml/(mg*cm)'.format(eps))

# Berechne die Absorption pro Weglänge (Abs/mm) (die Steigung, Nr. 4) mittels linearer Regression ob eine Bibliothek benutzt wird 
# oder die Steigung mittels analytischer Methode ausgerechnet wird, oder beides ist freigestellt.
# Calculate the absorbance per path length (Abs/mm) (the slope, No. 4) by linear regression whether a library is used 
# or the slope is calculated by analytical method, or both is optional.
lr2 = LinearRegression()
lr_res = lr2.fit(np.array(pl).reshape(-1,1),AU)
slope = lr_res.coef_[0]
slope = np.floor(slope*100000)/100000.0 # Aus technischen Gründen wird die Steigung nur auf 5 Nachkommastellen genau dargestellt / 
# For technical reasons, the slope is only displayed with an accuracy of 5 decimal places
print('Abs/ mm {:.5f}'.format(slope))

# Berechne R^2 (3) / Calculate R^2 (3)
r_square = lr_res.score(np.array(pl).reshape(-1,1),AU)
print('R-Sqr: {:.5f}'.format(r_square))

# Berechne die Konzentration (1). Achte auf die Einheiten ;) / # Calculate the concentration (1). Pay attention to the units ;) 
conc = slope/(eps/10)
print('Concentration Results based on Extinction Coefficient: {:.5f} mg/ml'.format(conc))

# Der MSE ist nicht im Ausgabefenster aufgelistet, wie würde er lauten? / # The MSE is not listed in the output window, what would it be?
MSE_4 = (1+r_square)*np.var(AU)
print('MSE: {}'.format(MSE_4))

# Angenommen man ist besonders an der Absorption zwischen der Weglänge 0.41 mm und 0.37 mm interessiert - ist es möglich gegeben der 
# linearen Regression Absorptionswerte für das Intervall [0.41,0.37] mit Schrittlänge 0.01 mm vorherzusagen?
# Assuming one is particularly interested in the absorption between the path length 0.41 mm and 0.37 mm - is it possible given the 
# linear regression to predict absorption values for the interval [0.41,0.37] with step length 0.01 mm?
pl_genau = np.arange(0.37,0.42,step=0.01)
prediction = lr_res.predict(pl_genau.reshape(-1,1))
for i in range(len(prediction)):
    print('{0}: Pathlength: {1:.2f} has AU: {2:.5f}'.format(i,pl_genau[i],prediction[i]))

# Welche Einheit hat die Konzentration (mehrere Werte sind möglich)? / Which unit has the concentration (several values are possible)?
# 1) mg/ml
# 2) g/L
# 3) g/cm
# 4) mg
lsg_conc = [1,2]

# Welche Einheit hat AU? / Which unit has AU?
# 1) g
# 2) keine / none
# 3) 1/cm
# 4) nm
lsg_au = [2]

# Bei welcher Wellenlänge wurden die Messungen durchgeführt (mehrere Werte sind möglich)? / 
# At which wavelength were the measurements performed (multiple values are possible)?
# 1) 280 nm
# 2) 0,28 um
# 3) 0,25 mm
# 4) 260 nm
lsg_delta = [1,2]