# Grundlagen der Wahrscheinlichkeitsrechnung und Pandas
In dieser Übung werden wir uns mit den Grundlagen der Wahrscheinlichkeitstheorie beschäftigen, und auch etwas allgemeiner mit Datenanalyse-Methoden in Python (Pandas).

## 1. Satz von Bayes
Bob möchte gerne wissen, ob es regnet. Dazu schaut er aus dem Fenster, ob die Straße nass ist. Wenn es tatsächlich regnet, ist die Straße mit einer Wahrscheinlichkeit von 95 % nass (in 5 % der Fälle regnet es noch nicht lange genug, damit die Straße für Bob nass aussieht). Wenn es nicht regnet, ist die Straße mit einer Wahrscheinlichkeit von 25 % nass (weil der Nachbar von Bob den Rasensprenger laufen lässt, der auch die Straße trifft). Darüber hinaus weiß Bob, dass es an 40 % aller Tage regnet. Benutzen Sie für die folgenden Aufgaben die folgende Notation:

* $r$: Es regnet.
* $\bar{r}$: Es regnet nicht.
* $n$: Die Straße ist nass.

Berechnen Sie die folgenden Wahrscheinlichkeiten:

$p(r)$

$p(\bar{r})$

$p(n|r)$

$p(n|\bar{r})$

$p(r|n)$

## 2. Pandas

Ein weit verbreitetes Python-Paket für Datenmanagement und -analyse ist `pandas`. Die grundlegende Datenstruktur, die dieses Paket bereitstellt, ist das Data Frame. Ein Data Frame ist eine Tabelle, die im Prinzip so verwendet werden kann wie eine Tabelle in einer relationalen Datenbank, z.B. können Zeilen oder Spalten (oder beides) selektiert werden.

In [5]:
import numpy as np
import pandas as pd
from scipy.io import arff
import matplotlib.pyplot as plt

data = arff.loadarff('S08.arff')
df = pd.DataFrame(data[0])


#plt.plot(df["Sensor_T8_Acceleration_X"])
df

Unnamed: 0,32.000000,32.000000.2,32.000000.1
0,-37,-40,-49
1,-37,-41,-43
2,-32,-37,-36
3,-43,-42,-41
4,-36,-39,-38
5,-35,-38,-38
6,-34,-38,-35
7,-34,-38,-33
8,-36,-41,-34
9,-32,-36,-33


### Zeilen und Spalten auswählen

Mit pandas können einfach bestimmte Zeilen und Spalten aus dem Data Frame ausgewählt werden. Eine Option besteht darin, Spalten über ihren Namen auszuwählen.


In [None]:
accx = df.loc[:,"Sensor_T8_Acceleration_X"]
accx

Der `:` steht für "Wähle alle Zeilen". Wenn nur eine einzige Spalte gewählt wird, ist das Ergebnis vom Typ `Series`, ansonsten ist das Ergebnis wieder ein Data Frame. Spalten können auch über ihren Index ausgewählt werden:

In [None]:
acc = df.iloc[:,1:4]
acc

Zeilen können auf die gleiche Art zugegrifen werden. Der folgende Ausdruck liefert beispielsweise die ersten 5 Zeilen:

In [None]:
df.iloc[0:5,:]

Natürlich können wir auch beides kombinieren, z.B. so:

In [None]:
df.loc[0:5,["Sensor_T8_Acceleration_X", "Sensor_T8_Acceleration_Y"]]

Eine andere praktische Möglichkeit besteht darin, Zeilen oder Spalten über Bool'sche Ausdrücke auszuwählen. Der folgende Ausdruck liefert z.B. alle Zeilen, bei denen der Wert von  `Sensor_T8_Acceleration_X` kleiner als 0.7 ist.

In [None]:
df.loc[df.Sensor_T8_Acceleration_X < 0.7,:]

### Werte Einfügen

Das Einfügen von Werten in ein Data Frame funktioniert genau so. Der folgende Ausdruck setzt alle Werde der Spalte  `Sensor_T8_Acceleration_Y`, die kleiner als 0 sind, auf den Wert 0.

In [None]:
df.loc[df.Sensor_T8_Acceleration_Y < 0,"Sensor_T8_Acceleration_Y"] = 0
df

### Apply
In vielen Fällen wollen wir eine Funktion auf eine komplette Zeile oder Spalte der Daten anwenden. Die Funktion  `apply` erlaubt uns das. Der folgende Ausdruck berechnet die Mittelwerte pro Spalte:

In [None]:
df.iloc[:,1:31].apply(np.mean)

## Aufgabe

Wir wollen einige Features auf den Daten berechnen. Für sequentielle Daten werden Features typischerweise Segment-basiert berechnet. Das bedeutet, wir berechnen zunächst eine Feature-Funktion (Mittelwert, ...) für die Zeilen 1 bis n, dann für n+1 bis 2n, usw. Die Segmente können sich auch überlappen. 

Implementieren Sie die Funktion `feature`, die eine gegebene statistische Feature-Funktion (mean, ...) für eine gegebene Fenstergröße, Überlappung und einen gegebenen Datensatz berechnet. Berechnen Sie dann Mittelwert, Median und Varianz der Accelerometerdaten des rechten Fußes mit Segmentlängen von 128, 256 und 512. Benutzen Sie 50% Überlappung und plotten Sie das Ergebnis.



In [None]:
# TODO