# Numpy
Numpy ist ein populäres Python-Paket für numerische Berechnungen. Die wesentliche Datenstruktur ist das *Array*. Im Gegensatz zu Python-Listen sind alle Elemente eines Arrays vom selben Typ (normalerweise: Gleitkomma-Zahlen), und arithmetische Operationen sind so definiert, wie man das aus der Mathematik erwarten würde (im Gegensatz zu Python-Listen).

Arrays können beispielsweise so erzeugt werden:

In [None]:
import numpy as np
zz = np.zeros(10000)
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
b = np.arange(10)

*Aufgabe*: Erstellen Sie eine Sequenz von Zahlen mit np.arange() mit Start 0 und bis (exklusive) 6, mit Schrittlänge 1.

Eine ähnliche Methode zur Erzeugung von Arrays ist numpy.linspace(). 

*Aufgabe*: Erstellen Sie eine Sequenz von Zahlen mit np.linspace(), mit Start 0 und bis (exklusive) 0.6, mit Schrittlänge 0.1.

## Sinus-Funktionen
Numpy kann auch verwendet werden, um interessantere Signale zu erstellen, beispielsweise eine Sinus-Welle. Die Funktion folgt der Gleichung $y(t) = A\sin(\omega t)$ mit $\omega = 2\pi f$, wobei $f$ die Frequenz ist, $A$ die maximale Amplitude und $t$ die Zeit. 

Die interessante Eigenschaft vieler Numpy-Funktionen ist die Tatsache, dass diese direkt auf Arrays arbeiten. Das bedeutet, die Eingabe der Funktion np.sin() kann ein Array sein, die Funktion berechnet dann den Sinus an jeder Stelle des Arrays. 

Das ist ganz generell die Funktionsweise von Numpy: Alle Funktionen und arithmetischen Operationen arbeiten direkt auf Arrays. Bespielsweise entspricht die Multiplikation eines Skalars mit einem Array der Skalar-Vektor-Multiplikation, d.h. jedes Element des Arrays wird mit dem Skalar multipliziert.

*Aufgabe*: Erstellen Sie eine Sinus-Welle mit einer Frequenz von 2Hz, einer Dauer von 1s, einer Amplitude von 0.3 und einer Sampling-Frequenz von 44.1Hz.

# Datenanalyse

Im Rest dieser Übung schauen wir uns an, wie man in Python Datensätze laden, manipulieren und visualisieren kann. Außerdem schauen wir uns an, wie man Features auf Datensätzen berechnet.


## Pandas

Ein weit verbreitetes Python-Paket für Datenmanagement und -analyse ist `pandas`. Die grundlegende Datenstruktur, die dieses Paket bereitstellt, ist das Data Frame. Ein Data Frame ist eine Tabelle, die im Prinzip so verwendet werden kann wie eine Tabelle in einer relationalen Datenbank, z.B. können Zeilen oder Spalten (oder beides) selektiert werden.

In [None]:
import numpy as np
import pandas as pd
from scipy.io import arff
import matplotlib.pyplot as plt

data = arff.loadarff('S08.arff')
df = pd.DataFrame(data[0])


#plt.plot(df["Sensor_T8_Acceleration_X"])
df

### Zeilen und Spalten auswählen

Mit pandas können einfach bestimmte Zeilen und Spalten aus dem Data Frame ausgewählt werden. Eine Option besteht darin, Spalten über ihren Namen auszuwählen.


In [None]:
accx = df.loc[:,"Sensor_T8_Acceleration_X"]

Der `:` steht für "Wähle alle Zeilen". Wenn nur eine einzige Spalte gewählt wird, ist das Ergebnis vom Typ `Series`, ansonsten ist das Ergebnis wieder ein Data Frame. Spalten können auch über ihren Index ausgewählt werden:

In [None]:
acc = df.iloc[:,1:4]
acc

Zeilen können auf die gleiche Art zugegrifen werden. Der folgende Ausdruck liefert beispielsweise die ersten 5 Zeilen:

In [None]:
df.iloc[0:5,:]

Beide Möglichkeiten können auch kombiniert werden, z.B. so:

In [None]:
df.loc[0:5,["Sensor_T8_Acceleration_X", "Sensor_T8_Acceleration_Y"]]

Eine andere praktische Möglichkeit besteht darin, Zeilen oder Spalten über Bool'sche Ausdrücke auszuwählen. Der folgende Ausdruck liefert z.B. alle Zeilen, bei denen der Wert von  `Sensor_T8_Acceleration_X` kleiner als 0.7 ist.

In [None]:
df.loc[df.Sensor_T8_Acceleration_X < 0.7,:]

### Werte Einfügen

Das Einfügen von Werten in ein Data Frame funktioniert genau so. Der folgende Ausdruck setzt alle Werde der Spalte  `Sensor_T8_Acceleration_Y`, die kleiner als 0 sind, auf den Wert 0.

In [None]:
df.loc[df.Sensor_T8_Acceleration_Y < 0,"Sensor_T8_Acceleration_Y"] = 0
df

### Apply
In vielen Fällen wollen wir eine Funktion auf eine komplette Zeile oder Spalte der Daten anwenden. Die Funktion  `apply` erlaubt uns das. Der folgende Ausdruck berechnet die Mittelwerte pro Spalte:

In [None]:
df.iloc[:,1:31].apply(np.mean)

## Aufgabe 1

Berechnen Sie die Verteilung der Klassen in `df`. (`collections.Counter`)

Plotten Sie die Verteilung der Klassen als Bar Plot. 

Plotten Sie einige Accelerometer-Achsen (z.B. "Sensor_T8_Acceleration_X",
"Sensor_T8_Acceleration_Y", "Sensor_T8_Acceleration_Z") als Line Plot. Die verschiedenen Achsen sollen in verschiedenen Farben darstellt werden.

## Aufgabe 2

Als nächstes wollen wir einige Features auf den Daten berechnen. Für sequentielle Daten werden Features typischerweise Segment-basiert berechnet. Das bedeutet, wir berechnen zunächst eine Feature-Funktion (Mittelwert, ...) für die Zeilen 1 bis n, dann für n+1 bis 2n, usw. Die Segmente können sich auch überlappen. 

Implementieren Sie die Funktion `feature`, die eine gegebene statistische Feature-Funktion (mean, ...) für eine gegebene Fenstergröße, Überlappung und einen gegebenen Datensatz berechnet. Berechnen Sie dann Mittelwert, Median und Varianz der Accelerometerdaten des rechten Fußes mit Segmentlängen von 128, 256 und 512. Benutzen Sie 50% Überlappung und plotten Sie das Ergebnis.

