# Datenanalyse

In dieser Übung schauen wir uns an, wie man in Python Datensätze laden, manipulieren und visualisieren kann. Außerdem schauen wir uns an, wie man Features auf Datensätzen berechnet.


## Pandas

Ein weit verbreitetes Python-Paket für Datenmanagement und -analyse ist `pandas`. Die grundlegende Datenstruktur, die dieses Paket bereitstellt, ist das Data Frame. Ein Data Frame ist eine Tabelle, die im Prinzip so verwendet werden kann wie eine Tabelle in einer relationalen Datenbank, z.B. können Zeilen oder Spalten (oder beides) selektiert werden.

In [1]:
import numpy as np
import pandas as pd
from scipy.io import arff
import matplotlib.pyplot as plt

data = arff.loadarff('S08.arff')
df = pd.DataFrame(data[0])


#plt.plot(df["Sensor_T8_Acceleration_X"])
df

Unnamed: 0,time,Sensor_T8_Acceleration_X,Sensor_T8_Acceleration_Y,Sensor_T8_Acceleration_Z,Sensor_T8_AngularVelocity_X,Sensor_T8_AngularVelocity_Y,Sensor_T8_AngularVelocity_Z,Sensor_RightForeArm_Acceleration_X,Sensor_RightForeArm_Acceleration_Y,Sensor_RightForeArm_Acceleration_Z,...,Sensor_RightLowerLeg_AngularVelocity_X,Sensor_RightLowerLeg_AngularVelocity_Y,Sensor_RightLowerLeg_AngularVelocity_Z,Sensor_LeftLowerLeg_Acceleration_X,Sensor_LeftLowerLeg_Acceleration_Y,Sensor_LeftLowerLeg_Acceleration_Z,Sensor_LeftLowerLeg_AngularVelocity_X,Sensor_LeftLowerLeg_AngularVelocity_Y,Sensor_LeftLowerLeg_AngularVelocity_Z,class
0,0.0,0.970733,-0.055330,0.171758,0.018513,0.028240,-0.000941,0.908353,-0.303781,0.181371,...,0.036398,0.001883,-0.002196,0.991241,-0.035035,0.161290,0.009413,-0.012865,0.022278,b'open'
1,8.0,0.970733,-0.055330,0.171972,0.031691,0.033888,-0.006589,0.908567,-0.303568,0.181158,...,0.026985,0.000000,-0.014434,0.991241,-0.035035,0.161290,0.016630,-0.007217,0.023533,b'open'
2,16.0,0.970519,-0.055330,0.172185,0.028553,0.034515,0.000941,0.908567,-0.303568,0.181158,...,0.031064,0.002196,-0.009099,0.991241,-0.035249,0.161077,0.030436,-0.006589,0.016630,b'open'
3,24.0,0.970519,-0.055116,0.172613,0.033574,0.030122,-0.001569,0.908567,-0.303568,0.181158,...,0.032005,0.009413,-0.007844,0.991241,-0.035463,0.161077,0.030122,0.003765,0.028553,b'open'
4,32.0,0.970519,-0.055116,0.172613,0.039849,0.008786,0.000941,0.908567,-0.303354,0.180944,...,0.026357,-0.003138,-0.011610,0.991241,-0.035676,0.161290,0.033574,0.002510,0.027298,b'open'
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14636,117088.0,0.975860,-0.108737,0.116855,0.082209,-0.002196,-0.016003,0.259346,-0.521256,0.760949,...,0.074051,0.015689,0.042046,0.983123,0.002777,0.205298,0.036712,-0.059931,0.018513,b'close'
14637,117096.0,0.975860,-0.108524,0.116855,0.083464,0.004707,-0.011923,0.264046,-0.524247,0.757317,...,0.070913,0.015375,0.031691,0.983337,0.002564,0.204871,0.059931,-0.038281,0.023533,b'close'
14638,117104.0,0.975860,-0.108310,0.117069,0.109821,0.015061,-0.003138,0.268532,-0.527238,0.753685,...,0.074992,0.014120,0.039849,0.983337,0.002564,0.204657,0.060559,-0.035770,0.026043,b'close'
14639,117112.0,0.975860,-0.108310,0.117283,0.108880,0.021650,-0.010041,0.272805,-0.530442,0.749840,...,0.074678,0.015689,0.050204,0.983337,0.002350,0.204443,0.073110,-0.021337,0.030750,b'close'


### Zeilen und Spalten auswählen

Mit pandas können einfach bestimmte Zeilen und Spalten aus dem Data Frame ausgewählt werden. Eine Option besteht darin, Spalten über ihren Namen auszuwählen.


In [None]:
accx = df.loc[:,"Sensor_T8_Acceleration_X"]
accx

Der `:` steht für "Wähle alle Zeilen". Wenn nur eine einzige Spalte gewählt wird, ist das Ergebnis vom Typ `Series`, ansonsten ist das Ergebnis wieder ein Data Frame. Spalten können auch über ihren Index ausgewählt werden:

In [None]:
acc = df.iloc[:,1:4]
acc

Zeilen können auf die gleiche Art zugegrifen werden. Der folgende Ausdruck liefert beispielsweise die ersten 5 Zeilen:

In [None]:
df.iloc[0:5,:]

Beide Möglichkeiten können auch kombiniert werden, z.B. so:

In [None]:
df.loc[0:5,["Sensor_T8_Acceleration_X", "Sensor_T8_Acceleration_Y"]]

Eine andere praktische Möglichkeit besteht darin, Zeilen oder Spalten über Bool'sche Ausdrücke auszuwählen. Der folgende Ausdruck liefert z.B. alle Zeilen, bei denen der Wert von  `Sensor_T8_Acceleration_X` kleiner als 0.7 ist.

In [None]:
df.loc[df.Sensor_T8_Acceleration_X < 0.7,:]

### Werte Einfügen

Das Einfügen von Werten in ein Data Frame funktioniert genau so. Der folgende Ausdruck setzt alle Werte der Spalte  `Sensor_T8_Acceleration_Y`, die kleiner als 0 sind, auf den Wert 0.

In [None]:
df.loc[df.Sensor_T8_Acceleration_Y < 0,"Sensor_T8_Acceleration_Y"] = 0
df

### Apply
In vielen Fällen wollen wir eine Funktion auf eine komplette Zeile oder Spalte der Daten anwenden. Die Funktion  `apply` erlaubt uns das. Der folgende Ausdruck berechnet die Mittelwerte pro Spalte:

In [None]:
df.iloc[:,1:31].apply(np.mean)

## Aufgabe 1

Berechnen Sie die Verteilung der Klassen in `df`. (`collections.Counter`)

Plotten Sie die Verteilung der Klassen als Bar Plot. 

Plotten Sie einige Accelerometer-Achsen (z.B. "Sensor_T8_Acceleration_X",
"Sensor_T8_Acceleration_Y", "Sensor_T8_Acceleration_Z") als Line Plot. Die verschiedenen Achsen sollen in verschiedenen Farben darstellt werden.

## Aufgabe 2

Als nächstes wollen wir einige Features auf den Daten berechnen. Für sequentielle Daten werden Features typischerweise Segment-basiert berechnet. Das bedeutet, wir berechnen zunächst eine Feature-Funktion (Mittelwert, ...) für die Zeilen 1 bis n, dann für n+1 bis 2n, usw. Die Segmente können sich auch überlappen. 

Implementieren Sie die Funktion `feature`, die eine gegebene statistische Feature-Funktion (mean, ...) für eine gegebene Fenstergröße, Überlappung und einen gegebenen Datensatz berechnet. Berechnen Sie dann Mittelwert, Median und Varianz der Accelerometerdaten des rechten Fußes mit Segmentlängen von 128, 256 und 512. Benutzen Sie 50% Überlappung und plotten Sie das Ergebnis.

