# Workflows mit Daten


## Daten teilen

Verwaltet eure Dateien in einem [Git Repository](https://git-scm.com) zu verwalten. Das ist ein Ordner, in dem Git regelmäßig alle Änderungen der Dateien darin speichert, sodass ein konsistenter Versions-Verlauf entsteht. Über einen Dienst wie [GitHub](https://www.github.com) könnt ihr das Repository jederzeit mit eurem Partner abgleichen, ohne dass Synchronisierungs-Konflikte entstehen können.

Git ist die Grundlage weltweiter Softwareentwicklung und wird in der Wissenschaft bereits ebenso viel verwendet. Nutzt also die Gelegenheit, im PAP mit Git und Python zwei der grundlegenden Technologien moderner Wissenschaft zu lernen. Eine Einführung in Git bietet euch [try.github.io](http://try.github.io/). Wenn ihr lieber ohne Kommandozeile arbeitet könnt ihr Git mit der [GitHub Desktop](https://desktop.github.com) App auch mit einer graphischen Oberfläche verwenden.

## Formatiert eure Daten konsistent

Sinnvoll ist, Spalten durch Tabulatoren zu trennen und in einer Titelzeile die Messgröße und ihre Einheit zu notieren:

    t [s] <TAB> x [mm]
    0 <TAB> 5.1
    1 <TAB> 12.25
    2 <TAB> 19.5
    3 <TAB> 31.13

In den meisten Fällen lesen wir Daten mit [`numpy.loadtxt`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html) ein. Ein Format wie dieses kann die Funktion ohne Schwierigkeiten lesen, wenn wir mit `skiprows=1` die Titelzeile überspringen:

In [1]:
import numpy as np

In [2]:
np.loadtxt('data/formatted_data.txt', skiprows=1)

array([[ 0.  ,  5.1 ],
       [ 1.  , 12.25],
       [ 2.  , 19.5 ],
       [ 3.  , 31.13]])

## Lest beliebige Datensätze ein

Die `numpy.loadtxt` Funktion ist flexibel genug, um Daten jeglicher Form einlesen zu können. Schaut euch einfach die Struktur eurer Daten an, indem ihr bspw. die `!head` Funktionalität im Jupyter Notebook verwendet:

In [3]:
#!head data/comma_separated_data.txt
with open('data/comma_separated_data.txt') as f:
    for _ in range(10):
        print(f.readline())

t [s] x [mm]

0 5,1

1 12,25

2 19,5

3 31,13








Diese Daten verwenden bspw. ein Komma statt eines Punktes als Dezimaltrennzeichen. Zieht die Dokumentation der `numpy.loadtxt` Funktion zu Rate, um eine Option zu finden, die Daten einzulesen:

In [4]:
#np.loadtxt?

Dem Argument `converters` der Funktion `numpy.loadtxt` können wir in einem Dictionary für jede Spalte eine Funktion angeben, die einen Wert des Datensatzes beliebig verändern kann. Wir ersetzen also das Komma durch einen Punkt und konvertieren den String zu einem Float:

In [5]:
def comma_decimal_to_float(valstr):
    return float(valstr.decode("utf-8").replace(',','.'))

np.loadtxt('data/comma_separated_data.txt', skiprows=1, converters={ 1: comma_decimal_to_float })

array([[ 0.  ,  5.1 ],
       [ 1.  , 12.25],
       [ 2.  , 19.5 ],
       [ 3.  , 31.13]])

Wenn ihr Daten in einem Format vorliegen habt, das `numpy.loadtxt` nicht direkt einlesen kann, erinnert euch daran, dass euch mit Python die Möglichkeiten einer vollwertigen Programmiersprache zur Verfügung stehen. Durch String-Manipulationen könnt ihr die Daten häufig so weit verändern, dass ihr die Daten weiterverarbeiten könnt.