# Daten und Datenstrukturen

Daten sind die Basis für Machine Learning. Allerdings kannst du für Machine Learning die Daten nicht in beliebiger Form nutzen. Da Machine Learning im Prinzip *Lineare Algebra* ist, benötigst du die Daten in Zahlenform. Liegen deine Daten in anderer Form vor, musst du sie *transformieren*.

Für einige wenige Aufgaben genügt es, wenn du die Daten als *Skalare* (d.h. Zahlen) zur Verfügung hast. Häufig ist das allerdings nicht der Fall, du benötigst *reichere Datenstrukturen*. Weil du dich weiter mit Zahlen beschäftigen möchtest, kannst du dafür mehrere Zahlen kombinieren und erhältst darüber *Vektoren*.

## Zahlen

Du findest in Python mehrere unterschiedliche Datentypen, um Zahlen darzustellen. So gibt es

* Ganzzahlen,
* Fließkommazahlen und 
* komplexe Zahlen. 

Letztere werden so gut wie gar nicht verwendet und du findest sie hier nur der Vollständigkeit halber.

In [None]:
# int (Ganzzahl)
4711

In [None]:
# Fließkommazahlen (float)
3.14159

In [None]:
# komplexe Zahlen (complex)
1 + 1j

Es gibt vielfältige Möglichkeiten, wie du diese Datentypen ineinander umrechnest. In den meisten Fällen genügt es `round()` oder `int()` zu verwenden, um einen `float` in einen `int` umzurechnen. Umgekehrt kannst du einfach mit `1.0` multiplizieren.

Eine Besonderheit solltest du beachten. Im Gegensatz zu (fast) allen anderen Programmiersprachen macht Python hier etwas anders: für die Ganzzahldivision wird `//` (das sonst fast immer einen Kommentar einleite) verwendet und nicht `/`, letzteres produziert immer einen `float`:

In [None]:
10 // 2

In [None]:
10 / 2

## Vektoren

Wenn dir eine einzelne Zahl nicht ausreicht, kannst du Zahlen in Vektoren kombinieren. Die einfachste Form von Vektoren in Python sind `list` (Arrays oder Listen). Es gibt zwar auch noch Tupel, aber die sind unveränderlich, die wirst du nicht so häufig benötigen:

In [None]:
l = [1, 2, 3, 4, 5]
l

Mit `.append()` kannst du Werte an eine `list` anhängen:

In [None]:
l.append(6)
l

Neben den reinen `list`-Strukturen in Python wirst du auch häufig die Arrays von `numpy` benötigen, die ein paar zusätzliche Tricks beherrschen. Du kannst einfach zwischen den beiden wandeln:

In [None]:
import numpy as np
nl = np.array(l)
nl

In [None]:
nl.tolist()

Besonders spannend an `numpy.array` ist, dass du die Daten gut filtern kannst:

In [None]:
nl[nl > 2]

## Matrizen

Die Vektoren dienen dir im Machine Learning oft zur Darstellung eines einzelnen Objekts. Wenn du mehrere darstellen möchtest, entstehen Vektoren von Vektoren, also Matrizen (in noch höheren Dimensionen sprichst du übrigens von Tensoren, diese werden aber hauptsächlich im Deep Learning benötigt).

Matrizen kannst du sowohl direkt in Python als auch in `numpy` verwenden. Die von `numpy` (und dem daraus abgeleitetn `scipy`) sind deutlich leistungsfähiger und es gibt auch optimierte Varianten (z.B. für dünn besetzt Matrizen):

In [None]:
a = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
a

In [None]:
na = np.array(a)
na

Wie gewohnt kannst du das auch umgekehrt konvertieren:

In [None]:
na.tolist()

So könnte auch ein Bild dargestellt werden wie oben beschrieben. Wenn du das nun in einen Vektor wandeln möchtest, musst du die Datenstruktur *flachklopfen*. Das geht in `numpy` sehr einfach, in reinem Python ist es schwieriger:

In [None]:
na.flatten()

## Höherdimensionale Objekte

Der Vollständigkeit halber sei erwähnt, dass du besonders für *Deep Learning* noch höherdimensionale Objekte benötigst, die sog. *Tensoren*. Diese werden wir in diesem Videokurs allerdings nicht nutzen.

## Datenaufbereitung mit `pandas`

Leider hast du die Daten häufig nicht in der Form zur Verfügung, in der du sie eigentlich brauchst. Natürlich kannst du Umformungen mit `numpy` vornehmen, aber oft ist das gar nicht so einfach.

`pandas` als Standard-Bibliothek für Data Science in Python ist da oft deutlich besser geeignet. Mit `pandas` kannst du Daten in `DataFrame`s modifizieren, selektieren oder  unterschiedlichen `DataFrame`s miteinander verbinden.

`pandas` ist sehr leistungsfähig, aber nicht unbedingt immer besonders intuitiv. Du wirst einiges in der [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/) nachlesen müssen oder Fragen auf [Stackoverflow](https://stackoverflow.com/questions/tagged/pandas) herausfinden müssen.

Um die Arbeit mit `pandas` etwas einfacher zu gestalten, werden wir uns bei Bedarf immer einige Features in den jeweiligen Notebooks heraussuchen und damit arbeiten. So kannst du dich nach und nach mit der Software vertraut machen.