# Was ist Pandas
Pandas ist eine Bibliothek, die flexible und schnelle Datenstrukturen zur Datenanalyse bereitstellt. Die Entwickler verstehen es als **das** Werkzeug zur praktischen Datenanalyse in Python. Der Name steht als Kurzform für *Panel Data*. Dementsprechend werden tabellarische Daten verwendet, verändert und zusammengefasst, um Erkenntnisse zu gewinnen. Pandas selbst dient aber auch als Grundlage für andere Bibliotheken, wie beispielsweise das in einem späteren Abschnitt vorgestellte *Plotly*.

## Inhaltsverzeichnis
- [Import](#Import)
- [`Series`](#Series)
- [`DataFrame`](#DataFrame)
- [`NaN`](#NaN)
- [`shape` und `info`](#shape-und-info)
- [`head` und `tail`](#head-und-tail)

## Import
Pandas muss als Bibliothek installiert und importiert werden. Häufig wird der Alias `pd` verwendet.

In [None]:
import pandas as pd

## `Series`
Series sind eindimensionale Arrays. Sie verhalten sich wie `ndarray` aus NumPy, wobei zu jedem Element ein Bezeichner gespeichert werden kann. Im Folgenden werden Sie diese Bezeichner als `index` kennenlernen.

Series werden als Objekt erstellt und erhalten als ersten Parameter des Konstruktors entweder einen Iterator oder einen skalaren Wert.

In [None]:
pd.Series([1, 3, 5, 7])

Die Ausgabe enthält bereits einen Hinweis auf die Verwendung von NumPy im Hintergrund. Der Typ der enthaltenen Daten wurde automatisch bestimmt und auf `int64` gesetzt. Da Arrays heterogene Daten enthalten müssen, kann bereits ein abweichendes Element den Datentyp der gesamten Reihe verändern.

In [None]:
pd.Series([1, 3, 5.0, 7])

Ohne Angabe des Parameter `index` wird automatisch ein nummerierter Index mit dem Startwert $0$ erstellt. Sie können diesen jedoch auch selbst anlegen, indem Sie entweder ein Objekt zur Erstellung verwenden, das Schlüssel vorgibt, oder eine Liste von Bezeichnern übergeben.

In [None]:
pd.Series({
    'a': 1,
    'b': 2,
    'c': 3,
    'd': 4
})

In [None]:
pd.Series([5, 6, 7, 8], index=['e', 'f', 'g', 'h'])

Pandas versucht in jedem Fall, die Verknüpfung zwischen Element und Label aufrechtzuerhalten. Slicing wird beispielsweise gleichermaßen auf die Daten wie auf den Index angewendet.

In [None]:
pd.Series({
    'a': 1,
    'b': 2,
    'c': 3,
    'd': 4
})[1:3]

Pandas nutzt diese Bezeichner ebenfalls, wenn Operationen mit zwei Series durchgeführt werden. Die folgende Zelle erstellt zwei Series, die zwar beide jeweils zwei Elemente beinhalten, sich jedoch nur in einem Label gleichen. Bei der Addition wird nun also nur für den Bezeichner `b` ein Wert in jeder Series gefunden. In allen anderen Fällen fehlt dagegen ein Operand und das Ergebnis lautet [`NaN`](#NaN).

In [None]:
a = pd.Series({'a': 1, 'b': 2})
b = pd.Series({'b': 2, 'c': 3})

a + b

## `DataFrame`
DataFrames hingegen dienen der tabellarischen Repräsentation von Daten. Stellen Sie sich ein DataFrame wie ein Spreadsheet in einem Excel-Dokument oder wie eine einzelne Tabelle einer relationalen Datenbank vor.

DataFrames werden analog zu Series angelegt. `index` gilt dabei als Bezeichner für jeweils eine gesamte Zeile, während `columns` die Namen der Spalten angibt.

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
], index=['row1', 'row2', 'row3'], columns=['col1', 'col2', 'col3'])

Intern sind DataFrames eine Verknüpfung verschiedener Series. So können Sie auch ein DataFrame mit Hilfe eines Dictionaries erstellen, das als Schlüssel den Namen der Spalte und als Wert die Series beinhalten. Die Reihen werden anhand der Indizes der Series bestimmt und sogar vervollständigt, um die Tabellenstruktur einzuhalten.

In [None]:
series_a = pd.Series({'a': 1, 'b': 2})
series_b = pd.Series({'b': 3, 'c': 4})

pd.DataFrame({
    'col_a': series_a,
    'col_b': series_b
})

## `NaN`
`NaN` steht für "**N**ot **a** **N**umber" und bezeichnet einen speziellen Wert innerhalb der Gleitkommazahlen. NaN kommt immer dann zum Einsatz, wenn ein Wert nicht definiert oder nicht darstellbar ist.

In [None]:
number = float('NaN')
number, type(number)

Vergleiche mit NaN sind immer falsch.

In [None]:
number == 0, number < 0, number > 0, number == number

Mathematische Operationen mit NaN ergeben immer NaN.

In [None]:
number + 1, number * 2

Einen Fall, in dem NaN entsteht, haben Sie bereits beim Zusammenfügen zweier Series zu einem DataFrame gesehen. Übergeben Sie beim Anlegen einer Series oder eines DataFrames NaN oder `None`, so wird auch als Wert NaN gespeichert.

In [None]:
df = pd.DataFrame([1, None, float('NaN'), 4])
df

Vergleiche mit NaN sind immer falsch.

In [None]:
df > 2

Mathematische Operationen, bei denen ein Operand NaN ist, ergeben ebenfalls NaN.

In [None]:
df2 = pd.DataFrame([1, 2, 3, None])
df + df2

## `shape` und `info`

Mit `shape` erhalten Sie analog zu NumPy die Größe des DataFrame.

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6]
]).shape

Die Methode `info` zeigt detailliertere Informationen über die enthaltenen Daten und die Speichernutzung.

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6]
]).info()

## `head` und `tail`
Die Methode `head` zeigt die ersten Zeilen eines DataFrames. `tail` dagegen zeigt die letzten Zeilen. Die Anzahl lässt sich mit Hilfe des übergebenen Parameters festlegen. Der Index bleibt auch bei diesen Methoden erhalten.

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]).head(2)

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]).tail(2)