# Pandas DataFrame
Der Datentyp DataFrame ist die wichtigste Datenstruktur in Pandas. Er repräsentiert eine Tabelle ähnlich wie eine ExcelTabelle mit Spalten und Zeilen. Jede Spalte (sowie jede Zeile) ist eine Pandas-Series und damit unter der Haube auch wieder ein Numpy-Array.

Man kann also sagen, dass dieser Datentyp auf Tabellen basiert.

Jede Spalte besteht aus einem eindeutigen Daten-Typen, aber verschiedene Spalten haben verschiedene
Typen, z.B. könnte die erste Spalte vom Typ Integer sein, während die zweite Spalte vom Typ
Boolean und so weiter.

DataFrames lassen sich auf vielfältige Weise erstellen. Wir schauen uns hier mal die wichtigsten an.

## Dataframe aus einem Dictionary erstellen
Ein Dataframe lässt sich besonders einfach aus einem Dictionary erstellen. Die Keys des Dictionaries werden die zukünftigen Spalten, die Werte des Dictionaries werden die Einträge, sofern sie als Sequenz vorliegen. Beim Erstellen eines DataFrames muss darauf geachtet werden, dass die Anzahl der Werte für jeden Key gleich lang sind.

In [1]:
import pandas as pd

In [2]:
names = ["Ron", "Hermione", "Harry"]
points = [3, 2, 4]

d = {
    "names": names,
    "points": points
}

# Dictionary erstellen und daraus einen Dataframe machen
df = pd.DataFrame(d)

In [3]:
df

Unnamed: 0,names,points
0,Ron,3
1,Hermione,2
2,Harry,4


### Dataframe aus einem zweidimensionalen Numpy Array mit Spaltennamen erstellen

In [2]:
# numpy array
import numpy as np


### Dataframe aus zweidimensionaler Liste erstellen

In [6]:
staff = [
    ['Emma', 29, 'HR'],
    ['Oliver', 25, 'Finance'],
    ['Harry', 33, 'Marketing'],
    ['Sophia', 24, 'IT'],
    ['Mandos', 53, 'IT']
]

df = pd.DataFrame(staff, columns=["Name", "Age", "Department"])
df


Unnamed: 0,Name,Age,Department
0,Emma,29,HR
1,Oliver,25,Finance
2,Harry,33,Marketing
3,Sophia,24,IT
4,Mandos,53,IT


### Dataframe aus einer Liste von Dictionaries erstellen

In [4]:
staff = [
    {'Name': 'Emma', 'Age': 29, 'Department': 'HR'},
    {'Name': 'Oliver', 'Age': 25, 'Department': 'Finance'},
    {'Name': 'Harry', 'Age': 33, 'Department': 'Finance'},
    {'Name': 'Sophia', 'Age': 24, 'Department': 'IT'}]



### Spalte im DataFrame adressieren
Eine Spalte in einem Dataframe ist eine Pandas Series. Es gibt zwei Möglichkeiten, eine Spalte zu adressieren:

In [8]:
print("Dot Syntax:\n", df.Name)
print()
print("[] Syntax:\n", df["Name"])

Dot Syntax:
 0      Emma
1    Oliver
2     Harry
3    Sophia
4    Mandos
Name: Name, dtype: object

[] Syntax:
 0      Emma
1    Oliver
2     Harry
3    Sophia
4    Mandos
Name: Name, dtype: object


### Spalten anzeigen lassen

In [15]:
df.columns, list(df.columns)

(Index(['names', 'points'], dtype='object'), ['names', 'points'])

### Index der Spalten anzeigen

In [18]:
df.names.index

RangeIndex(start=0, stop=3, step=1)

### Tail und Head
mit den Funktionen Tail und Head lassen sich die ersten und letzten Einträge eines Dataframes anzeigen. Beide Funktionen erwarten optional die Anzahl der Einträge, die angezeigt werden sollen. Ohne Argument aufgerufen liegt der Defaultwert bei 10

In [9]:
# Zeige die beiden leztten Einträge
df.tail(2)

Unnamed: 0,Name,Age,Department
3,Sophia,24,IT
4,Mandos,53,IT


In [10]:
# Zeige den ersten Eintrag
df.head(2)

Unnamed: 0,Name,Age,Department
0,Emma,29,HR
1,Oliver,25,Finance


### Aufgabe 
Erstelle ein Dictionary colors, mit folgenden Key-Value Paaren:

red: [3, 4, 2]     
green: [3, 4, "5"]    
blue: [2.2, 4.4, 1.1]

Erstelle aus dem Dictionary einen DataFrame. Zeige den Datentyp jeder Spalte. Ändere den Datentyp für die Spalte red in int8.


In [5]:
# a) Erstelle ein Dictionary mit 3 Keys (red, green, blue) und als Wert eine Wert-Liste
# b) Erstelle aus dem Dictionary einen Dataframe
# c) Konvertiere die Spalte red in den Datentyp int8
colors = {
    "red": [3, 4, 2],
    "green": [3, 4, "5"],
    "blue": [2.2, 4.4, 1.1]    
}

df = pd.DataFrame(colors)
print("Datentyp red: ", df.red.dtype)
print("Datentyp green: ", df.green.dtype)
print("Datentyp blue: ", df.blue.dtype)

df.red = df.red.astype("int8")
print("Datentyp red: ", df.red.dtype)
