# Pandas DataFrame
Der Datentyp DataFrame ist die wichtigste Datenstruktur in Pandas. Er repräsentiert eine Tabelle ähnlich wie eine ExcelTabelle mit Spalten und Zeilen. Jede Spalte (sowie jede Zeile) ist eine Pandas-Series und damit unter der Haube auch wieder ein Numpy-Array.

Man kann also sagen, dass dieser Datentyp auf Tabellen basiert.

Jede Spalte besteht aus einem eindeutigen Daten-Typen, aber verschiedene Spalten haben verschiedene
Typen, z.B. könnte die erste Spalte vom Typ Integer sein, während die zweite Spalte vom Typ
Boolean und so weiter.

DataFrames lassen sich auf vielfältige Weise erstellen. Wir schauen uns hier mal die wichtigsten an.

## Dataframe aus einem Dictionary erstellen
Ein Dataframe lässt sich besonders einfach aus einem Dictionary erstellen. Die Keys des Dictionaries werden die zukünftigen Spalten, die Werte des Dictionaries werden die Einträge, sofern sie als Sequenz vorliegen. Beim Erstellen eines DataFrames muss darauf geachtet werden, dass die Anzahl der Werte für jeden Key gleich lang sind.

In [2]:
import pandas as pd

In [13]:
names = ["Ron", "Hermione", "Harry"]
points = [3, 2, 4]

d = {
    "names": names,
    "points": points,
}

df = pd.DataFrame(d)
print("Shape von df: ", df.shape)
print("Dim von df: ", df.ndim)
print()
print("Datentypen: ", df.dtypes)

Shape von df:  (3, 2)
Dim von df:  2

Datentypen:  names     object
points     int64
dtype: object


In [4]:
df

Unnamed: 0,names,points
0,Ron,3
1,Hermione,2
2,Harry,4


### Dataframe aus einem zweidimensionalen Numpy Array mit Spaltennamen erstellen

In [36]:
# numpy array
import numpy as np
M = np.random.randint(low=1, high=4, size=(4,2))
spaltennamen = ["id", "value"]

df_2 = pd.DataFrame(M, columns=spaltennamen)
# df_2.columns = spaltennamen alternativ
print(df_2)
print()
M.shape, M.ndim

v = np.random.randn(3)
v.shape, v.ndim

x = v[:, np.newaxis]
x.shape, v.shape
x.ndim, v.ndim

   id  value
0   2      2
1   2      3
2   2      3
3   3      3



(2, 1)

### Dataframe aus zweidimensionaler Liste erstellen

In [11]:
staff = [
    ['Emma', 29, 'HR'],
    ['Oliver', 25, 'Finance'],
    ['Harry', 33, 'Marketing'],
    ['Sophia', 24, 'IT'],
    ['Mandos', 53, 'IT']
]

df_3 = pd.DataFrame(staff, columns=['Name', 'Age', 'Department'])
df_3

Unnamed: 0,Name,Age,Department
0,Emma,29,HR
1,Oliver,25,Finance
2,Harry,33,Marketing
3,Sophia,24,IT
4,Mandos,53,IT


### Dataframe aus einer Liste von Dictionaries erstellen

In [4]:
staff = [
    {'Name': 'Emma', 'Age': 29, 'Department': 'HR'},
    {'Name': 'Oliver', 'Age': 25, 'Department': 'Finance'},
    {'Name': 'Harry', 'Age': 33, 'Department': 'Finance'},
    {'Name': 'Sophia', 'Age': 24, 'Department': 'IT'}]

df_4 = pd.DataFrame(staff)
df_4

Unnamed: 0,Name,Age,Department
0,Emma,29,HR
1,Oliver,25,Finance
2,Harry,33,Finance
3,Sophia,24,IT


### Spalte im DataFrame adressieren
Eine Spalte in einem Dataframe ist eine Pandas Series. Es gibt zwei Möglichkeiten, eine Spalte zu adressieren:

In [5]:
print("Dot Syntax:\n", df.names)
print()
print("[] Syntax:\n", df["names"])

Dot Syntax:
 0         Ron
1    Hermione
2       Harry
Name: names, dtype: object

[] Syntax:
 0         Ron
1    Hermione
2       Harry
Name: names, dtype: object


### Spalten anzeigen lassen

In [6]:
df.columns, list(df.columns)

(Index(['names', 'points'], dtype='object'), ['names', 'points'])

### Index der Spalten anzeigen

In [7]:
df.names.index, df.index

(RangeIndex(start=0, stop=3, step=1), RangeIndex(start=0, stop=3, step=1))

### Tail und Head
mit den Funktionen Tail und Head lassen sich die ersten und letzten Einträge eines Dataframes anzeigen. Beide Funktionen erwarten optional die Anzahl der Einträge, die angezeigt werden sollen. Ohne Argument aufgerufen liegt der Defaultwert bei 10

In [19]:
# Zeige die beiden leztten Einträge
df.tail(2)

Unnamed: 0,names,points
1,Hermione,2
2,Harry,4


In [20]:
# Zeige den ersten Eintrag
df.head(1)

Unnamed: 0,names,points
0,Ron,3


In [10]:
df.dtypes
df["points"] = df["points"].astype("int8")

(
    df
    .assign(
        points=df["points"].astype("int8"),
    ) 
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   names   3 non-null      object
 1   points  3 non-null      int8  
dtypes: int8(1), object(1)
memory usage: 159.0+ bytes


### Aufgabe 
Erstelle ein Dictionary colors, mit folgenden Key-Value Paaren:

red: [3, 4, 2]     
green: [3, 4, "5"]    
blue: [2.2, 4.4, 1.1]

Erstelle aus dem Dictionary einen DataFrame. Zeige den Datentyp jeder Spalte. Ändere den Datentyp für die Spalte red in int8.


In [39]:
colors = {
    "red": [3, 4, 2],
    "green": [3, 4, "5"],
    "blue": [2.2, 4.4, 1.1]    
}
df = pd.DataFrame(colors)
print("Datentyp red: ", df.red.dtype)
print("Datentyp green: ", df.green.dtype)
print("Datentyp blue: ", df.blue.dtype)

df.green = df.green.astype("int8")
print("Datentyp red: ", df.red.dtype)
df.dtypes

Datentyp red:  int64
Datentyp green:  object
Datentyp blue:  float64
Datentyp red:  int64


red        int64
green       int8
blue     float64
dtype: object