# Pandas 1x1

Pandas ist eine Python-Bibliothek, die zum Auswerten und zum Bearbeiten tabellarischer Daten. Die Daten werden in Pandas als *DataFrame* organisiert. Dies ist der zentrale Daten-Typ

## DataFrames

DataFrames bestehen aus Spalten und Zeilen. Jede Zeile verfügt einen Index. Einfache DataFrames können aus Listen erstellt werden. Spalten sind ein eigener Type und werden als `Series` bezeichnet.

In [None]:
import pandas as pd
import numpy as np

data = np.array([["","col_a","col_b"],
                ["row_1", 1, "a"],
                ["row_2", 2, "b"]])
                
df = pd.DataFrame(data=data[1:,1:],
                  index=data[1:,0],
                  columns=data[0,1:])

df

In [None]:
type(df["col_a"])

In [None]:
# Numpy 2D Array als input für DataFrame
my_2darray = np.array([[1, 2, 3], [4, 5, 6]])
display(pd.DataFrame(my_2darray))

In [None]:
# Dictionary als input für DataFrame
my_dict = {"a": ['1', '3'], "b": ['1', '2'], "c": ['2', '4']}
display(pd.DataFrame(my_dict))

In [None]:
# DataFrame via Constructor erstellen 
my_df = pd.DataFrame(data=[4,5,6,7], index=range(0,4), columns=['A'])
display(pd.DataFrame(my_df))

In [None]:
# Series als Input für DataFrame
my_series = pd.Series({"United Kingdom":"London",
                       "India":"New Delhi",
                       "United States":"Washington",
                       "Belgium":"Brussels"})

display(pd.DataFrame(data=my_series, columns=["capital"]))

In [None]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))

# Dimension mit dem `shape` Property
print(df.shape)

In [None]:
# Oder `len()` function with the `index` property
print(len(df.index))

In [None]:
def basic_df():
    return pd.DataFrame(data=np.array([[1, 2, 3],
                                 [4, 5, 6],
                                 [7, 8, 9]]),
                                 columns=["A", "B", "C"])

## DataFrame Operationen

In [None]:
data = np.array([["index","A","B"],
                [0, 1, "a"],
                [1, 2, "b"]])
                
df = pd.DataFrame(data=data[1:,1:],
                  index=data[1:,0],
                  columns=data[0,1:])

df

In [None]:
# Informationen zum DataFrame
df.info()

In [None]:
df.describe()

In [None]:
# Element in der 1. Zeile und 1. Spalte mit `iloc[]` referenzieren
print(df.iloc[0][0])

# oder mit `loc[]`
print(df.loc["0", "A"])

In [None]:
# Spalte B als Index verwenden
df_with_idx_b = df.set_index("B")
display(df_with_idx_b)

In [None]:
df_with_idx_b.index

In [None]:
# Index wieder zurücksetzen
df_with_idx_b.reset_index()

# Zeilen hinzufügen


In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), index= [2, "A", 4], columns=[48, 49, 50])
display(df)

In [None]:
# Pass `2` to `loc`
print(df.loc[2])

In [None]:
# Pass `2` to `iloc`
print(df.iloc[2])

In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
                  index= [2.5, 12.6, 4.8], columns=[48, 49, 50])

# Neuer Index mit dem Label `new` und neuer Zeile
df.loc["new"] = [11, 12, 13]
display(df)

In [None]:
df = basic_df()

# Neue Spalte `D` mit dem Wert `new` in jeder Zeile
df["D"] = "new"

display(df)

In [None]:
df = basic_df()
display(df)

In [None]:
# Neue Spalte D mit mit verschiedenen Werten in jeder Zeile
df.loc[:, "D"] = pd.Series(["5", "6", "7"], index=df.index)

# Print out `df` again to see the changes
display(df)

## Daten aus DataFrame löschen

In [None]:
df = basic_df()
display(df)

In [None]:
# Löschen der Spalte 'A'                  
df.drop("A", axis=1, inplace=True)
display(df)

In [None]:
# Löschen der Spalte an Position 1
df.drop(df.columns[[1]], axis=1)

In [None]:
df_dups = pd.DataFrame(data=np.array([[1, 2, 3],
                                 [1, 4, 5],
                                 [1, 6, 7]]),
                                 columns=["A", "B", "C"])

display(df_dups)

In [None]:
# Eindeutige Werte in Spalte 'A'
df_dups["A"].unique()

In [None]:
# Eindeutige Werte in Spalte 'B'
df_dups["B"].unique()

In [None]:
# Drop duplicates in `df`, but keep first
df_keep_first = df_dups.drop_duplicates(["A"], keep="first")
display(df_keep_first)

In [None]:
# Drop duplicates in `df`, but keep last
df_keep_last = df_dups.drop_duplicates(["A"], keep="last")
display(df_keep_last)

## Columns umbenennen

In [None]:
df = basic_df()
display(df)

In [None]:
# Neue Namen für Spalten definieren
newcols = {
    "A": "new_column_1", 
    "B": "new_column_2", 
    "C": "new_column_3"
}

# Mit `rename()` Spalten umbenennen
df.rename(columns=newcols, inplace=True)
display(df)

In [None]:
# Rename Index 1 -> "a"
df.rename(index={1: "a"})

## Daten Auswählen

In [None]:
df = basic_df()
display(df)

In [None]:
# Einzelne Zeilen auswählen
df[[True, False, True]]

In [None]:
# Auswählen anhand einer Bedingung
filter_a_gt_1 = df["A"] > 1
filter_a_gt_1

In [None]:
type(filter_a_gt_1)

In [None]:
df[filter_a_gt_1]

In [None]:
# Mehrere Bedingungen
df[(df["A"] == 1) & (df["B"] < 10)]

## Spalten Operationen

In [None]:
df = basic_df()
display(df)

In [None]:
# Reihenfolge ändern
df[["C", "B", "A"]]

In [None]:
# Spalte auswählen
df["A"]

In [None]:
df.A

## Werte Gruppieren

In [None]:
df = basic_df()
df.loc[1, "A"] = 1
display(df)

In [None]:
df.groupby(["A"]).sum()

In [None]:
df.groupby(["A"]).count()

In [None]:
df = pd.DataFrame({"Animal": ["Falcon", "Falcon",
                              "Parrot", "Parrot"],
                   'Max Speed': [380., 370., 24., 26.]})
display(df)

In [None]:
df.groupby(["Animal"]).mean()

## DataFrames Verknüpfen

In [None]:
df1 = pd.DataFrame({'key': ['foo', 'bar', 'foo'],
                    'value': [1, 2, 3]})
df1

In [None]:
df2 = pd.DataFrame({'key': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})
df2

In [None]:
df1.merge(df2, left_on="key", right_on="key", suffixes=('_left', '_right'))

In [None]:
df1.merge(df2, left_on="key", right_on="key", how="left")

In [None]:
df1.merge(df2, left_on="key", right_on="key", how="right")

In [None]:
df1.merge(df2, left_on="key", right_on="key", how="outer")

# Selbststudium

Seht euch [10 minutes to Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) an.