# Spicker

Einführung in Pandas

**Das wichtigste vorweg:**

Wenn ein Notebook bearbeitet wird, sollte zunächst der Menupunkt "`Cell|All Output|Clear`" ausgeführt werden.

Dadurch werden alle Berechnungen in Zellen gelöscht. 

Bleiben schon bearbeitete Zellen im Notebook stehen, so lässt sich oft nicht mehr genau sagen, ob eine bestimmte Zelle in dieser Bearbeitung schon ausgeführt wurde, oder nicht. **Das kann im schlimmsten Fall zu völlig falschen Ergebnissen führen.**

**Importieren von pandas und numpy:**

In [1]:
import numpy as np
import pandas as pd

Damit werden die Module `pandas` und `numpy` im Notebook anwendbar. Der Zugriff erfolgt unter den vereinfachten Namen `pd` für `pandas` und `np` für `numpy`.

**Einen DataFrame anlegen**

In [2]:
df = pd.DataFrame()

Durch den Aufruf `df = pd.DataFrame()` wird ein leerer DataFrame erzeugt. Es erfolgt keine Ausgabe!

Meist soll kein leerer DataFrame angelegt werden. Dann werden Daten benötigt. Ein DataFrame besteht aus Zeilen und Spalten. Der DataFrame wird durch den Aufruf

```df = DataFrame(
    {
        <Spaltenname_1>: <Liste von Werten>,
        <Spaltenname_2>: <Liste von Werten>,
        ...
    }
)```

angelegt. Es erfolgt keine Ausgabe. Soll das Ergebnis angezeigt werden, so ist als letzter Eintrag in der Zelle der Name des DataFrame einzugeben.

`df`

In [3]:
df = pd.DataFrame(
    {
        'A': ['a','b','c','d'],
        'B': [1,2,3,4],
        'C': [99,98,97,96]
    }
)

df

Unnamed: 0,A,B,C
0,a,1,99
1,b,2,98
2,c,3,97
3,d,4,96


**Ausgabe von Spalten**

In [4]:
# Ausgabe der Spalte 'A':
df['A']

0    a
1    b
2    c
3    d
Name: A, dtype: object

In [5]:
# oder, wenn der Name eindeutig ist
df.A

0    a
1    b
2    c
3    d
Name: A, dtype: object

In [6]:
# Soll das Ergebnis als DataFrame ausgegeben werden:
df[['A']]

Unnamed: 0,A
0,a
1,b
2,c
3,d


**Ausgabe von Zeilen**

Für die Ausgabe einer Zeile wird die Methode `.loc[]` benutzt. Beachten Sie die eckigen Klammern!

In [7]:
# Ausgabe der ersten Zeile:
df.loc[0]

A     a
B     1
C    99
Name: 0, dtype: object

In [8]:
# Ausgabe als DataFrame:
df.loc[[0]]

Unnamed: 0,A,B,C
0,a,1,99


**Berechnungen mit Spalten**

Die üblichen Rechenoperationen `+`, `-`, `*`, `:`, `**` u.s.w. werden einfach auf die Spalten angewendet:

In [9]:
df.B + df.C

0    100
1    100
2    100
3    100
dtype: int64

In [10]:
# Ergebnis als DataFrame ausgeben:
pd.DataFrame({'Summe': df.B + df.C})

Unnamed: 0,Summe
0,100
1,100
2,100
3,100


In [11]:
# Ergebnis an DataFrame anhängen:
df['D'] = df.B + df.C
df

Unnamed: 0,A,B,C,D
0,a,1,99,100
1,b,2,98,100
2,c,3,97,100
3,d,4,96,100


In [12]:
# Es sind auch kompliziertere Berechnungen möglich:
df['E'] = df.D**(1/df.B)
df

Unnamed: 0,A,B,C,D,E
0,a,1,99,100,100.0
1,b,2,98,100,10.0
2,c,3,97,100,4.641589
3,d,4,96,100,3.162278


In [13]:
# In der Formel dürfen auch konstante Werte auftreten:
df['F'] = df.C + 3
df

Unnamed: 0,A,B,C,D,E,F
0,a,1,99,100,100.0,102
1,b,2,98,100,10.0,101
2,c,3,97,100,4.641589,100
3,d,4,96,100,3.162278,99


**Eine Spalte als Index festlegen**

In [14]:
df.set_index('A')

Unnamed: 0_level_0,B,C,D,E,F
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,1,99,100,100.0,102
b,2,98,100,10.0,101
c,3,97,100,4.641589,100
d,4,96,100,3.162278,99


**Einen Wert ausgeben**

In [15]:
# Um Zeile 1, Spalte 'F' auszugeben:
df.loc[0,'F'] # Achtung: Zeile 1 hat den Index 0!

102

**Eine Spalte als Index festlegen und einen Wert auslesen**

In [16]:
df.set_index('A').loc['a','F']

102

In [17]:
df1 = pd.DataFrame(
    {
        'I': ['a','b','a','b'],
        'A': [1,2,3,4],
        'B': [10,9,8,7]
    }
)

df1

Unnamed: 0,I,A,B
0,a,1,10
1,b,2,9
2,a,3,8
3,b,4,7


In [18]:
df1.set_index('I').loc['a','A']

I
a    1
a    3
Name: A, dtype: int64

In [19]:
# Wenn das Ergebnis ein DataFrame sein soll
pd.DataFrame(df1.set_index('I').loc['a','A'])

Unnamed: 0_level_0,A
I,Unnamed: 1_level_1
a,1
a,3


**Kopie eines DataFrame erzeugen**

In [20]:
# DataFrame mit den Spalten 'A' und 'B' als Kopie anlegen

df_ab = df[['A','B']].copy()
df_ab

Unnamed: 0,A,B
0,a,1
1,b,2
2,c,3
3,d,4


**Zwei DataFrames zusammenführen**

Im Normalfall werden die DataFrames zeilenweise zusammengefügt.

Achten Sie auf den **Index**, der ist **nicht** mehr **eindeutig**!

In [21]:
pd.concat(
    [
        df,
        df1
    ],
    sort=False
)

Unnamed: 0,A,B,C,D,E,F,I
0,a,1,99.0,100.0,100.0,102.0,
1,b,2,98.0,100.0,10.0,101.0,
2,c,3,97.0,100.0,4.641589,100.0,
3,d,4,96.0,100.0,3.162278,99.0,
0,1,10,,,,,a
1,2,9,,,,,b
2,3,8,,,,,a
3,4,7,,,,,b


Möchte man einen eindeutigen Index, so setzt man den Parameter `ignore_index=True`:

In [22]:
pd.concat(
    [
        df,
        df1
    ],
    sort=False,
    ignore_index=True
)

Unnamed: 0,A,B,C,D,E,F,I
0,a,1,99.0,100.0,100.0,102.0,
1,b,2,98.0,100.0,10.0,101.0,
2,c,3,97.0,100.0,4.641589,100.0,
3,d,4,96.0,100.0,3.162278,99.0,
4,1,10,,,,,a
5,2,9,,,,,b
6,3,8,,,,,a
7,4,7,,,,,b


Sollen die DataFrames Spaltenweise zusammengefügt werden, so wird der Parameter `axis='columns'` (oder, alternativ `axis=1`) benutzt.

Achten Sie auf die **Spaltennamen**. Die sind **nicht** mehr **eindeutig**!

In [23]:
df_res = pd.concat(
    [
        df,
        df1
    ],
    sort=False,
    axis='columns'
)
df_res

Unnamed: 0,A,B,C,D,E,F,I,A.1,B.1
0,a,1,99,100,100.0,102,a,1,10
1,b,2,98,100,10.0,101,b,2,9
2,c,3,97,100,4.641589,100,a,3,8
3,d,4,96,100,3.162278,99,b,4,7


Was ergibt nun `df_res['A']`?

In [24]:
df_res['A']

Unnamed: 0,A,A.1
0,a,1
1,b,2
2,c,3
3,d,4


Sollen die Spaltennamen eindeutig sein, so müssen sie neu festgelegt werden:

In [25]:
df_res = pd.concat(
    [
        df,
        df1
    ],
    sort=False,
    axis='columns'
)

df_res.columns=range(len(df_res.columns))
df_res

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,a,1,99,100,100.0,102,a,1,10
1,b,2,98,100,10.0,101,b,2,9
2,c,3,97,100,4.641589,100,a,3,8
3,d,4,96,100,3.162278,99,b,4,7
