# Pandas

[Pandas](https://pandas.pydata.org/) is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.

Warum Pandas?
- Pandas untersützt eine Vielzahl von Dateiformaten zum lesen und schreiben von Daten
- Pandas bietet zwei Hauptstrukturen:
  - Series (1D-Daten, ähnlich wie eine Spalte)
  - DataFrame (2D-Tabelle, ähnlich wie Excel)
- Ermöglicht schnelles Filtern, Gruppieren, Umformen und Visualisieren von Daten.
- Das Pandas DataFrame (analog dem DataFrame in R) eignet sich hervorragend für das Arbeint mit 2 dimensonalen  Daten wie sie oft in CSV, Excel oder Datenbank Tabellen vorliegen. 


## Series (1 dimensionale Daten)

In [38]:
import numpy as np
import pandas as pd

s1 = pd.Series([10, 20, 30])
s2 = pd.Series([10, 20, 30], index=["a", "b", "c"])

print("Series s1:")
print(s1)

print("Series s2 mit Index:")
print(s2)

print("Zugriff s1 via Index:", s1[1])
print("Zugriff s2 mit Index:", s2["b"])


Series s1:
0    10
1    20
2    30
dtype: int64
Series s2 mit Index:
a    10
b    20
c    30
dtype: int64
Zugriff s1 via Index: 20
Zugriff s2 mit Index: 20


## DataFrame (2 dimensionale Daten)

In [47]:
data = {
    "Name": ["Anna", "Ben", "Clara"],
    "Alter": [23, 35, 29],
    "Stadt": ["Zürich", "Bern", "Basel"]
}
df = pd.DataFrame(data)
print(df)


    Name  Alter   Stadt
0   Anna     23  Zürich
1    Ben     35    Bern
2  Clara     29   Basel


### Spalte auswählen

In [48]:
print("Namen:")
print(df["Name"])

Namen:
0     Anna
1      Ben
2    Clara
Name: Name, dtype: object


### Zeile per Position (iloc)

In [56]:
print("Erste Zeile:") 
print(df.iloc[0])

Erste Zeile:
Name       Anna
Alter        23
Stadt    Zürich
Name: 0, dtype: object


### Zeile per Index (loc)

In [54]:
print("Zeile mit Index") 
print(df.loc[2])


Zeile mit Index
Name     Clara
Alter       29
Stadt    Basel
Name: 2, dtype: object


## Filtern

In [9]:
print("Alle Personen älter als 25:")
print(df[df["Alter"] > 25])


Alle Personen älter als 25:
    Name  Alter  Stadt
1    Ben     35   Bern
2  Clara     29  Basel


## Spalte hinzufügen

In [10]:
df["Alter_in_10_Jahren"] = df["Alter"] + 10
print(df)


    Name  Alter   Stadt  Alter_in_10_Jahren
0   Anna     23  Zürich                  33
1    Ben     35    Bern                  45
2  Clara     29   Basel                  39


## Apply

Mit apply kann eine Funktion auf jedes Element einer Serie oder eines DataFrame angewendet werden:

In [60]:
col_names = ["A", "B", "C"]
row_names = ["First", "Second", "Third"]
data = [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]
df = pd.DataFrame(data, row_names, col_names)
print(df)

sqrt_df = df.apply(np.sqrt)
print(sqrt_df)

square_df = df.apply(lambda x: x ** 2)
print(square_df)


        A  B  C
First   1  2  3
Second  4  5  6
Third   7  8  9
               A         B         C
First   1.000000  1.414214  1.732051
Second  2.000000  2.236068  2.449490
Third   2.645751  2.828427  3.000000
         A   B   C
First    1   4   9
Second  16  25  36
Third   49  64  81


## GroupBy

- Mit der groupby Methode werden Daten nach einer Spalte gruppiert
- Man kann dann auf dem zurückgegebenen Objekt Funktionen pro Gruppe anwenden

In [23]:
col_names = ["A", "B"]
data = [[1, 2],
        [1, 4],
        [2, 4],
        [1, 2]]

df = pd.DataFrame(data, columns=col_names)

grouped = df.groupby("A")   # 1: 2 4 2 : mean = 8/3 = 2.67
                            # 2: 4     : mean = 4/1 = 4

print(grouped.mean())


          B
A          
1  2.666667
2  4.000000


# Aufgaben

## Datenanalyse

Datenanalyse mit Pandas.

1. Erstelle ein Dictionary mit den Daten von 6 Personen:
   - "Name" (z. B. Anna, Ben, Clara, David, Eva, Felix)
   - "Alter" (Ganzzahlen zwischen 20 und 60)
   - "Stadt" (z. B. Zürich, Bern, Basel, Luzern, Genf, Winterthur)
   - "Einkommen" (Ganzzahlen zwischen 3000 und 9000)

2. Wandle das Dictionary in einen **DataFrame** um.

3. Führe folgende Analysen durch:
   1. Zeige alle Personen über 30 Jahre.
   2. Berechne das Durchschnittseinkommen aller Personen.
   3. Finde die Person mit dem höchsten Einkommen.
   4. Gruppiere die Daten nach "Stadt" und berechne das mittlere Einkommen pro Stadt.

In [24]:
import pandas as pd

data = {
    "Name": ["Anna", "Ben", "Clara", "David", "Eva", "Felix"],
    "Alter": [23, 35, 29, 42, 31, 55],
    "Stadt": ["Zürich", "Bern", "Basel", "Zürich", "Genf", "Bern"],
    "Einkommen": [4500, 5200, 6100, 8000, 7200, 3900]
}

df = pd.DataFrame(data)
print(df)

    Name  Alter   Stadt  Einkommen
0   Anna     23  Zürich       4500
1    Ben     35    Bern       5200
2  Clara     29   Basel       6100
3  David     42  Zürich       8000
4    Eva     31    Genf       7200
5  Felix     55    Bern       3900


In [5]:
print("Personen über 30 Jahre:")
print(df[df["Alter"] > 30])

Personen über 30 Jahre:
    Name  Alter   Stadt  Einkommen
1    Ben     35    Bern       5200
3  David     42  Zürich       8000
4    Eva     31    Genf       7200
5  Felix     55    Bern       3900


In [7]:
# Durchschnittseinkommen
print("Durchschnittseinkommen:")
print(df["Einkommen"].mean())

Durchschnittseinkommen:
5816.666666666667


In [8]:
print("Höchstes Einkommen:")
print(df[df["Einkommen"] == df["Einkommen"].max()])

Höchstes Einkommen:
    Name  Alter   Stadt  Einkommen
3  David     42  Zürich       8000


In [19]:
print("Mittleres Einkommen pro Stadt:")
print(df.groupby("Stadt")["Einkommen"].mean())

Mittleres Einkommen pro Stadt:
Stadt
Basel     6100.0
Bern      4550.0
Genf      7200.0
Zürich    6250.0
Name: Einkommen, dtype: float64
