# üêº Pandas Cheat Sheet (Interaktiv)
Dieses Notebook enth√§lt die wichtigsten Pandas-Befehle, direkt ausf√ºhrbar.

*Wichtige Hinweise:* 
- In Jupyter Notebooks bauen alle Code-Zellen aufeinander auf - die Reihenfolge der Einzelausf√ºhrungen muss also beachtet werden
- statt dem typischen `print` statement kann in Jupyter-Notebooks auch `display` zur (sch√∂neren) Ausgabe genutzt werden

## 1. Setup & Import üîß

In [1]:
%pip install pandas numpy

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as  np # wird oft f√ºr numerische Operationen ben√∂tigt

## 2. Objekte erstellen üñºÔ∏è
Erstellen von Series und DataFrames.

In [None]:
# DataFrame aus Dictionary
data = {
    'Name': ['Anna', 'Bob', 'Charlie', 'David', 'Eva'],
    'Alter': [25, 30, 35, 40, 22],
    'Stadt': ['Berlin', 'M√ºnchen', 'Hamburg', 'Berlin', 'K√∂ln'],
    'Gehalt': [50000, 60000, 75000, 80000, 45000]
}

df = pd.DataFrame(data)

# Series erstellen
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# DataFrame mit Datums-Index
dates = pd.date_range('20240101', periods=6)
df_date = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

display(df_date) # Zeigt den DataFrame in Jupyter an


Unnamed: 0,0,1,2,3
2024-01-01,-0.025698,-1.029342,2.07507,0.932811
2024-01-02,-0.023598,-0.153707,-0.413223,-0.306074
2024-01-03,-0.351255,0.817952,0.443865,-0.628354
2024-01-04,0.291459,-0.302487,-0.662416,0.111399
2024-01-05,0.22189,0.800635,0.752609,-0.550828
2024-01-06,-0.830589,1.458685,-0.340149,-0.430451


## 3. Daten inspizieren üîé


Zum schnellen √úberblick √ºber die Datenstruktur

| Befehl | Beschreibung |
|--------|--------------|
|df.head(n)|Zeigt die ersten n Zeilen (Standard: 5)|
|df.tail(n)|Zeigt die letzten n Zeilen|
|df.shape|Gibt Dimensionen zur√ºck (Zeilen, Spalten)|
|df.info()|Infos zu Index, Datentypen und Speicher|
|df.describe()|Statistische Zusammenfassung (Mean, Std, Min, Max)|
|df.columns|Liste der Spaltennamen|
|df.dtypes|Datentypen jeder Spalte|
|df['col'].value_counts()|Z√§hlt einzigartige Werte in einer Spalte|

In [10]:
print("--- Head ---")
display(df.head(3))

print("\n--- Info ---")
df.info()

print("\n--- Describe ---")
display(df.describe())

--- Head ---


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,25,Berlin,50000
1,Bob,30,M√ºnchen,60000
2,Charlie,35,Hamburg,75000



--- Info ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    5 non-null      object
 1   Alter   5 non-null      int64 
 2   Stadt   5 non-null      object
 3   Gehalt  5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes

--- Describe ---


Unnamed: 0,Alter,Gehalt
count,5.0,5.0
mean,30.4,62000.0
std,7.300685,15247.950682
min,22.0,45000.0
25%,25.0,50000.0
50%,30.0,60000.0
75%,35.0,75000.0
max,40.0,80000.0


## 4. Auswahl & Filterung üëì

### Neue Spalten & Apply

In [17]:
# Spaltenauswahl
namen = df['Name']

# Mehrere Spalten (gibt DataFrame zur√ºck)
namen_alter = df[['Name', 'Alter']]

# Zeilenauswahl nach Position (Integer-Location)
df.iloc[0]      # Erste Zeile
df.iloc[0:3]    # Erste drei Zeilen
df.iloc[0, 1]   # Zeile 0, Spalte 1

# Zeilenauswahl nach Label/Index
display(df.loc[0])       # Zeile mit Index-Label 0
display(df.loc[:, 'Name'])  # Alle Zeilen, nur Spalte 'Name'


Name        Anna
Alter         25
Stadt     Berlin
Gehalt     50000
Name: 0, dtype: object

0       Anna
1        Bob
2    Charlie
3      David
4        Eva
Name: Name, dtype: object

### Filterung mit Bedingungen (Boolean Indexing)

In [25]:
# Zeilen, wo Alter > 25
display(df[df['Alter'] > 25])

# Mehrere Bedingungen (& = UND, | = ODER)
display( df[(df['Alter'] > 25) & (df['Stadt'] == 'M√ºnchen')])

# Filtern mit isin()
df_gefiltert = df[df['Stadt'].isin(['Berlin', 'Hamburg'])]

display(df)
display(df_gefiltert)

Unnamed: 0,Name,Alter,Stadt,Gehalt
1,Bob,30,M√ºnchen,60000
2,Charlie,35,Hamburg,75000
3,David,40,Berlin,80000


Unnamed: 0,Name,Alter,Stadt,Gehalt
1,Bob,30,M√ºnchen,60000


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,25,Berlin,50000
1,Bob,30,M√ºnchen,60000
2,Charlie,35,Hamburg,75000
3,David,40,Berlin,80000
4,Eva,22,K√∂ln,45000


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,25,Berlin,50000
2,Charlie,35,Hamburg,75000
3,David,40,Berlin,80000


## 5. Datenbereinigung (Cleaning) üßπ
Umgang mit fehlenden Werten und Duplikaten

In [28]:
# Erstelle einen DF mit fehlenden Werten
df_dirty = df.copy()
df_dirty.loc[0, 'Alter'] = np.nan
display(df_dirty)

# Nach fehlenden Werten suchen
display(df_dirty.isnull().sum())  # Summe der Null-Werte pro Spalte

# Fehlende Werte f√ºllen
print("\n--- Fehlende Werte f√ºllen ---")
# df_clean = df_dirty.fillna(0) # mit 0 f√ºllen
df_clean = df_dirty.fillna(df_dirty['Alter'].mean()) # mit Durchschnitt f√ºllen
display(df_clean)

# Spalten umbenennen
print("\n--- Spalten umbenennen ---")
df_renamed = df.copy()
df_renamed.rename(columns={'Name': 'Vorname', 'Alter': 'Jahre'}, inplace=True)
display(df_renamed)

# Zeilen mit fehlenden Werten l√∂schen
print("\n--- Zeilen mit fehlenden Werten l√∂schen ---")
df_renamed.loc[1:2, 'Stadt'] = np.nan
df_dropped_na = df_renamed.dropna()
display(df_dropped_na)

# Duplikate entfernen
print("\n--- Duplikate entfernen ---")
df_dropped_dups = df_dropped_na.drop_duplicates() # hier ohne Duplikate, nur als Beispiel
display(df_dropped_dups)


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,,Berlin,50000
1,Bob,30.0,M√ºnchen,60000
2,Charlie,35.0,Hamburg,75000
3,David,40.0,Berlin,80000
4,Eva,22.0,K√∂ln,45000


Name      0
Alter     1
Stadt     0
Gehalt    0
dtype: int64


--- Fehlende Werte f√ºllen ---


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,31.75,Berlin,50000
1,Bob,30.0,M√ºnchen,60000
2,Charlie,35.0,Hamburg,75000
3,David,40.0,Berlin,80000
4,Eva,22.0,K√∂ln,45000



--- Spalten umbenennen ---


Unnamed: 0,Vorname,Jahre,Stadt,Gehalt
0,Anna,25,Berlin,50000
1,Bob,30,M√ºnchen,60000
2,Charlie,35,Hamburg,75000
3,David,40,Berlin,80000
4,Eva,22,K√∂ln,45000



--- Zeilen mit fehlenden Werten l√∂schen ---


Unnamed: 0,Vorname,Jahre,Stadt,Gehalt
0,Anna,25,Berlin,50000
3,David,40,Berlin,80000
4,Eva,22,K√∂ln,45000



--- Duplikate entfernen ---


Unnamed: 0,Vorname,Jahre,Stadt,Gehalt
0,Anna,25,Berlin,50000
3,David,40,Berlin,80000
4,Eva,22,K√∂ln,45000


In [51]:
# Durchschnittliches Gehalt pro Stadt
stadt_gehalt = df.groupby('Stadt')['Gehalt'].mean()
display(stadt_gehalt)

# Mehrere Aggregationen
stadt_alter = df.groupby('Stadt').agg({
    'Alter': ['mean', 'min', 'max'],
    'Name': 'count'
})
display(stadt_alter)

# Pivot Tabelle
stadt_pivot = df.pivot_table(values='Alter', index='Stadt', columns='Name', aggfunc='mean')
display(stadt_pivot)

Stadt
Berlin     65000.0
Hamburg    75000.0
K√∂ln       45000.0
M√ºnchen    60000.0
Name: Gehalt, dtype: float64

Unnamed: 0_level_0,Alter,Alter,Alter,Name
Unnamed: 0_level_1,mean,min,max,count
Stadt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Berlin,32.5,25,40,2
Hamburg,35.0,35,35,1
K√∂ln,22.0,22,22,1
M√ºnchen,30.0,30,30,1


Name,Anna,Bob,Charlie,David,Eva
Stadt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Berlin,25.0,,,40.0,
Hamburg,,,35.0,,
K√∂ln,,,,,22.0
M√ºnchen,,30.0,,,


## 6. Datenmanipulation üõ†Ô∏è

### Neue Spalten & Apply

In [32]:
# Neue Spalte berechnen
df['Jahresbonus'] = df['Gehalt'] * 0.10

# Funktion anwenden (L√§nge des Namens)
df['Name_Len'] = df['Name'].apply(len)

display(df)

Unnamed: 0,Name,Alter,Stadt,Gehalt,Jahresbonus,Name_Len
0,Anna,25,Berlin,50000,5000.0,4
1,Bob,30,M√ºnchen,60000,6000.0,3
2,Charlie,35,Hamburg,75000,7500.0,7
3,David,40,Berlin,80000,8000.0,5
4,Eva,22,K√∂ln,45000,4500.0,3


### Spalten l√∂schen & Sortierung

In [None]:
# Neue Spalte hinzuf√ºgen
df['Neu'] = df['Alter'] * 2
print("\n--- Neue Spalte hinzuf√ºgen ---")
display(df)

# Spalte l√∂schen
df.drop('Neu', axis=1, inplace=True)
print("\n--- Spalte l√∂schen ---")
display(df)

# Sortieren
df_sorted_by_age = df.sort_values(by='Alter', ascending=False) # Absteigend sortieren
print("\n--- Nach Alter sortieren ---")
display(df_sorted_by_age)
df_sorted_by_index = df.sort_index()                             # Nach Index sortieren
print("\n--- Nach Index sortieren ---")
display(df_sorted_by_index)


--- Neue Spalte hinzuf√ºgen ---


Unnamed: 0,Name,Alter,Stadt,Gehalt,Neu
0,Anna,25,Berlin,50000,50
1,Bob,30,M√ºnchen,60000,60
2,Charlie,35,Hamburg,75000,70
3,David,40,Berlin,80000,80
4,Eva,22,K√∂ln,45000,44



--- Spalte l√∂schen ---


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,25,Berlin,50000
1,Bob,30,M√ºnchen,60000
2,Charlie,35,Hamburg,75000
3,David,40,Berlin,80000
4,Eva,22,K√∂ln,45000


'\n--- Nach Alter sortieren ---'

Unnamed: 0,Name,Alter,Stadt,Gehalt
3,David,40,Berlin,80000
2,Charlie,35,Hamburg,75000
1,Bob,30,M√ºnchen,60000
0,Anna,25,Berlin,50000
4,Eva,22,K√∂ln,45000



--- Nach Index sortieren ---


Unnamed: 0,Name,Alter,Stadt,Gehalt
0,Anna,25,Berlin,50000
1,Bob,30,M√ºnchen,60000
2,Charlie,35,Hamburg,75000
3,David,40,Berlin,80000
4,Eva,22,K√∂ln,45000


## 7. Gruppierung / Aggregation üóÉÔ∏è
√Ñhnlich wie das GROUPBY in SQL

## 8. Daten zusammenf√ºhren (Merge & Concat) ‚õìÔ∏è

üîç `pd.merge(df1, df2, on='ID', how=...)`
Der Parameter how legt fest, welche Zeilen aus den beiden DataFrames in das Ergebnis aufgenommen werden.

| `how`       | Was bedeutet das?              | Welche Zeilen werden √ºbernommen?              | Entspricht SQL  |
| ----------- | ------------------------------ | --------------------------------------------- | --------------- |
| **'left'**  | Alle Zeilen aus dem linken DF  | Alle aus **df1**, passende aus df2            | LEFT JOIN       |
| **'right'** | Alle Zeilen aus dem rechten DF | Alle aus **df2**, passende aus df1            | RIGHT JOIN      |
| **'inner'** | Nur gemeinsame Zeilen          | Nur IDs, die in **beiden** vorkommen          | INNER JOIN      |
| **'outer'** | Alle Zeilen aus beiden DFs     | IDs aus df1 **und** df2, nicht passende = NaN | FULL OUTER JOIN |


In [36]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Name': ['Anna', 'Ben', 'Clara'],
    'Wert': [10, 20, 30]
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5],
    'Name': ['Clara', 'David', 'Eva'],
    'Wert': [300, 400, 500]
})
# Concat (Untereinander stapeln)
display(pd.concat([df1, df2]))

# Merge (Wie SQL Join)
# on: Spalte zum Verkn√ºpfen
# how: 'left', 'right', 'outer', 'inner'
display(pd.merge(df1, df2, on='ID', how='right'))

Unnamed: 0,ID,Name,Wert
0,1,Anna,10
1,2,Ben,20
2,3,Clara,30
0,3,Clara,300
1,4,David,400
2,5,Eva,500


Unnamed: 0,ID,Name_x,Wert_x,Name_y,Wert_y
0,3,Clara,30.0,Clara,300
1,4,,,David,400
2,5,,,Eva,500


# 9. Import & Export üì¶

|Format	|Lesen	|Schreiben|
|-------|-------|---------|
|CSV	|pd.read_csv('file.csv')	    |df.to_csv('file.csv', index=False)|
|Excel	|pd.read_excel('file.xlsx')	    |df.to_excel('file.xlsx')|
|JSON	|pd.read_json('file.json')	    |df.to_json('file.json')|
|SQL	|pd.read_sql(query, connection)	|df.to_sql('table', connection)|
|Parquet|pd.read_parquet('file.parquet')|df.to_parquet('file.parquet')|

In [26]:
df.to_excel("out.xlsx")
df.to_json("out.json")

## 10. Zeitreihen (Time Series) ‚è∞
Pandas ist extrem stark bei Zeitdaten.

In [61]:
data = {
    'Datum': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-02-04', '2022-02-07'],
    'Wert': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)

# String zu Datetime konvertieren
df['Datum'] = pd.to_datetime(df['Datum'])

# Datum als Index setzen
df.set_index('Datum', inplace=True)
display(df)

# Resampling (z.B. Durchschnitt pro Monat 'ME')
display(df.resample('M').mean())

# Verschieben (Lagging)
df['Vormonat'] = df['Wert'].shift(1)
display(df)

Unnamed: 0_level_0,Wert
Datum,Unnamed: 1_level_1
2022-01-01,10
2022-01-02,20
2022-01-03,30
2022-01-04,40
2022-02-04,50
2022-02-07,60


  display(df.resample('M').mean())


Unnamed: 0_level_0,Wert
Datum,Unnamed: 1_level_1
2022-01-31,25.0
2022-02-28,55.0


Unnamed: 0_level_0,Wert,Vormonat
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,10,
2022-01-02,20,10.0
2022-01-03,30,20.0
2022-01-04,40,30.0
2022-02-04,50,40.0
2022-02-07,60,50.0
