# EDV-Coaching - Python
## Einführung in Pandas
***
In diesem Notebook wird behandelt:
- DataFrame und Series erstellen
- Daten laden und speichern
- Datenauswahl und Filterung
- Grundlegende Datenanalyse
- Datentransformation
- Gruppierung und Aggregation
***
# Was ist Pandas?

Pandas ist eine leistungsstarke Bibliothek für Datenmanipulation und -analyse. Der Name leitet sich von "Panel Data" ab, und die Bibliothek ist speziell für die Arbeit mit strukturierten Daten optimiert. <br>

Wichtige Merkmale von Pandas sind: <br>
- DataFrame-Objekt für intuitive Handhabung tabellarischer Daten <br>
- Effiziente Datenein- und -ausgabe in verschiedenen Formaten (CSV, Excel, SQL, etc.) <br>
- Leistungsfähige Werkzeuge für Datenbereinigung und -transformation <br>
- Flexible Gruppierung und Aggregation von Daten <br>
- Integrierte Werkzeuge für Zeitreihenanalyse <br>

Pandas ist zum Standard in der Datenanalyse geworden, da es die Lücke zwischen Rohdaten und statistischer Analyse effektiv schließt. <br>
## 1 DataFrame und Series erstellen

Pandas hat zwei Hauptdatenstrukturen: Series (1D) und DataFrame (2D): <br>

In [1]:
import pandas as pd
import numpy as np

# Series erstellen
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# DataFrame aus Dictionary erstellen
data = {
    'Name': ['Anna', 'Ben', 'Clara', 'David'],
    'Alter': [25, 30, 22, 35],
    'Stadt': ['Berlin', 'Hamburg', 'München', 'Berlin'],
    'Gehalt': [45000, 55000, 35000, 65000]
}
df = pd.DataFrame(data)

print("Series:")
print(s)
print("\nDataFrame:")
print(df)

Series:
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

DataFrame:
    Name  Alter    Stadt  Gehalt
0   Anna     25   Berlin   45000
1    Ben     30  Hamburg   55000
2  Clara     22  München   35000
3  David     35   Berlin   65000


## 2 Daten laden und speichern

Pandas kann verschiedene Dateiformate lesen und schreiben: <br>

In [3]:
# CSV Datei erstellen und lesen
df.to_csv('beispiel.csv', index=False)
df_csv = pd.read_csv('beispiel.csv')

# Excel Datei erstellen und lesen
#df.to_excel('beispiel.xlsx', index=False)
#df_excel = pd.read_excel('beispiel.xlsx')

# JSON Format
#df.to_json('beispiel.json')
#df_json = pd.read_json('beispiel.json')

print("Geladene CSV-Daten:")
print(df_csv)

Geladene CSV-Daten:
    Name  Alter    Stadt  Gehalt
0   Anna     25   Berlin   45000
1    Ben     30  Hamburg   55000
2  Clara     22  München   35000
3  David     35   Berlin   65000


## 3 Datenauswahl und Filterung

Verschiedene Möglichkeiten, Daten auszuwählen: <br>

In [None]:
# Spaltenauswahl
namen = df['Name']
info = df[['Name', 'Stadt']]

# Zeilenauswahl nach Position
erste_zeile = df.iloc[0]
block = df.iloc[0:2, 1:3]

# Zeilenauswahl nach Bedingung
berliner = df[df['Stadt'] == 'Berlin']
gut_bezahlt = df[df['Gehalt'] > 50000]

# Kombinierte Bedingungen
jung_berlin = df[(df['Stadt'] == 'Berlin') & (df['Alter'] < 30)]

print("Mitarbeiter aus Berlin:")
print(berliner)

## 4 Grundlegende Datenanalyse

Pandas bietet viele Funktionen für beschreibende Statistik: <br>

In [None]:
# Statistische Zusammenfassung
zusammenfassung = df.describe()

# Einzelne statistische Maße
mittelwert = df['Gehalt'].mean()
median = df['Gehalt'].median()
maximum = df['Gehalt'].max()

# Häufigkeiten
stadt_counts = df['Stadt'].value_counts()

# Korrelationen
korrelationen = df.corr()

print("Statistische Zusammenfassung:")
print(zusammenfassung)
print("\nStädte-Verteilung:")
print(stadt_counts)

## 5 Datentransformation

Daten aufbereiten und transformieren: <br>

In [None]:
# Neue Spalte hinzufügen
df['Bonus'] = df['Gehalt'] * 0.1
df['Gesamtgehalt'] = df['Gehalt'] + df['Bonus']

# Datentypen umwandeln
df['Alter'] = df['Alter'].astype(float)

# Werte ersetzen
df['Stadt'] = df['Stadt'].replace('Berlin', 'BER')

# Kategorische Daten
df['Stadt_Kategorie'] = pd.Categorical(df['Stadt'])

print("Transformierte Daten:")
print(df)

## 6 Gruppierung und Aggregation

Daten gruppieren und zusammenfassen: <br>

In [None]:
# Nach Stadt gruppieren
nach_stadt = df.groupby('Stadt')

# Verschiedene Aggregationen
stadt_statistik = nach_stadt.agg({
    'Gehalt': ['mean', 'min', 'max'],
    'Alter': 'mean'
})

# Gruppierung mit mehreren Spalten
multi_group = df.groupby(['Stadt', 'Alter'])['Gehalt'].mean()

print("Statistik nach Städten:")
print(stadt_statistik)


## 7 Fehlende Werte

Umgang mit fehlenden Werten (NaN): <br>

In [None]:
# Fehlende Werte einfügen
df.loc[1, 'Gehalt'] = np.nan

# Fehlende Werte erkennen
fehlend = df.isna()
fehlend_summe = df.isna().sum()

# Fehlende Werte behandeln
df_clean = df.dropna()           # Zeilen mit NA entfernen
df_filled = df.fillna(0)         # NAs mit 0 füllen
df_mean = df.fillna(df.mean())   # NAs mit Mittelwert füllen

print("Anzahl fehlender Werte pro Spalte:")
print(fehlend_summe)

## 8 Zeitreihen

Pandas hat spezielle Funktionen für Zeitreihen: <br>

In [None]:
# Zeitreihen-Index erstellen
dates = pd.date_range('20240101', periods=6)
ts = pd.Series(np.random.randn(6), index=dates)

# Zeitreihen-Operationen
monatlich = ts.resample('M').mean()
rolling = ts.rolling(window=3).mean()
shift = ts.shift(1)

print("Zeitreihe:")
print(ts)
print("\nGleitender Durchschnitt:")
print(rolling)

## Fazit:

Pandas bietet: <br>
- Flexible Datenstrukturen für tabellarische Daten <br>
- Umfangreiche Import/Export-Möglichkeiten <br>
- Leistungsfähige Datenanalyse-Werkzeuge <br>
- Effiziente Datentransformation und -bereinigung <br>
- Fortgeschrittene Gruppierungs- und Aggregationsfunktionen <br>

Diese Funktionen machen Pandas zum Standardwerkzeug für Datenanalyse in Python. <br>