Dieses Notebook soll zeigen, wie man Daten mit den leistungsfähigen Python-Bibliotheken Pandas und NumPy verwaltet und analysiert. 


[Pandas versus Numpy](https://www.codecademy.com/article/introduction-to-numpy-and-pandas)

# Syllabus

Organize and clean data using Pandas' data manipulation tools (like filtering, sorting, and handling missing values).

# Wichtige Python-Bibliotheken für Datenwissenschaft


## NumPy
**NumPy** ist die grundlegende Bibliothek für numerische Berechnungen in Python. Sie bietet Unterstützung für Arrays und Matrizen sowie mathematische Funktionen, um auf diesen Daten effizient Berechnungen durchzuführen. Es ist das Fundament für viele andere wissenschaftliche Bibliotheken, darunter **SciPy** und **Pandas**.

**Wichtige Funktionen von NumPy**:
- Arbeit mit n-dimensionalen Arrays
- Mathematische Funktionen wie lineare Algebra, Fourier-Transformationen
- Zufallszahlengenerierung und statistische Berechnungen
- Effiziente Operationen auf großen Datenmengen


## Matplotlib
**Matplotlib** ist eine umfassende Bibliothek zur Erstellung von statischen, animierten und interaktiven Visualisierungen in Python. Es bietet eine große Flexibilität bei der Gestaltung von Diagrammen und wird oft verwendet, um Daten zu visualisieren und zu verstehen.

**Wichtige Funktionen von Matplotlib**:
- Erstellen von Diagrammen wie Linien-, Balken-, Streudiagrammen, etc.
- Anpassung von Achsen, Farben, Legenden und Titeln
- Möglichkeit zur Erstellung komplexer Grafiken und Layouts



## Pandas
**Pandas** ist eine leistungsstarke, benutzerfreundliche Open-Source-Bibliothek für Datenanalyse und -manipulation in Python. Es ermöglicht die Arbeit mit strukturierten Daten, wie z.B. Tabellen (DataFrames), und bietet Funktionen für das Laden, Bereinigen, Analysieren und Visualisieren von Daten. Es wird häufig in der Datenwissenschaft und maschinellem Lernen verwendet.

**Wichtige Funktionen von Pandas**:
- Arbeiten mit DataFrames (Tabellenstruktur)
- Daten aus CSV, Excel, SQL und anderen Quellen laden
- Datentransformation und -bereinigung
- Statistische Analysen und Aggregation von Daten



## SciPy
**SciPy** ist eine wissenschaftliche Rechenbibliothek in Python, die auf **NumPy** aufbaut. Sie bietet Funktionen für mathematische, wissenschaftliche und technische Berechnungen, einschließlich Optimierung, Integration, Interpolation, Eigenwertprobleme und vieles mehr.

**Wichtige Funktionen von SciPy**:
- Berechnungen in der linearen Algebra
- Signal- und Bildverarbeitung
- Optimierung und numerische Integration
- Statistische Berechnungen






---
# Filtern von Daten

hilft nur bestimmte Zeilen oder Spalten zu betrachten, die bestimmten Bedingungen entsprechen.

## einfaches Filtern

Beispiel:
Dies gibt alle Zeilen zurück, in denen das Alter größer als 25 ist.

In [15]:
import pandas as pd

# Beispiel-Daten
data = {'Name': ['Anna', 'Bob', 'Clara', 'David'],
        'Alter': [25, 30, 22, 35],
        'Gehalt': [50000, 60000, None, 45000]}
df = pd.DataFrame(data)

# Filtern nach Personen, die älter als 25 Jahre sind
filtered_df = df[df['Alter'] > 25]
print(filtered_df)

    Name  Alter   Gehalt
1    Bob     30  60000.0
3  David     35  45000.0


## Mehrere Bedingungen kombinieren

Die Filterung kann auf mehreren Bedingungen beruhen, um feinere Datenauswahl zu ermöglichen. Dafür verwenden wir logische Operatoren wie `&` (und), `|` (oder), und `~` (nicht).

Beispiel:
Hier kombinieren wir zwei Bedingungen mit `&` (und). Man kann auch `|` (oder) verwenden, um nach Personen zu filtern, die eine der beiden Bedingungen erfüllen.


In [17]:
# Filtern nach Personen, die älter als 25 sind und ein Gehalt über 45.000 haben
filtered_df = df[(df['Alter'] > 25) & (df['Gehalt'] > 45000)]
print(filtered_df)

  Name  Alter   Gehalt
1  Bob     30  60000.0


## Bedingte Zuweisungen
Man kann auch bestimmte Werte basierend auf Bedingungen ändern oder neu zuweisen:

In [19]:
# Gehalt auf 50.000 setzen, wenn das Alter unter 30 ist
df.loc[df['Alter'] < 30, 'Gehalt'] = 50000
print(df)

    Name  Alter   Gehalt
0   Anna     25  50000.0
1    Bob     30  60000.0
2  Clara     22  50000.0
3  David     35  45000.0


## Filtern mit Strings
Auch das Filtern nach Textwerten ist einfach.
Mit `str.contains` kann man nach einem Muster in den Textwerten suchen.

In [18]:

# Personen, deren Name mit 'A' beginnt
filtered_df = df[df['Name'].str.startswith('A')]
print(filtered_df)



   Name  Alter   Gehalt
0  Anna     25  50000.0


# Verwendung von .query()

Eine lesbare Alternative zur Filterung, die SQL-ähnliche Abfragen ermöglicht:

In [28]:
# Mit query()

# Beispiel-Daten
data = {'Name': ['Anna', 'Bob', 'Clara', 'David', 'Eva'],
        'Alter': [25, 30, 22, 35, 28],
        'Gehalt': [50000, 60000, 45000, None, 55000],
        'Abteilung': ['HR', 'IT', 'HR', 'IT', 'Marketing']}
df = pd.DataFrame(data)

filtered_df = df.query("Abteilung == 'IT' and Gehalt > 50000")
print(filtered_df)

  Name  Alter   Gehalt Abteilung
1  Bob     30  60000.0        IT


---
# Sortieren von Daten: .sort_values()


## Einfaches Sortieren
ordnet die Daten sinnvoll, z.B. nach Werten.

Beispiel:
Hier werden die Daten nach dem Alter aufsteigend sortiert.

In [20]:
# Sortieren nach dem Alter in aufsteigender Reihenfolge
sorted_df = df.sort_values(by='Alter')
print(sorted_df)

    Name  Alter   Gehalt
2  Clara     22  50000.0
0   Anna     25  50000.0
1    Bob     30  60000.0
3  David     35  45000.0


## Mehrspaltiges Sortieren

Man kann die Daten nach mehreren Spalten sortieren, wobei eine Primärsortierung erfolgt und dann eine Sekundärsortierung.

Beispiel:
Hier wird zuerst nach Alter aufsteigend und dann innerhalb der Altersgruppen nach Gehalt absteigend sortiert.

Die Option `ascending=[True, False]` gibt an, dass die erste Spalte aufsteigend und die zweite absteigend sortiert wird.



In [21]:
# Sortieren nach Alter und bei gleichem Alter nach Gehalt
sorted_df = df.sort_values(by=['Alter', 'Gehalt'], ascending=[True, False])
print(sorted_df)

    Name  Alter   Gehalt
2  Clara     22  50000.0
0   Anna     25  50000.0
1    Bob     30  60000.0
3  David     35  45000.0


# Umgang mit fehlenden Werten

Fehlende Werte (NaN) sind oft in Datensätzen zu finden, und Pandas bietet verschiedene Methoden, um mit diesen umzugehen:

## Erstellen von fehlenden Daten: np.nan

In [12]:
# Beispiel: Fehlende Werte in einem DataFrame erstellen
import numpy as np

df_missing = df.copy()
df_missing.loc[2, 'Alter'] = np.nan  # Erstelle fehlende Werte
print('DataFrame mit fehlenden Werten:')
print(df_missing)


DataFrame mit fehlenden Werten:
    Name  Alter   Gehalt
0   Anna   25.0  50000.0
1    Bob   30.0  60000.0
2  Clara    NaN      NaN
3  David   35.0  45000.0


## Entfernen von fehlenden Werten: .dropna()

In [3]:

# Entfernen von Zeilen mit fehlenden Werten
cleaned_df = df.dropna()
print(cleaned_df)


    Name  Alter   Gehalt
0   Anna     25  50000.0
1    Bob     30  60000.0
3  David     35  45000.0


## Auffüllen von fehlenden Werten: .fillna()

In [4]:

# Auffüllen von fehlenden Werten mit einem Standardwert (z.B. 0)
filled_df = df.fillna(0)
print(filled_df)


    Name  Alter   Gehalt
0   Anna     25  50000.0
1    Bob     30  60000.0
2  Clara     22      0.0
3  David     35  45000.0


## Auffüllen mit dem Durchschnitt

In [5]:

# Auffüllen der fehlenden Werte in der Gehaltsspalte mit dem Durchschnitt
mean_salary = df['Gehalt'].mean()
df['Gehalt'].fillna(mean_salary, inplace=True)
print(df)


    Name  Alter        Gehalt
0   Anna     25  50000.000000
1    Bob     30  60000.000000
2  Clara     22  51666.666667
3  David     35  45000.000000


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Gehalt'].fillna(mean_salary, inplace=True)


## Interpolation: .interpolate()
Eine sinnvolle Methode, um fehlende numerische Werte zu füllen, ist die Interpolation. Diese Methode nimmt an, dass die Werte kontinuierlich sind, und füllt die Lücken entsprechend.

In [22]:
# Interpolieren von fehlenden Werten (linear)
df['Gehalt'] = df['Gehalt'].interpolate()
print(df)

    Name  Alter   Gehalt
0   Anna     25  50000.0
1    Bob     30  60000.0
2  Clara     22  50000.0
3  David     35  45000.0


## Bedingte Imputation
Man kann Werte basierend auf bestimmten Bedingungen oder Gruppen füllen. 

Beispiel:
den Durchschnitt der Gruppe verwenden

In [23]:
# Durchschnittliches Gehalt pro Altersgruppe berechnen und fehlende Werte basierend darauf füllen
df['Gehalt'] = df.groupby('Alter')['Gehalt'].transform(lambda x: x.fillna(x.mean()))
print(df)

    Name  Alter   Gehalt
0   Anna     25  50000.0
1    Bob     30  60000.0
2  Clara     22  50000.0
3  David     35  45000.0


## Gruppieren und Aggregieren: .agg()
Eine weitere fortgeschrittene Technik in Pandas ist das Gruppieren von Daten (ähnlich wie SQL-Gruppierungen), gefolgt von Aggregationen wie Summe, Durchschnitt oder Zählungen.

In [24]:
# Durchschnittliches Gehalt nach Altersgruppen
grouped_df = df.groupby('Alter').agg({'Gehalt': 'mean'})
print(grouped_df)

        Gehalt
Alter         
22     50000.0
25     50000.0
30     60000.0
35     45000.0


mehrere Aggregationen auf verschiedene Spalten anwenden:

In [25]:
# Mehrere Aggregationen auf verschiedene Spalten
grouped_df = df.groupby('Alter').agg({'Gehalt': ['mean', 'sum'], 'Name': 'count'})
print(grouped_df)

        Gehalt           Name
          mean      sum count
Alter                        
22     50000.0  50000.0     1
25     50000.0  50000.0     1
30     60000.0  60000.0     1
35     45000.0  45000.0     1


## Auffüllen mit vorangehenden/nachfolgenden Werten (Forward Fill/Backward Fill)
Wenn Daten zeitlich sortiert sind, kannst du fehlende Werte durch den vorherigen (`ffill`)oder nachfolgenden (`bfill`)Wert ersetzen:


In [31]:
# Auffüllen mit dem vorherigen Wert (Forward Fill)

df.fillna(method='ffill', inplace=True)

  df.fillna(method='ffill', inplace=True)


Unnamed: 0,Name,Alter,Gehalt,Abteilung
0,Anna,25,50000.0,HR
1,Bob,30,60000.0,IT
2,Clara,22,45000.0,HR
3,David,35,45000.0,IT
4,Eva,28,55000.0,Marketing
