# Pandas - Eine kurze Einführung

__Pandas__ (kurz für _Panel Data_?) ist eine leistungsfähige Python-Bibliothek zur Datenanalyse und -manipulation. Mit Pandas vereinfacht das Arbeiten mit Datentabellen, wie man sie aus Excel, CSV-Dateien und Datenbanken kennt. W

Pandas stellt zwei zentrale Datenstrukturen bereit:


- **Series**: Eindimensionale Arrays mit Beschriftungen (ähnlich zu einer Spalte in Excel oder einer Liste mit Index)
- **DataFrame**: Zweidimensionale Tabellenstruktur mit Zeilen und Spalten (ähnlich zu einer Excel-Tabelle oder SQL-Tabelle)

In [1]:
import pandas as pd

# Beispiel: Eine Series erstellen
print("Series Beispiel:")
series = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
print(series)

# Beispiel: Ein DataFrame erstellen
print("\nDataFrame Beispiel:")
data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Alter": [25, 30, 35],
    "Stadt": ["Berlin", "München", "Hamburg"]
}
df = pd.DataFrame(data)
print(df)

"""
## Wichtige Operationen mit Pandas

### 1. Daten einlesen
Pandas kann Daten aus verschiedenen Quellen wie CSV, Excel oder SQL-Datenbanken laden.
"""
# Einlesen einer CSV-Datei (auskommentiert, da keine Datei vorhanden ist)
# df = pd.read_csv("datei.csv")

"""
### 2. Daten anzeigen
"""
print("\nErste 2 Zeilen des DataFrames:")
print(df.head(2))  # Gibt die ersten 2 Zeilen aus

print("\nLetzte Zeile des DataFrames:")
print(df.tail(1))  # Gibt die letzte Zeile aus

print("\nAllgemeine Informationen:")
print(df.info())  # Gibt Infos zu den Datentypen und Null-Werten

"""
### 3. Datenmanipulation
"""
print("\nNeue Spalte hinzufügen:")
df["Gehalt"] = [50000, 55000, 60000]  # Neue Spalte hinzufügen
print(df)

print("\nFiltern von Daten:")
print(df[df["Alter"] > 28])  # Nur Zeilen mit Alter > 28

"""
### 4. Statistische Auswertungen
"""
print("\nGrundlegende Statistiken:")
print(df.describe())  # Zeigt statistische Kennzahlen

"""
### 5. Umgang mit fehlenden Daten
"""

# Beispiel-DataFrame mit fehlenden Werten
df_missing = pd.DataFrame({
    "Name": ["Alice", "Bob", None, "David"],
    "Alter": [25, None, 35, 40],
    "Stadt": ["Berlin", "München", "Hamburg", None]
})

print("\nDataFrame mit fehlenden Werten:")
print(df_missing)

# Fehlende Werte erkennen
print("\nFehlende Werte erkennen:")
print(df_missing.isnull())

# Fehlende Werte zählen
print("\nAnzahl fehlender Werte pro Spalte:")
print(df_missing.isnull().sum())

# Fehlende Werte entfernen
print("\nDataFrame ohne fehlende Werte:")
print(df_missing.dropna())

# Fehlende Werte ersetzen
print("\nFehlende Werte mit Standardwert ersetzen:")
df_filled = df_missing.fillna({"Name": "Unbekannt", "Alter": df_missing["Alter"].mean(), "Stadt": "Unbekannt"})
print(df_filled)

"""
### 6. Daten speichern
"""
# Speichern als CSV (auskommentiert)
# df.to_csv("ergebnis.csv", index=False)

"""
## Fazit
Pandas ist eine extrem nützliche Bibliothek zur Datenanalyse und -manipulation. Sie bietet eine Vielzahl an Funktionen, um mit Daten effizient zu arbeiten, einschließlich leistungsstarker Tools für den Umgang mit fehlenden Werten.
"""

Series Beispiel:
a    10
b    20
c    30
d    40
dtype: int64

DataFrame Beispiel:
      Name  Alter    Stadt
0    Alice     25   Berlin
1      Bob     30  München
2  Charlie     35  Hamburg

Erste 2 Zeilen des DataFrames:
    Name  Alter    Stadt
0  Alice     25   Berlin
1    Bob     30  München

Letzte Zeile des DataFrames:
      Name  Alter    Stadt
2  Charlie     35  Hamburg

Allgemeine Informationen:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Alter   3 non-null      int64 
 2   Stadt   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None

Neue Spalte hinzufügen:
      Name  Alter    Stadt  Gehalt
0    Alice     25   Berlin   50000
1      Bob     30  München   55000
2  Charlie     35  Hamburg   60000

Filtern von Daten:
      Name  Alter    Stadt  Gehalt
1      Bob     30  München   55

'\n## Fazit\nPandas ist eine extrem nützliche Bibliothek zur Datenanalyse und -manipulation. Sie bietet eine Vielzahl an Funktionen, um mit Daten effizient zu arbeiten, einschließlich leistungsstarker Tools für den Umgang mit fehlenden Werten.\n'