# Einführung in Pandas
Pandas ist eine Python-Bibliothek, die sich hervorragend für Datenanalyse und -manipulation eignet. Im Folgenden sind die wichtigsten Funktionen und Beispiele aufgeführt.

---

## 1. Daten einlesen
Pandas unterstützt viele Dateiformate wie CSV, Excel, JSON usw.


In [None]:
import pandas as pd

# CSV-Datei einlesen
df_csv = pd.read_csv("datei.csv")

# Excel-Datei einlesen
df_excel = pd.read_excel("datei.xlsx")

# JSON-Datei einlesen
df_json = pd.read_json("datei.json")

# Zeige die ersten Zeilen der CSV-Daten
df_csv.head()


## 2. Daten anzeigen
Mit Pandas kannst du Daten schnell inspizieren und grundlegende Informationen erhalten.


In [1]:
# Zeige die ersten 5 Zeilen
print(df_csv.head())

# Zeige die letzten 5 Zeilen
print(df_csv.tail())

# Informationen über die Daten
print(df_csv.info())

# Statistische Kennzahlen
print(df_csv.describe())


NameError: name 'df_csv' is not defined

## 3. Daten manipulieren
Du kannst Spalten auswählen, neue hinzufügen oder Daten filtern.


In [2]:
# Eine einzelne Spalte auswählen
spalte = df_csv["Spalte1"]

# Neue Spalte hinzufügen
df_csv["Neue_Spalte"] = df_csv["Spalte1"] + df_csv["Spalte2"]

# Daten filtern
gefiltert = df_csv[df_csv["Spalte1"] > 100]

# Daten sortieren
sortiert = df_csv.sort_values(by="Spalte2", ascending=False)


NameError: name 'df_csv' is not defined

## 4. Daten bereinigen
Pandas bietet Tools, um fehlende Werte zu handhaben oder Daten zu bereinigen.


In [3]:
# Fehlende Werte anzeigen
fehlende_werte = df_csv.isnull().sum()
print(fehlende_werte)

# Fehlende Werte ersetzen
df_csv["Spalte1"].fillna(0, inplace=True)

# Duplikate entfernen
df_csv.drop_duplicates(inplace=True)

# Datentyp ändern
df_csv["Spalte1"] = df_csv["Spalte1"].astype(int)


NameError: name 'df_csv' is not defined

## 5. Gruppieren und Aggregieren
Du kannst Daten gruppieren und zusammenfassen.


In [4]:
# Gruppieren nach einer Kategorie und Werte summieren
gruppiert = df_csv.groupby("Kategorie")["Wert"].sum()
print(gruppiert)

# Mehrere Aggregationen
mehrere_agg = df_csv.groupby("Kategorie").agg({"Wert": ["sum", "mean", "count"]})
print(mehrere_agg)


NameError: name 'df_csv' is not defined

## 6. Daten visualisieren
Pandas arbeitet gut mit Matplotlib oder Seaborn, um Daten zu visualisieren.


In [5]:
import matplotlib.pyplot as plt

# Einfache Visualisierung
df_csv["Spalte1"].hist()
plt.title("Verteilung von Spalte1")
plt.show()

# Gruppierte Daten plotten
gruppiert.plot(kind="bar")
plt.title("Summierte Werte nach Kategorie")
plt.show()


NameError: name 'df_csv' is not defined

## 7. Daten exportieren
Nach der Bearbeitung kannst du Daten in verschiedene Formate speichern.


In [6]:
# CSV exportieren
df_csv.to_csv("output.csv", index=False)

# Excel exportieren
df_csv.to_excel("output.xlsx", index=False)

# JSON exportieren
df_csv.to_json("output.json")


NameError: name 'df_csv' is not defined

# Praktisches Beispiel
Laden wir eine CSV-Datei, bereinigen die Daten und analysieren sie.


In [7]:
# Beispiel-Datensatz laden
df = pd.read_csv("verkaufsdaten.csv")

# Fehlende Werte auffüllen
df.fillna(0, inplace=True)

# Gruppieren und analysieren
umsatz_pro_produkt = df.groupby("Produkt")["Umsatz"].sum()
print(umsatz_pro_produkt)

# Daten visualisieren
umsatz_pro_produkt.plot(kind="bar")
plt.title("Umsatz pro Produkt")
plt.ylabel("Umsatz in €")
plt.show()


NameError: name 'pd' is not defined