<a href="https://colab.research.google.com/github/fleshgordo/datenspielzeit/blob/main/datasaurus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tag 1 – Daten Explorationen
Dieses Notebook zeigt, wie man eine Datei einliest, das Format konvertiert und die konvertierte Datei speichert. Wir arbeiten mit der python Bibliothek pandas. Pandas ist besonders interessant für die Datenexploration, da es leistungsstarke und flexible Datenstrukturen wie DataFrames bietet, die das Laden, Manipulieren und Analysieren von Daten erheblich vereinfachen. Es ist ein unverzichtbares Werkzeug für Datenwissenschaftler und Analysten.

Schau dir dieses kurze Video an, um einen Quick-Start Einblick zu bekommen: [Video](https://www.youtube.com/watch?v=EXIgjIBu4EU)

## 1. Importiere benötigte Bibliotheken
Wir importieren die wichtigsten Bibliotheken für die Dateiverarbeitung und Visualisierung.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

## 2. Lese eine Datei ein
Wir lesen eine CSV-Datei ein und zeigen die ersten Zeilen an.

In [None]:
# CSV laden
df = pd.read_csv("./group1_bu.csv")
#df = pd.read_csv("./group2_st.csv")
#df = pd.read_csv("./group3_di.csv")
#df = pd.read_csv("./group4_ci.csv")
#df = pd.read_csv("./group5_x.csv")
#df = pd.read_csv("./group6_v.csv")
df.head()

Das CSV File muss allerdings innerhalb des Folders verfügbar sein. Falls vorherige Zelle einen Fehler auswirft, zunächst noch den Datensatz herunterladen mit folgendem Befehl:

In [None]:
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group1_bu.csv -O group1_bu.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group2_st.csv -O group2_st.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group3_di.csv -O group3_di.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group4_ci.csv -O group4_ci.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group5_x.csv -O group5_x.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group6_v.csv -O group6_v.csv

Die Funktion describe() dient dazu, eine statistische Zusammenfassung der numerischen Spalten eines DataFrames zu erstellen. Die Zusammenfassung enthält wichtige statistische Kennziffern wie Mittelwert, Standardabweichung, Minimum, Maximum und verschiedene Quantile der Daten.

In [None]:
df.describe()

## 3. Visualisieren


### Visualisierung der Daten
Wir erstellen einen Scatterplot, um die Daten grafisch darzustellen.

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(df["x"], df["y"], alpha=0.7)
plt.title("Scatterplot")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
# Konvertiere CSV zu Excel
df.to_excel("export.xlsx", index=False)

## 4. Speichere die konvertierte Datei
Wir überprüfen, ob die Excel-Datei korrekt gespeichert wurde und zeigen die ersten Zeilen an.

In [None]:
# Überprüfe die gespeicherte Excel-Datei
excel_df = pd.read_excel("export.xlsx")
excel_df.head()

## 5. Lade alle 6 CSV-Dateien und visualisiere sie gemeinsam
Wir laden sechs verschiedene CSV-Dateien in separate DataFrames und visualisieren sie zusammen in einem Plot.

In [None]:
# Dateinamen der sechs CSVs
csv_files = [
    "group1_bu.csv",
    "group2_st.csv",
    "group3_di.csv",
    "group4_ci.csv",
    "group5_x.csv",
    "group6_v.csv"
]

# DataFrames laden
dfs = [pd.read_csv(fname) for fname in csv_files]

# Visualisierung: alle Scatterplots gemeinsam
plt.figure(figsize=(10, 10))
colors = ["red", "blue", "green", "orange", "purple", "brown"]
labels = [f.split(".")[0] for f in csv_files]
for i, df in enumerate(dfs):
    plt.scatter(df["x"], df["y"], alpha=0.6, label=labels[i], color=colors[i])
plt.title(f"Vergleich der {len(csv_files)} Formen")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.show()

### Mittelwerte und Durchschnittswerte für jede CSV
Wir berechnen und zeigen die Mittelwerte für x und y für jeden der sechs DataFrames.

In [None]:
for i, df in enumerate(dfs):
    mean_x = df["x"].mean()
    mean_y = df["y"].mean()
    print(f"{labels[i]}: Mittelwert x = {mean_x:.2f}, Mittelwert y = {mean_y:.2f}")

### Statistische Kennzahlen und Lineare Regression
Wir berechnen Standardabweichung, Mittelwert und führen eine lineare Regression für jeden Datensatz durch.

In [None]:
from scipy.stats import linregress

for i, df in enumerate(dfs):
    mean_x = df["x"].mean()
    mean_y = df["y"].mean()
    std_x = df["x"].std()
    std_y = df["y"].std()
    regression = linregress(df["x"], df["y"])
    print(f"{labels[i]}:")
    print(f"  Mittelwert x = {mean_x:.2f}, y = {mean_y:.2f}")
    print(f"  Standardabweichung x = {std_x:.2f}, y = {std_y:.2f}")
    print(f"  Lineare Regression: Steigung = {regression.slope:.4f}, Achsenabschnitt = {regression.intercept:.4f}, r = {regression.rvalue:.4f}")
    print("-")

### Visualisierung der linearen Regression
Wir plotten für jeden Datensatz die Datenpunkte und die zugehörige Regressionsgerade.

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
for i, df in enumerate(dfs):
    ax = axes[i//3, i%3]
    ax.scatter(df["x"], df["y"], alpha=0.6, label="Datenpunkte", color=colors[i])
    regression = linregress(df["x"], df["y"])
    x_vals = df["x"]
    y_pred = regression.slope * x_vals + regression.intercept
    ax.plot(x_vals, y_pred, color="black", label="Regression")
    ax.set_title(labels[i])
    ax.set_xlabel("x")
    ax.set_ylabel("y")
    ax.legend()
plt.tight_layout()
plt.show()