<a href="https://colab.research.google.com/github/fleshgordo/datenspielzeit/blob/main/datasaurus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tag 1 – Daten Explorationen
Dieses Notebook zeigt, wie man eine Datei einliest, das Format konvertiert und die konvertierte Datei speichert. Wir arbeiten der python Bibliothek pandas. Pandas ist besonders interessant für die Datenexploration, da es leistungsstarke und flexible Datenstrukturen wie DataFrames bietet, die das Laden, Manipulieren und Analysieren von Daten erheblich vereinfachen. Es ist ein unverzichtbares Werkzeug für Datenwissenschaftler und Analysten.

Schau dir dieses kurze Video an, um einen Quick-Start Einblick zu bekommen: [Video](https://www.youtube.com/watch?v=EXIgjIBu4EU)

## 1. Importiere benötigte Bibliotheken
Wir importieren die wichtigsten Bibliotheken für die Dateiverarbeitung und Visualisierung.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

## 2. Lese eine Datei ein
Wir lesen eine CSV-Datei ein und zeigen die ersten Zeilen an.

In [None]:
# CSV laden
df = pd.read_csv("./group1_bu.csv")
#df = pd.read_csv("./group2_st.csv")
#df = pd.read_csv("./group3_di.csv")
#df = pd.read_csv("./group4_ci.csv")
#df = pd.read_csv("./group5_x.csv")
#df = pd.read_csv("./group6_v.csv")
df.head()

Das CSV File muss allderings innerhalb des Folders verfügbar sein. Falls vorherige Zelle einen Fehler auswirft, zunächst noch den Datensatz herunterladen mit folgendem Befehl:

In [None]:
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group1_bu.csv -O group1_bu.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group2_st.csv -O group2_st.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group3_di.csv -O group3_di.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group4_ci.csv -O group4_ci.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group5_x.csv -O group5_x.csv
!wget https://raw.githubusercontent.com/fleshgordo/datenspielzeit/refs/heads/main/datasets/group6_v.csv -O group6_v.csv

In [None]:
df.describe()

## 3. Visualisieren


### Visualisierung der Daten
Wir erstellen einen Scatterplot, um die Daten grafisch darzustellen.

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(df["x"], df["y"], alpha=0.7)
plt.title("Scatterplot")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
# Konvertiere CSV zu Excel
df.to_excel("export.xlsx", index=False)

## 4. Speichere die konvertierte Datei
Wir überprüfen, ob die Excel-Datei korrekt gespeichert wurde und zeigen die ersten Zeilen an.

In [None]:
# Überprüfe die gespeicherte Excel-Datei
excel_df = pd.read_excel("export.xlsx")
excel_df.head()