In [None]:
import pandas as pd
import matplotlib.patches as mpatches
import kagglehub
import os

## Selbst gesammelte Daten hochladen und Kennzahlen berechnen
- Nutze dafür das Notebook vom **letzten Mal**, um Code zu kopieren
- **Lade** deine CSV-Datei hoch und lese sie hier mit Pandas ein
- Berechne die **Kennzahlen**: Durchschnitt (mean), Median (median), Standardabweichung(std) von den numerischen Attributen

In [None]:
#Hier hast du Platz dafür

## Daten Darstellen
- Führe die Zellen unten aus, bis du das **Säulendiagramm** siehst
- Die Daten zeigen, wie die Bruttemperatur und die Brutdauer von Schildkröten mit dem Geschlecht der Jungen in Zusammenhang stehen.
- Ändere den Code so, dass ein ein Säulendiagramm für deinen **eigenen Datensatz**, den du oben geladen hast, entsteht

In [None]:
#hier wird eine CSV-Datei geladen
dataframe = pd.read_csv("schildkroeten.csv")
print(dataframe)

In [None]:
#So berechnen wir die Durchschnitte für alle Attribute, gruppiert nach Geschlecht
dataframe_means = dataframe.groupby(["Geschlecht"]).mean()

#Wir reduzieren das Dataframe, denn wir brauchen die NestID nicht
dataframe_means = dataframe_means.drop("NestID", axis=1) #axis=1 bedeutet, dass wir alle Spalten (und nicht Zeilen - das wäre axis=0) mit den Titel "NestID" entfernen 

print(dataframe_means)

In [None]:
#Jetzt stellen wir das Daten in einem Säulendiagramm dar
#Dokumentation ist hier zu finden: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html#pandas.DataFrame.plot
#secondary_y wird verwendet, weil sonst die Temperatur jeweils sehr kleine und die Brutdauer sehr hohe Werte (und somit Säulen) hätte. Dies kann auch weggelassen werden.
dataframe_means.plot(kind= 'bar', secondary_y= 'Brutdauer_Stunden', rot= 0, title="Schildkröten Brutverlauf")

## Numerische Attribute gegenüberstellen
Spannend kann eine Gegenüberstellung von numerischen Attributen sein. Dies wird graphisch mit einem Punktdiagramm erreicht.
- Führe die untenstehenden beiden **Beispiele** aus
- Passe den Code so an, dass zwei Attribute aus deinen **eigenen Daten** gezeigt werden

In [None]:
#Die Daten werden in einem Punktdiagramm (Scatterplot) dargestellt. Jede Beobachtung (Zeile) ist ein Punkt 
dataframe.plot(kind="scatter", x="Temperatur_C", y="Brutdauer_Stunden", title="Schildkröten Brutverlauf")

In [None]:
#Interessanterweise können wir die beiden Geschlechter farblich trennen trennen
colors = {'m': 'orange', 'w': 'purple'}
color_list = [colors[group] for group in dataframe['Geschlecht']]

ax = dataframe.plot.scatter(x="Temperatur_C", y="Brutdauer_Stunden", title="Schildkröten Brutverlauf", c = color_list)

legend_handles = [
    mpatches.Patch(color=colors['m'], label='männlich'),
    mpatches.Patch(color=colors['w'], label='weiblich'),
]
ax.legend(handles=legend_handles, loc='upper right')

## Anderes Datenset
**Kaggle** ist eine grosse online Datenbank, wo viele Daten zu unterschiedlichsten Themen zur Verfügung stehen. Die gewählten Spotify-Daten sind [hier](https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset/data) genauer beschrieben.
- Der nachfolgende Code lädt diese Daten in dein Projekt, sie liegen versteckt im Ordner "datasets".

In [None]:
os.environ["KAGGLEHUB_CACHE"] = "."
# Hier laden wir das aktuellste Version der Spotify-Daten herunter.
path = kagglehub.dataset_download("maharshipandya/-spotify-tracks-dataset")

print("Path to dataset files:", path)

## Umfangreichere Daten
Umfangreichere Daten bieten oftmals spannendere und aussagekräftigere Analysen.
- Lade die **Spotify-Daten** und erstelle zwei verschiedene Scatterplots. Versuche die Visualisierung zu interpretieren. Was können wir daraus ablesen?
- Du kannst das Dataframe vorher noch filtern (z.B. nach Genre oder Tempo) - das haben wir letztes Mal mit den Straftaten gemacht, schau im alten Notebook nach.


In [None]:
#hier wird eine CSV-Datei geladen
dataframe = pd.read_csv("datasets/maharshipandya/-spotify-tracks-dataset/versions/1/dataset.csv")
print(dataframe)

Ersetze die "???" mit numerischen Attributen, welche du gerne gegenüberstellen möchtest. Dafür kannst du den obenstehenden Link auf Kaggle aufrufen. Dort ist beschrieben, welche Attribute vorhanden sind.

In [None]:
#s steht für scale und legt sie Punktgrösse fest. Hier macht es Sinn, einen kleinen Wert zu wählen, weil es viele Datenpunkte sind.
dataframe.plot.scatter(x="???", y="???", title="pop vs dance", s=0.5)

## Zusatz: Weitere Diagrammtypen
Es können noch mehr Diagrammtypen erstellt werden. Beispielsweise Liniendiagramme oder Histogramme - Details dazu findet ihr in der [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html).
- Versuche, für deine eigenen Daten ein **Histogramm** zu erstellen

In [None]:
#Hier hast du Platz dafür