# Streudiagramme
Streudiagramme werden auch als Punktwolken bezeichnet und sind geeignet, um die Abhängigkeit zweier Merkmale festzustellen.

## Vorverarbeitung
Importieren Sie zunächst `pandas` und `plotly` und laden Sie den Datensatz [Disney+ Movies and TV Shows](https://www.kaggle.com/code/werador/disney-data-analysis/data).

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
from ipywidgets import interact

df = pd.read_csv('disney_plus_titles.csv', parse_dates=['date_added'])
df = df[['type', 'release_year', 'director', 'cast', 'duration']]
df = df[df['type'] == 'Movie'].drop('type', axis=1)
df

Die nachfolgende Zelle kopiert das DataFrame und fügt zwei Spalten der Kopie hinzu:
- `cast_size` spiegelt die Anzahl der in `cast` aufgelisteten Schauspieler wider.
- `duration_in_minutes` beschreibt die Länge des Films in Minuten, abgeleitet aus dem Feld `duration`.

In [None]:
df2 = df.copy()
df2['cast_size'] = df2['cast'].map(lambda x: len(x.split(', ')) if x is not np.NaN else 0)
df2['director_size'] = df2['director'].map(lambda x: len(x.split(', ')) if x is not np.NaN else 0)
df2['duration_in_minutes'] = df2['duration'].map(lambda x: int(x[:-4]))

## Ein simples Streudiagramm
Streudiagramme werden mit der Funktion `scatter` erstellt.

In [None]:
px.scatter(df2, x="release_year", y="duration_in_minutes")

## Hinzunahme einer dritten Variablen
Mit dem Parameter `size` lässt sich die Größe der einzelnen Kreise beispielsweise anhand der Menge der Schauspieler anpassen.

In [None]:
px.scatter(df2, x="release_year", y="duration_in_minutes", size='cast_size')

Der Parameter `color` hingegen verändert die Farbe in Abhängigkeit einer Spalte des DataFrames.

In [None]:
px.scatter(df2, x="release_year", y="duration_in_minutes", color='cast_size')

Mit dem Parameter `symbol` wird das verwendete Symbol angepasst.

In [None]:
px.scatter(df2, x="release_year", y="duration_in_minutes", symbol='director_size')