In [None]:
# Data_description.ipynb

# %% [markdown]
"""
# Datenbeschreibung – TMDB Movies Dataset

In diesem Notizbuch bereite ich das TMDB Movies Dataset für die programmatische Verarbeitung vor und dokumentiere meine Erkenntnisse. Ziel ist es, Vorhersagen für den "Revenue" (Einnahmen) eines Films zu treffen.
"""

# %% [markdown]
"""
## 1. Zielvariable

Für dieses Projekt möchte ich den "Revenue" (Einnahmen) vorhersagen. Dieser Wert hängt häufig von anderen Variablen wie Budget, Popularität und Bewertungen ab.
"""

# %% [markdown]
"""
## 2. Statistische Analyse

Wir berechnen einige wichtige Kennzahlen (z. B. Median und Standardabweichung) für die numerischen Felder des Datensatzes.
"""

# %%
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Annahme: Der Datensatz liegt im Ordner "data" und heißt "tmdb_movies.csv"
df = pd.read_csv('data/tmdb_movies.csv')

# Erste Einblicke in den Datensatz:
print("Erste Zeilen des Datensatzes:")
display(df.head())

# Deskriptive Statistik:
print("Deskriptive Statistik:")
display(df.describe())

# Berechnung des Medians (nur numerische Felder):
print("Median-Werte:")
median_values = df.median(numeric_only=True)
display(median_values)

# Berechnung der Standardabweichung:
print("Standardabweichung:")
std_values = df.std(numeric_only=True)
display(std_values)

# %% [markdown]
"""
## 3. Grafische Darstellung

Im Folgenden erstelle ich ein Histogramm für das Datenfeld "budget" und ein Streudiagramm für "budget" vs. "revenue".
"""

# %%
# Histogramm für das Feld "budget"
plt.figure(figsize=(10,6))
plt.hist(df['budget'].dropna(), bins=50, color='skyblue', edgecolor='black')
plt.title('Histogramm des Budgets')
plt.xlabel('Budget')
plt.ylabel('Häufigkeit')
plt.show()

# %%
# Streudiagramm: Budget vs. Revenue
plt.figure(figsize=(10,6))
plt.scatter(df['budget'], df['revenue'], alpha=0.5, color='green')
plt.title('Budget vs. Revenue')
plt.xlabel('Budget')
plt.ylabel('Revenue')
plt.show()

# %% [markdown]
"""
## 4. Skalierung eines Datenfeldes

Ich skaliere das Datenfeld "budget", um die Werte in einen einheitlichen Bereich zu bringen, was häufig die Performance von ML-Modellen verbessert. 
Falls man argumentieren müsste, warum Skalierung nicht sinnvoll ist, könnte man z. B. anführen, dass das Budget schon in einem einheitlichen Format vorliegt. 
Im vorliegenden Fall gibt es jedoch große Schwankungen, die eine Standardisierung sinnvoll machen.
"""

# %%
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
# Skalierung des Feldes "budget"
df['budget_scaled'] = scaler.fit_transform(df[['budget']])
print("Vergleich der originalen und skalierten Budgetwerte:")
display(df[['budget', 'budget_scaled']].head())

# %% [markdown]
"""
## 5. Repository Adresse

Falls sich die Adresse deines Repositorys geändert haben sollte, sende diese Information bitte über das dafür vorgesehene Formular an deine Lehrperson.
"""

# %% [markdown]
"""
# Zusammenfassung

Dieses Notizbuch fasst den ersten Schritt der Datenbeschreibung zusammen: 
- Zielvariable "Revenue" wurde definiert.
- Wichtige statistische Kennzahlen (Median, Standardabweichung) wurden berechnet.
- Grafiken (Histogramm und Streudiagramm) wurden erstellt.
- Das Datenfeld "budget" wurde skaliert, um die spätere Modellierung zu unterstützen.
"""
