### Statistische Analyse: Zusammenhang zwischen Bewertung und Stimmenanzahl

Um zu prüfen, ob es einen statistischen Zusammenhang zwischen der **Anzahl der abgegebenen Stimmen** (`numVotes`) und der **durchschnittlichen IMDb-Bewertung** (`averageRating`) gibt, wurde der **Pearson-Korrelationskoeffizient** berechnet.


In [None]:
import sqlite3
import pandas as pd

conn = sqlite3.connect("../data/raw/imdb.sqlite") 
df = pd.read_sql_query("""
    SELECT averageRating, numVotes
    FROM basics
    JOIN ratings USING(tconst)
    WHERE averageRating IS NOT NULL AND numVotes IS NOT NULL
""", conn)
conn.close()

from scipy.stats import pearsonr

# Korrelation zwischen Bewertung und Stimmenanzahl
x = df["numVotes"]
y = df["averageRating"]

corr, pval = pearsonr(x, y)
print(f"Korrelation: {corr:.3f}")
print(f"p-Wert: {pval:.5f}")

Korrelation: 0.011
p-Wert: 0.00000


## Fazit der statistischen Analyse

Die Untersuchung des Zusammenhangs zwischen der Anzahl der abgegebenen Stimmen (`numVotes`) und der durchschnittlichen IMDb-Bewertung (`averageRating`) zeigt ein interessantes Ergebnis:

- Die berechnete **Korrelation von 0.011** ist nahezu null → es besteht **kein relevanter linearer Zusammenhang** zwischen den beiden Variablen.
- Trotz des extrem niedrigen **p-Werts (< 0.00001)**, der statistische Signifikanz anzeigt, ist das Ergebnis **inhaltlich nicht bedeutsam**.
- Die Signifikanz entsteht höchstwahrscheinlich durch die **große Stichprobengröße**, nicht durch die Stärke des Effekts.

**Schlussfolgerung:**

Die durchschnittliche Bewertung eines Films auf IMDb ist **nicht davon abhängig**, wie viele Stimmen er erhalten hat.  
Sowohl bekannte als auch weniger bekannte Filme erhalten im Mittel ähnliche Bewertungen.  
Das widerspricht der häufigen Annahme, dass populäre Filme automatisch besser bewertet werden – zumindest im linearen Zusammenhang.

Für weiterführende Analysen wären z. B. nichtlineare Zusammenhänge, Ausreißerverhalten oder Genre-spezifische Korrelationen interessant.