# 5. Sinkt  die  Wahrscheinlichkeit  zu  siegen,  wenn  das  vorhergehende  Spiel  eines  Spielers besonders lange gedauert hat?

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px

In [2]:
# Laden der bereitgestellten Daten
matches = pd.read_csv('../data/raw/atp_matches_till_2022.csv')

# Konvertierung des tourney_date in ein Datumformat für die Sortierung
matches['tourney_date'] = pd.to_datetime(matches['tourney_date'], format='%Y%m%d')

# Sortierung der Daten nach Spieler-ID und Turnierdatum, um aufeinanderfolgende Spiele zu identifizieren
atp_matches_sorted = matches.sort_values(by=['winner_id', 'tourney_date'])

# Erstellung einer neuen Spalte für die Dauer des vorherigen Spiels jedes Gewinners
atp_matches_sorted['prev_match_duration'] = atp_matches_sorted.groupby('winner_id')['minutes'].shift()

# Filtern der relevanten Spalten für die Analyse
analysis_data = atp_matches_sorted[['winner_id', 'tourney_date', 'minutes', 'prev_match_duration', 'winner_name']]


In [4]:

# Entfernung von Zeilen mit fehlenden Werten in den Spalten 'minutes' und 'prev_match_duration'
filtered_data = analysis_data.dropna(subset=['minutes', 'prev_match_duration'])

# Überprüfung der Anzahl der verbleibenden Beobachtungen
remaining_observations = filtered_data.shape[0]

# Berechnung der durchschnittlichen Siegwahrscheinlichkeit und deren Standardabweichung
# Hierbei wird angenommen, dass jeder Eintrag im Datensatz einen Gewinn darstellt
average_win_probability = np.mean(filtered_data['minutes'] > filtered_data['prev_match_duration'])
std_dev_win_probability = np.std(filtered_data['minutes'] > filtered_data['prev_match_duration'])


In [5]:
# Schönere Ausgabe der Ergebnisse mit f-Strings
print(f"Anzahl der verbleibenden Beobachtungen für die Analyse: {remaining_observations}\n"
    f"Durchschnittliche Wahrscheinlichkeit, dass ein Spieler gewinnt, wenn das vorherige Spiel länger dauerte: {average_win_probability:.2%}\n"
    f"Standardabweichung dieser Wahrscheinlichkeit: {std_dev_win_probability:.2%}")


Anzahl der verbleibenden Beobachtungen für die Analyse: 83311
Durchschnittliche Wahrscheinlichkeit, dass ein Spieler gewinnt, wenn das vorherige Spiel länger dauerte: 50.30%
Standardabweichung dieser Wahrscheinlichkeit: 50.00%


Die durchschnittliche Wahrscheinlichkeit, dass ein Spieler ein Spiel gewinnt, nachdem das vorherige Spiel länger gedauert hat, beträgt ungefähr 50.30%. Diese Zahl liegt sehr nahe bei 50%, was darauf hindeutet, dass es keine starke Tendenz gibt, die darauf schließen lässt, dass Spieler weniger wahrscheinlich gewinnen, wenn ihr vorheriges Spiel länger gedauert hat. Darüber hinaus ist die Standardabweichung dieser Wahrscheinlichkeit mit rund 50% sehr hoch, was auf eine erhebliche Variabilität in den Daten hinweist.

In [6]:
# Erstellung eines Streudiagramms mit Plotly
fig = px.scatter(filtered_data, 
                 x='prev_match_duration', 
                 y='minutes', 
                 title='Vergleich der Spieldauer: Aktuelles Spiel vs. Vorheriges Spiel',
                 labels={'prev_match_duration': 'Dauer des vorherigen Spiels (Minuten)', 
                         'minutes': 'Dauer des aktuellen Spiels (Minuten)'})

# Anzeige des Diagramms
fig.show()


Aus diesem Diagramm können wir Folgendes beobachten:

- Die Punkte sind ziemlich gleichmäßig über das Diagramm verteilt, was darauf hindeutet, dass es keine starke Korrelation zwischen der Dauer des vorherigen Spiels und der Dauer des aktuellen Spiels gibt.
- Es gibt keine klare Tendenz oder ein Muster, das darauf hinweist, dass längere Spiele im vorherigen Match zu kürzeren oder längeren Spielen im aktuellen Match führen.

Diese visuelle Analyse unterstützt die vorherige statistische Analyse, die darauf hindeutete, dass die Dauer des vorherigen Spiels keinen signifikanten Einfluss auf den Ausgang des nachfolgenden Spiels zu haben scheint.