<a href="https://colab.research.google.com/github/oraziotorre/MomentumShiftAI/blob/main/TableTennisDataGenerator.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install playwright
!playwright install

In [None]:
import asyncio
import ast
import os
import pandas as pd
import re
import requests
from playwright.async_api import async_playwright, Page
import pandas as pd
import os
from collections import Counter

# **DATA INGESTION**

Prendo delle informazioni da un dataset presente su GitHub e faccio scraping sul sito della federazione per aggiungere le sequenze di punteggio ai dati che abbiamo già a disposizione

In [None]:
async def get_console_logs(page: Page, event_id: str, doc_code: str, n_games: int):
    logs = []

    def handle_console_message(msg):
        # Controlla se il log della console è del tipo [.........]
        if re.match(r'^\[.*\]$', msg.text):
            logs.append(f"{msg.text}")

    # Ascolta gli eventi di log della console
    page.on("console", handle_console_message)

    try:
        # Naviga al sito usando gli identificativi forniti
        url = f"https://worldtabletennis.com/PostMatchCenter?eventId={event_id}&docCode={doc_code}"
        print(f"Navigating to: {url}")
        await page.goto(url)

        # Aspetta che la pagina finisca di caricarsi
        await page.wait_for_load_state("networkidle")

        # Interagisce con i bottoni per ottenere i dati dei game G
        for i in range(2, n_games + 1):  # Itera da G2 a Gn(G1 già è stampato)
            game_label = f"G{i}"
            buttons = page.locator("span.tabHeader", has_text=game_label)
            count = await buttons.count()

            if count == 1:
                # Se c'è un solo bottone, cliccalo
                await buttons.nth(0).click()
                print(f"Clicked on the only '{game_label}' button.")
            elif count > 1:
                # Se ci sono più bottoni, clicca sul secondo
                await buttons.nth(1).click()
                print(f"Clicked on the second '{game_label}' button.")
            else:
                # Nessun bottone trovato
                print(f"No '{game_label}' buttons found.")

    except Exception as e:
        print(f"Error navigating to {url}: {e}")

    finally:
        # Salva i log in un file o stampa a schermo
        if len(logs) > 2:
            logs_path = f"logs/{event_id}_{doc_code}_console_logs.txt"
            os.makedirs(os.path.dirname(logs_path), exist_ok=True)

            with open(logs_path, "w", encoding="utf-8") as log_file:
                log_file.write(f"{n_games}\n")
                log_file.write("\n".join(logs))

            print(f"Match stats saved to: {logs_path}")



async def process_files(page: Page):
    """Elabora un file TSV da URL, esegue operazioni sui dati e lo sposta nella cartella OK_tournaments."""

    base_path = "data/tournaments"

    ######## RANGE DEI TORNEI PARTE DA 3000 PERCHE' I TORNEI PRECEDENTI SONO STATI GIA' ELABORATI
    for file_number in range(3000,3200):
      file_name = f"{file_number}.tsv"
      file_url = f"https://raw.githubusercontent.com/daimeng/chiquita/master/data/wtt_cleaned/matches/{file_name}"
      file_path = os.path.join(base_path, file_name)
      ok_path = os.path.join("data", "OK_tournaments", file_name)

      # Creazione delle cartelle se non esistono
      os.makedirs(os.path.dirname(file_path), exist_ok=True)
      os.makedirs(os.path.dirname(ok_path), exist_ok=True)

      # Download del file
      response = requests.get(file_url)
      if response.status_code == 200:
          with open(file_path, "w", encoding="utf-8") as f:
              f.write(response.text)

          print(f"Processing file: {file_path}")

          # Lettura del file TSV
          df = pd.read_csv(file_path, sep='\t')

          for _, row in df.iterrows():
              event_id = row.iloc[0]
              doc_code = row.iloc[1]
              n_games = int(row.iloc[12]) + int(row.iloc[13])
              await get_console_logs(page, str(event_id), str(doc_code), n_games)

          # Spostamento del file nella cartella OK
          os.rename(file_path, ok_path)


async def main():
    async with async_playwright() as playwright:
        browser = await playwright.chromium.launch(headless=True)
        page = await browser.new_page()

        # Elabora i file TSV
        await process_files(page)

        await browser.close()


if __name__ == "__main__":
    await(main())

Processing file: data/tournaments/3020.tsv
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEXDOUBLES-----------FNL-000100----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.
Clicked on the only 'G5' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEMDOUBLES-----------FNL-000100----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEMSINGLES-----------FNL-000100----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.
Clicked on the only 'G5' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEWSINGLES-----------FNL-000100----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.

ERROR:asyncio:Future exception was never retrieved
future: <Future finished exception=TargetClosedError('Target page, context or browser has been closed')>
playwright._impl._errors.TargetClosedError: Target page, context or browser has been closed


Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.
Clicked on the only 'G5' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEWDOUBLES-----------8FNL000300----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEMSINGLES-----------8FNL000300----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Clicked on the only 'G4' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEMSINGLES-----------R32-000100----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Navigating to: https://worldtabletennis.com/PostMatchCenter?eventId=3020&docCode=TTEWSINGLES-----------R32-001300----------
Clicked on the only 'G2' button.
Clicked on the only 'G3' button.
Navigating to: https://worldtabletennis.co

Unisco tutte le informazioni acquisite in un unico csv grezzo

In [10]:
# Funzione per validare la correttezza dei punteggi inseriti nel csv
def check_points_error(points_a, points_x):

    """

        Questa funzione tenta di rimuovere il più rumore possibile nei dati,
        con l'obiettivo di individuare i casi in cui i punteggi non sono validi

    """

    len_a = len(points_a)
    len_x = len(points_x)

    # Un set non può avere meno di 11 punti di gioco(minimo 11-0)
    if len_a < 11 or len_x < 11:
        return True

    # Un set deve avere lo stesso numero di istanti per entrambi i set dei giocatori
    if len(points_a) != len(points_x):
        return True

    # Un set deve finire con almeno uno dei due giocatori a 11 punti minimo
    if points_a[-1] < 11 and points_x[-1] < 11:
        return True

    # Un set deve finire con almeno due punti di distacco
    if abs(points_a[-1] - points_x[-1]) < 2:
        return True

    for i in range(1, len_a):

        # Un set non può avere un balzo di più di un punto fra un istante e un altro
        if abs(points_a[i - 1] - points_a[i]) > 1:
            return True

        if abs(points_x[i - 1] - points_x[i]) > 1:
            return True

        # Un set non può avere un punteggio decrescente
        if points_a[i] < points_a[i - 1]:
            return True
        elif points_x[i] < points_x[i - 1]:
            return True

        # Se un giocatore fa un punto in un istante "i" allora l'altro giocatore non farà punto
        if points_a[i] > points_a[i - 1]:
            if points_x[i] > points_x[i - 1]:
                return True

        if points_x[i] > points_x[i - 1]:
            if points_a[i] > points_a[i - 1]:
                return True

        # Se un giocatore non fa un punto in un istante "i" allora l'altro giocatore non può non fare un punto
        if points_a[i] == points_a[i - 1]:
            if points_x[i] == points_x[i - 1]:
                return True

        if points_x[i] == points_x[i - 1]:
            if points_a[i] == points_a[i - 1]:
                return True

    return False


def points_transformer(points_a, index):

    """

        Consideriamo i punti fatti da un giocatore come il numero
        di istanti in cui il giocatore si trova al punteggio i

    """

    frequency = Counter(points_a)
    result = []
    for i, val in enumerate(sorted(frequency.keys())):
        if i >= index:
            break
        result.append(frequency[val])

    return result


def process_match_log(file_path):

    """

        Questa funzione legge i file di .txt generati dallo scraper download_matches.py
        e genera le righe del dataset rimuovendo i dati errati

    """

    with open(file_path, 'r') as file:
        lines = file.readlines()

    num_sets = int(lines[0].strip())
    match_data = []  # Conterrà le righe da mettere nel dataset
    match_state = [0, 0]  # Stato iniziale dei set del match
    match_points_a = 0  # Numero di punti vinti da "a"
    match_points_x = 0  # Numero di punti vinti da "x"

    for i in range(num_sets):
        try:
            # Prende i puteggi del set "i" presenti nel file .txt considerato
            points_a = eval(lines[2 + i * 2].strip()) if lines[2 + i * 2].strip() else []
            points_x = eval(lines[1 + i * 2].strip()) if lines[1 + i * 2].strip() else []

            # Se nei punteggi è presente un errore allora genera una eccezione
            if check_points_error(points_a, points_x):
                raise ValueError("Errore nei punteggi")

            match_points_a += points_a[-1]  # Prendo il numero di punti fatti da a
            match_points_x += points_x[-1]  # Prendo il numero di punti fatti da x

            # Aggiunge al dataset temporaneo i punteggi dei giocatori e lo stato attuale dei set
            match_data.append({
                "points_a": points_a[1:-1] if len(points_a) > 2 else [],    # Non considero il primo e l'ultimo istante dei punteggi
                "points_x": points_x[1:-1] if len(points_x) > 2 else [],    # Perchè il primo istante è sempre 0 mentre l'ultimo ci dice il risultato finale della partita(DATA LEAKAGE!)
                "match_state": f"{match_state[0]}-{match_state[1]}"
            })

            # In base ai punteggi vedo chi ha vinto il set
            if points_a[-1] > points_x[-1]:
                match_state[0] += 1  # A vince il set
            else:
                match_state[1] += 1  # X vince il set

        except Exception as e:
            # In caso di errore, aggiungo dati vuoti per il set corrente e blocco l'analisi della partita incriminata
            match_data.append({
                "points_a": "",
                "points_x": "",
                "match_state": f"{match_state[0]}-{match_state[1]}"
            })
            break


    # Se il match ha punteggi troppo contrastanti allora lo tolgo dal dataset
    # Assumo che uno dei giocatori deve fare almeno 7 punti in tutta la partita per considerare il match come "equilibrato"
    if match_points_a < 7 or match_points_x < 7:
        match_data = []

    return match_data


def process_file(file_path, skip_header):
    """
    Funzione per leggere e processare un singolo file .tsv.
    """
    try:
        # Leggo il CSV contenente i dati su tutte le partite di un torneo tranne i punteggi che dovrò prendere dai file .txt
        data = pd.read_csv(file_path, sep='\t', skiprows=0 if skip_header else 0)

        all_match_data = []  # Conterrà tutte le righe del torneo analizzato

        # Per ciascuna partita del torneo inserisce il all_match_data le righe complete
        for idx, row in data.iterrows():
            event_id = row['event_id']
            doc = row['doc']
            filename_to_search = f"{event_id}_{doc}_console_logs.txt"
            matches_dir = 'matches'
            file_path_in_matches = os.path.join(matches_dir, filename_to_search)

            if os.path.exists(file_path_in_matches):
                print(f"File trovato: {file_path_in_matches}")
                match_data = process_match_log(file_path_in_matches)

                if match_data:
                    sets_to_win = max(row['res_a'], row['res_x'])  # Calcola i set necessari per vincere
                    for set_data in match_data:
                        all_match_data.append({
                            "event_id": event_id,
                            "match_id": doc,
                            "match_format": row['fmt'],
                            "players_gender": row['gender'],
                            "match_stage": row['stage'],
                            "stage_id": row['stage_id'],
                            "match_duration": row['duration'],
                            "match_start_time": row['start'],
                            "player_id": row['a_id'],
                            "player_2_id": row['b_id'],
                            "opponent_id": row['x_id'],
                            "opponent_2_id": row['y_id'],
                            "player_sets_won": row['res_a'],
                            "opponent_sets_won": row['res_x'],
                            "match_scores": row['scores'],
                            "sets_required_to_win": sets_to_win,
                            "current_match_state": set_data["match_state"],
                            "points_progression": set_data["points_a"],
                            "opponent_points": set_data["points_x"],
                        })

        return pd.DataFrame(all_match_data)

    except Exception as e:
        print(f"Errore durante la lettura del file {file_path}: {e}")
        return pd.DataFrame()


def main():
    tournaments_dir = 'tournaments'
    output_file = 'raw_data.csv'

    if os.path.exists(output_file):
        os.remove(output_file)

    if not os.path.exists(tournaments_dir):
        print(f"Errore: La cartella '{tournaments_dir}' non esiste.")
        return

    first_file = True

    for filename in os.listdir(tournaments_dir):
        if filename.endswith('.tsv'):
            file_path = os.path.join(tournaments_dir, filename)
            data = process_file(file_path, not first_file)

            if not data.empty:
                data.to_csv(output_file, mode='a', index=False, header=first_file)
                first_file = False


if __name__ == '__main__':
    main()

Downloading Chromium 136.0.7103.25 (playwright build v1169)[2m from https://cdn.playwright.dev/dbazure/download/playwright/builds/chromium/1169/chromium-linux.zip[22m
[1G167.7 MiB [] 0% 0.0s[0K[1G167.7 MiB [] 0% 42.8s[0K[1G167.7 MiB [] 0% 27.3s[0K[1G167.7 MiB [] 0% 15.7s[0K[1G167.7 MiB [] 0% 8.6s[0K[1G167.7 MiB [] 1% 5.3s[0K[1G167.7 MiB [] 2% 4.3s[0K[1G167.7 MiB [] 3% 3.4s[0K[1G167.7 MiB [] 4% 2.9s[0K[1G167.7 MiB [] 5% 2.6s[0K[1G167.7 MiB [] 5% 2.7s[0K[1G167.7 MiB [] 6% 2.6s[0K[1G167.7 MiB [] 7% 2.5s[0K[1G167.7 MiB [] 8% 2.3s[0K[1G167.7 MiB [] 9% 2.2s[0K[1G167.7 MiB [] 10% 2.2s[0K[1G167.7 MiB [] 11% 2.1s[0K[1G167.7 MiB [] 12% 2.0s[0K[1G167.7 MiB [] 13% 2.0s[0K[1G167.7 MiB [] 14% 1.9s[0K[1G167.7 MiB [] 15% 1.9s[0K[1G167.7 MiB [] 16% 1.9s[0K[1G167.7 MiB [] 17% 1.8s[0K[1G167.7 MiB [] 18% 1.8s[0K[1G167.7 MiB [] 19% 1.7s[0K[1G167.7 MiB [] 20% 1.6s[0K[1G167.7 MiB [] 22% 1.6s[0K[1G167.7 MiB [] 23% 1.5s[0K[1G167.7 MiB [] 24% 1.5s[0K[

# **DATA PREPROCESSING**

In [None]:
# Importiamo il dataset ottenuto tramite le operazioni di scraping
dataset = pd.read_csv("raw_dataset.csv")

dataset

## **Etichettatura**
Aggiungiamo al dataset una nuova colonna, denominata `set_result`, che indicherà il risultato di ciascun set per ogni partita:

- `1` per identificare la classe dei Vincitori del set.
- `0` per identificare la classe degli Sconfitti del set.

Questa etichettatura risulta particolarmente utile per l'addestramento di modelli come LSTM e Regressione Logistica, in cui l'obiettivo è prevedere, con una determinata probabilità, se un giocatore vincerà o perderà il set in base alle altre caratteristiche presenti nel dataset.

In [None]:
# Funzione per convertire i punteggi da stringa a lista di interi
def convert_to_int_list(points_str):
    if isinstance(points_str, str):
        return list(map(int, points_str.strip('[]').split(', ')))
    else:
        return None


# Funzione per determinare il risultato del set
def calculate_set_result(points_progression, opponent_points):
    if points_progression:
        if points_progression[-1] > opponent_points[-1]:
            return 1  # Vittoria per il giocatore
        else:
            return 0  # Sconfitta per il giocatore
    else:
        return -1  # Dati non conformi


set_results = []

dataset['points_progression'] = dataset['points_progression'].apply(convert_to_int_list)
dataset['opponent_points'] = dataset['opponent_points'].apply(convert_to_int_list)

for index, row in dataset.iterrows():
    result = calculate_set_result(row['points_progression'], row['opponent_points'])
    set_results.append(result)

# Aggiungo la nuova colonna 'set_result' al DataFrame
dataset['set_result'] = set_results

dataset




## **Analisi dei dati**

Esaminiamo la qualità e la correttezza dei dati, valutandone l'affidabilità e identificando eventuali incongruenze o anomalie che potrebbero influenzare l'addestramento.

### **Controllo del bilanciamento delle classi**
Un primo passo nell'analisi del dataset consiste nel verificare se le classi presenti siano bilanciate.

Per farlo, analizziamo la distribuzione delle istanze con valore `1` e `0` nella colonna `set_result`.

In [None]:
# Numero di elementi per la classe "Vincitori"
print(len(dataset[(dataset['set_result'] == 1)]))
# Numero di elementi per la classe "Sconfitti"
print(len(dataset[(dataset['set_result'] == 0)]))

# Totale
print(len(dataset))


Notiamo che abbiamo un dataset quasi perfettamente bilanciato e di conseguenza non sono necessari ulteriori accorgimenti

### **Analisi delle caratteristiche e delle distribuzioni dei dati**
Usiamo `describe()` per avere una overview sulle distribuzioni dei dati numerici

In [None]:
# Verifico la correttezza dei campi numerici
dataset.describe()

Notiamo che nella colonna `set_required_to_win`, si riscontrano dei valori rari (`2` e `5`)  che potrebbero non essere rilevanti per il nostro obiettivo di analisi.

Questi valori potrebbero introdurre rumore o distorcere le inferenze, soprattutto perché la loro frequenza è estremamente bassa rispetto agli altri valori.

### **Controllo dei valori nulli**

Verificare la presenza di valori nulli all'interno del dataset.

In [None]:
# Identificare i valori NaN nel dataset
nan_mask = dataset.isna()

# Conta i valori NaN (valori mancanti) per ciascuna colonna del dataset
nan_count = nan_mask.sum()

# Verifico i valori null del raw_dataset
nan_count

Le colonne `points_progression` e `opponent_points` contengono **2490** valori nulli, che richiedono un intervento per la gestione.

Le colonne `player_2_id` e `opponent_2_id` presentano invece **54539** valori nulli, ma ciò è normale, in quanto queste colonne riguardano il secondo giocatore di una squadra, quindi sono nulle nelle partite di singolo.


## **Operazione sulle feature**


Facciamo alcune considerazioni sulle caratteristiche del nostro dataset e identifichiamo possibili miglioramenti per ottimizzarlo in vista del prossimo training del modello:

- Eliminazione delle righe in cui sono stati trovati valori nulli e indesiderati nelle colonna `points_progression` e `sets_required_to_win` individuati in fase di analisi

- Le colonne `sets_required_to_win` e `current_match_state` verranno sostituite con due nuove colonne: `final_set_a` e `final_set_b` per rendere il dataset più chiaro e organizzato

- Trasformazione dei valori T nella colonna `match_format` in formati che siano o S o D

- Operazioni sulla colonna `points_progression`, fondamentale per il successivo addestramento dei modelli


-  Le colonne `event_id`,`match_id`, `stage_id`, `match_duration`, `players_gender`, `match_start_time`, `opponent_id`, `opponent_2_id`,`player_sets_won`, `opponent_sets_won`, `match_scores`, `opponent_points`,`match_format`, `player_id`, `player_2_id`, `sets_required_to_win`, `current_match_state` non sono necessarie per il training dei modelli e possono essere cancellate

### **Gestione dei valori nulli e indesiderati**
Dall'analisi precedente, abbiamo constatato che la feature `points_progression` manca di alcuni suoi valori. La strategia che abbiamo applicato è l'eliminazione delle righe corrispondenti.

In [None]:
# Rimuoviamo tutte le righe del dataset in cui la colonna 'points_progression' contiene valori NaN
dataset = dataset.dropna(subset=["points_progression"])

# Verifichiamo che non esistano più righe con valori NaN nella colonna 'points_progression'
dataset[dataset['points_progression'].isnull()]

In base a ciò che abbiamo appreso precedentemente da `describe()`, rimuoviamo i le righe non desiderate con valore della colonna `sets_required_to_win` uguale a `2` o `5`.

Questi valori rari potrebbero rappresentare formati di gioco non standard (es. partite amichevoli o partite abbreviate per motivi eccezionali), non rilevanti per l'analisi


In [None]:
# Rimuoviamo le righe contenenti set con punteggi rari che non vogliamo considerare
dataset = dataset[~dataset['sets_required_to_win'].isin([2, 5])]

dataset.describe()

###**Colonne *sets_required_to_win* e *current_match_state***

Le colonne `sets_required_to_win` e `current_match_state` fanno entrambe riferimento al numero di set necessari per vincere una partita. Per rendere il dataset più chiaro e organizzato, possiamo sostituirle con due nuove colonne: `final_set_a` e `final_set_b`, che rappresentano rispettivamente un booleano che indica il set finale per il **Giocatore A** e per l'avversario **Giocatore B** necessario a vincere la partita.

Determiniamo se un giocatore o il suo avversario è a un set dalla vittoria
- Se il giocatore è un set dalla vittoria poniamo `final_set_a` pari a `1`
- Se l'avversario è un set dalla vittoria poniamo `final_set_b` pari a `1`
- Altrimenti sarà pari a `0`

In [None]:
final_set_a_diff = dataset['sets_required_to_win'] - dataset['current_match_state'].str.split('-', expand=True)[0].astype(int)
final_set_b_diff = dataset['sets_required_to_win'] - dataset['current_match_state'].str.split('-', expand=True)[1].astype(int)

# Crea una colonna 'final_set_a' che vale 1 se il giocatore è a un set dalla vittoria, altrimenti 0
dataset['final_set_a'] = (final_set_a_diff == 1).astype(int)

# Crea una colonna 'final_set_b' che vale 1 se l'avversario è a un set dalla vittoria, altrimenti 0
dataset['final_set_b'] = (final_set_b_diff == 1).astype(int)

# Riposizionamento delle nuove colonne
is_final_index = dataset.columns.get_loc('current_match_state')
final_set_a_column = dataset.pop('final_set_a')
final_set_b_column = dataset.pop('final_set_b')
dataset.insert(is_final_index + 1, 'final_set_a', final_set_a_column)
dataset.insert(is_final_index + 2, 'final_set_b', final_set_b_column)

dataset


### **Colonna *match_format***

Modifichiamo la colonna `match_format`, sostituendo tutti i valori `T` (partita di team) con `S` (partita di singolo) o `D` (partita di doppio)

Viene eseguita questa operazione per **evitare la succesiva rimozione di istanze** che potrebbero ritornarci utili nello sviluppo successivo dei nostri modelli.

In [None]:
# Funzione per determinare il match_format quando è Team (Singolo o Doppio)
def determine_match_format(player_2_id):
    if pd.isna(player_2_id):
        return 'S'  # Ritorna 'S' per indicare una partita singola
    else:
        return 'D'  # Ritorna 'D' per indicare una partita doppia


dataset['match_format'] = dataset['player_2_id'].apply(determine_match_format)

dataset

### **Colonna *points_progression***

#### Trasformazione del formato
Ogni istanza della colonna viene convertita in un vettore binario, dove ogni elemento rappresenta un punto nel set. Il valore del vettore sarà 1 se il giocatore ha fatto un punto in quel particolare istante del set, e 0 altrimenti. Questo formato rende il vettore della colonna `points_progression` più maneggevole e adatto all'addestramento dei modelli.

In [None]:
def transform_points_progression(points):
    transformed = []

    for i in range(len(points)):
        points[i] = int(points[i])

        # Per il primo punteggio, aggiungiamo 1 se il punteggio è maggiore di 0, altrimenti 0
        if i == 0:
            transformed.append(1 if points[i] > 0 else 0)
        else:
            transformed.append(1 if points[i] > points[i - 1] else 0)

    return transformed

dataset['points_progression'] = dataset['points_progression'].apply(transform_points_progression)

dataset

#### Generazione delle sottosequenze di punteggio
Per ogni istanza di un set con punteggio finale (ad esempio, 10-5), la funzione crea tutte le possibili situazioni intermedie dei punteggi. Questo significa che, dato il punteggio finale del set, vengono estratte tutte le progressioni dei punteggi intermedi (ad esempio, 1-0, 2-0, 3-1, e così via) fino al punteggio finale. In pratica, la funzione analizza la sequenza di punti per ricostruire ogni stato intermedio del set, consentendo una visione più dettagliata dell'andamento della partita e della sua evoluzione.

In [None]:
def generate_score_sequence(points_progression):

    if isinstance(points_progression, str):
      points_progression = ast.literal_eval(points_progression)

    if isinstance(points_progression, list):
        points_progression = [int(x) for x in points_progression]

    # Crea le sottosequenze
    sequence = [list(points_progression[:i]) for i in range(1, len(points_progression) + 1)]

    return sequence


dataset['points_progression'] = dataset['points_progression'].apply(generate_score_sequence)
dataset = dataset.explode('points_progression', ignore_index=True)

dataset

#### Rimozione delle sottosequenze indesiderate
Filtriamo le sequenze di punteggi non rilevanti per il nostro scopo:

- **Sequenze che arrivano ai vantaggi**: Prevedere il vincitore diventa troppo complesso a causa delle numerose combinazioni possibili, per cui queste sequenze vengono escluse.

- **Sequenze che arrivano al set point**: Quando un giocatore raggiunge il set point senza vantaggi, l'esito è praticamente certo (chi ha 10 punti è quasi sempre il vincitore), rendendo la previsione superflua.

- **Situazioni parziali del set con meno di 6 punti giocati**: Sequenze con pochi punti non forniscono un contesto sufficiente per una previsione accurata e quindi vengono eliminate.

- **Situazioni con una differenza di punteggio maggiore di 3 punti**: Quando la differenza tra i punteggi è troppo ampia, il risultato è altamente prevedibile, rendendo queste sequenze meno interessanti o informative.

Questi filtri sono applicati per ridurre la dimensionalità del dataset e concentrare i modelli sulle situazioni più significative e complesse da analizzare.

In [None]:
def remove_rows_with_large_points_progression(df):

    def is_valid_progression(points_progression):

        if isinstance(points_progression, str):
            points_progression = ast.literal_eval(points_progression)

        # Conta gli 0 e gli 1
        count_zeros = points_progression.count(0)
        count_ones = points_progression.count(1)
        total_points = count_zeros + count_ones

        # Applica i filtri
        return (
            6 < total_points < 20 and
            count_zeros < 10 and
            count_ones < 10 and
            abs(count_zeros - count_ones) < 4
        )

    # Filtra le righe
    return df[df['points_progression'].apply(is_valid_progression)]


dataset = remove_rows_with_large_points_progression(dataset)
dataset


### **Operazione su *single_matches_dataset***

Attraverso l'analisi della colonna `match_format` generiamo un nuovo dataset contente solo le partite di singolo.

Questo dataset potrà essere successivamente utile nel testing dei modelli.

In [None]:
# Rimuoviamo dal dataset le partite di doppio
rows_to_remove = dataset[dataset['match_format'] == 'D'].index

dataset_singles = dataset.drop(index=rows_to_remove)

dataset_singles

### **Eliminazione delle colonne non adatte all'addestramento**

Vantaggi di questa operazione:
- **Eliminando colonne non necessarie**, il dataset diventa più semplice e focalizzato sui dati utili.
- Rimuovendo informazioni irrilevanti, l'addestramento risulta più chiaro e veloce, **evitando di appesantire** il modello con dati superflui.

In [None]:
# Definiamo le colonne da eliminare
columns_to_drop = ['event_id', 'match_id', 'stage_id', 'match_duration','match_stage',
                   'players_gender','match_start_time','opponent_id', 'opponent_2_id',
                  'player_sets_won', 'opponent_sets_won', 'match_scores',
                  'opponent_points','match_format', 'player_id', 'player_2_id',
                   'sets_required_to_win', 'current_match_state']

# Rimuovo le colonne che non mi interessano
dataset = dataset.drop(columns=columns_to_drop, axis=1)
dataset_singles = dataset_singles.drop(columns=columns_to_drop, axis=1)

dataset_singles

### **Salvataggio dei nuovi dataset**

In [None]:
# Salviamo il dataset pulito dai valori indesiderati
dataset.to_csv("cleaned_dataset.csv", index=False)

In [None]:
# Salviamo il dataset finale delle partite di singolo
dataset_singles.to_csv("singles_matches_dataset.csv", index=False)

MEMO: RICORDATI DI RICONSIDERARE LE SEQUENZE DI PUNTEGGIO CHE HAI TOLTO E DI GENERARE LE ISTANZE INVERTITE DEL DATASET