In [4]:
import os
import pandas as pd
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.manifold import MDS
import altair as alt
import numpy as np

In [5]:
# List all files and directories in the current directory
all_files = os.listdir('.')

# Filter the list to get only CSV files
csv_files = [f for f in all_files if f.endswith('.csv')]

# Print the list of CSV files
print("Lista dei file CSV nella cartella corrente:")
for csv in csv_files:
    print(csv)

# For the user response, I'll also check if the list is empty
if not csv_files:
    print("\nNessun file CSV trovato nella cartella corrente.")

Lista dei file CSV nella cartella corrente:
team_inverse_frequency_vectors.csv
Atalanta.csv
Venezia.csv
Empoli.csv
Hellas_Verona.csv
Bologna.csv
Serie_A_24_25.csv
Lecce.csv
AC_Milan.csv
Torino.csv
team_frequency_vectors.csv
Parma_Calcio_1913.csv
Udinese.csv
Fiorentina.csv
Cagliari.csv
unique_event_sequences_vocabulary.csv
Como.csv
Genoa.csv
Napoli.csv
Monza.csv
Lazio.csv
Juventus.csv
team_one_hot_vectors.csv
AS_Roma.csv
Inter_Milan.csv


In [6]:
# Lista di tutti i file forniti dall'utente
file_list = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv",
    "Udinese.csv", "Venezia.csv"
]

# Insieme per memorizzare tutte le parole uniche
unique_words_vocabulary = set()
files_processed = 0
files_not_found = []

print(f"Tentativo di processare {len(file_list)} file CSV...")

for file_name in file_list:
    try:
        # Leggi il file CSV
        df = pd.read_csv(file_name)
        
        # Controlla se la colonna 'words' esiste
        if 'words' in df.columns:
            # Assumendo la nuova interpretazione: ogni valore della colonna 'words' è una singola "parola" (sequenza di eventi).
            
            # 1. Riempi eventuali valori mancanti (NaN) con una stringa vuota
            # 2. Converti in set per ottenere valori unici in questo file
            words_series = df['words'].fillna('').astype(str).str.strip()
            # Filtra le stringhe vuote risultanti
            current_file_words = set(words_series[words_series != ''])
            
            # Aggiorna l'insieme globale con le parole uniche di questo file
            unique_words_vocabulary.update(current_file_words)
            
            files_processed += 1
            
        else:
            print(f"Attenzione: La colonna 'words' non è stata trovata nel file {file_name}. File saltato.")

    except FileNotFoundError:
        files_not_found.append(file_name)
    except Exception as e:
        # Cattura altri possibili errori (es. malformazione del CSV)
        print(f"Errore durante l'elaborazione del file {file_name}: {e}. File saltato.")

print("\n--- Risultato dell'elaborazione ---")
print(f"File processati con successo: {files_processed} su {len(file_list)}")
print(f"File non trovati: {len(files_not_found)}")

if files_not_found:
    print(f"I seguenti file non sono stati trovati nel tuo ambiente di lavoro e non sono stati inclusi nel vocabolario: {', '.join(files_not_found)}")

# Converti l'insieme in una lista per la presentazione
final_vocabulary_list = sorted(list(unique_words_vocabulary))

print(f"\nNumero totale di 'parole' uniche trovate: {len(final_vocabulary_list)}")

# Mostra un campione delle prime 5 parole più lunghe e delle prime 5 parole più corte, se possibile
if len(final_vocabulary_list) > 0:
    # Ordina per lunghezza e poi alfabeticamente per avere un campione stabile
    sorted_by_length = sorted(final_vocabulary_list, key=lambda x: (len(x), x))
    
    sample_short = sorted_by_length[:5]
    sample_long = sorted_by_length[-5:]
    
    print("\nEsempio di 'parole' uniche (sequenze di eventi):")
    
    print("\n5 'parole' più corte:")
    for word in sample_short:
        print(f"- {word}")
        
    if len(final_vocabulary_list) > 5:
        print("\n5 'parole' più lunghe:")
        for word in reversed(sample_long): # Le prendiamo al contrario per mostrare le più lunghe in alto
            print(f"- {word[:100]}...") # Tronca per non stampare righe enormi

Tentativo di processare 20 file CSV...

--- Risultato dell'elaborazione ---
File processati con successo: 20 su 20
File non trovati: 0

Numero totale di 'parole' uniche trovate: 9337

Esempio di 'parole' uniche (sequenze di eventi):

5 'parole' più corte:
- Duel
- Pass
- Shot
- 50/50
- Block

5 'parole' più lunghe:
- Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass...
- Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Car...
- Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass...
- Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass...
- Ball Recovery-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Bal...


In [7]:
# Salviamo la lista in un file CSV per una facile ri-utilizzabilità futura se necessario
output_df = pd.DataFrame(final_vocabulary_list, columns=['unique_event_sequences'])
output_file = 'unique_event_sequences_vocabulary.csv'
output_df.to_csv(output_file, index=False)
print(f"\nIl vocabolario delle sequenze di eventi uniche è stato salvato nel file: {output_file}")


Il vocabolario delle sequenze di eventi uniche è stato salvato nel file: unique_event_sequences_vocabulary.csv


In [8]:
# 1. Lista dei file forniti dall'utente
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv",
    "Udinese.csv", "Venezia.csv"
]

vocabulary_file = 'unique_event_sequences_vocabulary.csv'
team_vectors = []
files_not_found = []

try:
    # 2. Carica il vocabolario globale
    vocab_df = pd.read_csv(vocabulary_file)
    global_vocabulary = sorted(vocab_df['unique_event_sequences'].tolist())
    vocab_size = len(global_vocabulary)
    
    # Crea una mappatura dalla parola all'indice
    word_to_index = {word: i for i, word in enumerate(global_vocabulary)}

    print(f"Vocabolario caricato con successo dal file: {vocabulary_file}")
    print(f"Dimensione del vocabolario disponibile (non 9337): {vocab_size}")
    
    if vocab_size != 9337:
        print(f"NOTA: La dimensione del vocabolario trovato è {vocab_size}, non 9337 come richiesto. Verranno generati vettori di questa lunghezza.")

    # 3. Iterazione attraverso i file delle squadre
    for file_name in team_files:
        try:
            # Estrarre il nome della squadra dal nome del file
            team_name = file_name.replace('.csv', '')
            
            # Leggi il file CSV
            df = pd.read_csv(file_name)
            
            # Controlla se la colonna 'words' esiste
            if 'words' in df.columns:
                # Ottieni le 'parole' uniche (sequenze di eventi) per questa squadra
                current_team_words = set(df['words'].fillna('').astype(str).str.strip().tolist())
                current_team_words.discard('') # Rimuovi stringhe vuote
                
                # 4. Creazione del one-hot vector
                # Inizializza il vettore a zeri
                one_hot_vector = np.zeros(vocab_size, dtype=int)
                
                # Imposta a 1 le posizioni delle parole presenti
                for word in current_team_words:
                    if word in word_to_index:
                        index = word_to_index[word]
                        one_hot_vector[index] = 1
                
                # Aggiungi il risultato alla lista (nome squadra + vettore)
                team_vectors.append({'Team': team_name, 'Vector': one_hot_vector})
                print(f"Vettore one-hot creato per {team_name} (lunghezza {vocab_size}).")
                
            else:
                print(f"Attenzione: La colonna 'words' non è stata trovata nel file {file_name}. Squadra saltata.")

        except FileNotFoundError:
            files_not_found.append(file_name)
        except Exception as e:
            print(f"Errore durante l'elaborazione del file {file_name}: {e}. Squadra saltata.")

except FileNotFoundError:
    print(f"Errore: File del vocabolario non trovato ({vocabulary_file}). Eseguire il passaggio precedente per crearlo.")
    team_vectors = None
except Exception as e:
    print(f"Errore durante il caricamento del vocabolario: {e}")
    team_vectors = None

if team_vectors:
    # 5. Salva i risultati
    # Costruisci il DataFrame finale
    
    # Crea una lista di righe, dove ogni riga è il nome della squadra seguito dagli elementi del vettore
    data_for_df = []
    
    # Nomi delle colonne: 'Team' + le parole del vocabolario
    column_names = ['Team'] + global_vocabulary
    
    for item in team_vectors:
        row = [item['Team']] + item['Vector'].tolist()
        data_for_df.append(row)
    
    final_df = pd.DataFrame(data_for_df, columns=column_names)
    
    output_file = 'team_one_hot_vectors.csv'
    final_df.to_csv(output_file, index=False)
    
    print("\n--- Risultato ---")
    print(f"Creazione dei vettori completata per {len(team_vectors)} squadra/e.")
    print(f"I vettori one-hot (lunghezza {vocab_size}) sono stati salvati nel file: {output_file}")
    
if files_not_found:
    print(f"\nAVVISO: I seguenti file non sono stati trovati e non sono stati inclusi nel risultato: {', '.join(files_not_found)}")

Vocabolario caricato con successo dal file: unique_event_sequences_vocabulary.csv
Dimensione del vocabolario disponibile (non 9337): 9337
Vettore one-hot creato per AC_Milan (lunghezza 9337).
Vettore one-hot creato per AS_Roma (lunghezza 9337).
Vettore one-hot creato per Atalanta (lunghezza 9337).
Vettore one-hot creato per Bologna (lunghezza 9337).
Vettore one-hot creato per Cagliari (lunghezza 9337).
Vettore one-hot creato per Como (lunghezza 9337).
Vettore one-hot creato per Empoli (lunghezza 9337).
Vettore one-hot creato per Fiorentina (lunghezza 9337).
Vettore one-hot creato per Genoa (lunghezza 9337).
Vettore one-hot creato per Hellas_Verona (lunghezza 9337).
Vettore one-hot creato per Inter_Milan (lunghezza 9337).
Vettore one-hot creato per Juventus (lunghezza 9337).
Vettore one-hot creato per Lazio (lunghezza 9337).
Vettore one-hot creato per Lecce (lunghezza 9337).
Vettore one-hot creato per Monza (lunghezza 9337).
Vettore one-hot creato per Napoli (lunghezza 9337).
Vettore on

In [9]:
# 1. Load the data
try:
    df_one_hot = pd.read_csv('team_one_hot_vectors.csv')
except FileNotFoundError:
    print("Errore: File 'team_one_hot_vectors.csv' non trovato. Si prega di eseguire il passaggio precedente per crearlo.")
    raise

# 2. Separate features
teams = df_one_hot['Team']
X = df_one_hot.drop('Team', axis=1)

n_samples = X.shape[0]
n_components = 2

# Inizializza il DataFrame per i risultati PCA
X_pca = pd.DataFrame(columns=[f'PC{i+1}' for i in range(n_components)])

if n_samples < n_components:
    print(f"AVVISO: PCA in 2 dimensioni richiede almeno 2 campioni. Trovati solo {n_samples} campioni (squadre).")
    
    if n_samples == 1:
        # Per un singolo campione, la PCA non è significativa. Si usa [0.0, 0.0] per il plotting.
        print("Il vettore contiene solo una squadra. Il risultato della PCA sarà un singolo punto all'origine per la visualizzazione.")
        X_pca = pd.DataFrame([[0.0, 0.0]], columns=['PC1', 'PC2'])
    else:
        # Caso teorico con 1 < n_samples < 2
        print("Impossibile eseguire la PCA a 2 dimensioni con un numero insufficiente di campioni.")
        raise ValueError("Insufficient number of samples for 2 components PCA.")
        
else:
    # 3. Perform PCA
    pca = PCA(n_components=n_components)
    X_pca_array = pca.fit_transform(X)
    X_pca = pd.DataFrame(X_pca_array, columns=[f'PC{i+1}' for i in range(n_components)])
    print(f"PCA completata. Varianza spiegata dal PC1: {pca.explained_variance_ratio_[0]:.2f}, PC2: {pca.explained_variance_ratio_[1]:.2f}")


# 4. Create a DataFrame for visualization
df_plot = pd.concat([teams.reset_index(drop=True), X_pca.reset_index(drop=True)], axis=1)

# 5. Visualize (using Altair)
chart = alt.Chart(df_plot).mark_circle(size=100).encode(
    x=alt.X('PC1', title='Componente Principale 1'),
    y=alt.Y('PC2', title='Componente Principale 2'),
    color=alt.Color('Team', legend=alt.Legend(title="Squadra")), # Colore basato sulla squadra
    tooltip=['Team', alt.Tooltip('PC1', format='.4f'), alt.Tooltip('PC2', format='.4f')]
).properties(
    title=f"PCA dei Vettori One-Hot delle Squadre (N={n_samples})",
    width=700, # Aumento la larghezza
    height=500 # Aumento l'altezza
)

# Aggiungi le etichette delle squadre
text = chart.mark_text(
    align='left',
    baseline='middle',
    dx=7 # Sposta leggermente il testo a destra
).encode(
    text='Team',
    color=alt.value('black') # Etichette nere
)

# Combina punti e testo, e rendi il grafico interattivo
final_chart = (chart + text).interactive()
final_chart

PCA completata. Varianza spiegata dal PC1: 0.07, PC2: 0.06


In [10]:
# Lista di tutti i file forniti dall'utente
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv",
    "Udinese.csv", "Venezia.csv"
]

vocabulary_file = 'unique_event_sequences_vocabulary.csv'
team_vectors = []
files_not_found = []

try:
    # 1. Carica il vocabolario globale
    vocab_df = pd.read_csv(vocabulary_file)
    global_vocabulary = sorted(vocab_df['unique_event_sequences'].tolist())
    vocab_size = len(global_vocabulary)
    
    # Crea una mappatura dalla parola all'indice
    word_to_index = {word: i for i, word in enumerate(global_vocabulary)}

    print(f"Vocabolario caricato con successo (Dimensione: {vocab_size})")

    # 2. Iterazione attraverso i file delle squadre
    for file_name in team_files:
        try:
            team_name = file_name.replace('.csv', '')
            
            # Leggi il file CSV
            df = pd.read_csv(file_name)
            
            if 'words' in df.columns:
                # Calcola la frequenza di ogni 'parola' (sequenza di eventi)
                # Pulisce i dati prima di contare
                words_series = df['words'].fillna('').astype(str).str.strip()
                # value_counts() calcola la frequenza
                word_counts = words_series[words_series != ''].value_counts()
                
                # 3. Creazione del Frequency Vector
                # Inizializza il vettore a zeri
                frequency_vector = np.zeros(vocab_size, dtype=int)
                
                # Imposta la frequenza per le parole presenti
                for word, count in word_counts.items():
                    if word in word_to_index:
                        index = word_to_index[word]
                        # Assegna la frequenza (count) anziché 1
                        frequency_vector[index] = count
                
                # Aggiungi il risultato alla lista (nome squadra + vettore)
                team_vectors.append({'Team': team_name, 'Vector': frequency_vector})
                print(f"Vettore di frequenza creato per {team_name} (lunghezza {vocab_size}).")
                
            else:
                print(f"Attenzione: La colonna 'words' non è stata trovata nel file {file_name}. Squadra saltata.")

        except FileNotFoundError:
            files_not_found.append(file_name)
        except Exception as e:
            print(f"Errore durante l'elaborazione del file {file_name}: {e}. Squadra saltata.")

except FileNotFoundError:
    print(f"Errore: File del vocabolario non trovato ({vocabulary_file}). Eseguire il passaggio precedente per crearlo.")
    team_vectors = None
except Exception as e:
    print(f"Errore durante il caricamento del vocabolario: {e}")
    team_vectors = None

if team_vectors:
    # 4. Salva i risultati
    data_for_df = []
    column_names = ['Team'] + global_vocabulary
    
    for item in team_vectors:
        row = [item['Team']] + item['Vector'].tolist()
        data_for_df.append(row)
    
    final_df = pd.DataFrame(data_for_df, columns=column_names)
    
    output_file = 'team_frequency_vectors.csv'
    final_df.to_csv(output_file, index=False)
    
    print("\n--- Risultato ---")
    print(f"Creazione dei vettori di frequenza completata per {len(team_vectors)} squadra/e.")
    print(f"I vettori di frequenza (lunghezza {vocab_size}) sono stati salvati nel file: {output_file}")

Vocabolario caricato con successo (Dimensione: 9337)
Vettore di frequenza creato per AC_Milan (lunghezza 9337).
Vettore di frequenza creato per AS_Roma (lunghezza 9337).
Vettore di frequenza creato per Atalanta (lunghezza 9337).
Vettore di frequenza creato per Bologna (lunghezza 9337).
Vettore di frequenza creato per Cagliari (lunghezza 9337).
Vettore di frequenza creato per Como (lunghezza 9337).
Vettore di frequenza creato per Empoli (lunghezza 9337).
Vettore di frequenza creato per Fiorentina (lunghezza 9337).
Vettore di frequenza creato per Genoa (lunghezza 9337).
Vettore di frequenza creato per Hellas_Verona (lunghezza 9337).
Vettore di frequenza creato per Inter_Milan (lunghezza 9337).
Vettore di frequenza creato per Juventus (lunghezza 9337).
Vettore di frequenza creato per Lazio (lunghezza 9337).
Vettore di frequenza creato per Lecce (lunghezza 9337).
Vettore di frequenza creato per Monza (lunghezza 9337).
Vettore di frequenza creato per Napoli (lunghezza 9337).
Vettore di freq

In [11]:
# 1. Load the data: MODIFICA IL NOME DEL FILE
try:
    df_freq_vectors = pd.read_csv('team_frequency_vectors.csv')
except FileNotFoundError:
    print("Errore: File 'team_frequency_vectors.csv' non trovato. Si prega di eseguire il passaggio precedente per crearlo.")
    raise

# 2. Separate features (usa il nuovo DataFrame: df_freq_vectors)
teams = df_freq_vectors['Team']
X = df_freq_vectors.drop('Team', axis=1)

n_samples = X.shape[0]
n_components = 2

# Inizializza il DataFrame per i risultati PCA
X_pca = pd.DataFrame(columns=[f'PC{i+1}' for i in range(n_components)])

if n_samples < n_components:
    print(f"AVVISO: PCA in 2 dimensioni richiede almeno 2 campioni. Trovati solo {n_samples} campioni (squadre).")
    
    if n_samples == 1:
        # Per un singolo campione, la PCA non è significativa. Si usa [0.0, 0.0] per il plotting.
        print("Il vettore contiene solo una squadra. Il risultato della PCA sarà un singolo punto all'origine per la visualizzazione.")
        X_pca = pd.DataFrame([[0.0, 0.0]], columns=['PC1', 'PC2'])
    else:
        # Caso teorico con 1 < n_samples < 2
        print("Impossibile eseguire la PCA a 2 dimensioni con un numero insufficiente di campioni.")
        raise ValueError("Insufficient number of samples for 2 components PCA.")
        
else:
    # 3. Perform PCA
    pca = PCA(n_components=n_components)
    X_pca_array = pca.fit_transform(X)
    X_pca = pd.DataFrame(X_pca_array, columns=[f'PC{i+1}' for i in range(n_components)])
    print(f"PCA completata. Varianza spiegata dal PC1: {pca.explained_variance_ratio_[0]:.2f}, PC2: {pca.explained_variance_ratio_[1]:.2f}")


# 4. Create a DataFrame for visualization
df_plot = pd.concat([teams.reset_index(drop=True), X_pca.reset_index(drop=True)], axis=1)

# 5. Visualize (using Altair)
chart = alt.Chart(df_plot).mark_circle(size=100).encode(
    x=alt.X('PC1', title='Componente Principale 1'),
    y=alt.Y('PC2', title='Componente Principale 2'),
    color=alt.Color('Team', legend=alt.Legend(title="Squadra")), # Colore basato sulla squadra
    tooltip=['Team', alt.Tooltip('PC1', format='.4f'), alt.Tooltip('PC2', format='.4f')]
).properties(
    # MODIFICA IL TITOLO
    title=f"PCA dei Vettori di Frequenza delle Squadre (N={n_samples})",
    width=700, 
    height=500 
)

# Aggiungi le etichette delle squadre
text = chart.mark_text(
    align='left',
    baseline='middle',
    dx=7 # Sposta leggermente il testo a destra
).encode(
    text='Team',
    color=alt.value('black') # Etichette nere
)

# Combina punti e testo, e rendi il grafico interattivo
final_chart = (chart + text).interactive()
final_chart

PCA completata. Varianza spiegata dal PC1: 0.75, PC2: 0.10


In [12]:
# --- CONFIGURAZIONI ---
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv",
    "Udinese.csv", "Venezia.csv"
]
vocabulary_file = 'unique_event_sequences_vocabulary.csv'
team_vectors = []
files_not_found = []
output_vector_file = 'team_inverse_frequency_vectors.csv'
N_COMPONENTS = 2

# --- PARTE 1: CREAZIONE DEI VETTORI DI INVERSO FREQUENZA (1/f) ---

try:
    # 1. Carica il vocabolario globale
    vocab_df = pd.read_csv(vocabulary_file)
    global_vocabulary = sorted(vocab_df['unique_event_sequences'].tolist())
    vocab_size = len(global_vocabulary)
    
    word_to_index = {word: i for i, word in enumerate(global_vocabulary)}

    print(f"Vocabolario caricato con successo (Dimensione: {vocab_size})")

    # 2. Iterazione attraverso i file delle squadre
    for file_name in team_files:
        try:
            team_name = file_name.replace('.csv', '')
            df = pd.read_csv(file_name)
            
            if 'words' in df.columns:
                # Calcola la frequenza di ogni 'parola' (sequenza di eventi)
                words_series = df['words'].fillna('').astype(str).str.strip()
                word_counts = words_series[words_series != ''].value_counts()
                
                # 3. Creazione del Vettore Raw Count
                frequency_vector = np.zeros(vocab_size, dtype=int)
                
                for word, count in word_counts.items():
                    if word in word_to_index:
                        index = word_to_index[word]
                        frequency_vector[index] = count
                
                # 4. TRASFORMAZIONE IN INVERSO FREQUENZA (1/f)
                inverse_frequency_vector = frequency_vector.astype(float)
                
                # Trova gli indici dove la frequenza è maggiore di zero
                non_zero_indices = inverse_frequency_vector > 0
                
                # Applica 1/f solo dove la frequenza non è zero
                # np.reciprocal(x) calcola 1/x
                inverse_frequency_vector[non_zero_indices] = np.reciprocal(inverse_frequency_vector[non_zero_indices])
                
                # Aggiungi il risultato alla lista (nome squadra + vettore)
                team_vectors.append({'Team': team_name, 'Vector': inverse_frequency_vector})
                print(f"Vettore di inverso frequenza creato per {team_name} (lunghezza {vocab_size}).")
                
            else:
                print(f"Attenzione: La colonna 'words' non è stata trovata nel file {file_name}. Squadra saltata.")

        except FileNotFoundError:
            files_not_found.append(file_name)
        except Exception as e:
            print(f"Errore durante l'elaborazione del file {file_name}: {e}. Squadra saltata.")

except FileNotFoundError:
    print(f"Errore: File del vocabolario non trovato ({vocabulary_file}). Eseguire il passaggio precedente per crearlo.")
    team_vectors = None
except Exception as e:
    print(f"Errore durante il caricamento del vocabolario: {e}")
    team_vectors = None

if team_vectors:
    # 5. Salva i risultati
    data_for_df = []
    column_names = ['Team'] + global_vocabulary
    
    for item in team_vectors:
        row = [item['Team']] + item['Vector'].tolist()
        data_for_df.append(row)
    
    final_df = pd.DataFrame(data_for_df, columns=column_names)
    final_df.to_csv(output_vector_file, index=False)
    
    print("\n--- Risultato: Vettori di Inverso Frequenza ---")
    print(f"Creazione dei vettori completata per {len(team_vectors)} squadra/e.")
    print(f"I vettori di inverso frequenza sono stati salvati nel file: {output_vector_file}")
    
if files_not_found:
    print(f"\nAVVISO: I seguenti file non sono stati trovati: {', '.join(files_not_found)}")

# --- PARTE 2: PCA E VISUALIZZAZIONE ---

if team_vectors:
    # 1. Load the data
    df_inv_freq_vectors = pd.read_csv(output_vector_file)

    # 2. Separate features
    teams = df_inv_freq_vectors['Team']
    X = df_inv_freq_vectors.drop('Team', axis=1)

    n_samples = X.shape[0]

    # Inizializza il DataFrame per i risultati PCA
    X_pca = pd.DataFrame(columns=[f'PC{i+1}' for i in range(N_COMPONENTS)])
    explained_variance_ratio = [0.0, 0.0]

    if n_samples < N_COMPONENTS:
        print(f"\nAVVISO: PCA in {N_COMPONENTS} dimensioni richiede almeno {N_COMPONENTS} campioni. Trovati solo {n_samples} campioni.")
        
        if n_samples == 1:
            X_pca = pd.DataFrame([[0.0, 0.0]], columns=['PC1', 'PC2'])
            print("Il risultato della PCA sarà un singolo punto all'origine.")
            
    else:
        # 3. Perform PCA
        pca = PCA(n_components=N_COMPONENTS)
        X_pca_array = pca.fit_transform(X)
        X_pca = pd.DataFrame(X_pca_array, columns=[f'PC{i+1}' for i in range(N_COMPONENTS)])
        explained_variance_ratio = pca.explained_variance_ratio_
        print(f"PCA completata. Varianza spiegata dal PC1: {explained_variance_ratio[0]:.2f}, PC2: {explained_variance_ratio[1]:.2f}")


    # 4. Create a DataFrame for visualization
    df_plot = pd.concat([teams.reset_index(drop=True), X_pca.reset_index(drop=True)], axis=1)

    # 5. Visualize (using Altair)
    chart = alt.Chart(df_plot).mark_circle(size=200).encode(
        x=alt.X('PC1', title='Componente Principale 1', scale=alt.Scale(zero=False)),
        y=alt.Y('PC2', title='Componente Principale 2', scale=alt.Scale(zero=False)),
        color=alt.Color('Team', legend=alt.Legend(title="Squadra")),
        tooltip=['Team', alt.Tooltip('PC1', format='.4f'), alt.Tooltip('PC2', format='.4f')]
    ).properties(
        # TITOLO AGGIORNATO
        title=f"PCA dei Vettori di Inverso Frequenza (1/f) delle Squadre (N={n_samples})",
        width=700,
        height=500
    )

    # Aggiungi le etichette delle squadre
    text = chart.mark_text(
        align='left',
        baseline='middle',
        dx=10
    ).encode(
        text='Team',
        color=alt.value('black')
    )

    # Combina punti e testo, e rendi il grafico interattivo
    final_chart = (chart + text).interactive()
    final_chart

Vocabolario caricato con successo (Dimensione: 9337)
Vettore di inverso frequenza creato per AC_Milan (lunghezza 9337).
Vettore di inverso frequenza creato per AS_Roma (lunghezza 9337).
Vettore di inverso frequenza creato per Atalanta (lunghezza 9337).
Vettore di inverso frequenza creato per Bologna (lunghezza 9337).
Vettore di inverso frequenza creato per Cagliari (lunghezza 9337).
Vettore di inverso frequenza creato per Como (lunghezza 9337).
Vettore di inverso frequenza creato per Empoli (lunghezza 9337).
Vettore di inverso frequenza creato per Fiorentina (lunghezza 9337).
Vettore di inverso frequenza creato per Genoa (lunghezza 9337).
Vettore di inverso frequenza creato per Hellas_Verona (lunghezza 9337).
Vettore di inverso frequenza creato per Inter_Milan (lunghezza 9337).
Vettore di inverso frequenza creato per Juventus (lunghezza 9337).
Vettore di inverso frequenza creato per Lazio (lunghezza 9337).
Vettore di inverso frequenza creato per Lecce (lunghezza 9337).
Vettore di inver

In [13]:
final_chart

In [14]:
import pandas as pd
pd.set_option('display.max_rows', None)
import altair as alt
import os

In [15]:
def compare_teams(team1_name, team2_name):
    """
    Creates an interactive scatterplot comparing word usage between two teams.
    
    team1_name: Name of the file (e.g., 'AC_Milan')
    team2_name: Name of the file (e.g., 'Inter_Milan')
    """
    file1 = f"{team1_name}.csv"
    file2 = f"{team2_name}.csv"
    
    # Check if files exist
    if not os.path.exists(file1) or not os.path.exists(file2):
        print(f"Error: Make sure the files {file1} and {file2} are in the folder.")
        return None
    
    # Load data
    df1 = pd.read_csv(file1)
    df2 = pd.read_csv(file2)
    
    # Frequency counts for the 'words' column
    counts1 = df1['words'].value_counts().reset_index()
    counts1.columns = ['word', 'count1']
    
    counts2 = df2['words'].value_counts().reset_index()
    counts2.columns = ['word', 'count2']
    
    # Merge data (Outer join to include words used by only one team)
    df_merged = pd.merge(counts1, counts2, on='word', how='outer').fillna(0)
    
    # Create the scatterplot
    # Removing titles, labels, and axis ticks as requested
    scatter = alt.Chart(df_merged).mark_point(color='steelblue', opacity=0.6).encode(
        x=alt.X('count1:Q', axis=alt.Axis(title=None, labels=False, ticks=False)),
        y=alt.Y('count2:Q', axis=alt.Axis(title=None, labels=False, ticks=False)),
        tooltip=['word', 'count1', 'count2']  # Displays the name on hover/click
    ).interactive()
    
    # Create the diagonal x=y line
    max_val = max(df_merged['count1'].max(), df_merged['count2'].max())
    line_df = pd.DataFrame({'x': [0, max_val], 'y': [0, max_val]})
    line = alt.Chart(line_df).mark_line(color='red', strokeDash=[5, 5]).encode(
        x='x:Q',
        y='y:Q'
    )
    
    # Final chart composition
    chart = (scatter + line).properties(
        title=f"Word Comparison: {team1_name} (X) vs {team2_name} (Y)",
        width=600,
        height=600
    )
    
    # Save the chart
    return chart

In [16]:
def get_word_frequency_gap(team1_name, team2_name, top_n=10):
    """
    Returns the words with the largest frequency difference between two teams.
    
    team1_name: Name of the file (e.g., 'AC_Milan')
    team2_name: Name of the file (e.g., 'Inter_Milan')
    top_n: Number of results to return
    """
    # Load files
    df1 = pd.read_csv(f"{team1_name}.csv")
    df2 = pd.read_csv(f"{team2_name}.csv")
    
    # Frequency counts
    counts1 = df1['words'].value_counts().reset_index()
    counts1.columns = ['word', 'count1']
    
    counts2 = df2['words'].value_counts().reset_index()
    counts2.columns = ['word', 'count2']
    
    # Merge data (filling with 0 where the word is missing)
    merged = pd.merge(counts1, counts2, on='word', how='outer').fillna(0)
    
    # Calculate absolute gap
    merged['absolute_gap'] = (merged['count1'] - merged['count2']).abs()
    
    # Identify which team uses it more for clarity
    merged['preferred_by'] = merged.apply(
        lambda r: team1_name if r['count1'] > r['count2'] else team2_name, axis=1
    )
    
    # Sort by largest gap
    ranking = merged.sort_values(by='absolute_gap', ascending=False).head(top_n)
    
    return ranking[['word', 'count1', 'count2', 'absolute_gap', 'preferred_by']]

In [17]:
compare_teams('Napoli', 'Venezia')

In [18]:
freq_gap = get_word_frequency_gap('Napoli', 'Inter_Milan', top_n=20)
freq_gap

Unnamed: 0,word,count1,count2,absolute_gap,preferred_by
2468,Pressure,4250.0,3755.0,495.0,Napoli
890,Dispossessed,275.0,174.0,101.0,Napoli
1739,Pass,1228.0,1132.0,96.0,Napoli
807,Clearance,397.0,333.0,64.0,Napoli
1740,Pass-Ball Receipt,530.0,589.0,59.0,Inter_Milan
1745,Pass-Ball Receipt-Carry,699.0,647.0,52.0,Napoli
892,Dribble-Carry,164.0,117.0,47.0,Napoli
412,Ball Recovery-Carry,344.0,298.0,46.0,Napoli
2568,Shot,204.0,160.0,44.0,Napoli
921,Duel,472.0,429.0,43.0,Napoli


In [19]:
# List of teams provided by the user
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
]

# Check which files actually exist in the current directory
existing_files = [f for f in team_files if os.path.exists(f)]

def get_word_counts(file_path):
    df = pd.read_csv(file_path)
    return df['words'].value_counts().to_dict()

# Dictionary to store counts: {team_name: {word: count}}
all_team_counts = {}
for f in existing_files:
    team_name = f.replace('.csv', '')
    all_team_counts[team_name] = get_word_counts(f)

# Collect all unique words across all teams
all_words = set()
for counts in all_team_counts.values():
    all_words.update(counts.keys())

# Find words with absolute_gap > 50 in ANY pair
# Logic: If (max_count - min_count) > 50, then there exists at least one pair with gap > 50.
# (Min count is 0 if the word is missing in a team)

words_with_large_gap = set()

for word in all_words:
    counts = []
    for team in all_team_counts:
        counts.append(all_team_counts[team].get(word, 0))
    
    if max(counts) - min(counts) > 50:
        words_with_large_gap.add(word)

print(f"Number of words with gap > 50: {len(words_with_large_gap)}")

Number of words with gap > 50: 40


In [20]:
words_with_large_gap

{'Ball Receipt-Carry',
 'Ball Receipt-Carry-Dispossessed',
 'Ball Receipt-Carry-Pass',
 'Ball Receipt-Carry-Pass-Ball Receipt',
 'Ball Receipt-Carry-Pass-Ball Receipt-Carry',
 'Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry',
 'Ball Receipt-Pass',
 'Ball Receipt-Pass-Ball Receipt',
 'Ball Recovery-Carry',
 'Ball Recovery-Carry-Pass',
 'Ball Recovery-Carry-Pass-Ball Receipt-Carry',
 'Block',
 'Block-Goal Keeper',
 'Clearance',
 'Dispossessed',
 'Dribble',
 'Dribble-Carry',
 'Dribbled Past',
 'Dribbled Past-Pressure',
 'Duel',
 'Foul Committed',
 'Foul Won-Pass',
 'Goal Keeper',
 'Interception',
 'Pass',
 'Pass-Ball Receipt',
 'Pass-Ball Receipt-Carry',
 'Pass-Ball Receipt-Carry-Pass',
 'Pass-Ball Receipt-Carry-Pass-Ball Receipt',
 'Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry',
 'Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass',
 'Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry',
 'Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-B

In [21]:
def perform_altair_pca(threshold=50):
    team_files = [
        "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
        "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
        "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
        "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
    ]

    # 1. Load data and frequencies
    team_data = {}
    all_words = set()
    for file in team_files:
        if os.path.exists(file):
            team_name = file.replace(".csv", "")
            df = pd.read_csv(file)
            counts = df['words'].value_counts().to_dict()
            team_data[team_name] = counts
            all_words.update(counts.keys())

    if len(team_data) < 2:
        print("Error: Not enough teams found.")
        return

    # 2. Identify words with gap > threshold
    significant_words = []
    for word in all_words:
        freqs = [team_data[t].get(word, 0) for t in team_data]
        if (max(freqs) - min(freqs)) > threshold:
            significant_words.append(word)

    # 3. Create matrix with Frequency (f)
    matrix_data = []
    teams_list = list(team_data.keys())
    for team in teams_list:
        # Usiamo direttamente la frequenza f
        row = [team_data[team].get(word, 0) for word in significant_words]
        matrix_data.append(row)

    df_matrix = pd.DataFrame(matrix_data, index=teams_list, columns=significant_words)

    # 4. PCA Calculation
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(df_matrix)
    pca = PCA(n_components=2)
    pca_results = pca.fit_transform(scaled_data)

    # Prepare DataFrame for Altair
    df_plot = pd.DataFrame({
        'PC1': pca_results[:, 0],
        'PC2': pca_results[:, 1],
        'Team': teams_list
    })

    n_samples = len(significant_words)

    # 5. Visualize (using Altair)
    chart = alt.Chart(df_plot).mark_circle(size=200).encode(
        x=alt.X('PC1', title='Componente Principale 1', scale=alt.Scale(zero=False)),
        y=alt.Y('PC2', title='Componente Principale 2', scale=alt.Scale(zero=False)),
        color=alt.Color('Team', legend=alt.Legend(title="Squadra")),
        tooltip=['Team', alt.Tooltip('PC1', format='.4f'), alt.Tooltip('PC2', format='.4f')]
    ).properties(
        # TITOLO AGGIORNATO: Frequenza f invece di 1/f
        title=f"PCA dei Vettori di Frequenza (f) delle Squadre (N={n_samples})",
        width=700,
        height=500
    )

    # Aggiungi le etichette delle squadre
    text = chart.mark_text(
        align='left',
        baseline='middle',
        dx=10
    ).encode(
        text='Team',
        color=alt.value('black')
    )

    # Combina punti e testo, e rendi il grafico interattivo
    final_chart = (chart + text).interactive()
    
    return final_chart

In [22]:
final_chart = perform_altair_pca(threshold=50)
final_chart

In [23]:
# 1. Configurazione: Lista dei file delle squadre
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
]

# 2. Caricamento dati e calcolo frequenze
team_data = {}
all_words = set()

for file in team_files:
    if os.path.exists(file):
        team_name = file.replace(".csv", "")
        df = pd.read_csv(file)
        # Assumendo che la colonna con le sequenze si chiami 'words'
        counts = df['words'].value_counts().to_dict()
        team_data[team_name] = counts
        all_words.update(counts.keys())

if len(team_data) < 2:
    print("Errore: Necessari almeno due file CSV validi per procedere.")
else:
    # 3. Identificazione words_with_large_gap (Scarto > 50 tra qualunque coppia)
    # Lo scarto massimo tra qualunque coppia è la differenza tra Max e Min delle frequenze
    words_with_large_gap = []
    for word in all_words:
        freqs = [team_data[t].get(word, 0) for t in team_data]
        if (max(freqs) - min(freqs)) > 50:
            words_with_large_gap.append(word)

    #print(f"Numero di parole con scarto > 50: {len(words_with_large_gap)}")
    #print("Lista parole significative:", words_with_large_gap)

    # 4. Creazione Matrice delle Frequenze (f)
    teams_list = list(team_data.keys())
    matrix_data = []
    for team in teams_list:
        row = [team_data[team].get(word, 0) for word in words_with_large_gap]
        matrix_data.append(row)

    df_matrix = pd.DataFrame(matrix_data, index=teams_list, columns=words_with_large_gap)

    # 5. Calcolo PCA
    # Standardizzazione
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(df_matrix)

    # PCA a 2 componenti
    pca = PCA(n_components=2)
    pca_results = pca.fit_transform(scaled_data)

    # Preparazione DataFrame per Altair
    df_plot = pd.DataFrame({
        'PC1': pca_results[:, 0],
        'PC2': pca_results[:, 1],
        'Team': teams_list
    })

    n_samples = len(words_with_large_gap)

    # 6. Visualizzazione Altair (PCA 2D)
    chart = alt.Chart(df_plot).mark_circle(size=200).encode(
        x=alt.X('PC1', title='Componente Principale 1', scale=alt.Scale(zero=False)),
        y=alt.Y('PC2', title='Componente Principale 2', scale=alt.Scale(zero=False)),
        color=alt.Color('Team', legend=alt.Legend(title="Squadra")),
        tooltip=['Team', alt.Tooltip('PC1', format='.4f'), alt.Tooltip('PC2', format='.4f')]
    ).properties(
        title=f"PCA dei Vettori di Frequenza (f) delle Squadre (N={n_samples})",
        width=700,
        height=500
    )

    # Aggiunta etichette nomi squadre
    text = chart.mark_text(
        align='left',
        baseline='middle',
        dx=10
    ).encode(
        text='Team',
        color=alt.value('black')
    )

    # Combinazione e resa interattiva
    final_pca_chart = (chart + text).interactive()
    
    # Visualizza il grafico nel notebook
    final_pca_chart.display()

In [24]:
team_data = {}
all_words = set()

# 2. Caricamento dati
for file in team_files:
    if os.path.exists(file):
        team_name = file.replace(".csv", "")
        df = pd.read_csv(file)
        counts = df['words'].value_counts().to_dict()
        team_data[team_name] = counts
        all_words.update(counts.keys())

if len(team_data) < 2:
    print("Errore: Necessari almeno due file CSV validi.")
else:
    # 3. Identificazione words_with_large_gap (Gap > 50)
    words_with_large_gap = []
    for word in all_words:
        freqs = [team_data[t].get(word, 0) for t in team_data]
        if (max(freqs) - min(freqs)) > 50:
            words_with_large_gap.append(word)

    print(f"Features identificate (Gap > 50): {len(words_with_large_gap)}")

    # 4. Creazione Matrice delle Frequenze (f)
    teams_list = list(team_data.keys())
    matrix_data = [[team_data[team].get(word, 0) for word in words_with_large_gap] for team in teams_list]
    df_matrix = pd.DataFrame(matrix_data, index=teams_list, columns=words_with_large_gap)

    # 5. Riduzione Dimensionale Non-Lineare (MDS)
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(df_matrix)

    # MDS è molto efficace per visualizzare distanze/somiglianze
    # Usiamo metric=True per preservare le distanze euclidee tra i profili di frequenza
    reducer = MDS(n_components=2, random_state=42, normalized_stress='auto')
    embedding = reducer.fit_transform(scaled_data)

    # 6. Preparazione DataFrame per Altair
    df_plot = pd.DataFrame({
        'Dim1': embedding[:, 0],
        'Dim2': embedding[:, 1],
        'Team': teams_list
    })

    n_samples = len(words_with_large_gap)

    # 7. Visualizzazione Altair
    chart = alt.Chart(df_plot).mark_circle(size=200).encode(
        x=alt.X('Dim1', title='Dimensione 1', scale=alt.Scale(zero=False)),
        y=alt.Y('Dim2', title='Dimensione 2', scale=alt.Scale(zero=False)),
        color=alt.Color('Team', legend=alt.Legend(title="Squadra")),
        tooltip=['Team', alt.Tooltip('Dim1', format='.4f'), alt.Tooltip('Dim2', format='.4f')]
    ).properties(
        title=f"MDS dei Vettori di Frequenza (f) delle Squadre (N={n_samples})",
        width=700,
        height=500
    )

    text = chart.mark_text(
        align='left',
        baseline='middle',
        dx=10
    ).encode(
        text='Team',
        color=alt.value('black')
    )

    final_chart = (chart + text).interactive()
    final_chart.display()

Features identificate (Gap > 50): 40




## *Word2Vec*

In [25]:
!pip install gensim



In [26]:
import pandas as pd
import os
import numpy as np
import altair as alt
import gensim
from gensim.models import Word2Vec
from sklearn.manifold import MDS
from sklearn.preprocessing import StandardScaler

# --- CONFIGURAZIONE ---
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
]

all_match_sentences = []
team_sequences = {}

# 1. PRE-PROCESSING: Ogni riga è una parola, ogni partita è una frase
for file in team_files:
    if os.path.exists(file):
        team_name = file.replace(".csv", "")
        df = pd.read_csv(file)
        
        # Raggruppiamo per match_id per mantenere l'ordine cronologico delle "parole"
        # Ogni partita diventa una lista di stringhe (le tue parole-sequenza)
        matches = df.groupby('match_id')['words'].apply(list).tolist()
        
        team_sequences[team_name] = [word for match in matches for word in match]
        all_match_sentences.extend(matches)

if not all_match_sentences:
    print("Errore: Nessun dato trovato. Controlla i file CSV.")
else:
    # 2. TRAINING WORD2VEC
    # Qui ogni "parola" è la tua intera sequenza (es: "Pass-Ball Receipt-Carry")
    model = Word2Vec(
        sentences=all_match_sentences, 
        vector_size=100,  # Dimensione del vettore semantico
        window=5,         # Quante sequenze vicine considerare nel contesto
        min_count=1,      # Considera anche le sequenze che appaiono una volta sola
        workers=4,
        seed=42
    )

    # 3. CREAZIONE VETTORI SQUADRA (Media dei vettori delle sue sequenze)
    def get_team_vector(words, model):
        # Prendiamo il vettore per ogni sequenza usata dalla squadra
        vectors = [model.wv[word] for word in words if word in model.wv]
        return np.mean(vectors, axis=0) if vectors else np.zeros(model.vector_size)

    teams_list = list(team_sequences.keys())
    team_vectors = np.array([get_team_vector(team_sequences[team], model) for team in teams_list])

    # 4. RIDUZIONE DIMENSIONALE (MDS)
    scaler = StandardScaler()
    scaled_vectors = scaler.fit_transform(team_vectors)

    # MDS per mappare le somiglianze semantiche in 2D
    reducer = MDS(n_components=2, random_state=42, normalized_stress='auto')
    embedding = reducer.fit_transform(scaled_vectors)

    # 5. DATASET PER VISUALIZZAZIONE
    df_plot = pd.DataFrame({
        'Dim1': embedding[:, 0],
        'Dim2': embedding[:, 1],
        'Team': teams_list
    })

    # 6. VISUALIZZAZIONE ALTAIR (Stile richiesto)
    chart = alt.Chart(df_plot).mark_circle(size=200).encode(
        x=alt.X('Dim1', title='Dimensione Semantica 1', scale=alt.Scale(zero=False)),
        y=alt.Y('Dim2', title='Dimensione Semantica 2', scale=alt.Scale(zero=False)),
        color=alt.Color('Team', legend=alt.Legend(title="Squadra")),
        tooltip=['Team', alt.Tooltip('Dim1', format='.4f'), alt.Tooltip('Dim2', format='.4f')]
    ).properties(
        title="Analisi Semantica Word2Vec: Stile di Gioco per Squadra",
        width=700,
        height=500
    )

    text = chart.mark_text(
        align='left',
        baseline='middle',
        dx=10
    ).encode(
        text='Team',
        color=alt.value('black')
    )

    final_chart = (chart + text).interactive()
    final_chart.display()



In [27]:
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
]

In [28]:
# 1. Configurazione
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
]

points_map = {'Won': 3, 'Drawn': 1, 'Lost': 0}
all_data = []

# 2. Estrazione dati per ogni squadra
for file in team_files:
    if os.path.exists(file):
        team_name = file.replace(".csv", "")
        df = pd.read_csv(file)
        
        # Calcolo Punti per Partita (PPG)
        # Prendiamo una riga per ogni match_id per non contare i punti più volte
        matches = df.drop_duplicates('match_id')
        total_points = matches['outcome'].map(points_map).sum()
        num_matches = len(matches)
        ppg = total_points / num_matches if num_matches > 0 else 0
        
        # Calcolo Frequenza parole (media per partita)
        word_counts = df['words'].value_counts() / num_matches
        
        # Salviamo i risultati
        team_stats = word_counts.to_dict()
        team_stats['TEAM_NAME'] = team_name
        team_stats['POINTS_PER_GAME'] = ppg
        all_data.append(team_stats)

# 3. Creazione del DataFrame Finale
# Ogni riga è una squadra, ogni colonna è una parola + la colonna dei punti
df_results = pd.DataFrame(all_data).set_index('TEAM_NAME').fillna(0)

# 4. Calcolo della Correlazione
# Correliamo tutte le parole con la colonna POINTS_PER_GAME
correlations = df_results.corr()['POINTS_PER_GAME'].sort_values(ascending=False)

# Rimuoviamo la correlazione dei punti con se stessi
correlations = correlations.drop('POINTS_PER_GAME')

In [29]:
df_results.head()

Unnamed: 0_level_0,Pressure,Pass,Pass-Ball Receipt-Carry,Pass-Ball Receipt,Duel,Ball Recovery-Carry,Clearance,Block,Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry,Dribble-Carry,...,Ball Recovery-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Foul Committed,Foul Won-Substitution-Substitution-Tactical Shift-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Duel,Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Miscontrol-Ball Recovery-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt,Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt,Block-Substitution-Pass-Ball Receipt-Pass-Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry,Foul Won-Pass-Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass,Foul Won-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Pass-Ball Receipt-Pass-Ball Receipt-Pass,Ball Recovery-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Duel,Pass-Pass-Ball Receipt-Ball Receipt-Carry-Pass-Ball Receipt-Miscontrol,Pass-Ball Receipt-Substitution-Substitution-Tactical Shift-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry-Pass-Ball Receipt-Carry
TEAM_NAME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AC_Milan,135.263158,22.289474,21.973684,20.447368,11.184211,11.026316,9.210526,7.736842,7.052632,7.026316,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
AS_Roma,107.868421,31.815789,20.289474,15.026316,11.289474,10.815789,9.342105,8.631579,8.236842,4.342105,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Atalanta,118.421053,36.526316,25.0,19.289474,12.815789,10.342105,8.657895,8.842105,10.263158,4.868421,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Bologna,115.842105,36.315789,20.105263,16.447368,14.315789,10.236842,9.342105,9.921053,7.157895,4.184211,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Cagliari,118.578947,34.736842,16.263158,15.289474,11.894737,11.289474,11.526316,9.026316,5.736842,4.184211,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [30]:
team_files = [
    "AC_Milan.csv", "AS_Roma.csv", "Atalanta.csv", "Bologna.csv", "Cagliari.csv",
    "Como.csv", "Empoli.csv", "Fiorentina.csv", "Genoa.csv", "Hellas_Verona.csv",
    "Inter_Milan.csv", "Juventus.csv", "Lazio.csv", "Lecce.csv", "Monza.csv",
    "Napoli.csv", "Parma_Calcio_1913.csv", "Torino.csv", "Udinese.csv", "Venezia.csv"
]

available_files = [f for f in team_files if os.path.exists(f)]
print(f"Available files: {available_files}")

def analyze_team_shots(file_path):
    df = pd.read_csv(file_path)
    
    # Total sequences
    total_seqs = len(df)
    
    # Shot sequences (full string contains 'Shot')
    shot_mask = df['words'].str.contains('Shot')
    shot_df = df[shot_mask].copy()
    num_shots = len(shot_df)
    
    if num_shots == 0:
        return {
            'Team': df['team_name'].iloc[0] if not df.empty else file_path,
            'Total_Sequences': total_seqs,
            'Shot_Count': 0,
            'Shot_Rate_%': 0,
            'Avg_Shot_Length': 0,
            'Signature_Shot_Sequence': "N/A",
            'Avg_K_Shot': 0,
            'Avg_Beta_Shot': 0
        }

    # Length of shot sequences
    shot_df['len'] = shot_df['words'].apply(lambda x: len(x.split('-')))
    
    # Signature (most frequent full shot sequence)
    signature = shot_df['words'].value_counts().idxmax()
    
    return {
        'Team': df['team_name'].iloc[0],
        'Total_Sequences': total_seqs,
        'Shot_Count': num_shots,
        'Shot_Rate_%': (num_shots / total_seqs) * 100,
        'Avg_Shot_Length': shot_df['len'].mean(),
        'Signature_Shot_Sequence': signature,
        'Avg_K_Shot': shot_df['K'].mean(),
        'Avg_Beta_Shot': shot_df['beta'].mean()
    }

results = []
for f in available_files:
    results.append(analyze_team_shots(f))

summary_df = pd.DataFrame(results)

Available files: ['AC_Milan.csv', 'AS_Roma.csv', 'Atalanta.csv', 'Bologna.csv', 'Cagliari.csv', 'Como.csv', 'Empoli.csv', 'Fiorentina.csv', 'Genoa.csv', 'Hellas_Verona.csv', 'Inter_Milan.csv', 'Juventus.csv', 'Lazio.csv', 'Lecce.csv', 'Monza.csv', 'Napoli.csv', 'Parma_Calcio_1913.csv', 'Torino.csv', 'Udinese.csv', 'Venezia.csv']


In [31]:
import pandas as pd
import altair as alt
import os

# 1. Raccolta dati da tutti i file disponibili
results = []
for file in team_files:
    if os.path.exists(file):
        df = pd.read_csv(file)
        # Filtriamo le sequenze che portano al tiro
        shot_df = df[df['words'].str.contains('Shot')].copy()
        
        if not shot_df.empty:
            results.append({
                'Team': df['team_name'].iloc[0],
                'Shot_Rate_%': (len(shot_df) / len(df)) * 100,
                'Avg_K_Shot': shot_df['K'].mean()
            })

df_plot = pd.DataFrame(results)

# 2. Creazione dello Scatter Plot Interattivo
# Definiamo il grafico a bolle
chart = alt.Chart(df_plot).mark_circle(size=250, opacity=0.8).encode(
    x=alt.X('Shot_Rate_%', 
            title='Efficienza (Shot Rate %)', 
            scale=alt.Scale(zero=False)),
    y=alt.Y('Avg_K_Shot', 
            title='Complessità Tattica (Avg K)', 
            scale=alt.Scale(zero=False)),
    color=alt.Color('Team', legend=None), # Colori distinti, legenda nascosta per pulizia
    tooltip=[
        alt.Tooltip('Team', title='Squadra'),
        alt.Tooltip('Shot_Rate_%', title='Efficienza %', format='.2f'),
        alt.Tooltip('Avg_K_Shot', title='Complessità (K)', format='.4f')
    ]
).properties(
    title="Mappa del Linguaggio Offensivo: Efficienza vs Complessità",
    width=800,
    height=500
)

# 3. Aggiunta delle etichette (nomi delle squadre)
text = chart.mark_text(
    align='left',
    baseline='middle',
    dx=12,
    fontSize=11
).encode(
    text='Team'
)

# 4. Linee medie (per identificare i 4 quadranti)
line_x = alt.Chart(pd.DataFrame({'x': [df_plot['Shot_Rate_%'].mean()]})).mark_rule(
    color='red', strokeDash=[3, 3]
).encode(x='x')

line_y = alt.Chart(pd.DataFrame({'y': [df_plot['Avg_K_Shot'].mean()]})).mark_rule(
    color='blue', strokeDash=[3, 3]
).encode(y='y')

# 5. Visualizzazione finale interattiva
final_chart = (chart + text + line_x + line_y).interactive()
final_chart.display()

In [32]:
# 1. Raccolta dati da tutti i file disponibili
results = []
for file in team_files:
    if os.path.exists(file):
        df = pd.read_csv(file)
        # Filtriamo le sequenze che portano al tiro
        shot_df = df[df['words'].str.contains('Shot')].copy()
        
        if not shot_df.empty:
            # Calcolo della lunghezza (numero di azioni) per ogni sequenza di tiro
            shot_df['len'] = shot_df['words'].apply(lambda x: len(x.split('-')))
            
            results.append({
                'Team': df['team_name'].iloc[0],
                'Avg_Shot_Length': shot_df['len'].mean(),
                'Avg_K_Shot': shot_df['K'].mean()
            })

df_plot = pd.DataFrame(results)

# 2. Creazione dello Scatter Plot Interattivo con Altair
chart = alt.Chart(df_plot).mark_circle(size=250, opacity=0.8).encode(
    x=alt.X('Avg_Shot_Length', 
            title='Lunghezza Media dell\'Azione (Avg_Shot_Length)', 
            scale=alt.Scale(zero=False)),
    y=alt.Y('Avg_K_Shot', 
            title='Complessità Tattica (Avg_K_Shot)', 
            scale=alt.Scale(zero=False)),
    color=alt.Color('Team', legend=None), # Colore diverso per ogni squadra
    tooltip=[
        alt.Tooltip('Team', title='Squadra'),
        alt.Tooltip('Avg_Shot_Length', title='Lunghezza Media', format='.2f'),
        alt.Tooltip('Avg_K_Shot', title='Complessità (K)', format='.4f')
    ]
).properties(
    title="Analisi del Linguaggio Offensivo: Elaborazione vs Varietà",
    width=800,
    height=500
)

# 3. Aggiunta dei nomi delle squadre accanto ai punti
text = chart.mark_text(
    align='left',
    baseline='middle',
    dx=12,
    fontSize=11
).encode(
    text='Team'
)

# 4. Aggiunta delle linee medie (Quadranti)
line_x = alt.Chart(pd.DataFrame({'x': [df_plot['Avg_Shot_Length'].mean()]})).mark_rule(
    color='red', strokeDash=[3, 3], size=1
).encode(x='x')

line_y = alt.Chart(pd.DataFrame({'y': [df_plot['Avg_K_Shot'].mean()]})).mark_rule(
    color='blue', strokeDash=[3, 3], size=1
).encode(y='y')

# 5. Visualizzazione finale interattiva (Zoom + Tooltip)
final_chart = (chart + text + line_x + line_y).interactive()
final_chart.display()

In [33]:
# 1. Raccolta dati da tutti i file disponibili (Foul Committed)
results = []
TARGET_WORD = "Foul Committed"

for file in team_files:
    if os.path.exists(file):
        df = pd.read_csv(file)

        # Filtra le righe/sequenze che contengono "Foul Committed"
        foul_df = df[df["words"].astype(str).str.contains(TARGET_WORD, case=False, na=False)].copy()

        if not foul_df.empty:
            results.append({
                "Team": df["team_name"].iloc[0],
                "Foul_Rate_%": (len(foul_df) / len(df)) * 100,
                "Avg_K_Foul": foul_df["K"].mean()
            })

df_plot = pd.DataFrame(results)

# 2. Creazione dello Scatter Plot Interattivo
chart = alt.Chart(df_plot).mark_circle(size=250, opacity=0.8).encode(
    x=alt.X(
        "Foul_Rate_%",
        title="Frequenza (Foul Committed Rate %)",
        scale=alt.Scale(zero=False)
    ),
    y=alt.Y(
        "Avg_K_Foul",
        title="Complessità Tattica (Avg K)",
        scale=alt.Scale(zero=False)
    ),
    color=alt.Color("Team", legend=None),
    tooltip=[
        alt.Tooltip("Team", title="Squadra"),
        alt.Tooltip("Foul_Rate_%", title="Frequenza %", format=".2f"),
        alt.Tooltip("Avg_K_Foul", title="Complessità (K)", format=".4f")
    ]
).properties(
    title='Mappa del Linguaggio: "Foul Committed" — Frequenza vs Complessità',
    width=800,
    height=500
)

# 3. Etichette (nomi squadre)
text = chart.mark_text(
    align="left",
    baseline="middle",
    dx=12,
    fontSize=11
).encode(
    text="Team"
)

# 4. Linee medie (4 quadranti)
line_x = alt.Chart(pd.DataFrame({"x": [df_plot["Foul_Rate_%"].mean()]})).mark_rule(
    color="red", strokeDash=[3, 3]
).encode(x="x")

line_y = alt.Chart(pd.DataFrame({"y": [df_plot["Avg_K_Foul"].mean()]})).mark_rule(
    color="blue", strokeDash=[3, 3]
).encode(y="y")

# 5. Visualizzazione finale interattiva
final_chart = (chart + text + line_x + line_y).interactive()
final_chart.display()