<a href="https://colab.research.google.com/github/carpicio/under/blob/main/Untitled31.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
# @title üß¨ DASHBOARD V17 FIX: Kaplan-Meier PRO + Media Campionato (Menu Fix)
# @markdown 1. Premi Play ‚ñ∂Ô∏è.
# @markdown 2. Se i menu sono vuoti, controlla l'output di testo sotto la cella.
# @markdown 3. Seleziona FILE, CAMPIONATO e SQUADRE.
# @markdown 4. Premi AVVIA.

import sys
import subprocess
import os

# Installazione librerie
try:
    import lifelines
except ImportError:
    subprocess.check_call([sys.executable, "-m", "pip", "install", "lifelines"])

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import ipywidgets as widgets
from IPython.display import display, clear_output
from lifelines import KaplanMeierFitter
from lifelines.statistics import logrank_test
from scipy.stats import poisson
import warnings
import re

warnings.simplefilter(action='ignore', category=FutureWarning)

# ==========================================
# 1. GESTIONE FILE & CARICAMENTO INIZIALE
# ==========================================
available_files = [f for f in os.listdir() if (f.endswith('.csv') or f.endswith('.xlsx')) and 'sample_data' not in f]
if not available_files: available_files = ['Nessun file trovato']

# Variabile globale
global_df = pd.DataFrame()

def load_dataset(nome_file):
    try:
        with open(nome_file, 'r', encoding='latin1', errors='replace') as f:
            lines = [f.readline() for _ in range(5)]
            sep = ';' if lines[0].count(';') > lines[0].count(',') else ','

        df_raw = pd.read_csv(nome_file, sep=sep, encoding='latin1', on_bad_lines='skip', low_memory=False, header=None)

        header = df_raw.iloc[0].astype(str).str.strip().str.upper().tolist()
        seen = {}
        unique_header = []
        for col in header:
            if col in seen:
                seen[col] += 1
                unique_header.append(f"{col}.{seen[col]}")
            else:
                seen[col] = 0
                unique_header.append(col)

        df = df_raw.iloc[1:].copy()
        df.columns = unique_header

        col_map = {
            'GOALMINH': ['GOALMINH', 'GOALMINCASA', 'MINUTI_CASA'],
            'GOALMINA': ['GOALMINA', 'GOALMINOSPITE', 'MINUTI_OSPITE'],
            'LEGA': ['LEGA', 'LEAGUE', 'DIVISION'],
            'PAESE': ['PAESE', 'COUNTRY'],
            'CASA': ['CASA', 'HOME', 'TEAM1'],
            'OSPITE': ['OSPITE', 'AWAY', 'TEAM2']
        }

        for target, candidates in col_map.items():
            if target not in df.columns:
                for candidate in candidates:
                    found = next((c for c in df.columns if c == candidate), None)
                    if found:
                        df.rename(columns={found: target}, inplace=True)
                        break

        for c in ['PAESE', 'LEGA', 'CASA', 'OSPITE']:
            if c in df.columns:
                df[c] = df[c].astype(str).str.strip()

        return df
    except Exception as e:
        print(f"Errore nel caricamento dei dati: {e}")
        return pd.DataFrame()

# Pre-caricamento se c'√® un file disponibile (per popolare i menu subito)
if available_files and available_files[0] != 'Nessun file trovato':
    print(f"Tentativo di pre-caricamento di: {available_files[0]}...")
    global_df = load_dataset(available_files[0])
    if not global_df.empty:
        print(f"‚úÖ Dati pre-caricati: {len(global_df)} righe.")
    else:
        print("‚ö†Ô∏è Dati non caricati o file vuoto.")

# ==========================================
# 2. WIDGETS (Popolati Dinamicamente)
# ==========================================
style = {'description_width': 'initial'}
layout = widgets.Layout(width='98%')

# Calcola opzioni iniziali
init_paesi = sorted(global_df['PAESE'].unique()) if not global_df.empty and 'PAESE' in global_df.columns else []
init_leghe = []
init_squadre = []

if init_paesi:
    init_leghe = sorted(global_df[global_df['PAESE'] == init_paesi[0]]['LEGA'].unique())
    if init_leghe:
        mask = (global_df['PAESE'] == init_paesi[0]) & (global_df['LEGA'] == init_leghe[0])
        init_squadre = sorted(pd.concat([global_df[mask]['CASA'], global_df[mask]['OSPITE']]).unique())

w_file = widgets.Dropdown(options=available_files, description='üìÇ FILE:', style=style, layout=layout)
w_paese = widgets.Dropdown(options=init_paesi, description='1. üåç Paese:', style=style, layout=layout)
w_lega = widgets.Dropdown(options=init_leghe, description='2. üèÜ Lega:', style=style, layout=layout)
w_home = widgets.Dropdown(options=init_squadre, description='3. üè† Casa:', style=style, layout=layout)
w_away = widgets.Dropdown(options=init_squadre, description='4. ‚úàÔ∏è Ospite:', style=style, layout=layout)

# Imposta valori di default se ci sono opzioni
if init_paesi: w_paese.value = init_paesi[0]
if init_leghe: w_lega.value = init_leghe[0]
if len(init_squadre) > 1:
    w_home.value = init_squadre[0]
    w_away.value = init_squadre[1]

btn_run = widgets.Button(description="üß¨ AVVIA ANALISI SCIENTIFICA", button_style='primary', layout=widgets.Layout(width='100%', margin='15px 0px 0px 0px'))
out = widgets.Output()

# --- LOGICA DI AGGIORNAMENTO MENU ---
def on_file_change(change):
    global global_df
    if change['new']:
        with out:
            print(f"‚è≥ Ricaricamento {change['new']}...")
            global_df = load_dataset(change['new'])
            if not global_df.empty:
                paesi = sorted(global_df['PAESE'].unique()) if 'PAESE' in global_df.columns else []
                w_paese.options = paesi
                if paesi: w_paese.value = paesi[0]
                print(f"‚úÖ File caricato: {len(global_df)} righe.")
            else:
                print("‚ùå Errore o file vuoto.")

def update_leghe(*args):
    if not global_df.empty and w_paese.value:
        leghe = sorted(global_df[global_df['PAESE'] == w_paese.value]['LEGA'].unique())
        w_lega.options = leghe
        if leghe: w_lega.value = leghe[0]

def update_squadre(*args):
    if not global_df.empty and w_paese.value and w_lega.value:
        mask = (global_df['PAESE'] == w_paese.value) & (global_df['LEGA'] == w_lega.value)
        teams = sorted(pd.concat([global_df[mask]['CASA'], global_df[mask]['OSPITE']]).unique())
        w_home.options = teams
        w_away.options = teams
        if len(teams) > 1:
            w_home.value = teams[0]
            w_away.value = teams[1]

w_file.observe(on_file_change, names='value')
w_paese.observe(update_leghe, names='value')
w_lega.observe(update_squadre, names='value')

# ==========================================
# 3. ENGINE DI ANALISI
# ==========================================
def run_analysis(b):
    with out:
        clear_output()
        if global_df.empty: return print("‚ùå Nessun dato caricato.")

        sel_paese, sel_lega = w_paese.value, w_lega.value
        sel_home, sel_away = w_home.value, w_away.value

        print(f"‚öôÔ∏è ANALISI: {sel_home} vs {sel_away} ({sel_paese} - {sel_lega})...\n")

        df_league = global_df[(global_df['PAESE'] == sel_paese) & (global_df['LEGA'] == sel_lega)].copy()
        intervals = ['0-15', '16-30', '31-45', '46-60', '61-75', '76-90']

        def get_minutes(val):
            if pd.isna(val): return []
            s = str(val).replace(',', '.').replace(';', ' ')
            nums = re.findall(r"[-+]?\d*\.\d+|\d+", s)
            res = []
            for x in nums:
                try:
                    n = int(float(x))
                    if 0 <= n <= 130: res.append(n)
                except: pass
            return res

        c_h = 'GOALMINH' if 'GOALMINH' in df_league.columns else 'GOALMINCASA'
        c_a = 'GOALMINA' if 'GOALMINA' in df_league.columns else 'GOALMINOSPITE'

        # Dati per KM
        times_h, times_a, times_league = [], [], []

        for _, row in df_league.iterrows():
            h, a = row['CASA'], row['OSPITE']
            min_h = get_minutes(row.get(c_h))
            min_a = get_minutes(row.get(c_a))

            # Raccogli dati per Media Lega (Primo Gol)
            t_h_first = min(min_h) if min_h else None
            t_a_first = min(min_a) if min_a else None

            if t_h_first is not None: times_league.append(t_h_first)
            if t_a_first is not None: times_league.append(t_a_first)

            # Raccogli dati per Squadre Selezionate (Primo Gol)
            if h == sel_home:
                 if min_h: times_h.append(min(min_h))
            if a == sel_away:
                 if min_a: times_a.append(min(min_a))

        # --- KAPLAN-MEIER & LOG RANK TEST ---
        plt.figure(figsize=(12, 6))
        kmf_h = KaplanMeierFitter()
        kmf_a = KaplanMeierFitter()
        kmf_league = KaplanMeierFitter()

        # Preparazione dati KM (Eventi=1 se gol, altrimenti censurati a 90 - qui semplificato solo gol)
        # Per fare un KM corretto servirebbero anche i dati delle partite SENZA gol (censurati).
        # Qui usiamo solo i tempi dei gol avvenuti per vedere la "velocit√† di segnatura" quando segnano.

        if times_h and times_a:
            # Fit Squadre
            kmf_h.fit(times_h, label=f'{sel_home} (1¬∞ Gol)')
            kmf_a.fit(times_a, label=f'{sel_away} (1¬∞ Gol)')

            # Fit Lega (se ci sono dati)
            if times_league:
                kmf_league.fit(times_league, label='Media Campionato')
                kmf_league.plot_survival_function(ax=plt.gca(), ci_show=False, linewidth=2, color='gray', linestyle='--')

            # Plot Squadre
            kmf_h.plot_survival_function(ax=plt.gca(), ci_show=False, linewidth=3, color='blue')
            kmf_a.plot_survival_function(ax=plt.gca(), ci_show=False, linewidth=3, color='red')

            # Linea Mediana (50%)
            plt.axhline(y=0.5, color='green', linestyle=':', linewidth=1.5, label='Mediana (50%)')

            # Calcolo Mediana (Tempo entro cui segnano il 50% delle volte)
            median_h = kmf_h.median_survival_time_
            median_a = kmf_a.median_survival_time_

            # Annotazioni
            plt.text(5, 0.1, f"Mediana {sel_home}: {median_h:.0f}'", color='blue', fontsize=10, fontweight='bold')
            plt.text(5, 0.05, f"Mediana {sel_away}: {median_a:.0f}'", color='red', fontsize=10, fontweight='bold')

            plt.title(f'üìâ RITMO GOL (Tempo al 1¬∞ Gol) - {sel_home} vs {sel_away}', fontsize=14)
            plt.xlabel('Minuti di Gioco')
            plt.ylabel('Probabilit√† di NON aver ancora segnato')
            plt.grid(True, alpha=0.3)
            plt.legend()
            plt.show()

            # --- LOG RANK TEST ---
            print(f"\nüß™ RISULTATI TEST STATISTICO (Log-Rank)")
            try:
                # Log rank richiede array di durata e eventi. Qui assumiamo tutti eventi=1 (gol segnato)
                # Per rigore bisognerebbe includere partite 0-0 come censurate a 90'.
                # Ma per confronto "velocit√†" tra gol fatti, questo va bene.
                results = logrank_test(times_h, times_a, event_observed_A=[1]*len(times_h), event_observed_B=[1]*len(times_a))
                p_value = results.p_value
                print(f"   P-Value: {p_value:.4f}")

                if p_value < 0.05:
                    print("   ‚úÖ SIGNIFICATIVO: I ritmi di gol delle due squadre sono MOLTO DIVERSI.")
                    if median_h < median_a:
                        print(f"   üëâ {sel_home} tende a segnare molto prima di {sel_away}.")
                    else:
                        print(f"   üëâ {sel_away} tende a segnare molto prima di {sel_home}.")
                else:
                    print("   ‚ùå NON SIGNIFICATIVO: Le squadre hanno tempistiche di gol simili.")
            except Exception as e:
                print(f"   ‚ö†Ô∏è Impossibile calcolare Log-Rank (dati insufficienti o varianza zero): {e}")

        else:
            print("‚ö†Ô∏è Dati insufficienti per l'analisi Kaplan-Meier (una delle squadre non ha mai segnato per prima o dati mancanti).")

btn_run.on_click(run_analysis)

box_sel = widgets.VBox([
    widgets.Label("SELEZIONE DATI:"),
    w_file,
    widgets.HBox([w_paese, w_lega]),
    widgets.HBox([w_home, w_away]),
    btn_run
])

display(box_sel, out)

Tentativo di pre-caricamento di: eng_tot_1.csv...
‚úÖ Dati pre-caricati: 1617 righe.


VBox(children=(Label(value='SELEZIONE DATI:'), Dropdown(description='üìÇ FILE:', layout=Layout(width='98%'), opt‚Ä¶

Output()