# Screaping dataset infortuni

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Base URL for scraping
BASE_URL = "https://www.prosportstransactions.com/basketball/Search/SearchResults.php"

# Function to scrape a single page
def scrape_page(start):
    params = {
        'Player': '',
        'Team': '',
        'BeginDate': '',
        'EndDate': '',
        'ILChkBx': 'yes',
        'Submit': 'Search',
        'start': start
    }
    
    response = requests.get(BASE_URL, params=params)
    response.raise_for_status()  # Raise an error for bad HTTP responses
    
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'datatable'})
    
    if not table:
        print(f"No table found on page starting at {start}")
        return []

    rows = table.find_all('tr')[1:]  # Skip header row
    data = []

    for row in rows:
        cols = [col.text.strip() for col in row.find_all('td')]
        data.append(cols)

    return data

# Main scraping logic
def scrape_last_season_pages():
    all_data = []
    
    for page in range(1512, 1594 + 1):  # Iterate through pages 1512 to 1612
        start = (page - 1) * 25  # Calculate the correct "start" parameter
        print(f"Scraping page starting at {start}...")
        page_data = scrape_page(start)
        all_data.extend(page_data)

    # Convert to DataFrame
    columns = ["Date", "Team", "Acquired", "Relinquished", "Notes"]
    df = pd.DataFrame(all_data, columns=columns)
    
    # Save to CSV
    df.to_csv("basketball_transactions.csv", index=False)
    print("Data scraping complete. Saved to basketball_transactions.csv.")

# Execute the scraping function
if __name__ == "__main__":
    scrape_last_season_pages()

In [12]:
# Carica il file CSV
transactions_df = pd.read_csv('/Users/mattia/Desktop/DATA_MAN/Progetto/basketball_transactions.csv')

# Determina l'indice delle righe da eliminare
num_rows = len(transactions_df)
rows_to_drop = list(range(19)) + list(range(num_rows - 15, num_rows))

# Mantieni solo le righe che non sono da eliminare
filtered_df = transactions_df.drop(rows_to_drop).reset_index(drop=True)

# Salva il dataframe filtrato, se necessario
filtered_df.to_csv('/Users/mattia/Desktop/DATA_MAN/Progetto/basketball_injuries_24.csv', index=False)

In [None]:
import pandas as pd

# Caricamento del dataset
file_path = 'NBA_players_dataset.csv'  # Percorso del file CSV
df = pd.read_csv(file_path)

# Assicurarsi che la colonna 'game_date' sia nel formato datetime
df['game_date'] = pd.to_datetime(df['game_date'], errors='coerce')

# Ordinamento del dataset in base a 'game_date' (ordine crescente)
df_sorted = df.sort_values(by='game_date')

# Salvataggio del dataset ordinato in un nuovo file CSV (opzionale)
output_path = 'NBA_players_dataset_24.csv'
df_sorted.to_csv(output_path, index=False)

print("Dataset ordinato e salvato con successo!")

# Creazione dataset MongoDB

In [13]:
import pandas as pd
from pymongo import MongoClient
from datetime import datetime

# Percorso del file delle partite
games_file = '/Users/mattia/Desktop/DATA_MAN/Progetto/NBA_players_dataset_24.csv'  # Specifica il file con tutte le partite

# Struttura dati per memorizzare le informazioni sui giocatori
players_data = {}

# Caricare il file CSV contenente tutte le partite con l'opzione low_memory
game_data = pd.read_csv(games_file)
game_data = game_data.drop(columns=['Nome']) 
game_data = game_data.rename(columns={'Età': 'age'})  


# Standardizzare il formato delle date (modifica 'game_date' se il nome della colonna è diverso)
game_data['game_date'] = pd.to_datetime(game_data['game_date'], errors='coerce')

# Iterare sulle righe del file per elaborare i dati
for _, game in game_data.iterrows():
    player_name = game['player']  # Nome del giocatore
    team = game['team']  # Squadra del giocatore
    age = game['age'] # Eta del giocatore

    # Creare una nuova voce per il giocatore se non esiste già
    if player_name not in players_data:
        players_data[player_name] = {
            'player_name': player_name,
            'team': team,
            'age': age,
            'injury': [],  # Questo verrà arricchito più avanti
            'games': []  # Lista di statistiche delle partite
        }

    # Aggiungere le statistiche della partita
    player_stats = {
        'date': game['game_date'].strftime('%Y-%m-%d') if pd.notnull(game['game_date']) else None,
        'team_score': game.get('team_score'),
        'opponent_score': game.get('opponent_score'),
        'stats': {
            'mp': game.get('mp', 0),
            'PTS': game.get('PTS', 0),
            'REB': game.get('REB', 0),
            'AST': game.get('AST', 0),
            'STL': game.get('STL', 0),
            'BLK': game.get('BLK', 0),
            'TO': game.get('TO', 0),
            'FGA': game.get('FGA', 0),
            'FTA': game.get('FTA', 0),
            'FG_PCT': game.get('FG_PCT', 0.0),
            'TS%': game.get('TS%', 0.0),
            'TOV%': game.get('TOV%', 0.0),
        }
    }
    players_data[player_name]['games'].append(player_stats)

    
# Caricamento dei dati sugli infortuni
transactions_df = pd.read_csv('/Users/mattia/Desktop/DATA_MAN/Progetto/basketball_injuries_24.csv')

# Standardizzazione dei dati sugli infortuni
transactions_df['Player'] = transactions_df['Acquired'].combine_first(transactions_df['Relinquished']).str.strip('• ')
transactions_df['Date'] = pd.to_datetime(transactions_df['Date'], errors='coerce')
transactions_df['Notes'] = transactions_df['Notes'].fillna('')

# Aggiunta delle informazioni sugli infortuni ai giocatori esistenti
for _, row in transactions_df.iterrows():
    player = row['Player']
    team = row['Team']
    event = row['Notes'].lower()

    # Identificare gli eventi di inizio e fine infortunio
    if "placed on il" in event:  # Inizio infortunio
        injury_event = {
            'start_date': row['Date'].strftime('%Y-%m-%d') if pd.notnull(row['Date']) else None,
            'end_date': None,  # Fine non ancora conosciuta
            'notes': row['Notes'],
            'duration': None  # Durata da calcolare quando disponibile
        }
        
        if player not in players_data:
            players_data[player] = {
                'player_name': player,
                'team': team,
                'injury': [],
                'games': []
            }
        players_data[player]['injury'].append(injury_event)

    elif "activated from il" in event:  # Fine infortunio
        for injury_event in players_data.get(player, {}).get('injury', []):
            # Trova l'ultimo infortunio senza una data di fine e aggiorna
            if injury_event['end_date'] is None and team == row['Team']:
                injury_event['end_date'] = row['Date'].strftime('%Y-%m-%d') if pd.notnull(row['Date']) else None
                
                # Calcola la durata in giorni
                if injury_event['start_date'] and injury_event['end_date']:
                    start_date = datetime.strptime(injury_event['start_date'], '%Y-%m-%d')
                    end_date = datetime.strptime(injury_event['end_date'], '%Y-%m-%d')
                    injury_event['duration'] = (end_date - start_date).days

# Connettersi a MongoDB
client = MongoClient('mongodb+srv://Mattia:MongoDB@cluster0.miryo.mongodb.net/')  # URL di connessione fornito da Atlas
db = client['db_prova']  # Nome del database

# Per ogni giocatore, salvarlo nella collection della sua squadra
for player_name, player_info in players_data.items():
    team = player_info['team']
    collection = db[team]  # Una collection per ogni squadra

    # Inserire il documento nella collection della squadra
    collection.update_one(
        {'player_name': player_name},  # Criterio di ricerca per aggiornare il giocatore
        {'$set': player_info},  # Dati del giocatore da inserire
        upsert=True  # Crea un nuovo documento se il giocatore non esiste
    )

print("Dati arricchiti con le partite e gli infortuni salvati in MongoDB con successo!")

Dati arricchiti con le partite e gli infortuni salvati in MongoDB con successo!


# Median Recovery Days

In [14]:
from pymongo import MongoClient
import pandas as pd
import numpy as np

# Connessione a MongoDB
client = MongoClient('mongodb+srv://Mattia:MongoDB@cluster0.miryo.mongodb.net/')
db = client['db_prova']

# Funzione per calcolare la mediana
def calculate_median_recovery_days(game_dates):
    """Calcola la mediana dei giorni di recupero."""
    if len(game_dates) < 2:
        return None  # Non ci sono abbastanza partite per calcolare i giorni di recupero
    
    # Calcola i giorni di recupero tra partite consecutive
    recovery_days = np.diff(sorted(game_dates))
    return np.median(recovery_days).days

# Itera su tutte le squadre nel database
for team in db.list_collection_names():
    collection = db[team]
    
    # Itera su tutti i giocatori della squadra
    for player in collection.find():
        games = player.get('games', [])
        
        game_dates = []
        for game in games:
            # Escludi le partite in cui il giocatore non ha giocato (tutte le statistiche sono NaN)
            stats = game.get('stats', {})
            if all(pd.isna(stats.get(stat)) for stat in stats):  # Controlla se tutte le statistiche sono NaN
                continue
            
            # Aggiungi la data della partita valida
            if 'date' in game and pd.notnull(game['date']):
                game_dates.append(pd.to_datetime(game['date']))
        
        if len(game_dates) < 2:
            median_recovery_days = None
        else:
            # Calcola la mediana dei giorni di recupero
            median_recovery_days = calculate_median_recovery_days(game_dates)
        
        # Aggiorna il database con la mediana dei giorni di recupero
        collection.update_one(
            {'player_name': player['player_name']},
            {'$set': {'median_recovery_days': median_recovery_days}},
            upsert=True
        )

print("Median Recovery Days calculated and stored in MongoDB.")

Median Recovery Days calculated and stored in MongoDB.


# GAME_LOAD

In [15]:
import math
from pymongo import MongoClient
from datetime import datetime

# Funzioni per calcolare le componenti del GAME_LOAD
def calculate_total_actions(stats):
    """Calcolo di Total_Actions."""
    return (stats['PTS'] + stats['REB'] + stats['AST'] + stats['STL'] + stats['BLK']) - stats['TO']

def calculate_weighted_efficiency(stats):
    """Calcolo di Weighted_Efficiency."""
    fga = stats['FGA']
    fta = stats['FTA']
    pts = stats['PTS']
    turnovers = stats['TO']
    
    intensity = fga + (0.44 * fta) + turnovers
    if intensity == 0:  # Per evitare divisioni per zero
        return 0
    
    ts_pct = pts / (2 * intensity)
    tov_pct = turnovers / intensity
    
    return ts_pct * (1 - tov_pct)

def calculate_difficulty(opponent_points, avg_offensive_rating, point_differential, game_importance):
    """Calcolo di Difficulty."""
    if avg_offensive_rating == 0:  # Per evitare divisioni per zero
        return 0
    
    return (opponent_points / avg_offensive_rating) * point_differential * game_importance

def calculate_recovery_factor(median_recovery_days, recovery_days):
    """Calcolo di Recovery_Factor."""
    if recovery_days == 0:  # Per evitare divisioni per zero
        return 0
    return median_recovery_days / recovery_days

def calculate_age_factor(age):
    """Calcolo di Age_Factor."""
    return 1 - ((26 - age) / 100)

# Connessione a MongoDB
client = MongoClient('mongodb+srv://Mattia:MongoDB@cluster0.miryo.mongodb.net/')
db = client['db_prova']

# Valori costanti
AVERAGE_NBA_OFFENSIVE_RATING = 115.4  # Sostituisci con il valore reale

# Itera su tutte le squadre nel database
for team in db.list_collection_names():
    collection = db[team]
    
    # Itera su tutti i giocatori della squadra
    for player in collection.find():
        median_recovery_days = player.get('median_recovery_days')
        
        # Salta i giocatori con median_recovery_days uguale a null
        if median_recovery_days is None:
            continue
        
        player_age = player.get('age', 26)  # Valore predefinito di 26 anni se non specificato
        
        # Itera su tutte le partite del giocatore
        for game in player['games']:
            # Estrai i dati necessari per il calcolo
            stats = game.get('stats', {})
            mp = stats.get('mp', 0)
            opponent_score = game.get('opponent_score', 0)
            team_score = game.get('team_score', 0)
            
            if mp <= 0:  # Salta le partite con 0 minuti giocati
                continue
            
            # Calcolo dei componenti
            total_actions = calculate_total_actions(stats)
            weighted_efficiency = calculate_weighted_efficiency(stats)
            point_differential = abs(team_score - opponent_score)
            game_importance = 1  # Puoi definire dinamicamente l'importanza
            difficulty = calculate_difficulty(opponent_score, AVERAGE_NBA_OFFENSIVE_RATING, point_differential, game_importance)
            recovery_days = game.get('recovery_days', 1)  # Valore predefinito di 1 giorno
            recovery_factor = calculate_recovery_factor(median_recovery_days, recovery_days)
            age_factor = calculate_age_factor(player_age)
            
            # Calcolo del GAME_LOAD
            game_load = (total_actions * weighted_efficiency * difficulty * 
                         math.sqrt(mp) * recovery_factor * age_factor)
            
            # Aggiungi il GAME_LOAD ai dati della partita
            game['game_load'] = round(game_load, 2)  # Arrotondamento a 2 decimali
        
        # Aggiorna i dati del giocatore nel database
        collection.update_one(
            {'player_name': player['player_name']},
            {'$set': {'games': player['games']}}
        )

print("Calcolo e aggiornamento del GAME_LOAD completato!")

Calcolo e aggiornamento del GAME_LOAD completato!
