# Screaping dataset infortuni

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Base URL for scraping
BASE_URL = "https://www.prosportstransactions.com/basketball/Search/SearchResults.php"

# Function to scrape a single page
def scrape_page(start):
    params = {
        'Player': '',
        'Team': '',
        'BeginDate': '',
        'EndDate': '',
        'ILChkBx': 'yes',
        'Submit': 'Search',
        'start': start
    }
    
    response = requests.get(BASE_URL, params=params)
    response.raise_for_status()  # Raise an error for bad HTTP responses
    
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'class': 'datatable'})
    
    if not table:
        print(f"No table found on page starting at {start}")
        return []

    rows = table.find_all('tr')[1:]  # Skip header row
    data = []

    for row in rows:
        cols = [col.text.strip() for col in row.find_all('td')]
        data.append(cols)

    return data

# Main scraping logic
def scrape_last_season_pages():
    all_data = []
    
    for page in range(1512, 1594 + 1):  # Iterate through pages 1512 to 1612
        start = (page - 1) * 25  # Calculate the correct "start" parameter
        print(f"Scraping page starting at {start}...")
        page_data = scrape_page(start)
        all_data.extend(page_data)

    # Convert to DataFrame
    columns = ["Date", "Team", "Acquired", "Relinquished", "Notes"]
    df = pd.DataFrame(all_data, columns=columns)
    
    # Save to CSV
    df.to_csv("basketball_transactions.csv", index=False)
    print("Data scraping complete. Saved to basketball_transactions.csv.")

# Execute the scraping function
if __name__ == "__main__":
    scrape_last_season_pages()

In [1]:
# Carica il file CSV
transactions_df = pd.read_csv('/Users/mattia/Desktop/Data Man/basketball_transactions.csv')

# Determina l'indice delle righe da eliminare
num_rows = len(transactions_df)
rows_to_drop = list(range(19)) + list(range(num_rows - 14, num_rows))

# Mantieni solo le righe che non sono da eliminare
filtered_df = transactions_df.drop(rows_to_drop).reset_index(drop=True)

# Salva il dataframe filtrato, se necessario
filtered_df.to_csv('/Users/mattia/Desktop/Data Man/basketball_transactions_filtered_24.csv', index=False)


            Date       Team                   Acquired          Relinquished  \
0     2023-10-01       Suns                        NaN          • Damion Lee   
1     2023-10-02   Warriors                        NaN      • Draymond Green   
2     2023-10-15   Pelicans                        NaN       • Naji Marshall   
3     2023-10-21    Hornets                        NaN     • Frank Ntilikina   
4     2023-10-22  Grizzlies                        NaN        • Steven Adams   
...          ...        ...                        ...                   ...   
2037  2024-06-05    Celtics       • Kristaps Porzingis                   NaN   
2038  2024-06-06  Mavericks  • Olivier-Maxence Prosper                   NaN   
2039  2024-06-12    Celtics                        NaN  • Kristaps Porzingis   
2040  2024-06-14    Celtics       • Kristaps Porzingis                   NaN   
2041  2024-06-28     Pacers                        NaN                   NaN   

                                       

# Creazione dataset MongoDB

In [2]:
import pandas as pd
from pymongo import MongoClient
from datetime import datetime

# Percorso del file delle partite
games_file = '/Users/mattia/Desktop/DATA MAN/NBA_players_dataset.csv'  # Specifica il file con tutte le partite

# Struttura dati per memorizzare le informazioni sui giocatori
players_data = {}

# Caricare il file CSV contenente tutte le partite con l'opzione low_memory
game_data = pd.read_csv(games_file)
game_data = game_data.drop(columns=['Nome']) 
game_data = game_data.rename(columns={'Età': 'age'})  


# Standardizzare il formato delle date (modifica 'game_date' se il nome della colonna è diverso)
game_data['game_date'] = pd.to_datetime(game_data['game_date'], errors='coerce')

# Iterare sulle righe del file per elaborare i dati
for _, game in game_data.iterrows():
    player_name = game['player']  # Nome del giocatore
    team = game['team']  # Squadra del giocatore
    age = game['age'] # Eta del giocatore

    # Creare una nuova voce per il giocatore se non esiste già
    if player_name not in players_data:
        players_data[player_name] = {
            'player_name': player_name,
            'team': team,
            'age': age,
            'injury': [],  # Questo verrà arricchito più avanti
            'games': []  # Lista di statistiche delle partite
        }

    # Aggiungere le statistiche della partita
    player_stats = {
        'date': game['game_date'].strftime('%Y-%m-%d') if pd.notnull(game['game_date']) else None,
        'team_score': game.get('team_score'),
        'opponent_score': game.get('opponent_score'),
        'stats': {
            'mp': game.get('mp', 0),
            'PTS': game.get('PTS', 0),
            'REB': game.get('REB', 0),
            'AST': game.get('AST', 0),
            'STL': game.get('STL', 0),
            'BLK': game.get('BLK', 0),
            'TO': game.get('TO', 0),
            'FGA': game.get('FGA', 0),
            'FTA': game.get('FTA', 0),
            'FG_PCT': game.get('FG_PCT', 0.0),
            'TS%': game.get('TS%', 0.0),
            'TOV%': game.get('TOV%', 0.0),
        }
    }
    players_data[player_name]['games'].append(player_stats)

    
# Caricamento dei dati sugli infortuni
transactions_df = pd.read_csv('/Users/mattia/Desktop/DATA MAN/basketball_transactions_filtered_24.csv')

# Standardizzazione dei dati sugli infortuni
transactions_df['Player'] = transactions_df['Acquired'].combine_first(transactions_df['Relinquished']).str.strip('• ')
transactions_df['Date'] = pd.to_datetime(transactions_df['Date'], errors='coerce')
transactions_df['Notes'] = transactions_df['Notes'].fillna('')

# Aggiunta delle informazioni sugli infortuni ai giocatori esistenti
for _, row in transactions_df.iterrows():
    player = row['Player']
    team = row['Team']
    event = row['Notes'].lower()

    # Identificare gli eventi di inizio e fine infortunio
    if "placed on il" in event:  # Inizio infortunio
        injury_event = {
            'start_date': row['Date'].strftime('%Y-%m-%d') if pd.notnull(row['Date']) else None,
            'end_date': None,  # Fine non ancora conosciuta
            'notes': row['Notes'],
            'duration': None  # Durata da calcolare quando disponibile
        }
        
        if player not in players_data:
            players_data[player] = {
                'player_name': player,
                'team': team,
                'injury': [],
                'games': []
            }
        players_data[player]['injury'].append(injury_event)

    elif "activated from il" in event:  # Fine infortunio
        for injury_event in players_data.get(player, {}).get('injury', []):
            # Trova l'ultimo infortunio senza una data di fine e aggiorna
            if injury_event['end_date'] is None and team == row['Team']:
                injury_event['end_date'] = row['Date'].strftime('%Y-%m-%d') if pd.notnull(row['Date']) else None
                
                # Calcola la durata in giorni
                if injury_event['start_date'] and injury_event['end_date']:
                    start_date = datetime.strptime(injury_event['start_date'], '%Y-%m-%d')
                    end_date = datetime.strptime(injury_event['end_date'], '%Y-%m-%d')
                    injury_event['duration'] = (end_date - start_date).days

# Connettersi a MongoDB
client = MongoClient('mongodb+srv://Mattia:MongoDB@cluster0.miryo.mongodb.net/')  # URL di connessione fornito da Atlas
db = client['db_basketball_24']  # Nome del database

# Per ogni giocatore, salvarlo nella collection della sua squadra
for player_name, player_info in players_data.items():
    team = player_info['team']
    collection = db[team]  # Una collection per ogni squadra

    # Inserire il documento nella collection della squadra
    collection.update_one(
        {'player_name': player_name},  # Criterio di ricerca per aggiornare il giocatore
        {'$set': player_info},  # Dati del giocatore da inserire
        upsert=True  # Crea un nuovo documento se il giocatore non esiste
    )

print("Dati arricchiti con le partite e gli infortuni salvati in MongoDB con successo!")

Dati arricchiti con le partite e gli infortuni salvati in MongoDB con successo!
