In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.datasport.it/calcio/serie-a2022-2023/marcatori/38.html'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova la tabella giusta
table = soup.find('table', class_='marcatori_campionati')

# Prendi tutte le righe dei dati
rows = table.find('tbody').find_all('tr')

data = []
for row in rows:
    cols = row.find_all('td')
    if len(cols) == 3:
        gol = cols[0].text.strip()
        giocatore = cols[1].text.strip()
        squadra = cols[2].text.strip()
        data.append([giocatore, squadra, gol])

# Crea DataFrame
df = pd.DataFrame(data, columns=['Giocatore', 'Squadra', 'Gol'])
print(df)


                Giocatore      Squadra        Gol
0          Osimhen Victor       Napoli  26 (2 r.)
1        Martinez Lautaro        Inter  21 (1 r.)
2             Dia Boulaye  Salernitana  16 (1 r.)
3             Leao Rafael        Milan         14
4         Lookman Ademola     Atalanta  14 (3 r.)
..                    ...          ...        ...
279           Lammers Sam    Sampdoria          1
280      Volpato Cristian         Roma          1
281          Botheim Erik  Salernitana          1
282  Juan Jesus Guilherme       Napoli          1
283          Perez Nehuen      Udinese          1

[284 rows x 3 columns]


In [6]:
import re
# Funzione per pulire il numero dei gol (togliere la parte tra parentesi)
def clean_gol(gol_str):
    match = re.match(r"(\d+)", gol_str)
    return int(match.group(1)) if match else None

# Applica la funzione
df['Gol Totali'] = df['Gol'].apply(clean_gol)

# Visualizza i primi risultati
print(df[['Giocatore', 'Squadra', 'Gol', 'Gol Totali']].head(10))

               Giocatore      Squadra        Gol  Gol Totali
0         Osimhen Victor       Napoli  26 (2 r.)          26
1       Martinez Lautaro        Inter  21 (1 r.)          21
2            Dia Boulaye  Salernitana  16 (1 r.)          16
3            Leao Rafael        Milan         14          14
4        Lookman Ademola     Atalanta  14 (3 r.)          14
5         Giroud Olivier        Milan  13 (3 r.)          13
6           Nzola M'Bala       Spezia  13 (3 r.)          13
7          Immobile Ciro        Lazio  12 (3 r.)          12
8       Berardi Domenico     Sassuolo  12 (6 r.)          12
9  Kvaratskhelia Khvicha       Napoli  12 (1 r.)          12


In [7]:
# Elimina la colonna "Gol"
df = df.drop(columns=['Gol'])

#aggiungo colonna anno 
df['Anno'] = 2023

# Visualizza i primi risultati per conferma
print(df.head(10))


               Giocatore      Squadra  Gol Totali  Anno
0         Osimhen Victor       Napoli          26  2023
1       Martinez Lautaro        Inter          21  2023
2            Dia Boulaye  Salernitana          16  2023
3            Leao Rafael        Milan          14  2023
4        Lookman Ademola     Atalanta          14  2023
5         Giroud Olivier        Milan          13  2023
6           Nzola M'Bala       Spezia          13  2023
7          Immobile Ciro        Lazio          12  2023
8       Berardi Domenico     Sassuolo          12  2023
9  Kvaratskhelia Khvicha       Napoli          12  2023


In [8]:
df.to_csv('marcatori_serieA2223.csv', index=False)