In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.datasport.it/calcio/serie-a2017-2018/marcatori/38.html'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova la tabella giusta
table = soup.find('table', class_='marcatori_campionati')

# Prendi tutte le righe dei dati
rows = table.find('tbody').find_all('tr')

data = []
for row in rows:
    cols = row.find_all('td')
    if len(cols) == 3:
        gol = cols[0].text.strip()
        giocatore = cols[1].text.strip()
        squadra = cols[2].text.strip()
        data.append([giocatore, squadra, gol])

# Crea DataFrame
df = pd.DataFrame(data, columns=['Giocatore', 'Squadra', 'Gol'])
print(df)


                Giocatore    Squadra        Gol
0    Icardi Mauro Emanuel      Inter  29 (5 r.)
1           Immobile Ciro      Lazio  29 (7 r.)
2            Dybala Paulo   Juventus  22 (3 r.)
3      Quagliarella Fabio  Sampdoria  19 (7 r.)
4           Mertens Dries     Napoli  18 (4 r.)
..                    ...        ...        ...
263         Puscas George  Benevento          1
264          Bessa Daniel     Verona          1
265        Cataldi Danilo  Benevento          1
266       Borriello Marco       SPAL          1
267       Calabria Davide      Milan          1

[268 rows x 3 columns]


In [2]:
import re
# Funzione per pulire il numero dei gol (togliere la parte tra parentesi)
def clean_gol(gol_str):
    match = re.match(r"(\d+)", gol_str)
    return int(match.group(1)) if match else None

# Applica la funzione
df['Gol Totali'] = df['Gol'].apply(clean_gol)

# Visualizza i primi risultati
print(df[['Giocatore', 'Squadra', 'Gol', 'Gol Totali']].head(10))

                 Giocatore     Squadra        Gol  Gol Totali
0     Icardi Mauro Emanuel       Inter  29 (5 r.)          29
1            Immobile Ciro       Lazio  29 (7 r.)          29
2             Dybala Paulo    Juventus  22 (3 r.)          22
3       Quagliarella Fabio   Sampdoria  19 (7 r.)          19
4            Mertens Dries      Napoli  18 (4 r.)          18
5               Dzeko Edin        Roma         16          16
6          Higuaín Gonzalo    Juventus  16 (1 r.)          16
7   Simeone Giovanni Pablo  Fiorentina         14          14
8  Milinkovic-Savic Sergej       Lazio         12          12
9        Iago Falque Silva      Torino         12          12


In [3]:
# Elimina la colonna "Gol"
df = df.drop(columns=['Gol'])

#aggiungo colonna anno 
df['Anno'] = 2018

# Visualizza i primi risultati per conferma
print(df.head(10))

                 Giocatore     Squadra  Gol Totali  Anno
0     Icardi Mauro Emanuel       Inter          29  2018
1            Immobile Ciro       Lazio          29  2018
2             Dybala Paulo    Juventus          22  2018
3       Quagliarella Fabio   Sampdoria          19  2018
4            Mertens Dries      Napoli          18  2018
5               Dzeko Edin        Roma          16  2018
6          Higuaín Gonzalo    Juventus          16  2018
7   Simeone Giovanni Pablo  Fiorentina          14  2018
8  Milinkovic-Savic Sergej       Lazio          12  2018
9        Iago Falque Silva      Torino          12  2018


In [4]:
df.to_csv('marcatori_serieA1718.csv', index=False)