In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.datasport.it/calcio/serie-a2018-2019/marcatori/38.html'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova la tabella giusta
table = soup.find('table', class_='marcatori_campionati')

# Prendi tutte le righe dei dati
rows = table.find('tbody').find_all('tr')

data = []
for row in rows:
    cols = row.find_all('td')
    if len(cols) == 3:
        gol = cols[0].text.strip()
        giocatore = cols[1].text.strip()
        squadra = cols[2].text.strip()
        data.append([giocatore, squadra, gol])

# Crea DataFrame
df = pd.DataFrame(data, columns=['Giocatore', 'Squadra', 'Gol'])
print(df)


                               Giocatore    Squadra        Gol
0                     Quagliarella Fabio  Sampdoria  26 (9 r.)
1                           Zapata Duvan   Atalanta  23 (1 r.)
2    Cristiano Ronaldo Dos Santos Aveiro   Juventus  21 (5 r.)
3                        Milik Arkadiusz     Napoli         17
4                         Petagna Andrea       SPAL  16 (5 r.)
..                                   ...        ...        ...
264                      Brignola Enrico   Sassuolo          1
265               Alex Sandro Lobo Silva   Juventus          1
266                   Dell'Orco Cristian     Empoli          1
267                            Rog Marko     Napoli          1
268                     Dionisi Federico  Frosinone          1

[269 rows x 3 columns]


In [2]:
import re
# Funzione per pulire il numero dei gol (togliere la parte tra parentesi)
def clean_gol(gol_str):
    match = re.match(r"(\d+)", gol_str)
    return int(match.group(1)) if match else None

# Applica la funzione
df['Gol Totali'] = df['Gol'].apply(clean_gol)

# Visualizza i primi risultati
print(df[['Giocatore', 'Squadra', 'Gol', 'Gol Totali']].head(10))

                             Giocatore    Squadra        Gol  Gol Totali
0                   Quagliarella Fabio  Sampdoria  26 (9 r.)          26
1                         Zapata Duvan   Atalanta  23 (1 r.)          23
2  Cristiano Ronaldo Dos Santos Aveiro   Juventus  21 (5 r.)          21
3                      Milik Arkadiusz     Napoli         17          17
4                       Petagna Andrea       SPAL  16 (5 r.)          16
5                     Caputo Francesco     Empoli  16 (3 r.)          16
6                        Mertens Dries     Napoli  16 (1 r.)          16
7                   Pavoletti Leonardo   Cagliari         16          16
8                        Immobile Ciro      Lazio  15 (4 r.)          15
9                       Belotti Andrea     Torino  15 (5 r.)          15


In [3]:
# Elimina la colonna "Gol"
df = df.drop(columns=['Gol'])

#aggiungo colonna anno 
df['Anno'] = 2019

# Visualizza i primi risultati per conferma
print(df.head(10))

                             Giocatore    Squadra  Gol Totali  Anno
0                   Quagliarella Fabio  Sampdoria          26  2019
1                         Zapata Duvan   Atalanta          23  2019
2  Cristiano Ronaldo Dos Santos Aveiro   Juventus          21  2019
3                      Milik Arkadiusz     Napoli          17  2019
4                       Petagna Andrea       SPAL          16  2019
5                     Caputo Francesco     Empoli          16  2019
6                        Mertens Dries     Napoli          16  2019
7                   Pavoletti Leonardo   Cagliari          16  2019
8                        Immobile Ciro      Lazio          15  2019
9                       Belotti Andrea     Torino          15  2019


In [4]:
df.to_csv('marcatori_serieA1819.csv', index=False)