In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.datasport.it/calcio/serie-a2020-2021/marcatori/38.html'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova la tabella giusta
table = soup.find('table', class_='marcatori_campionati')

# Prendi tutte le righe dei dati
rows = table.find('tbody').find_all('tr')

data = []
for row in rows:
    cols = row.find_all('td')
    if len(cols) == 3:
        gol = cols[0].text.strip()
        giocatore = cols[1].text.strip()
        squadra = cols[2].text.strip()
        data.append([giocatore, squadra, gol])

# Crea DataFrame
df = pd.DataFrame(data, columns=['Giocatore', 'Squadra', 'Gol'])
print(df)

                               Giocatore     Squadra        Gol
0    Cristiano Ronaldo Dos Santos Aveiro    Juventus  29 (5 r.)
1                          Lukaku Romelu       Inter  24 (6 r.)
2                            Muriel Luis    Atalanta  22 (2 r.)
3                         Vlahovic Dusan  Fiorentina  21 (6 r.)
4           Simy Tochukwu Simeon Nwankwo     Crotone  20 (7 r.)
..                                   ...         ...        ...
280                     Czyborra Lennart       Genoa          1
281                        Karsdorp Rick        Roma          1
282                       Meite Souahilo      Torino          1
283                Samir De Souza Santos     Udinese          1
284                Martinez Quarta Lucas  Fiorentina          1

[285 rows x 3 columns]


In [6]:
import re
# Funzione per pulire il numero dei gol (togliere la parte tra parentesi)
def clean_gol(gol_str):
    match = re.match(r"(\d+)", gol_str)
    return int(match.group(1)) if match else None

# Applica la funzione
df['Gol Totali'] = df['Gol'].apply(clean_gol)

# Visualizza i primi risultati
print(df[['Giocatore', 'Squadra', 'Gol', 'Gol Totali']].head(10))


                             Giocatore     Squadra        Gol  Gol Totali
0  Cristiano Ronaldo Dos Santos Aveiro    Juventus  29 (5 r.)          29
1                        Lukaku Romelu       Inter  24 (6 r.)          24
2                          Muriel Luis    Atalanta  22 (2 r.)          22
3                       Vlahovic Dusan  Fiorentina  21 (6 r.)          21
4         Simy Tochukwu Simeon Nwankwo     Crotone  20 (7 r.)          20
5                        Immobile Ciro       Lazio  20 (4 r.)          20
6                      Insigne Lorenzo      Napoli  19 (6 r.)          19
7                     Martinez Lautaro       Inter  17 (2 r.)          17
8                     Berardi Domenico    Sassuolo  17 (7 r.)          17
9              Joao Pedro Guerra Cunha    Cagliari  16 (4 r.)          16


In [7]:
# Elimina la colonna "Gol"
df = df.drop(columns=['Gol'])

#aggiungo colonna anno 
df['Anno'] = 2021

# Visualizza i primi risultati per conferma
print(df.head(10))

                             Giocatore     Squadra  Gol Totali  Anno
0  Cristiano Ronaldo Dos Santos Aveiro    Juventus          29  2021
1                        Lukaku Romelu       Inter          24  2021
2                          Muriel Luis    Atalanta          22  2021
3                       Vlahovic Dusan  Fiorentina          21  2021
4         Simy Tochukwu Simeon Nwankwo     Crotone          20  2021
5                        Immobile Ciro       Lazio          20  2021
6                      Insigne Lorenzo      Napoli          19  2021
7                     Martinez Lautaro       Inter          17  2021
8                     Berardi Domenico    Sassuolo          17  2021
9              Joao Pedro Guerra Cunha    Cagliari          16  2021


In [8]:
df.to_csv('marcatori_serieA2021.csv', index=False)