In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.datasport.it/calcio/serie-a2023-2024/marcatori/38.html'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova la tabella giusta
table = soup.find('table', class_='marcatori_campionati')

# Prendi tutte le righe dei dati
rows = table.find('tbody').find_all('tr')

data = []
for row in rows:
    cols = row.find_all('td')
    if len(cols) == 3:
        gol = cols[0].text.strip()
        giocatore = cols[1].text.strip()
        squadra = cols[2].text.strip()
        data.append([giocatore, squadra, gol])

# Crea DataFrame
df = pd.DataFrame(data, columns=['Giocatore', 'Squadra', 'Gol'])
print(df)


                   Giocatore      Squadra        Gol
0           Martinez Lautaro        Inter  24 (2 r.)
1             Vlahovic Dusan     Juventus  16 (2 r.)
2             Giroud Olivier        Milan  15 (4 r.)
3             Osimhen Victor       Napoli  15 (3 r.)
4         Gudmundsson Albert        Genoa  14 (4 r.)
..                       ...          ...        ...
279   Ikwuemesi Chukwubuikem  Salernitana          1
280      Mutandwa  Kingstone     Cagliari          1
281  Pedro Rodriguez Ledesma        Lazio          1
282        Giannetti Lautaro      Udinese          1
283          Castro Santiago      Bologna          1

[284 rows x 3 columns]


In [2]:
import re
# Funzione per pulire il numero dei gol (togliere la parte tra parentesi)
def clean_gol(gol_str):
    match = re.match(r"(\d+)", gol_str)
    return int(match.group(1)) if match else None

# Applica la funzione
df['Gol Totali'] = df['Gol'].apply(clean_gol)

# Visualizza i primi risultati
print(df[['Giocatore', 'Squadra', 'Gol', 'Gol Totali']].head(10))

            Giocatore                      Squadra         Gol  Gol Totali
0    Martinez Lautaro                        Inter   24 (2 r.)          24
1      Vlahovic Dusan                     Juventus   16 (2 r.)          16
2      Giroud Olivier                        Milan   15 (4 r.)          15
3      Osimhen Victor                       Napoli   15 (3 r.)          15
4  Gudmundsson Albert                        Genoa   14 (4 r.)          14
5        Dybala Paulo                         Roma   13 (7 r.)          13
6        Zapata Duvan  Torino (12) -  Atalanta (1)          13          13
7    Calhanoglu Hakan                        Inter  13 (10 r.)          13
8       Thuram Marcus                        Inter          13          13
9       Lukaku Romelu                         Roma          13          13


In [3]:
# Elimina la colonna "Gol"
df = df.drop(columns=['Gol'])

#aggiungo colonna anno 
df['Anno'] = 2024

# Visualizza i primi risultati per conferma
print(df.head(10))

            Giocatore                      Squadra  Gol Totali  Anno
0    Martinez Lautaro                        Inter          24  2024
1      Vlahovic Dusan                     Juventus          16  2024
2      Giroud Olivier                        Milan          15  2024
3      Osimhen Victor                       Napoli          15  2024
4  Gudmundsson Albert                        Genoa          14  2024
5        Dybala Paulo                         Roma          13  2024
6        Zapata Duvan  Torino (12) -  Atalanta (1)          13  2024
7    Calhanoglu Hakan                        Inter          13  2024
8       Thuram Marcus                        Inter          13  2024
9       Lukaku Romelu                         Roma          13  2024


In [6]:
#modifica squadra per giocatore zapata duvan
df.loc[df['Giocatore'] == 'Zapata Duvan', 'Squadra'] = 'Torino'
print(df.head(10))

            Giocatore   Squadra  Gol Totali  Anno
0    Martinez Lautaro     Inter          24  2024
1      Vlahovic Dusan  Juventus          16  2024
2      Giroud Olivier     Milan          15  2024
3      Osimhen Victor    Napoli          15  2024
4  Gudmundsson Albert     Genoa          14  2024
5        Dybala Paulo      Roma          13  2024
6        Zapata Duvan    Torino          13  2024
7    Calhanoglu Hakan     Inter          13  2024
8       Thuram Marcus     Inter          13  2024
9       Lukaku Romelu      Roma          13  2024


In [7]:
df.to_csv('marcatori_serieA2324.csv', index=False)