In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://www.datasport.it/calcio/serie-a2016-2017/marcatori/38.html'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova la tabella giusta
table = soup.find('table', class_='marcatori_campionati')

# Prendi tutte le righe dei dati
rows = table.find('tbody').find_all('tr')

data = []
for row in rows:
    cols = row.find_all('td')
    if len(cols) == 3:
        gol = cols[0].text.strip()
        giocatore = cols[1].text.strip()
        squadra = cols[2].text.strip()
        data.append([giocatore, squadra, gol])

# Crea DataFrame
df = pd.DataFrame(data, columns=['Giocatore', 'Squadra', 'Gol'])
print(df)


                Giocatore    Squadra        Gol
0              Dzeko Edin       Roma  29 (1 r.)
1           Mertens Dries     Napoli  28 (2 r.)
2          Belotti Andrea     Torino  26 (2 r.)
3    Icardi Mauro Emanuel      Inter  24 (3 r.)
4         Higuaín Gonzalo   Juventus         24
..                    ...        ...        ...
254       Wallace Fortuna      Lazio          1
255       Aleesami Haitam    Palermo          1
256     Bellusci Giuseppe     Empoli          1
257         Linetty Karol  Sampdoria          1
258           Jajalo Mato    Palermo          1

[259 rows x 3 columns]


In [3]:
import re
# Funzione per pulire il numero dei gol (togliere la parte tra parentesi)
def clean_gol(gol_str):
    match = re.match(r"(\d+)", gol_str)
    return int(match.group(1)) if match else None

# Applica la funzione
df['Gol Totali'] = df['Gol'].apply(clean_gol)

# Visualizza i primi risultati
print(df[['Giocatore', 'Squadra', 'Gol', 'Gol Totali']].head(10))

              Giocatore   Squadra        Gol  Gol Totali
0            Dzeko Edin      Roma  29 (1 r.)          29
1         Mertens Dries    Napoli  28 (2 r.)          28
2        Belotti Andrea    Torino  26 (2 r.)          26
3  Icardi Mauro Emanuel     Inter  24 (3 r.)          24
4       Higuaín Gonzalo  Juventus         24          24
5         Immobile Ciro     Lazio  23 (6 r.)          23
6       Insigne Lorenzo    Napoli  18 (2 r.)          18
7  Papu Gomez Alejandro  Atalanta  16 (2 r.)          16
8      Keita Baldé Diao     Lazio  16 (2 r.)          16
9       Borriello Marco  Cagliari  16 (1 r.)          16


In [4]:
# Elimina la colonna "Gol"
df = df.drop(columns=['Gol'])

#aggiungo colonna anno 
df['Anno'] = 2017

# Visualizza i primi risultati per conferma
print(df.head(10))

              Giocatore   Squadra  Gol Totali  Anno
0            Dzeko Edin      Roma          29  2017
1         Mertens Dries    Napoli          28  2017
2        Belotti Andrea    Torino          26  2017
3  Icardi Mauro Emanuel     Inter          24  2017
4       Higuaín Gonzalo  Juventus          24  2017
5         Immobile Ciro     Lazio          23  2017
6       Insigne Lorenzo    Napoli          18  2017
7  Papu Gomez Alejandro  Atalanta          16  2017
8      Keita Baldé Diao     Lazio          16  2017
9       Borriello Marco  Cagliari          16  2017


In [5]:
#aggiungo la colonna anno
df["Anno"] = 2017
print(df)

                Giocatore    Squadra  Gol Totali  Anno
0              Dzeko Edin       Roma          29  2017
1           Mertens Dries     Napoli          28  2017
2          Belotti Andrea     Torino          26  2017
3    Icardi Mauro Emanuel      Inter          24  2017
4         Higuaín Gonzalo   Juventus          24  2017
..                    ...        ...         ...   ...
254       Wallace Fortuna      Lazio           1  2017
255       Aleesami Haitam    Palermo           1  2017
256     Bellusci Giuseppe     Empoli           1  2017
257         Linetty Karol  Sampdoria           1  2017
258           Jajalo Mato    Palermo           1  2017

[259 rows x 4 columns]


In [6]:
df.to_csv('marcatori_serieA1617.csv', index=False)