# SCRAPING SERIE A 

### Questa progetto consiste nel raccogliere ed analizzare i dati relativi al campionato di serie A, predicendo in seguito, attraverso un algoritmo di machine learning, la probabile vincitrice di ogni partita. I dati raccolti vanno dalla stagione 2022-2023 alla stagione 2023-2024, giornata 30, ovvero la giornata in cui è stata fatta l'analisi.


In [1]:
import requests

In [2]:
#url alla pagina che contiene tutte le statistiche dei campionati. in particolare
#ci concentriamo sulle statistiche di serie A, prenderemo le statistiche di ogni squadra
#che vanno dall'anno 2020 alla giornata 15 della stagione 2023, giornata in cui
# stiamo facendo questa analisi

standings_url = "https://fbref.com/it/comp/11/Statistiche-di-Serie-A"

In [3]:
data = requests.get(standings_url)

In [4]:
#Ci interessa ottenere gli url di ogni squadra. Quindi dall'url delle statistiche di serie A
#prenderemo gli url di ogni squadra da questa pagina, che conterranno le informazioni
#utili per ogni squadra. Per farlo utilizzeremo l'ispezione della sorgente della pagina,cosi
#da trovare l'url che ci interessa.per farlo utilizziamo la libreria Beautfoul Soup

In [5]:
from bs4 import BeautifulSoup

In [6]:
soup = BeautifulSoup(data.text)

In [7]:
#ci interessa selezionare la tabella, utilizzando il tag dalla sorgente
standings_table = soup.select('table.stats_table')[0] #css selector

In [8]:
#adesso ci interessa trovare i link da questa tabella, ovvero i tags "a"

links = standings_table.find_all('a')

#cerchiamo la proprietà 'href' per ogni link
links = [l.get("href") for l in links]

In [9]:
# Adesso facciamo un controllo sui link, sostanzialmente controlliamo se il parametro
# '/squadre/' è nel link, se non lo è ci sbarazziamo del link poichè non ci interessa.
# In questo modo otteniamo i link a tutte le squadre partecipanti al campionato
links = [l for l in links if "/squadre/" in l]

links

['/it/squadre/d609edc0/Statistiche-Internazionale',
 '/it/squadre/dc56fe14/Statistiche-Milan',
 '/it/squadre/e0652b02/Statistiche-Juventus',
 '/it/squadre/1d8099f8/Statistiche-Bologna',
 '/it/squadre/cf74a709/Statistiche-Roma',
 '/it/squadre/922493f3/Statistiche-Atalanta',
 '/it/squadre/7213da33/Statistiche-Lazio',
 '/it/squadre/d48ad4ff/Statistiche-Napoli',
 '/it/squadre/105360fe/Statistiche-Torino',
 '/it/squadre/421387cf/Statistiche-Fiorentina',
 '/it/squadre/21680aa4/Statistiche-Monza',
 '/it/squadre/658bf2de/Statistiche-Genoa',
 '/it/squadre/ffcbe334/Statistiche-Lecce',
 '/it/squadre/04eea015/Statistiche-Udinese',
 '/it/squadre/0e72edf2/Statistiche-Hellas-Verona',
 '/it/squadre/c4260e09/Statistiche-Cagliari',
 '/it/squadre/6a7ad59d/Statistiche-Frosinone',
 '/it/squadre/a3d88bd8/Statistiche-Empoli',
 '/it/squadre/e2befd26/Statistiche-Sassuolo',
 '/it/squadre/c5577084/Statistiche-Salernitana']

In [10]:
team_urls = [f"https://fbref.com{l}" for l in links]
# usiamo il formato stringa per prendere ogni link e collegarlo alla stringa all'inizio del link

In [11]:
team_urls

['https://fbref.com/it/squadre/d609edc0/Statistiche-Internazionale',
 'https://fbref.com/it/squadre/dc56fe14/Statistiche-Milan',
 'https://fbref.com/it/squadre/e0652b02/Statistiche-Juventus',
 'https://fbref.com/it/squadre/1d8099f8/Statistiche-Bologna',
 'https://fbref.com/it/squadre/cf74a709/Statistiche-Roma',
 'https://fbref.com/it/squadre/922493f3/Statistiche-Atalanta',
 'https://fbref.com/it/squadre/7213da33/Statistiche-Lazio',
 'https://fbref.com/it/squadre/d48ad4ff/Statistiche-Napoli',
 'https://fbref.com/it/squadre/105360fe/Statistiche-Torino',
 'https://fbref.com/it/squadre/421387cf/Statistiche-Fiorentina',
 'https://fbref.com/it/squadre/21680aa4/Statistiche-Monza',
 'https://fbref.com/it/squadre/658bf2de/Statistiche-Genoa',
 'https://fbref.com/it/squadre/ffcbe334/Statistiche-Lecce',
 'https://fbref.com/it/squadre/04eea015/Statistiche-Udinese',
 'https://fbref.com/it/squadre/0e72edf2/Statistiche-Hellas-Verona',
 'https://fbref.com/it/squadre/c4260e09/Statistiche-Cagliari',
 'ht

### Adesso prendiamo le stastistiche che ci interessano per ogni team

In [12]:
team_url = team_urls[0]

data = requests.get(team_url)

#a noi interessano le stastistiche della tabella 'punteggi e partite', che ispezionando la pagina
# è la tabella con il tag 'stats table'
# quindi ci interessa tutta la tabella della pagina e renderla un data frame 
#per far cioò utilizziamo la libreria Pandas, utilizzando il metodo 'read_html'

import pandas as pd

#con 'read_html' pandas cercerà su data.text la parola 'Punteggi e partite', che rapressenta la tabella
matches = pd.read_html(data.text, match = "Punteggi e partite")

In [13]:
matches[0].head()

Unnamed: 0,Data,Ora,Competizione,Girone,Giorno,Stadio,Risultato,Rf,Rs,Avversario,xG,xGA,Poss.,Spettatori,Capitano,Formazione,Arbitro,Report partita,Note
0,19-08-2023,20:45,Serie A,Giornata n. 1,Sab,Casa,V,2,0,Monza,2.7,0.8,47.0,72.509,Lautaro Martínez,3-5-2,Andrea Colombo,Report partita,
1,28-08-2023,20:45,Serie A,Giornata n. 2,Lun,Ospiti,V,2,0,Cagliari,0.9,0.6,67.0,16.412,Lautaro Martínez,3-5-2,Michael Fabbri,Report partita,
2,03-09-2023,18:30,Serie A,Giornata n. 3,Dom,Casa,V,4,0,Fiorentina,3.7,0.4,40.0,72.739,Lautaro Martínez,3-5-2,Matteo Marchetti,Report partita,
3,16-09-2023,18:00,Serie A,Giornata n. 4,Sab,Casa,V,5,1,Milan,2.6,1.1,41.0,75.571,Lautaro Martínez,3-5-2,Simone Sozza,Report partita,
4,20-09-2023,21:00,Champions Lg,Fase a gironi,Mer,Ospiti,N,1,1,es Real Sociedad,0.5,1.3,56.0,36.591,Lautaro Martínez,3-5-2,Michael Oliver,Report partita,


### Tiri di ogni squadra

Utilizzando lo stesso procedimento, andiamo a prendere i tiri che ha effettuato ogni squadra

In [14]:
soup = BeautifulSoup(data.text)

links = soup.find_all('a')

links = [l.get('href') for l in links]

links = [l for l in links if l and 'all_comps/shooting/' in l]

In [15]:
links

['/it/squadre/d609edc0/2023-2024/partite/all_comps/shooting/Registri-incontri-Internazionale-Tutte-le-competizioni',
 '/it/squadre/d609edc0/2023-2024/partite/all_comps/shooting/Registri-incontri-Internazionale-Tutte-le-competizioni',
 '/it/squadre/d609edc0/2023-2024/partite/all_comps/shooting/Registri-incontri-Internazionale-Tutte-le-competizioni',
 '/it/squadre/d609edc0/2023-2024/partite/all_comps/shooting/Registri-incontri-Internazionale-Tutte-le-competizioni']

In [16]:
data = requests.get(f"https://fbref.com{links[0]}")

In [21]:
shooting = pd.read_html(data.text, match = "Tiri")[0]

shooting.head()

Unnamed: 0_level_0,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,Di: Internazionale,...,Standard,Standard,Standard,Standard,Prestazione prevista,Prestazione prevista,Prestazione prevista,Prestazione prevista,Prestazione prevista,Unnamed: 25_level_0
Unnamed: 0_level_1,Data,Ora,Competizione,Girone,Giorno,Stadio,Risultato,Rf,Rs,Avversario,...,Dist.,Pun.,Rigori,Rig T,xG,npxG,npxG/Sh,G-xG,np:G-xG,Report partita
0,19-08-2023,20:45,Serie A,Giornata n. 1,Sab,Casa,V,2,0,Monza,...,172.0,1.0,0,0,2.7,2.7,12.0,-0.7,-0.7,Report partita
1,28-08-2023,20:45,Serie A,Giornata n. 2,Lun,Ospiti,V,2,0,Cagliari,...,159.0,0.0,0,0,0.9,0.9,5.0,1.1,1.1,Report partita
2,03-09-2023,18:30,Serie A,Giornata n. 3,Dom,Casa,V,4,0,Fiorentina,...,145.0,1.0,1,1,3.7,2.9,15.0,0.3,0.1,Report partita
3,16-09-2023,18:00,Serie A,Giornata n. 4,Sab,Casa,V,5,1,Milan,...,152.0,1.0,1,1,2.6,1.8,14.0,2.4,2.2,Report partita
4,20-09-2023,21:00,Champions Lg,Fase a gironi,Mer,Ospiti,N,1,1,es Real Sociedad,...,147.0,0.0,0,0,0.5,0.5,9.0,0.5,0.5,Report partita


#### Puliamo la tabella togliendo le colonne che non ci interessano o che sono vuote

In [22]:
shooting.columns = shooting.columns.droplevel() #togliamo la prima riga

In [23]:
shooting.head()

Unnamed: 0,Data,Ora,Competizione,Girone,Giorno,Stadio,Risultato,Rf,Rs,Avversario,...,Dist.,Pun.,Rigori,Rig T,xG,npxG,npxG/Sh,G-xG,np:G-xG,Report partita
0,19-08-2023,20:45,Serie A,Giornata n. 1,Sab,Casa,V,2,0,Monza,...,172.0,1.0,0,0,2.7,2.7,12.0,-0.7,-0.7,Report partita
1,28-08-2023,20:45,Serie A,Giornata n. 2,Lun,Ospiti,V,2,0,Cagliari,...,159.0,0.0,0,0,0.9,0.9,5.0,1.1,1.1,Report partita
2,03-09-2023,18:30,Serie A,Giornata n. 3,Dom,Casa,V,4,0,Fiorentina,...,145.0,1.0,1,1,3.7,2.9,15.0,0.3,0.1,Report partita
3,16-09-2023,18:00,Serie A,Giornata n. 4,Sab,Casa,V,5,1,Milan,...,152.0,1.0,1,1,2.6,1.8,14.0,2.4,2.2,Report partita
4,20-09-2023,21:00,Champions Lg,Fase a gironi,Mer,Ospiti,N,1,1,es Real Sociedad,...,147.0,0.0,0,0,0.5,0.5,9.0,0.5,0.5,Report partita


#### Abbiamo quindi due dataframe, matches e shooting, combiniamoli.

In [24]:
team_data = matches[0].merge(shooting[["Data", "Tiri", "Dist.", "Pun.", "Rigori", "Rig T"]], on="Data")

In [25]:
team_data

Unnamed: 0,Data,Ora,Competizione,Girone,Giorno,Stadio,Risultato,Rf,Rs,Avversario,...,Capitano,Formazione,Arbitro,Report partita,Note,Tiri,Dist.,Pun.,Rigori,Rig T
0,19-08-2023,20:45,Serie A,Giornata n. 1,Sab,Casa,V,2,0,Monza,...,Lautaro Martínez,3-5-2,Andrea Colombo,Report partita,,22,172.0,1.0,0,0
1,28-08-2023,20:45,Serie A,Giornata n. 2,Lun,Ospiti,V,2,0,Cagliari,...,Lautaro Martínez,3-5-2,Michael Fabbri,Report partita,,17,159.0,0.0,0,0
2,03-09-2023,18:30,Serie A,Giornata n. 3,Dom,Casa,V,4,0,Fiorentina,...,Lautaro Martínez,3-5-2,Matteo Marchetti,Report partita,,20,145.0,1.0,1,1
3,16-09-2023,18:00,Serie A,Giornata n. 4,Sab,Casa,V,5,1,Milan,...,Lautaro Martínez,3-5-2,Simone Sozza,Report partita,,13,152.0,1.0,1,1
4,20-09-2023,21:00,Champions Lg,Fase a gironi,Mer,Ospiti,N,1,1,es Real Sociedad,...,Lautaro Martínez,3-5-2,Michael Oliver,Report partita,,6,147.0,0.0,0,0
5,24-09-2023,12:30,Serie A,Giornata n. 5,Dom,Ospiti,V,1,0,Empoli,...,Lautaro Martínez,3-5-2,Matteo Marcenaro,Report partita,,23,168.0,0.0,0,0
6,27-09-2023,20:45,Serie A,Giornata n. 6,Mer,Casa,P,1,2,Sassuolo,...,Lautaro Martínez,3-5-2,Luca Massimi,Report partita,,13,152.0,0.0,0,0
7,30-09-2023,20:45,Serie A,Giornata n. 7,Sab,Ospiti,V,4,0,Salernitana,...,Nicolò Barella,3-5-2,Rosario Abisso,Report partita,,15,168.0,1.0,1,1
8,03-10-2023,21:00,Champions Lg,Fase a gironi,Mar,Casa,V,1,0,pt Benfica,...,Lautaro Martínez,3-5-2,Danny Makkelie,Report partita,,21,143.0,1.0,0,0
9,07-10-2023,15:00,Serie A,Giornata n. 8,Sab,Casa,N,2,2,Bologna,...,Lautaro Martínez,3-5-2,Marco Guida,Report partita,,14,183.0,1.0,0,0


## Raccolta di dati per più stagioni e squadra con un ciclo

Combiniamo il codice gia scritto per raccogliere più stagioni e tutte le squadre del campionato, utilizzando un ciclo for

In [26]:
years = list(range(2024,2022, -1))

In [27]:
years

[2024, 2023]

In [28]:
#inizializzo una lista chiamata all_matches che conterrà diversi dataframe. 
#Ogni dataframe conterrà i match logs di un team in una stagione.
#Alla fine combinerermo tutti i dataframe ottenuti in un unico grande dataframe

all_matches = []

In [29]:
standings_url = "https://fbref.com/it/comp/11/Statistiche-di-Serie-A"

In [30]:
import time

for year in years:
    data = requests.get(standings_url)
    soup = BeautifulSoup(data.text)
    standings_table = soup.select('table.stats_table')[0]
    
    links = [l.get("href") for l in standings_table.find_all('a')]
    links = [l for l in links if '/squadre/' in l]
    team_urls = [f"https://fbref.com{l}" for l in links]
    
    previous_season = soup.select("a.prev")[0].get("href")
    standings_url = f"https://fbref.com/{previous_season}"
    
    for team_url in team_urls:
        team_name = team_url.split("/")[-1].replace("Statistiche-","").replace("-","")
        #'[-1]'ovvero l'ultimo pezzo del link
        
        data = requests.get(team_url)
        matches = pd.read_html(data.text, match = "Punteggi e partite")[0]
        
        soup = BeautifulSoup(data.text)
        links = [l.get('href') for l in soup.find_all('a')]
        links = [l for l in links if l and 'all_comps/shooting/' in l]
        data = requests.get(f"https://fbref.com{links[0]}")
        shooting = pd.read_html(data.text, match = "Tiri")[0]
        shooting.columns = shooting.columns.droplevel()
        
        #mettiamo un try poichè può capitare che a volte per qualche squadre la statistica del tiro non è disponibile
        #e quando si fa il merge pandas può dare un ValueError poichè la statistiche è vuota
        
        try:
            team_data = matches.merge(shooting[["Data", "Tiri", "Dist.", "Pun.", "Rigori", "Rig T"]], on="Data")
        except ValueError:
            continue
            
        #dividiamo le competizioni (campionato, coppa italia, ...)
        
        team_data = team_data[team_data["Competizione"] == 'Serie A']
        team_data["Stagione"] = year
        team_data["Squadra"]= team_name
        
        all_matches.append(team_data)
        time.sleep(1) #per assicurarci che quando facciamo scraping il website non si blocca a causa delle richieste
        
       

In [31]:
match_df = pd.concat(all_matches)
match_df

Unnamed: 0,Data,Ora,Competizione,Girone,Giorno,Stadio,Risultato,Rf,Rs,Avversario,...,Arbitro,Report partita,Note,Tiri,Dist.,Pun.,Rigori,Rig T,Stagione,Squadra
0,19-08-2023,20:45,Serie A,Giornata n. 1,Sab,Casa,V,2,0,Monza,...,Andrea Colombo,Report partita,,22.0,172.0,1.0,0,0,2024,Internazionale
1,28-08-2023,20:45,Serie A,Giornata n. 2,Lun,Ospiti,V,2,0,Cagliari,...,Michael Fabbri,Report partita,,17.0,159.0,0.0,0,0,2024,Internazionale
2,03-09-2023,18:30,Serie A,Giornata n. 3,Dom,Casa,V,4,0,Fiorentina,...,Matteo Marchetti,Report partita,,20.0,145.0,1.0,1,1,2024,Internazionale
3,16-09-2023,18:00,Serie A,Giornata n. 4,Sab,Casa,V,5,1,Milan,...,Simone Sozza,Report partita,,13.0,152.0,1.0,1,1,2024,Internazionale
5,24-09-2023,12:30,Serie A,Giornata n. 5,Dom,Ospiti,V,1,0,Empoli,...,Matteo Marcenaro,Report partita,,23.0,168.0,0.0,0,0,2024,Internazionale
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36,08-05-2023,18:30,Serie A,Giornata n. 34,Lun,Ospiti,P,0,2,Udinese,...,Niccolò Baroni,Report partita,,11.0,211.0,1.0,0,0,2023,Sampdoria
37,15-05-2023,20:45,Serie A,Giornata n. 35,Lun,Casa,N,1,1,Empoli,...,Ermanno Feliciani,Report partita,,13.0,165.0,1.0,0,0,2023,Sampdoria
38,20-05-2023,20:45,Serie A,Giornata n. 36,Sab,Ospiti,P,1,5,Milan,...,Francesco Fourneau,Report partita,,6.0,175.0,0.0,0,0,2023,Sampdoria
39,26-05-2023,20:45,Serie A,Giornata n. 37,Ven,Casa,N,2,2,Sassuolo,...,Francesco Meraviglia,Report partita,,17.0,150.0,0.0,0,0,2023,Sampdoria


In [32]:
match_df.colums = [c.lower() for c in match_df.columns]

  match_df.colums = [c.lower() for c in match_df.columns]


In [33]:
match_df.to_csv("matches.csv") #importiamo il dataframe in un file csv