In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL do site que contém a tabela
url = r"https://fbref.com/en/comps/24/2023/schedule/2023-Serie-A-Scores-and-Fixtures"

# Fazendo uma solicitação GET para obter o conteúdo da página
response = requests.get(url)

# Lista para armazenar os dados dos jogos
games_data = []

# Verificando se a solicitação foi bem-sucedida
if response.status_code == 200:
    # Parseando o conteúdo HTML
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Encontrando a tabela com a classe 'stats_table'
    table = soup.find('table', class_='stats_table')
    
    # Verificando se a tabela foi encontrada
    if table:
        # Iterando sobre as linhas da tabela
        for row in table.find_all('tr'):
            # Inicializando uma lista para armazenar os dados de cada jogo
            game_row = []
            
            # Iterando sobre as células de cada linha
            cells = row.find_all('td')
            if len(cells) > 0:
                # Armazenando os dados de cada jogo na lista
                game_row.append(cells[1].get_text(strip=True))  # Date
                game_row.append(cells[3].get_text(strip=True))  # Home Team
                game_row.append(cells[4].get_text(strip=True))  # xG Home
                game_row.append(cells[5].get_text(strip=True))  # Score
                game_row.append(cells[6].get_text(strip=True))  # xG Away
                game_row.append(cells[7].get_text(strip=True))  # Away Team
                
                # Adicionando a linha de dados dos jogos à lista de jogos
                games_data.append(game_row)
    else:
        print("Tabela não encontrada.")
else:
    print("Erro ao acessar a página:", response.status_code)

In [2]:
df = pd.DataFrame(games_data, columns=['Date', 'Home Team', 'xG Home', 'Score', 'xG Away', 'Away Team'])

In [3]:
# Retirando as linhas em branco 
df = df[df['Home Team'] != '']

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 380 entries, 0 to 425
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Date       380 non-null    object
 1   Home Team  380 non-null    object
 2   xG Home    380 non-null    object
 3   Score      380 non-null    object
 4   xG Away    380 non-null    object
 5   Away Team  380 non-null    object
dtypes: object(6)
memory usage: 20.8+ KB


In [5]:
# Agora eu preciso achar uma forma de integrar os dois csvs e jogar os valores de xG Home e xG Away para a tabela que
# já tenho com os dados da CBF
df.to_csv("Dados FBREF Brasileirão 2023.csv")