In [None]:
#Instalando os pacotes necessários
install.packages("rvest")
install.packages("tidyverse")
install.packages("writexl")

In [None]:
#Carregando as bibliotecas
library(rvest)
library(tidyverse)
library(dplyr)
library(writexl)

In [None]:
#Escolhendo o site que será analisado
site <- "https://fbref.com/pt/comps/20/2023-2024/2023-2024-Bundesliga-estatisticas"

In [None]:
#Lendo a página no formato HTML
pagina <- read_html(site)

In [None]:
#Extraindo todas as tabelas da página
tabelas <- pagina %>%
  html_nodes("table") %>%
  html_table()

In [None]:
#Visualizando todas as tabelas
View(tabelas)

In [None]:
#Extraindo as tabelas a serem usadas
tabela1 <- (tabelas[[1]])
tabela2 <- (tabelas[[3]])

In [None]:
#Visualizando as tabelas selecionadas
View(tabela1)
View(tabela2)

In [None]:
#Excluindo o cabeçalho nulo e corrigindo os dados
colnames(tabela2) <- tabela2[1, ]

In [None]:
#Novo cabeçalho
tabela2 <-  tabela2[-1,]

In [None]:
#Selecionando as colunas necessárias para análise
tabela2 <- tabela2 %>%
  select(Equipe, '# J',Idade, Posse, CrtsA, CrtV)

In [None]:
# @title
#Juntando as duas tabelas baseadas nos nomes das equipes
bundesliga <- inner_join(tabela1, tabela2, by = "Equipe")

In [None]:
#Removendo colunas desnecessárias
bundesliga <- bundesliga %>%
  select(-c('Artilheiro da equipe', Goleiro))

In [None]:
#Renomeando colunas
bundesliga <- bundesliga %>%
  rename(
    PtsPPJ = `Pts/PPJ`,
    xGD90 = `xGD/90`,
    Publico = 'Público',
    NrJogadores = '# J',
    MediaIdade = Idade,
    PosseBola = Posse,
    CrtsV = CrtV,
    )

In [None]:
#Convertendo colunas específicas para o formato numérico
bundesliga$`PtsPPJ` <- as.numeric(gsub(",",".",bundesliga$`PtsPPJ`))
bundesliga$xG <- as.numeric(bundesliga$xG)
bundesliga$xGA <- as.numeric(bundesliga$xGA)
bundesliga$xGD <- as.numeric(bundesliga$xGD)
bundesliga$`xGD90` <- as.numeric(gsub(",",".",bundesliga$`xGD90`))
bundesliga$NrJogadores <- as.integer(bundesliga$NrJogadores)
bundesliga$MediaIdade <- as.numeric(gsub(",",".",bundesliga$MediaIdade))
bundesliga$PosseBola <- as.numeric(gsub(",",".",bundesliga$PosseBola))
bundesliga$CrtsA <- as.integer(bundesliga$CrtsA)
bundesliga$CrtsV <- as.integer(bundesliga$CrtsV)

In [None]:
#Organizando as colunas
bundesliga <- bundesliga %>%
  select(-Publico, -Notas, everything(), Publico, Notas)

In [None]:
#Vizualizando o resultado
View(bundesliga)

In [None]:
#Nome do arquivo que será convertido para o formato xlsx
bundesliga_xlsx <- "bundesliga.xlsx"

In [None]:
#Adicionando os dados ao arquivo xlsx
write_xlsx(bundesliga, bundesliga_xlsx)