In [None]:
#Instalando os pacotes necessários
install.packages("rvest")
install.packages("tidyverse")
install.packages("writexl")

In [None]:
#Carregando as bibliotecas
library(rvest)
library(tidyverse)
library(dplyr)
library(writexl)

In [None]:
#Escolhendo o site que será analisado
site <- "https://fbref.com/pt/comps/9/2022-2023/2022-2023-Premier-League-estatisticas"

In [None]:
#Lendo a página no formato HTML
pagina <- read_html(site)

In [None]:
#Extraindo todas as tabelas da página
tabelas <- pagina %>%
  html_nodes("table") %>%
  html_table()

In [None]:
#Visualizando todas as tabelas
View(tabelas)

In [None]:
#Extraindo as tabelas a serem usadas
tabela1 <- (tabelas[[1]])
tabela2 <- (tabelas[[3]])

In [None]:
#Visualizando as tabelas selecionadas
View(tabela1)
View(tabela2)

In [None]:
#Excluindo o cabeçalho nulo e corrigindo os dados
colnames(tabela2) <- tabela2[1, ]

In [None]:
#Novo cabeçalho
tabela2 <-  tabela2[-1,]

In [None]:
#Selecionando as colunas necessárias para análise
tabela2 <- tabela2 %>%
  select(Equipe, '# J',Idade, Posse, CrtsA, CrtV)

In [None]:
#Juntando as duas tabelas baseadas nos nomes das equipes
premier <- inner_join(tabela1, tabela2, by = "Equipe")

In [None]:
#Removendo colunas desnecessárias
premier <- premier %>%
  select(-c('Artilheiro da equipe', Goleiro))

In [None]:
#Renomeando colunas
premier <- premier %>%
  rename(
    PtsPPJ = `Pts/PPJ`,
    xGD90 = `xGD/90`,
    Publico = 'Público',
    NrJogadores = '# J',
    MediaIdade = Idade,
    PosseBola = Posse,
    CrtsV = CrtV,
    )

In [None]:
#Convertendo colunas específicas para o formato numérico
premier$`PtsPPJ` <- as.numeric(gsub(",",".",premier$`PtsPPJ`))
premier$xG <- as.numeric(premier$xG)
premier$xGA <- as.numeric(premier$xGA)
premier$xGD <- as.numeric(premier$xGD)
premier$`xGD90` <- as.numeric(gsub(",",".",premier$`xGD90`))
premier$NrJogadores <- as.integer(premier$NrJogadores)
premier$MediaIdade <- as.numeric(gsub(",",".",premier$MediaIdade))
premier$PosseBola <- as.numeric(gsub(",",".",premier$PosseBola))
premier$CrtsA <- as.integer(premier$CrtsA)
premier$CrtsV <- as.integer(premier$CrtsV)

In [None]:
#Organizando as colunas
premier <- premier %>%
  select(-Publico, -Notas, everything(), Publico, Notas)

In [None]:
#Vizualizando o resultado
View(premier)

In [None]:
#Nome do arquivo que será convertido para o formato xlsx
premier_xlsx <- "premier.xlsx"

In [None]:
#Adicionando os dados ao arquivo xlsx
write_xlsx(premier, premier_xlsx)