O objetivo deste repositório/pacote é raspar as notícias de portais de
noticias governamentais, e disponibilizar em .csv
.
Estado | Fonte | Freq. de atualização | Baixar base | Código para importar no R |
---|---|---|---|---|
SP | Portal do Governo do Estado de São Paulo | A cada 6 horas | .csv |
base_noticias_gov_sp <- readr::read_delim("https://raw.githubusercontent.com/beatrizmilz/noticiasgov/master/inst/base_noticias_gov_sp.csv", delim = ";") |
base_noticias_gov_sp <- readr::read_delim("https://raw.githubusercontent.com/beatrizmilz/noticiasgov/master/inst/base_noticias_gov_sp.csv", delim = ";")
dplyr::glimpse(base_noticias_gov_sp)
#> Rows: 93,537
#> Columns: 11
#> $ id <dbl> 5501054, 5500984, 5500968, 5500980, 5500954, 5500930, …
#> $ data <date> 2022-04-04, 2022-04-04, 2022-04-04, 2022-04-04, 2022-…
#> $ horario <chr> "14h22", "12h40", "12h14", "12h08", "11h53", "10h25", …
#> $ url_noticia <chr> "https://www.saopaulo.sp.gov.br/spnoticias/governo-de-…
#> $ titulo <chr> "Governo de SP anuncia R$ 33 milhões para obras de inf…
#> $ chamada <chr> "Serão beneficiados 15 municípios com recursos estadua…
#> $ categorias <chr> "comunicacao, desenvolvimento, gestao, infraestrutura,…
#> $ tags <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
#> $ img_url <chr> "https://www.saopaulo.sp.gov.br/wp-content/uploads/202…
#> $ img_alt <chr> "Governo de SP anuncia R$ 33 milhões para obras de inf…
#> $ url_noticia_img <chr> "https://www.saopaulo.sp.gov.br/spnoticias/governo-de-…
Pesquisar as notícias que contém algum termo ao longo do tempo:
library(ggplot2)
noticias_sp_filtradas <- base_noticias_gov_sp %>%
dplyr::mutate(titulo_clean = stringr::str_to_lower(titulo),
titulo_clean = abjutils::rm_accent(titulo_clean)) %>%
dplyr::filter(
stringr::str_detect(titulo_clean, "rio pinheiros")
)
noticias_sp_filtradas |>
dplyr::mutate(titulo_url = glue::glue("[{titulo}]({url_noticia})")) |>
dplyr::select(data, titulo_url) |>
knitr::kable()