-
Notifications
You must be signed in to change notification settings - Fork 0
/
prensa_obtener_datos.R
105 lines (73 loc) · 2.94 KB
/
prensa_obtener_datos.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
library(dplyr)
library(rvest)
library(polite)
library(stringr)
library(purrr)
library(glue)
library(lubridate)
source("funciones_scraping.r")
# realizar scraping ----
scraping_prensa("modulos/cron_latercera.r") #hist
scraping_prensa("modulos/cron_meganoticias.r") #hist
scraping_prensa("modulos/cron_eldinamo.r") #hist
scraping_prensa("modulos/cron_lanacion.r") #hist (pendiente)
scraping_prensa("modulos/cron_publimetro.r") #hist (pendiente)
scraping_prensa("modulos/cron_theclinic.r") #hist
scraping_prensa("modulos/cron_elciudadano.r") #hist
scraping_prensa("modulos/cron_radiouchile.r") #hist
scraping_prensa("modulos/cron_24horas.r") #hist
scraping_prensa("modulos/cron_cnnchile.r") #hist
scraping_prensa("modulos/cron_exante.r") #hist
scraping_prensa("modulos/cron_elsiglo.r") #hist
scraping_prensa("modulos/cron_ciper.r") #hist
scraping_prensa("modulos/cron_emol_h.r") #hist pero por meses
scraping_prensa("modulos/cron_diariofinanciero.r") #histórico solo hasta página 20
scraping_prensa("modulos/cron_elmostrador.r") #(requiere selenium)
# scraping_prensa("modulos/cron_lacuarta.r") #histórico solo hasta página 9
scraping_prensa("modulos/cron_cooperativa.r")
scraping_prensa("modulos/cron_chvnoticias.r")
scraping_prensa("modulos/cron_t13.r")
scraping_prensa("modulos/cron_agricultura.r")
scraping_prensa("modulos/cron_biobio.r")
scraping_prensa("modulos/cron_lahora.r")
scraping_prensa("modulos/cron_adnradio.r")
#
# #revisión ----
# #chequear si se guardaron los archivos
# revisar_resultados("/home/bastian/Collahuasi/seguimiento-scraping/P4_prensa/scraping/resultados_scraping")
# #revisa si hay archivos nuevos el día actual
#
# #—----
#
# #ambos procesos funcionan a partir de la ruta (que se obtiene en 2_unir); es decir que se ejecutan en base al nombre de las carpetas en P4_prensa/scraping/resultados_scraping
#
# #unir ----
# message("uniendo...")
# source("/home/bastian/Collahuasi/seguimiento-scraping/P4_prensa/P4_2_unir.r")
#
# #limpiar ----
# message("limpiando...")
# source("/home/bastian/Collahuasi/seguimiento-scraping/P4_prensa/P4_3_limpiar.r")
#
# #prensa_limpia$biobio
# #prensa_limpia$biobio_pais
# # prensa_limpia$latercera_pais |>
# # summarize(min(fecha_f),
# # max(fecha_f))
#
# #nrow(prensa$soyiquique)
# #nrow(prensa_limpia$soyiquique)
#
# #guardar ----
# prensa_limpia_2 <- bind_rows(prensa_limpia)
#
# message(glue("{nrow(prensa_limpia_2) |> format(big.mark = '.', decimal.mark = ',')} noticias en total"))
# conteo <- count(prensa_limpia_2, escala)
# message(glue("{conteo$n[1] |> format(big.mark = '.', decimal.mark = ',')} noticias locales y {conteo$n[2] |> format(big.mark = '.', decimal.mark = ',')} noticias nacionales"))
#
# message("guardando...")
# arrow::write_feather(prensa_limpia_2,
# "/home/bastian/Collahuasi/seguimiento-scraping/P4_prensa/scraping/resultados_scraping/prensa_limpia.feather")
#
# message("listo ", lubridate::today())
# message("-----------------")