Código para la creación y actualización de un dataset conformado por la totalidad de la legislación nacional, accesible a través de https://www.argentina.gob.ar/normativa/
El JSON resultante (al día de 18/12/2023) tiene un tamaño de 1.57Gb
Instalamos BeautifulSoup para manipular el contenido HTML de la web
pip install bs4
Y luego clonamos el repositorio
git clone https://github.com/sandbox-ai/Boletin-Oficial-Argentina
cd Boletin-Oficial-Argentina
Crea el dataset scrappeando toda la web
from dataset_utils import create
from scrapper import Scrapper
dataset_file = 'Boletin_Oficial.jsonl' # Nombre del archivo de salida
scrapper = Scrapper()
create(scrapper, dataset_file)
Actualiza el dataset creado en el paso anterior
from dataset_utils import update
from scrapper import Scrapper
dataset_file = 'Boletin_Oficial.jsonl' # Nombre del dataset a actualizar
scrapper = Scrapper()
update(scrapper, dataset_file)
El dataset producido es un JSONL con el siguiente formato:
{
"title":"Título resumido de la entrada",
"name":"Nombre asignado",
"entity":"Entidad gubernamental que la emite",
"summary":"Resumen de la entrada",
"full_text":"Contenido completo",
"url_in_articles":"URLs encontradas en la entrada",
"date":"Fecha publicada",
"url":"url relativa"
}
Actualizada diariamente