Skip to content

Código para la creación y actualización de un dataset conformado por la totalidad de documentos accesibles a traves de https://www.argentina.gob.ar/normativa/

License

Notifications You must be signed in to change notification settings

sandbox-ai/Boletin-Oficial-Argentina

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Boletin-Oficial-Argentina

Código para la creación y actualización de un dataset conformado por la totalidad de la legislación nacional, accesible a través de https://www.argentina.gob.ar/normativa/

El JSON resultante (al día de 18/12/2023) tiene un tamaño de 1.57Gb

Instalación

Instalamos BeautifulSoup para manipular el contenido HTML de la web

pip install bs4

Y luego clonamos el repositorio

git clone https://github.com/sandbox-ai/Boletin-Oficial-Argentina
cd Boletin-Oficial-Argentina

Uso

create()

Crea el dataset scrappeando toda la web

from dataset_utils import create
from scrapper import Scrapper

dataset_file = 'Boletin_Oficial.jsonl' # Nombre del archivo de salida

scrapper = Scrapper()

create(scrapper, dataset_file)

update()

Actualiza el dataset creado en el paso anterior

from dataset_utils import update
from scrapper import Scrapper

dataset_file = 'Boletin_Oficial.jsonl' # Nombre del dataset a actualizar

scrapper = Scrapper()

update(scrapper, dataset_file)

Formato de salida

El dataset producido es un JSONL con el siguiente formato:

{
  "title":"Título resumido de la entrada",
  "name":"Nombre asignado",
  "entity":"Entidad gubernamental que la emite",
  "summary":"Resumen de la entrada",
  "full_text":"Contenido completo",
  "url_in_articles":"URLs encontradas en la entrada",
  "date":"Fecha publicada",
  "url":"url relativa"
}

Actualizada diariamente

Estado de la última actualizacion: Update HuggingFace Dataset

About

Código para la creación y actualización de un dataset conformado por la totalidad de documentos accesibles a traves de https://www.argentina.gob.ar/normativa/

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages