Codigo de ejemplo para el scrapeo de datosperu.org usando harvestman
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
LICENSE
README.md
crawl.rb
resultados_crawler.txt

README.md

Ejemplo de como scrapear datosperu.org

Para ejecutar este ejemplo, necesitarás una instalación de ruby con harvestman instalado y una conexión a internet.

Para ejecutar el crawler sólo tienes que ejecutar

ruby  crawl.rb

Este script visitará las primeras 3 páginas del rubro Otras Asociaciones en datosperu.org y extraerá el nombre de la organización y su RUC.

Para entender mejor cómo se hace el scrapero, chequea el script crawl.rb, que tiene varios comentarios Algunos resultados podrás encontrarlos en el archivo resultados_crawler.txt

Y por último para poder adaptar este script a tus necesidades, es recomendado que le eches un vistazo a la tecnología XPATH