Skip to content
This repository

HTTPS clone URL

Subversion checkout URL

You can clone with HTTPS or Subversion.

Download ZIP

URLs de las actas del PREP

branch: master

Fetching latest commit…

Octocat-spinner-32-eaf2f5

Cannot retrieve the latest commit at this time

Octocat-spinner-32 src
Octocat-spinner-32 README
README
Programa para descargar *todas* las imagenes de las actas escaneadas en el PREP del IFE.

El programa usa Web Scraping (http://en.wikipedia.org/wiki/Web_scraping ) para obtener las URLs de las imágenes.

Requerimientos:
Java 1.6+
Apache Commons Lang 3 (http://commons.apache.org/lang/ )
Wget, ya sea para Linux, Mac o para Windows (http://gnuwin32.sourceforge.net/packages/wget.htm )

Setup:
Modificar las constantes en ObtenerActasPREP.java
'STOPCRAWLERFILENAME': archivo en el sistema de archivos local que se buscará un archivo para detener el proceso (Por default: /tmp/stopactas )
'WGETPATH': el path al ejecutable de Wget (Por default: /usr/local/bin/wget )
Opcionalmente 'PREPURL': URL del Servlet 'DetalleCasillas' del PREP (Hay varios espejos del PREP, por default: http://prep2012.ife.org.mx/prep/DetalleCasillas )

Ejemplo de uso desde la consola:
java -Xmx2048m -jar "/Users/xxx/NetBeansProjects/ObtenerActasPREP/dist/ObtenerActasPREP.jar" > /Users/xxx/urls.txt

Para detener la ejecución:
touch /tmp/stopactas

Si se detiene la ejecución de esta manera, podemos continuar la descarga donde nos hayamos quedado, en otro momento.
Something went wrong with that request. Please try again.