/
README
22 lines (16 loc) · 1.12 KB
/
README
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Programa para descargar *todas* las imagenes de las actas escaneadas en el PREP del IFE.
El programa usa Web Scraping (http://en.wikipedia.org/wiki/Web_scraping ) para obtener las URLs de las imágenes.
Requerimientos:
Java 1.6+
Apache Commons Lang 3 (http://commons.apache.org/lang/ )
Wget, ya sea para Linux, Mac o para Windows (http://gnuwin32.sourceforge.net/packages/wget.htm )
Setup:
Modificar las constantes en ObtenerActasPREP.java
'STOPCRAWLERFILENAME': archivo en el sistema de archivos local que se buscará un archivo para detener el proceso (Por default: /tmp/stopactas )
'WGETPATH': el path al ejecutable de Wget (Por default: /usr/local/bin/wget )
Opcionalmente 'PREPURL': URL del Servlet 'DetalleCasillas' del PREP (Hay varios espejos del PREP, por default: http://prep2012.ife.org.mx/prep/DetalleCasillas )
Ejemplo de uso desde la consola:
java -Xmx2048m -jar "/Users/xxx/NetBeansProjects/ObtenerActasPREP/dist/ObtenerActasPREP.jar" > /Users/xxx/urls.txt
Para detener la ejecución:
touch /tmp/stopactas
Si se detiene la ejecución de esta manera, podemos continuar la descarga donde nos hayamos quedado, en otro momento.