-
Web crawling:
-
Motor de búsqueda:
- Apache Solr (versión 8.4.1)
-
Aplicación web:
- Lanzar el ervicio de Solr
$ cd solr-8.4.1/bin
$ ./solr start- Lanzar la aplicación web
$ cd riws-app
$ npm install
$ npm start
- Para crawlear los datos de los tops de películas y series de Filmaffinity. Para ello haremos uso del spider llamado fa-top-spider. Pero antes de ello se necesitan los siguientes requisitos:
- Tener instaladas las librerías scrapy, urllib3 y pymongo de Python.
- Tener una base de datos de MongoDB corriendo en el puerto 27017 (por defecto).
$ cd scrapy/riws
$ scrapy crawl fa-top-spider -o filmaffinity-data.json-
Necesitaremos tener la configuración de Solr en un core que de debe llamar "riws-filmaffinity".
De no llamarse del modo indicado o no haber arrancado Solr en el puerto 8983 por defecto, ninguna de las peticiones que hagamos desde la aplicación web funcionarán.
-
Para migrar los datos crawleados a Solr debemos ejecutar lo siguiente:
$ cd solr-8.4.1
$ bin/post -c riws-filmaffinity example/filmaffinity-data/filmaffinity-data.jsonSi lo que queremos es borrar los datos que ya existían en Solr antes de ejecutar la petición debemos ejecutar lanzar en el navegador la siguiente petición:
- En caso de tener otra versión de Node instalada, podemos gestionar las versiones haciendo uso de nvm.