Skip to content
This repository has been archived by the owner on Mar 5, 2024. It is now read-only.

Сборщик

Amarchuk edited this page Oct 14, 2011 · 4 revisions

Сбор информации с сайтов происходит посредством Web-Harvest, для чего выбранным (в основном критерий - количество отзывов) интернет-магазинам пишется свой config. На первых этапах разработки конфиги запускаются отдельно средствами Web-Harvest'a.

Пример работающего конфигурационного файла для Ситилинка: CitilinkReviewsConfig.xml

Результат работы: citilinkReviews.xml

В дальнейшем делаются дампы интересующих сайтов, чтобы не нагружать траффик (инструментарий - не принципиален) и работаем с ними. Проектируется и пишется Java-модуль для одновременной работы с многими конфигами, для него проводится тестирование. Далее (обсуждается) регулярность и реализация процесса обновления дампов сайтов.