Skip to content

Latest commit

 

History

History
14 lines (8 loc) · 2.38 KB

README.md

File metadata and controls

14 lines (8 loc) · 2.38 KB

Курс 19/20 - ТП1/2 - Технологии программирования I/II

Задания курса.

Курсовая работа

Программа, которая автоматически скачивает заданный набор веб-страниц и строит по ним поисковый индекс. Поиск по поисковому индексу через командную строку.

  1. Есть две программы: паук и поисковик. Паук получает список веб страниц в виде текстового файла и строит по ним поисковый индекс, который записывается в текстовый файл. Поисковик на вход получает из командной строки запрос в виде списке ключевый слов, а на выход выдает ранжированный список из веб страниц (в виде HTML файла), ранее загруженных пауком. Больший ранг в списке имеют веб страницы, релевантные запросу.

  2. Для построения поискового индекса каждая веб страница разбирается на слова (рекомендуется для простоты работать со страницами на английском языке). В каждой странице находятся слова, которые встречаются на ней чаще всего (исключая предлоги). Пять самых частых слов будем считать ключевыми словами, описывающими эту страницу.

  3. Поисковый индекс состоит из строк вида: имя веб страницы, список ее ключевых слов, частоты ключевых слов.

  4. Наиболее релевантной к запросу будем считать страницу, у которой максимальное количество ключевых слов пересекается со словами запроса. Также можно учитывать частоты ключевых слов.