Skip to content

Парсер для результатов работы краулера Nutch и корпус азербайджанского языка.

Notifications You must be signed in to change notification settings

svetlana21/Nutch_parser

Repository files navigation

Nutch_parser

Парсер для результатов работы краулера Nutch. Делался для обработки текстов с азербайджанских сайтов с целью создания корпуса предложений в двух вариантах: с символами начала и конца предложения (для построения на них n-граммных моделей) и без этих символов. Удаляет пометы и метаданные, оставляемые краулером, делит текст на предложения, очищает от английских и русских предложений, расставляет знаки начала и конца предложения (при необходимости) и подсчитывает количество слов и предложений в тексте.

corpus.txt - корпус предложений (100 560 предложений, 2 189 398 слов)

corpus_with_s.txt - корпус предложений с символами начала и конца предложения

parser_for_nutch.py - парсер

test.txt - маленький текст для тестов

tests.py - тесты для всех функций

texts.txt - тексты, накрауленные натчем (небольшое количество, накраулены с глубиной 1)

tokens_from_texts.txt - результаты парсинга файла texts.txt, предложения с символами начала и конца

About

Парсер для результатов работы краулера Nutch и корпус азербайджанского языка.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages