Парсер для результатов работы краулера Nutch. Делался для обработки текстов с азербайджанских сайтов с целью создания корпуса предложений в двух вариантах: с символами начала и конца предложения (для построения на них n-граммных моделей) и без этих символов. Удаляет пометы и метаданные, оставляемые краулером, делит текст на предложения, очищает от английских и русских предложений, расставляет знаки начала и конца предложения (при необходимости) и подсчитывает количество слов и предложений в тексте.
corpus.txt - корпус предложений (100 560 предложений, 2 189 398 слов)
corpus_with_s.txt - корпус предложений с символами начала и конца предложения
parser_for_nutch.py - парсер
test.txt - маленький текст для тестов
tests.py - тесты для всех функций
texts.txt - тексты, накрауленные натчем (небольшое количество, накраулены с глубиной 1)
tokens_from_texts.txt - результаты парсинга файла texts.txt, предложения с символами начала и конца