Nutch_parser

Парсер для результатов работы краулера Nutch. Делался для обработки текстов с азербайджанских сайтов с целью создания корпуса предложений в двух вариантах: с символами начала и конца предложения (для построения на них n-граммных моделей) и без этих символов. Удаляет пометы и метаданные, оставляемые краулером, делит текст на предложения, очищает от английских и русских предложений, расставляет знаки начала и конца предложения (при необходимости) и подсчитывает количество слов и предложений в тексте.

corpus.txt - корпус предложений (100 560 предложений, 2 189 398 слов)

corpus_with_s.txt - корпус предложений с символами начала и конца предложения

parser_for_nutch.py - парсер

test.txt - маленький текст для тестов

tests.py - тесты для всех функций

texts.txt - тексты, накрауленные натчем (небольшое количество, накраулены с глубиной 1)

tokens_from_texts.txt - результаты парсинга файла texts.txt, предложения с символами начала и конца

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Nutch_parser

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
README.md		README.md
corpus.txt		corpus.txt
corpus_with_s.txt		corpus_with_s.txt
parser_for_nutch.py		parser_for_nutch.py
test.txt		test.txt
tests.py		tests.py
texts.txt		texts.txt
tokens_from_texts.txt		tokens_from_texts.txt

svetlana21/Nutch_parser

Folders and files

Latest commit

History

Repository files navigation

Nutch_parser

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages