Skip to content
master
Switch branches/tags
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 
 
 
 
 

This library works with HTML-content and modifies it in some tags to improve sentences tokenizer quality.

Install NLTK python package

pip install nltk

Download punkt data

import nltk
nltk.download('punkt')

Download this library

git clone https://github.com/KMiNT21/html2sent.git

Using

import html2sent
sentences = html2sent.tokenize(html, language='english')

If you don't want to use NLTK, you can just use preprocess functions:

import html2sent
text = html2sent.html2text(html)
text = html2sent.preprocess_text(text)

Demo: demo_simple.py and demo_folder_multiprocessing.py

For russian language

Если для разделения полученного текста на предложения используется библиотека nltk, то для русского языка нужно еще скачать обученный ru_punkt-токенизатор.

Варианты:

Скопируйте файл russian.pickle в папку nltk_data (к остальным языковым .pickle файлам)

Альтернативный более точный вариант - библиотека razdel

Подробнее об использовании - https://github.com/natasha/razdel

About

HTML2SENT modifies HTML to improve sentences tokenizer quality

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages