Skip to content

KokocGroup/tag-text-extractor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

tag-text-extractor

Позволяет вытащить из html теги 'a', 'h2h6', 'text', 'title', 'metadescription', 'beis', 'h1', 'body' где для каждого тегоа будут получены кол-во слов в нем и список текстов

from tag_text_extractor.tag_text_extractor import extract_tag_texts
data = extract_tag_texts("<html><body>...</body></html>")

data.keys()

['a', 'h2h6', 'text', 'title', 'metadescription', 'beis', 'h1', 'body']

data['h2h6']

{
    'texts': [
        u'Account Options', 
        u'Search Options', 
        u'\u0420\u0435\u043a\u043b\u0430\u043c\u0430',
        u'\u0420\u0435\u043a\u043b\u0430\u043c\u0430'
    ],
    'word_count': 6
}

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

No packages published