webstories

Python parser for AMP web stories

Usage

import requests
from webstories import Story

html = requests.get('https://www.bbc.co.uk/news/ampstories/moonmess/index.html').text
story = Story(html)

# Story metadata: title, publisher, publisher_logo_src, poster_portrait_src, poster_square_src, poster_landscape_src
story.title  # "What's left behind on the Moon?"
story.publisher  # "BBC"

story.custom_css  # text content of the <style amp-custom> element, or None if none exists

# Pages
page = story.pages[0]
page.id  # "page-0"
page.html  # original HTML
page.get_clean_html()  # HTML filtered to valid AMP content only

# Standalone HTML cleaning
from webstories import StoryPage

StoryPage.clean_html_fragment(
    """<amp-story-page id="scary-ghost" onclick="alert('boo')"></amp-story-page>"""
)
# returns: '<amp-story-page id="scary-ghost"></amp-story-page>'

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
tests		tests
webstories		webstories
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tests

tests

webstories

webstories

.gitignore

.gitignore

CHANGELOG.md

CHANGELOG.md

LICENSE

LICENSE

MANIFEST.in

MANIFEST.in

README.md

README.md

setup.py

setup.py

Repository files navigation

webstories

Usage

About

Releases 2

Packages

Languages

License

torchbox/webstories

Folders and files

Latest commit

History

Repository files navigation

webstories

Usage

About

Resources

License

Security policy

Stars

Watchers

Forks

Languages