In [33]:
URL_LEWICA = "https://klub-lewica.org.pl/program"

In [41]:
import requests
from bs4 import BeautifulSoup
from typing import List, Tuple

def download_html(url: str) -> str:
    """Download HTML content from a URL."""
    response = requests.get(url)
    response.raise_for_status()  # Will raise an HTTPError if the HTTP request returned an unsuccessful status code
    return response.text

def extract_data_from_html(html_content: str) -> List[Tuple[str, List[Tuple[str, str]]]]:
    """Parse HTML content and extract data."""
    soup = BeautifulSoup(html_content, 'html.parser')
    
    headers = soup.find_all('h2', class_='wp-block-heading')
    
    extracted_data = []
    
    for header in headers:
        title = header.get_text().strip()
        
        # Find the next ordered list (ol)
        ol = header.find_next('ol')
        
        if not ol:
            continue
        
        # Extract list items from the ordered list
        list_items = []
        for li in ol.find_all('li', recursive=False):
            strong_text = li.strong.get_text().strip() if li.strong else ""
            remaining_text = li.get_text().replace(strong_text, '').strip()
            list_items.append((strong_text, remaining_text))
        
        extracted_data.append((title, list_items))
    
    return extracted_data

html_content = download_html(URL_LEWICA)
data = extract_data_from_html(html_content)
print(data)


[('DOBRA PRACA', [('Godne i stabilne zatrudnienie.', 'Każdy zasługuje na normalny urlop, ubezpieczenie zdrowotne i bezpieczeństwo. Zlikwidujemy patologie rynku pracy, jakimi są umowy śmieciowe i wymuszone samozatrudnienie. Zagwarantujemy pełnię praw pracowniczych osobom pracującym na rzecz platform cyfrowych. Zakażemy darmowych staży i wprowadzimy minimalną stawkę godzinową dla stażystów. Obejmiemy przepisami o minimalnym wynagrodzeniu za pracę także umowy o pomocy przy zbiorach.'), ('Przeciw dyskryminacji płacowej i przemocy w pracy.', 'Wzorem Islandii zapewnimy równe płace za tę samą pracę bez względu na płeć. Pracownicy zyskają prawo do informacji o luce płacowej w ich zakładzie pracy. Nadamy Państwowej Inspekcji Pracy uprawnienie do nakazania ukształtowania wynagrodzeń w przedsiębiorstwie w sposób zgodny z zasadą równego traktowania. Zapewnimy skuteczność procedur i narzędzi antymobbingowych, w tym posiadanych przez Państwową Inspekcję Pracy.'), ('Koniec z karą za chorowanie.', 

In [42]:

html_content = download_html(URL_LEWICA)
data = extract_data_from_html(html_content)
data

[('DOBRA PRACA',
  [('Godne i stabilne zatrudnienie.',
    'Każdy zasługuje na normalny urlop, ubezpieczenie zdrowotne i bezpieczeństwo. Zlikwidujemy patologie rynku pracy, jakimi są umowy śmieciowe i wymuszone samozatrudnienie. Zagwarantujemy pełnię praw pracowniczych osobom pracującym na rzecz platform cyfrowych. Zakażemy darmowych staży i wprowadzimy minimalną stawkę godzinową dla stażystów. Obejmiemy przepisami o minimalnym wynagrodzeniu za pracę także umowy o pomocy przy zbiorach.'),
   ('Przeciw dyskryminacji płacowej i przemocy w pracy.',
    'Wzorem Islandii zapewnimy równe płace za tę samą pracę bez względu na płeć. Pracownicy zyskają prawo do informacji o luce płacowej w ich zakładzie pracy. Nadamy Państwowej Inspekcji Pracy uprawnienie do nakazania ukształtowania wynagrodzeń w przedsiębiorstwie w sposób zgodny z zasadą równego traktowania. Zapewnimy skuteczność procedur i narzędzi antymobbingowych, w tym posiadanych przez Państwową Inspekcję Pracy.'),
   ('Koniec z karą z

In [43]:
sum([len(x[1]) for x in data])

155

In [6]:
[x[0] for x in data]

['DOBRA PRACA',
 'NAUKA. BADANIA. INNOWACJE',
 'WOLNA I PRZYJAZNA SZKOŁA',
 'ZIELONY ŁAD',
 'OPŁACALNE ROLNICTWO',
 'SPRAWIEDLIWA GOSPODARKA, STABILNE FINANSE',
 'TRANSPORT',
 'RÓWNOŚĆ I SZACUNEK',
 'ŚWIECKIE PAŃSTWO',
 'SILNA POLSKA W SILNEJ UNII EUROPEJSKIEJ',
 'DYPLOMACJA I WSPÓŁPRACA',
 'BEZPIECZNA POLSKA',
 'ZDROWIE DLA WSZYSTKICH',
 'BEZPIECZNY SENIOR',
 'POLITYKA SPOŁECZNA. WSPARCIE OSÓB Z NIEPEŁNOSPRAWNOŚCIAMI',
 'PRAWO I SPRAWIEDLIWOŚĆ',
 'MIESZKANIE PRAWEM, NIE TOWAREM']

In [8]:
len([a for x in data for a in x[1]])

163

In [12]:
lens = [len(x[1]) for x in data]


[14, 18, 18, 34, 28, 21, 19, 19, 17, 9, 15, 17, 23, 26, 16, 10, 13]

In [13]:
from functools import reduce

def cumulative_sum(numbers):
    def reducer(acc, x):
        acc.append(acc[-1] + x) if acc else acc.append(x)
        return acc

    return reduce(reducer, numbers, [])

print(cumulative_sum(lens))

[14, 18, 32, 52, 60, 73, 79, 92, 96, 101, 111, 118, 134, 144, 150, 154, 163]


In [14]:
from pprint import pprint
pprint(data)

[('DOBRA PRACA',
  ['Godne i stabilne zatrudnienie.Każdy zasługuje na normalny urlop, '
   'ubezpieczenie zdrowotne i bezpieczeństwo. Zlikwidujemy patologie rynku '
   'pracy, jakimi są umowy śmieciowe i wymuszone samozatrudnienie. '
   'Zagwarantujemy pełnię praw pracowniczych osobom pracującym na rzecz '
   'platform cyfrowych. Zakażemy darmowych staży i wprowadzimy minimalną '
   'stawkę godzinową dla stażystów. Obejmiemy przepisami o minimalnym '
   'wynagrodzeniu za pracę także umowy o pomocy przy zbiorach.',
   'Przeciw dyskryminacji płacowej i przemocy w pracy.Wzorem Islandii '
   'zapewnimy równe płace za tę samą pracę bez względu na płeć. Pracownicy '
   'zyskają prawo do informacji o luce płacowej w ich zakładzie pracy. Nadamy '
   'Państwowej Inspekcji Pracy uprawnienie do nakazania ukształtowania '
   'wynagrodzeń w przedsiębiorstwie w sposób zgodny z zasadą równego '
   'traktowania. Zapewnimy skuteczność procedur i narzędzi antymobbingowych, w '
   'tym posiadanych prz