In [1]:
import os
import json
with open("data_raw/vanocni_filmy_csfd.json", "r", encoding="utf-8") as filmy:
    filmy = json.loads(filmy.read())

In [2]:
filmy

[['Anděl Páně', 'https://www.csfd.cz/film/215414-andel-pane/prehled/', 'film'],
 ['Ať přiletí čáp, královno!',
  'https://www.csfd.cz/film/108859-at-prileti-cap-kralovno/prehled/',
  'tv'],
 ['Bejvalek se nezbavíš',
  'https://www.csfd.cz/film/237811-bejvalek-se-nezbavis/prehled/',
  'film'],
 ['Bohouš', 'https://www.csfd.cz/film/8186-bohous/prehled/', 'tv'],
 ['Byl jednou jeden král...',
  'https://www.csfd.cz/film/10089-byl-jednou-jeden-kral/prehled/',
  'film'],
 ['Cesta do Rokycan',
  'https://www.csfd.cz/film/187999-cesta-do-rokycan/prehled/',
  'tv'],
 ['Co takhle svatba, princi?',
  'https://www.csfd.cz/film/108854-co-takhle-svatba-princi/prehled/',
  'tv'],
 ['Císařův pekař',
  'https://www.csfd.cz/film/3094-cisaruv-pekar-pekaruv-cisar/prehled/',
  'film'],
 ['Dalskabáty, hříšná ves aneb Zapomenutý čert',
  'https://www.csfd.cz/film/197358-dalskabaty-hrisna-ves-aneb-zapomenuty-cert/prehled/',
  'tv'],
 ['Dr. Dolittle',
  'https://www.csfd.cz/film/14992-dr-dolittle/prehled/',
  

In [3]:
from playwright.async_api import async_playwright
from bs4 import BeautifulSoup
import asyncio

async def load_page_with_playwright(url):
    """Load a web page using Playwright and parse with BeautifulSoup"""
    async with async_playwright() as p:
        # Launch browser
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()
        
        # Navigate to URL
        print(f"Loading: {url}")
        await page.goto(url, wait_until="domcontentloaded")
        
        # Get page content
        content = await page.content()
        
        # Close browser
        await browser.close()
        
        # Parse with BeautifulSoup
        soup = BeautifulSoup(content, 'html.parser')
        return soup

In [4]:
async def csfd(url):
    
    soup = await load_page_with_playwright(url)

    id = url.split("/")[-3]
    origin = [x.strip() for x in soup.find(class_="origin").text.split(",")]

    hraji, scenar, rezie = None, None, None
    
    for d in soup.find_all("div"):
        if d.find('h4'):
            if "Hrají:" in d.find('h4').text:
                hraji = [x.text.strip() for x in d.find_all("a")]
            if "Scénář:" in d.find('h4').text:
                scenar = [x.text.strip() for x in d.find_all("a")]
            if "Režie:" in d.find('h4').text:
                rezie = [x.text.strip() for x in d.find_all("a")]
    
    film = {
        'id': id,
        'titul': soup.find("title").text.split("(")[0].strip(),
        'zanry': [x.strip().lower() for x in soup.find(class_="genres").text.split("/")],
        'zeme': origin[0],
        'rok': int(origin[1]),
        'delka': int(origin[2].split(' ')[0].strip()),
        'rezie': rezie,
        'scenar': scenar,
        'hraji': hraji,
        'anotace': soup.find(class_="plot-full").text.strip(),
        'hodnoceni': int(soup.find(class_="film-rating-average").text.strip().replace('%',''))
    }
    
    return film

In [5]:
soubory = os.listdir("data_raw/csfd")
if len(filmy) == len(soubory):
    print("Vše staženo.")
while len(filmy) > len(soubory):
    soubory = os.listdir("data_raw/csfd")
    print(f"Zbývá: {len(filmy) - len(soubory)}")
    os.makedirs("data_raw/csfd",exist_ok=True)
    for f in filmy:
        url = f[1]
        soubor = url.split("/")[-3] + ".json"
        if soubor not in soubory:
            print(soubor)
            try:
                url = f[1]
                metadata = await csfd(url)
                print(metadata)
                with open(os.path.join('data_raw/csfd',soubor), 'w+', encoding="utf-8") as exp:
                    exp.write(json.dumps(metadata))
                    print("Uloženo")
            except Exception as e:
                print(e)
            soubory = os.listdir("data_raw/csfd")