In [110]:
import json
import requests
from unstructured.chunking.title import chunk_by_title
from unstructured.partition.html import partition_html
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from langchain_text_splitters import HTMLHeaderTextSplitter, HTMLSectionSplitter

def extract_html_from_url(url):
    try:
        chrome_options = Options()
        chrome_options.add_argument("--headless")
        chrome_options.add_argument("--no-sandbox")
        chrome_options.add_argument("--disable-dev-shm-usage")
        
        driver = webdriver.Chrome(
            service=Service(ChromeDriverManager().install()), 
            options=chrome_options
        )
        
        driver.get(url)
        html_content = driver.page_source
        driver.quit()
        return html_content
            
    except Exception as e:
        print(f"An error occurred: {e}")
        return []


HTML_HEADERS = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
    ("h4", "Header 4"),
    ("h5", "Header 5"),
    ("h6", "Header 6"),
]

def get_page_title(html: str):
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html, 'html.parser')
    
    # Try to get h1 first, if not found get title
    title = soup.find('h1').text
    if not title:
        title = soup.find('title')
    return title

def get_chunk_title(chunk):
    title = ""
    keys = list(chunk.metadata.keys())
    if (len(keys) > 0):
        _title = chunk.metadata[keys[0]]
        if (_title != "#TITLE#"):
            title = _title
    return title.strip()

def main():
    # url = "https://www.cite-sciences.fr/fr/au-programme/lieux-ressources/bibliotheque/ressources/ressources-en-ligne/dossiers/cerveau-les-avancees-de-la-recherche/4-notions-pour-comprendre"
    url = "https://www.palais-decouverte.fr/fr/explorer-nos-contenus/dessine-moi-les-sciences/le-clitoris" 
    # url = "https://www.cite-sciences.fr/au-programme/expos-permanentes/expos-permanentes-dexplora/cerveau/jeu/" 
    html = extract_html_from_url(url)
    # print(html)
    # splitter = HTMLHeaderTextSplitter(headers_to_split_on=HTML_HEADERS)
    splitter = HTMLSectionSplitter(headers_to_split_on=HTML_HEADERS)
    page_title = get_page_title(html)
    chunks = splitter.split_text(html)
    print("page title = ", page_title)
    for i, chunk in enumerate(chunks):
        print(f"Chunk {i+1}: {get_chunk_title(chunk)}")
        clean_text = ' '.join(chunk.page_content.replace('\n', ' ').replace('\t', ' ').split())
        print(clean_text)

if __name__ == "__main__":
    main()



page title =  Le clitoris
Chunk 1: 
Ce site utilise des cookies, déposés par Universcience, afin d’améliorer votre expérience de navigation et d’établir des statistiques d’utilisation. Pour plus d’information sur les finalités et pour personnaliser vos préférences, cliquez sur « En savoir plus ». Accepter Refuser En savoir plus Google Tag Manager (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start': new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0], j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src= '//www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f); })(window,document,'script','dataLayer','GTM-PHXHF4'); End Google Tag Manager Retour en haut Contenu Menu principal Menu secondaire Cité des sciences et de l'industrie Palais de la découverte le blob Menu principal Venir nous voir Les Étincelles du Palais de la découverte Hors les murs Pour les enseignants Abonnement pass Venir nous voir Les Étincelles du Palais de la 