Analyser du HTML pour trouver les "top-level readable nodes".

Obtenir la hauteur de la première ligne d’un paragraphe (dans le DOM).

On va rester au plus proche du HTML pur, donc probablement avec Python (sans librairie externe) pour la première tâche, et du JavaScript pour la seconde (car seule une exécution dans un navigateur permet de calculer le line-height ou offsetHeight).

✅ 1. Python : Trouver les "Top-Level Readable Nodes" dans du HTML
Un "top-level readable node" peut être défini comme un nœud de type texte significatif (non vide) ou un élément contenant du texte lisible (ex. : <p>, <div>, <article>, etc.), qui n’est pas imbriqué dans un autre parent lisible.

In [None]:
from html.parser import HTMLParser

class ReadableHTMLParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.readable_tags = {'p', 'div', 'article', 'section', 'main', 'span'}
        self.stack = []
        self.top_readable_nodes = []

    def handle_starttag(self, tag, attrs):
        self.stack.append({'tag': tag, 'text': '', 'children': []})

    def handle_endtag(self, tag):
        if not self.stack:
            return

        node = self.stack.pop()
        if node['tag'] == tag:
            text = node['text'].strip()
            if tag in self.readable_tags and text:
                if self.stack:
                    self.stack[-1]['children'].append(node)
                else:
                    self.top_readable_nodes.append(node)

    def handle_data(self, data):
        if self.stack:
            self.stack[-1]['text'] += data

# Exemple d'utilisation
html = """
<html>
  <body>
    <div>
      <p>Bonjour le monde</p>
    </div>
    <section>Juste un test</section>
    <footer>Pas important</footer>
  </body>
</html>
"""

parser = ReadableHTMLParser()
parser.feed(html)

for node in parser.top_readable_nodes:
    print(f"[{node['tag']}] → {node['text']}")
