In [2]:
from bs4 import BeautifulSoup
from pathlib import Path

#Funcion para cargar y procesar el documento HTML
def load_document(file_path):
    with open(file_path, "r", encoding="utf-8") as file:
        return file.read()

#Funcion para extraer datos específicos del HTML
def extract_data(html_content):
    soup = BeautifulSoup(html_content, "html.parser")
    
    #Extraer encabezados
    headings = {f"h{level}": [h.text.strip() for h in soup.find_all(f"h{level}")] for level in range(1, 7)}
    
    #Extraer parrafos
    paragraphs = [p.text.strip() for p in soup.find_all("p")]
    
    links = [{"href": a.get("href"), "text": a.text.strip()} for a in soup.find_all("a")]
    
    title = soup.title.text.strip() if soup.title else "Sin título"
    
    meta_tags = {meta.get("name", "undefined"): meta.get("content", "") for meta in soup.find_all("meta")}
    
    return {
        "title": title,
        "headings": headings,
        "paragraphs": paragraphs,
        "links": links,
        "meta_tags": meta_tags,
    }

file_path = Path("ejemplo.html")

content = load_document(file_path)

data = extract_data(content)

print(data)

{'title': 'Documento de Prueba', 'headings': {'h1': ['Título Principal'], 'h2': ['Subtítulo 1', 'Subtítulo 2'], 'h3': ['Sección 3'], 'h4': [], 'h5': [], 'h6': []}, 'paragraphs': ['Este es un párrafo de ejemplo. Aquí hay información importante del documento.', 'Otro párrafo con contenido adicional. Puedes escribir lo que desees aquí.', 'Este es un texto más pequeño dentro de una sección.', 'Este es el pie de página con información adicional.'], 'links': [{'href': '#seccion1', 'text': 'Ir a Sección 1'}, {'href': '#seccion2', 'text': 'Ir a Sección 2'}, {'href': 'https://example.com', 'text': 'Este es un enlace de ejemplo.'}], 'meta_tags': {'undefined': '', 'viewport': 'width=device-width, initial-scale=1.0', 'description': 'Este es un documento de prueba para extraer datos.', 'author': 'Juan David'}}
