In [12]:
import requests
from bs4 import BeautifulSoup
import re

url = "https://pathfinderwiki.com/wiki/Class"

# 1. Realizar el GET del HTML
response = requests.get(url)
if response.status_code == 200:
    html = response.text
else:
    raise Exception("Error al obtener la página, código de estado:", response.status_code)

# Construir el arbol con BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
# Metodo: contents
contenido = soup.contents
# Metodo: children
hijos = list(soup.body.children) if soup.body else []
# Metodo: descendants
descendientes = list(soup.descendants)

# Formas para obtener primer parrafo
primer_parrafo = soup.find("p")
padre = primer_parrafo.parent if primer_parrafo else None
padres = list(primer_parrafo.parents) if primer_parrafo else []
siguiente_sibling = primer_parrafo.next_sibling if primer_parrafo else None
anterior_sibling = primer_parrafo.previous_sibling if primer_parrafo else None

# Guardar resultado
with open("resultado.txt", "w", encoding="utf-8") as salida:
    salida.write("=== Contenido de soup.contents ===\n")
    salida.write(str(contenido) + "\n\n")
    
    salida.write("=== Children de <body> ===\n")
    for child in hijos:
        salida.write(str(child) + "\n")
    
    salida.write("\n=== Descendants de la página ===\n")
    for desc in descendientes:
        salida.write(str(desc) + "\n")
    
    salida.write("\n=== Padre del primer <p> ===\n")
    salida.write(str(padre) + "\n")
    
    salida.write("\n=== Lista de padres del primer <p> ===\n")
    for par in padres:
        salida.write(str(par) + "\n")
    
    salida.write("\n=== Siguiente sibling del primer <p> ===\n")
    salida.write(str(siguiente_sibling) + "\n")
    
    salida.write("\n=== Previous sibling del primer <p> ===\n")
    salida.write(str(anterior_sibling) + "\n")

In [9]:
# 2. Ejemplos de métodos de búsqueda

# Ejemplo de find_all: buscar todas las etiquetas <a>
enlaces = soup.find_all("a")

# Ejemplo de find: buscar el primer <div> con la clase "infobox"
infobox = soup.find("div", class_="infobox")

# Ejemplo de select: utilizar un selector CSS para buscar elementos con la clase "titulo"
titulos = soup.select(".titulo")

# Ejemplo de select_one: obtener el primer elemento que coincida con el selector ".titulo"
primer_titulo = soup.select_one(".titulo")

# Ejemplo utilizando expresiones regulares: buscar todos los textos que contengan dígitos
textos_con_digitos = soup.find_all(text=re.compile(r"\d+"))

# Imprimir resultados
print("Cantidad de enlaces encontrados:", len(enlaces))
print("=============================")
print("Primer infobox encontrado:", infobox)
print("=============================")
print("Elementos con clase 'titulo' encontrados con select:", titulos)
print("=============================")
print("Primer elemento con clase 'titulo' encontrado con select_one:", primer_titulo)
print("=============================")
print("Textos que contienen dígitos:", textos_con_digitos)

Cantidad de enlaces encontrados: 316
Primer infobox encontrado: <div class="infobox" style="--infobox-bgcolor:#660;--infobox-fgcolor:#fff;">
<div class="name">Class</div>
<div class="image"><a class="image" href="/wiki/File:Lem.jpg"><img alt="Class" decoding="async" height="399" loading="lazy" src="/w/images/thumb/e/ef/Lem.jpg/250px-Lem.jpg.webp" srcset="/w/images/thumb/e/ef/Lem.jpg/375px-Lem.jpg.webp 1.5x, /w/images/thumb/e/ef/Lem.jpg/500px-Lem.jpg.webp 2x" width="250"/></a></div>
<div class="type">(Class)</div>
<div class="table">
<p class="mw-empty-elt">
</p>
<div class="key">Region</div>
<div>Any</div>
<div class="key">Races</div>
<div>Any</div>
<div class="key">Alignment</div>
<div><div style="">
<table class="fw-alignment-grid">
<tbody><tr class="fw-alignment-cells">
<td class="fw-alignment-on" style="background-color: #9fc7fe; border: 1px solid #185dbb;"><a href="/wiki/Lawful_good" title="Lawful good">LG</a></td>
<td class="fw-alignment-on" style="background-color: #9fc7fe; bord

  textos_con_digitos = soup.find_all(text=re.compile(r"\d+"))


In [10]:
# 3. Modificar el arbol

# Agregar un nuevo tag al final de <body> utilizando new_tag y append
nuevo_div = soup.new_tag("div", id="nuevo")
nuevo_div.string = "Este es un nuevo div agregado."
soup.body.append(nuevo_div)

# Insertar un nuevo párrafo al inicio del <body> con insert
nuevo_parrafo = soup.new_tag("p")
nuevo_parrafo.string = "Párrafo insertado al inicio del body."
soup.body.insert(0, nuevo_parrafo)

# Remover un elemento: buscar un div con id "remover" y extraerlo
elemento_remover = soup.find("div", id="remover")
if elemento_remover:
    elemento_remover.decompose()

In [11]:
# 4. Generar una copia "mejorada" del HTML usando prettify y compararla con el original
html_prettified = soup.prettify()

with open("html_prettified.html", "w", encoding="utf-8") as file_pretty:
    file_pretty.write(html_prettified)

# Nota: La comparación se puede hacer visualmente abriendo "html_prettified.html" y el archivo original.