In [2]:
pip install requests beautifulsoup4 html2text

Collecting html2text
  Downloading html2text-2024.2.26.tar.gz (56 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: html2text
  Building wheel for html2text (setup.py) ... [?25ldone
[?25h  Created wheel for html2text: filename=html2text-2024.2.26-py3-none-any.whl size=33112 sha256=31a6cb5c2f4b21f0bc6f55fc8c1a70e838817dc643c00273b4a91b13d56868dd
  Stored in directory: /Users/jiabowang/Library/Caches/pip/wheels/f3/96/6d/a7eba8f80d31cbd188a2787b81514d82fc5ae6943c44777659
Successfully built html2text
Installing collected packages: html2text
Successfully installed html2text-2024.2.26
Note: you may need to restart the kernel to use updated packages.


In [5]:
import requests
from bs4 import BeautifulSoup
import html2text
import time
from urllib.parse import urljoin, urlparse

# URL base
URL_BASE = "https://www.fib.upc.edu/ca"
ARCHIVO_MD = "sitio_completo.md"
VISITADOS = set()  # Para evitar visitar el mismo enlace dos veces

def extraer_y_convertir(url):
    """Descarga y convierte el contenido de una página a Markdown"""
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
    except requests.RequestException as e:
        print(f"Error al acceder a {url}: {e}")
        return None

    soup = BeautifulSoup(response.text, "html.parser")

    # Eliminar scripts y estilos
    for script in soup(["script", "style"]):
        script.extract()

    # Convertir HTML a Markdown
    markdown_content = f"# {url}\n\n" + html2text.html2text(soup.prettify())

    return markdown_content, soup

def obtener_enlaces(soup, base_url):
    """Encuentra y devuelve una lista de enlaces absolutos dentro de la página"""
    links = set()
    for link in soup.find_all("a", href=True):
        abs_link = urljoin(base_url, link["href"])
        parsed_link = urlparse(abs_link)

        # Filtrar enlaces que no sean internos o sean archivos irrelevantes
        if parsed_link.netloc == urlparse(base_url).netloc and abs_link not in VISITADOS:
            links.add(abs_link)
    
    return links

def guardar_en_markdown(content):
    """Guarda contenido en un archivo Markdown"""
    with open(ARCHIVO_MD, "a", encoding="utf-8") as file:
        file.write(content + "\n\n")
    print(f"Guardado contenido de {len(VISITADOS)} páginas en {ARCHIVO_MD}")

def rastrear_sitio(url):
    """Función principal que rastrea la página y sus enlaces internos recursivamente"""
    if url in VISITADOS:
        return
    print(f"Visitando: {url}")

    VISITADOS.add(url)
    markdown, soup = extraer_y_convertir(url)
    if markdown:
        guardar_en_markdown(markdown)

    # Extraer y visitar enlaces internos
    for link in obtener_enlaces(soup, url):
        time.sleep(1)  # Evita sobrecargar el servidor
        rastrear_sitio(link)

# Ejecutar el scraping
with open(ARCHIVO_MD, "w", encoding="utf-8") as file:
    file.write(f"# Contenido de {URL_BASE}\n\n")

rastrear_sitio(URL_BASE)

print("Scraping completado. Toda la información está en", ARCHIVO_MD)


Visitando: https://www.fib.upc.edu/ca
Guardado contenido de 1 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/ca/estudis/graus/grau-en-enginyeria-informatica/treball-de-fi-de-grau
Guardado contenido de 2 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/ca/mobilitat/aliances-internacionals/programes-de-mobilitat/programes-becats-eua
Guardado contenido de 3 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/ca/la-fib/la-facultat/govern/camai
Guardado contenido de 4 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/ca/la-fib/la-facultat/govern/cacfbbi
Guardado contenido de 5 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/ca/estudis/masters/master-en-enginyeria-informatica/matricula/places-lliures
Guardado contenido de 6 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/en/studies/masters/master-informatics-engineering/enrolment/available-places
Guardado contenido de 7 páginas en sitio_completo.md
Visi

  k = self.parse_starttag(i)


Guardado contenido de 471 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/es/movilidad/outgoing#main-content
Guardado contenido de 472 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/es/mobilidad/outgoing/calendario-movilidad
Guardado contenido de 473 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/es/movilidad/outgoing/calendario-movilidad/solicitud-plaza-de-movilidad-programa-unitech
Guardado contenido de 474 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/es/estudios/grados/grado-en-ingenieria-informatica/plan-de-estudios/especialidades/computacion
Guardado contenido de 475 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/es/estudios/grados/grado-en-ingenieria-informatica/plan-de-estudios/asignaturas/CAIM
Guardado contenido de 476 páginas en sitio_completo.md
Visitando: https://www.fib.upc.edu/es/estudios/grados/grado-en-ingenieria-informatica/plan-de-estudios/asignaturas/CAIM#main-content
Guardado conten

TypeError: cannot unpack non-iterable NoneType object