<a href="https://colab.research.google.com/github/AiroldiFederico/Py-web-to-pdf/blob/main/py-script.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Codice python


In [None]:
# 1. Monta Google Drive per salvare i file in modo persistente
from google.colab import drive
drive.mount('/content/drive')

# 2. Installa wkhtmltopdf e le librerie Python necessarie
# !apt-get install -y wkhtmltopdf
# !pip install pdfkit beautifulsoup4 PyPDF2

import os
import requests
from bs4 import BeautifulSoup
import pdfkit
from PyPDF2 import PdfMerger

# 3. Configura il percorso di wkhtmltopdf per Google Colab
pdfkit_config = pdfkit.configuration(wkhtmltopdf='/usr/bin/wkhtmltopdf')

# 4. Funzione per estrarre il contenuto principale di una pagina web
def extract_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Rimuovi header, footer, sidebar, script
    for element in soup(['header', 'footer', 'aside', 'nav', 'script']):
        element.decompose()

    # Trova il contenuto principale nel tag specificato
    content = soup.find('main', {'class': 'main_content'})  # Usa il tag corretto
    if content:
        return str(content)  # Restituisce solo il contenuto del tag specificato
    else:
        return "<p>Content not found.</p>"  # Gestione del caso in cui il contenuto non è trovato

# 5. Funzione per salvare una pagina come PDF con opzioni di margini
def save_pdf(content, output_filename):
    # Salva il contenuto HTML scaricato localmente
    with open(f"{output_filename}.html", "w", encoding="utf-8") as file:
        file.write(content)

    # Opzioni per migliorare il layout
    options = {
        'quiet': '',
        'disable-smart-shrinking': '',  # Disabilita lo "shrinking" per mantenere dimensioni corrette
        'no-images': '',  # Mantieni le immagini
        'margin-top': '20mm',  # Imposta margini generosi per una migliore leggibilità
        'margin-bottom': '20mm',
        'margin-left': '15mm',
        'margin-right': '15mm',
        'footer-right': '[page]',  # Aggiunge numeri di pagina nel piè di pagina
        'minimum-font-size': '12',  # Imposta una dimensione minima del font
        'encoding': 'UTF-8'  # Assicura una corretta codifica dei caratteri
    }

    # Converti il file HTML salvato in PDF con opzioni personalizzate
    pdfkit.from_file(f"{output_filename}.html", f"{output_filename}.pdf", options=options, configuration=pdfkit_config)

    # Rimuovi il file HTML temporaneo
    os.remove(f"{output_filename}.html")

# 6. Funzione per unire più PDF in uno solo
def merge_pdfs(pdf_list, output_filename):
    merger = PdfMerger()

    for pdf in pdf_list:
        merger.append(pdf)

    # Salva il file PDF finale
    merger.write(output_filename)
    merger.close()

# 7. Funzione principale per elaborare i link
def process_links(urls, output_pdf):
    pdf_files = []

    for i, url in enumerate(urls, 1):
        print(f"Processing {url}...")
        content = extract_content(url)
        pdf_filename = f"page_{i}"
        save_pdf(content, pdf_filename)
        pdf_files.append(f"{pdf_filename}.pdf")

    # Unisci tutti i PDF
    merge_pdfs(pdf_files, output_pdf)

    # Rimuovi i PDF temporanei
    for pdf_file in pdf_files:
        os.remove(pdf_file)

# 8. Lista di URL da elaborare (aggiungi i tuoi URL)
urls = [
    "https://www.youmath.it/lezioni/algebra-elementare/insiemistica.html",
    "https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1583-insieme-finito-e-insieme-infinito.html",
    "https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1584-rappresentazione-per-elencazione-estensiva.html",
    "https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1585-rappresentazione-intensiva-per-caratteristica.html",
    "https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1586-cardinalita-di-un-insieme.html",
    "https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1587-insiemi-uguali-e-insiemi-equipotenti.html"
]

# 9. Salva il PDF su Google Drive o scaricalo localmente
# Salva su Google Drive
output_pdf_drive = "/content/drive/My Drive/ebook_finale.pdf"
process_links(urls, output_pdf_drive)  # Salva il PDF finale su Google Drive
print(f"Ebook generato con successo e salvato su Google Drive: {output_pdf_drive}")

# Oppure, se vuoi scaricare direttamente sul tuo computer locale:
from google.colab import files
files.download(output_pdf_drive)  # Scarica il PDF da Google Drive

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Processing https://www.youmath.it/lezioni/algebra-elementare/insiemistica.html...
Processing https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1583-insieme-finito-e-insieme-infinito.html...
Processing https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1584-rappresentazione-per-elencazione-estensiva.html...
Processing https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1585-rappresentazione-intensiva-per-caratteristica.html...
Processing https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1586-cardinalita-di-un-insieme.html...
Processing https://www.youmath.it/lezioni/algebra-elementare/insiemistica/1587-insiemi-uguali-e-insiemi-equipotenti.html...
Ebook generato con successo e salvato su Google Drive: /content/drive/My Drive/ebook_finale.pdf


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>