<a href="https://colab.research.google.com/github/EricaAndreose/enoam_doc/blob/main/PDFfy_doc.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from bs4 import BeautifulSoup

Si importa la libreria **BeautifulSoup**: utilizzata per analizzare documenti HTML e XML, permettendo di estrarre informazioni e navigare nella struttura del documento.

In [None]:
# FUNCTION THAT INSERTS AND FORMATS METADATA INTO THE DOCUMENT AND CONVERTS IT INTO A PDF FILE
def generate_pdf(html_path, metadata):

    # OPEN FILE AND GENERATE SOUP
    with open(html_path, encoding='utf-8') as fp:
        soup = BeautifulSoup(fp, 'html.parser')
        fp.close()


    # INSERT ABSTRACT
    abstract = soup.new_tag('div')
    abstract['id'] = 'abstract'
    em = soup.new_tag('em')
    em.string = f"{metadata['abstract']}"
    abstract.append(em)
    soup.h1.insert_after(abstract)


    # CREATE AREA FOR METADATA
    metadata_area = soup.new_tag('div')
    metadata_area['id'] = 'divHeader'


    # INSERT DESCRIPTION
    desc = soup.new_tag('div')
    html_desc = soup.find('meta', attrs={'name': "description"})
    desc.string = html_desc['content']
    metadata_area.append(desc)


    # INSERT RIGHTS
    rights = soup.new_tag('div')
    html_rights = soup.find('meta', attrs={'name': 'dcterms.rights'})
    a = soup.new_tag('a', href=f"{html_rights['content']}")
    a.string = 'CC BY-NC 4.0'
    rights.append(a)
    rights.a.insert_before('Opera rilasciata con licenza ')
    metadata_area.append(rights)


    # INSERT DOI
    doi = soup.new_tag('div')
    html_doi = soup.find('meta', attrs={'name': 'dcterms.identifier'})
    html_url = soup.find('meta', attrs={'name': 'dcterms.relation'})
    a = soup.new_tag('a', href=f"{html_url['content']}")
    a.string = html_doi["content"]
    doi.append(a)
    doi.a.insert_before('DOI: ')
    metadata_area.append(doi)


    # INSERT METADATA AREA INTO SOUP
    soup.h1.insert_before(metadata_area)


    # RETURN SOUP AS STRING TO ALLOW STYLING
    return str(soup)

La funzione` generate_pdf` prende in input l'html originale del documento preso da Kwic e i metadati salvati su MongoDB. Inserisce e formatta i metadati nel documento HTML. Infine, restituisce il documento modificato come una stringa HTML, che può essere ulteriormente elaborata, ad esempio, per la conversione in PDF.

Vediamo gli step della funzione:

1. Apertura e Parsing del File HTML: Il file html originale (scaricato da KwicKwocKwac) viene aperto e caricato in un oggetto BeautifulSoup per essere modificato.

2. Inserimento dell'Abstract: Viene creato un nuovo elemento `div` con l'ID abstract. All'interno di questo `div`, viene inserito un elemento `em` (corsivo) contenente il testo dell'abstract prelevato dai metadati.
Questo `div` viene inserito nel documento subito dopo il tag `h1`.

3. Creazione dell'Area per i Metadati: Viene creato un nuovo `div` con l'ID `divHeader` per contenere i metadati aggiuntivi.

4. Inserimento della Descrizione: Viene creato un nuovo `div` che contiene la descrizione del documento, recuperata dal meta tag description dell'html originale. Questo `div` viene aggiunto all'area dei metadati (`divHeader`).

5. Inserimento dei Diritti d'Autore: Viene creato un nuovo `div` che contiene un link alla licenza associata al documento, recuperato dal meta tag dcterms.rights. Il link è formattato come "Opera rilasciata con licenza CC BY-NC 4.0".
Questo `div` viene aggiunto all'area dei metadati.

6. Inserimento del DOI: Viene creato un nuovo `div` che contiene un link al DOI del documento, formattato come "DOI: [DOI]". Il link è recuperato dai meta tag `dcterms.identifier` e `dcterms.relation`. Anche questo `div` viene aggiunto all'area dei metadati.

7. Inserimento dell'Area dei Metadati nel Documento: L'area dei metadati (`divHeader`) viene inserita nel documento HTML prima del tag `h1`.

8. Restituzione del Documento Modificato: La funzione restituisce il documento html modificato come una stringa, permettendo di applicare ulteriori stili o convertirlo in PDF.