### Scarichiamo le principali librerie che ci serviranno:

In [1]:
%pip install selenium
%pip install webdriver-manager
%pip install requests beautifulsoup4

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


### Importiamo le librerie da usare:

In [1]:
import os
import re
import sys
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import locale
import datetime
from selenium.webdriver.firefox.service import Service
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from lxml import etree

### Definiamo le principali funzioni da utilizzare successivamente:

In [2]:
# Namespace per lavorare sul file XML
namespaces = {
    'akn': 'http://docs.oasis-open.org/legaldocml/ns/akn/3.0',
    'eli': 'http://data.europa.eu/eli/ontology#',
    'fo': 'urn:oasis:names:tc:opendocument:xmlns:xsl-fo-compatible:1.0',
    'gu': 'http://www.gazzettaufficiale.it/eli/',
    'html': 'http://www.w3.org/1999/xhtml',
    'na': 'http://www.normattiva.it/eli/',
    'nakn': 'http://normattiva.it/akn/vocabulary',
    'nrdfa': 'http://www.normattiva.it/rdfa/',
    'rdf': 'http://www.w3.org/1999/02/22-rdf-syntax-ns#',
    'rdfa': 'http://www.w3.org/1999/xhtml#'
}

# Funzione per correggere il link se manca il protocollo (http o https)
def correct_link_scheme(url, base_url):
    if not url.startswith("http://") and not url.startswith("https://"):
        url = urljoin(base_url, url)
    return url

# Funzione per estrarre i dettagli dalla parte urn:nir del link
def extract_details_from_urn(urn):
    parts = urn.split(':')
    if len(parts) >= 5:
        tipo_documento = parts[3].replace('.', ' ').upper()  # Decreto o altro
        data_documento, numero_documento = parts[4].split(';')  # data e numero separati da ;
        # Formatta la data
        date_obj = datetime.datetime.strptime(data_documento, '%Y-%m-%d')
        formatted_date = date_obj.strftime('%d %B %Y')    
        return tipo_documento, formatted_date, numero_documento
    return None, None, None
    
# Funzione per trovare il file più recente nella cartella Dataset
def find_most_recent_file(folder_path):
    files = os.listdir(folder_path)
    if not files:
        return None
    # Trova il file con la data di modifica più recente
    most_recent_file = max(
        (os.path.join(folder_path, f) for f in files),
        key=os.path.getmtime
    )
    return most_recent_file

# Funzione per aspettare il file xml e nel caso returnare il file se trovato
def wait_for_recent_xml(dataset_folder):
    recent_file = None
    dot_count = 0  # Contatore dei puntini
    
    while not recent_file or not recent_file.endswith('.xml'):
        # Stampa la riga con i puntini e aggiorna la stessa riga
        print(f"\rAttesa del completamento del download per il file XML{'.' * dot_count}", end="")
        
        # Incrementa il numero di puntini fino a 3, poi resetta
        dot_count = (dot_count + 1) % 4
        time.sleep(1)
        
        # Verifica il file più recente
        recent_file = find_most_recent_file(dataset_folder)
    
    # Stampa il messaggio finale una volta trovato il file
    print(f"\nFile XML trovato: {recent_file}")
    return recent_file

# Funzione per estrarre il testo da un elemento <p> includendo <ins> e <ref>
def extract_text_from_p(p):
    text = ""
    if p.text:
        text += p.text + " "
    for element in p.iter():
        if element.tag == '{http://docs.oasis-open.org/legaldocml/ns/akn/3.0}ins':
            text += (element.text or "") + " "
            if element.tail:
                text += element.tail + " "
        elif element.tag == '{http://docs.oasis-open.org/legaldocml/ns/akn/3.0}ref':
            text += (element.text or "") + " "
            if element.tail:
                text += element.tail + " "
    if p.tail:
        text += p.tail + " "
    return text

# Funzione per analizzare e salvare su file .txt la normativa
def analyze_file(file_path,folder_path):
    # Verifica che il file sia accessibile e attendi se necessario
    retries = 3
    while retries > 0:
        if os.access(file_path, os.R_OK):  # Verifica se il file è leggibile
            break
        else:
            print(f"File non accessibile, tentativo in corso. Tentativi rimanenti: {retries}")
            time.sleep(2)  # Attendi un po' prima di riprovare
            retries -= 1
    if retries == 0:
        print("Impossibile accedere al file dopo diversi tentativi.")
        return
    # Carica e analizza il file XML
    try:
        tree = etree.parse(file_path)
    except OSError as e:
        print(f"Errore durante la lettura del file '{file_path}': {e}")
        return
    root = tree.getroot()
    # Trova tutti gli elementi <article> all'interno del file XML
    articles = root.findall('.//akn:article', namespaces)
    # print(f"Numero di articoli trovati: {len(articles)}")
    # Estrai e scrivi il testo di ciascun comma (paragrafo) all'interno degli articoli
    for article_index, article in enumerate(articles, start=1):
        # Ottieni l'eId dell'articolo
        article_eid = article.get('eId')
        # print(f"{article_eid}")
        # Crea una cartella per l'articolo
        article_folder = os.path.join(folder_path, article_eid)
        os.makedirs(article_folder, exist_ok=True)
        # Trova tutti gli elementi <paragraph> all'interno dell'articolo
        paragraphs = article.findall('.//akn:paragraph', namespaces)
        paragraph_counter = 1  # Inizializza il contatore dei paragrafi
        for paragraph in paragraphs:
            # Ottieni l'eId del paragrafo
            paragraph_eid = paragraph.get('eId')
            # Controlla se il paragrafo ha un elemento <num>
            num = paragraph.find('.//akn:num', namespaces)
            if num is None:
                continue  # Salta il paragrafo se non ha un elemento <num>
            # Inizializza il testo del paragrafo
            paragraph_text = ""
            # Verifica se è una lista o no
            lists = paragraph.findall('.//akn:list', namespaces)
            # Se è una lista, salva il contenuto in maniera diversa
            if lists:
                for lst in lists:
                    list_text = ""
                    intro = lst.find('.//akn:intro', namespaces)
                    if intro is not None:
                        ps = intro.findall('.//akn:p', namespaces)
                        for p in ps:
                            list_text += extract_text_from_p(p)
                    points = lst.findall('.//akn:point', namespaces)
                    for point in points:
                        point_num = point.find('.//akn:num', namespaces)
                        point_content = point.find('.//akn:content', namespaces)
                        if point_num is not None:
                            list_text += (point_num.text or "") + " "
                        if point_content is not None:
                            ps = point_content.findall('.//akn:p', namespaces)
                            for p in ps:
                                list_text += extract_text_from_p(p)
                    paragraph_text += list_text
            else:
                # Trova tutti gli elementi <p> all'interno del <content> del paragrafo
                content = paragraph.find('.//akn:content', namespaces)
                if content is not None:
                    ps = content.findall('.//akn:p', namespaces)
                    for p in ps:
                        paragraph_text += extract_text_from_p(p)
            # Se il paragrafo non è vuoto, scrivi il testo completo nel file
            if paragraph_text.strip():
                file_name = f'comma_{paragraph_counter}.txt'
                with open(os.path.join(article_folder, file_name), 'w', encoding='utf-8') as file:
                    file.write(paragraph_text.strip() + '\n')
                paragraph_counter += 1  # Incrementa il contatore solo se il file è stato creato
        # Trova tutti gli elementi <authorialNote> all'interno dell'articolo
        authorial_notes = article.findall('.//akn:authorialNote', namespaces)
        for note_index, note in enumerate(authorial_notes, start=1):
            note_text = ""
            note_ps = note.findall('.//akn:p', namespaces)
            for p in note_ps:
                note_text += extract_text_from_p(p)
            # Scrivi la nota in un file separato
            note_file_name = f'nota_articolo_{note_index}.txt'
            with open(os.path.join(article_folder, note_file_name), 'w', encoding='utf-8') as note_file:
                note_file.write(note_text.strip() + '\n')

### Impostiamo l'ambiente e creiamo la cartella principale dove contenere le varie normative (in caso non esistesse):

In [3]:
# Imposta in italiano la formattazione della data
locale.setlocale(locale.LC_TIME, 'it_IT.UTF-8')

# Percorso del Desktop dell'utente
desktop_path = os.path.join(os.path.expanduser('~'), 'Desktop')
# Percorso della cartella Dataset sul Desktop
dataset_folder = os.path.join(desktop_path, 'Dataset')
# Verifica se la cartella "Dataset" esiste
if not os.path.exists(dataset_folder):
    os.makedirs(dataset_folder)
    print(f"Cartella 'Dataset' creata in {dataset_folder}")
else:
    print(f"Cartella 'Dataset' già presente in {dataset_folder}")

Cartella 'Dataset' già presente in C:\Users\burre\Desktop\Dataset


### Impostiamo Selenium per la ricerca su Google (usando Firefox come browser)

In [4]:
# Impostazioni del browser Firefox
options = Options()
options.add_argument("--headless")  # Forza la modalità headless (no GUI)
service = Service()
# Configura le preferenze per il download automatico in Firefox
profile = webdriver.FirefoxProfile()  # Crea un profilo per Firefox
profile.set_preference("browser.download.folderList", 2)  # Imposta la cartella personalizzata
profile.set_preference("browser.download.manager.showWhenStarting", False)  # Nascondi la finestra di download
profile.set_preference("browser.download.dir", dataset_folder)  # Cartella di download personalizzata
profile.set_preference("browser.helperApps.neverAsk.saveToDisk", "application/pdf,application/octet-stream")  # Tipi di file per il download automatico
# Aggiungi il profilo a Firefox
options.profile = profile
# Intestazioni per simulare una richiesta da un browser reale (Firefox)
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
}

driver = None

def start_or_reset_session():
    global driver
    # Se la sessione è già avviata, prova a chiuderla
    if driver is not None:
        try:
            driver.quit()  # Prova a chiudere la sessione esistente
            print("Sessione esistente chiusa.")
        except WebDriverException:
            print("Nessuna sessione aperta da chiudere.")
    
    # Inizia una nuova sessione
    driver = webdriver.Firefox(service=service, options=options)
    print("Nuova sessione avviata.")

### Ricerca delle referenze dentro gli articoli in modo ricorsivo

In [None]:
def format_article_number(text):
    """Funzione per formattare il numero articolo, rimpiazzando spazi con trattini."""
    return text.lower().replace(" ", "-")

def save_content_to_file(content, main_folder, folder_name, article_number, reference_count):
    """Salva il contenuto in un file .txt nella cartella specificata con nome reference_n.txt."""
    path = os.path.join(main_folder, folder_name, f"art_{article_number}")
    os.makedirs(path, exist_ok=True)
    with open(os.path.join(path, f"reference_{reference_count}.txt"), 'w', encoding="utf-8") as file:
        file.write(content)

def recursive_scrape_links(link, main_folder, folder_name, article_number, depth, max_depth, reference_count):
    """Funzione ricorsiva che esplora i link fino a max_depth e salva il contenuto in file."""
    if depth > max_depth:
        print(f"Raggiunta profondità massima ({max_depth}) per il link: {link}")
        return reference_count
    
    # Vai al link corrente e attendi il caricamento della pagina
    driver.get(link)
    time.sleep(2)  # Attesa per assicurarsi che la pagina sia caricata

    # Estrarre l'HTML e inizializzare BeautifulSoup
    page_source = driver.page_source
    soup = BeautifulSoup(page_source, 'html.parser')
    content_text = soup.get_text()

    # Salva il contenuto della pagina in un file .txt con nome reference_n.txt
    reference_count += 1
    save_content_to_file(content_text, main_folder, folder_name, article_number, reference_count)
    print(f"Salvato contenuto di {link} in art_{article_number}/reference_{reference_count}.txt")

    # Trova tutti i link nella pagina per l'esplorazione ricorsiva
    body_text_div = soup.find("div", class_="bodyTesto")
    if not body_text_div:
        print(f"Nessun div con classe 'bodyTesto' trovato per il link: {link}")
        return reference_count

    next_links = [a['href'] for a in body_text_div.find_all("a", href=True)]

    print(f"Numero di link trovati in {link}: {len(next_links)}")
    
    # Per ogni link trovato, richiamare ricorsivamente la funzione
    for next_link in next_links:
        full_link = next_link if next_link.startswith("http") else f"https://www.normattiva.it{next_link}"
        reference_count = recursive_scrape_links(full_link, main_folder, folder_name, article_number, depth + 1, max_depth, reference_count)

    return reference_count

def find_reference(href, main_folder, folder_name, max_depth):
    base_url = "https://www.normattiva.it"
    article_links = {}

    # Carica la pagina principale e aspetta che si carichi completamente
    print(f"Caricamento della pagina principale: {href}")
    driver.get(href)
    time.sleep(5)  # Attendi il caricamento della pagina

    # Analizza la pagina con BeautifulSoup
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    albero_div = soup.find("div", id="albero")
    if not albero_div:
        print("Errore: div con id 'albero' non trovato.")
        return article_links

    # Trova e filtra gli <li> che contengono un <a> con classe 'numero_articolo'
    list_items = albero_div.find_all("li")
    filtered_items = [
        li for li in list_items 
        if li.find("a", class_="numero_articolo") and 
        not any(x in li.find("a", class_="numero_articolo").text for x in ["orig.", "agg."])
    ]
    
    print(f"Numero di elementi trovati con 'numero_articolo': {len(filtered_items)}")

    # Ottieni l'handle della finestra principale
    main_window = driver.current_window_handle

    for i, li in enumerate(filtered_items):
        article_element = li.find("a", class_="numero_articolo")

        if not article_element or 'onclick' not in article_element.attrs:
            print(f"Elemento {i} saltato: manca un link valido o l'attributo 'onclick'.")
            continue

        # Estrai il testo del numero articolo e formattalo
        article_number_text = article_element.text.strip()
        formatted_article_number = format_article_number(article_number_text)

        # Estrai il parametro dell'URL dall'attributo onclick
        onclick_text = article_element['onclick']
        match = re.search(r"showArticle\('([^']*)'", onclick_text)
        if not match:
            print(f"Elemento {i}: URL non trovato nell'onclick.")
            continue
        
        relative_url = match.group(1)
        article_url = base_url + relative_url
        print(f"Elemento {i} - URL dell'articolo: {article_url}")

        # Chiudi la scheda secondaria se già esistente
        if len(driver.window_handles) > 1:
            driver.switch_to.window(driver.window_handles[1])
            driver.close()

        # Apri una nuova scheda e passa a essa
        driver.execute_script("window.open('');")
        driver.switch_to.window(driver.window_handles[1])  # Passa alla scheda secondaria
        driver.get(article_url)

        # Attendi che il div bodyTesto sia presente (aumentato a 30 secondi)
        try:
            body_text_div = WebDriverWait(driver, 30).until(
                EC.presence_of_element_located((By.CLASS_NAME, "bodyTesto"))
            )
            article_soup = BeautifulSoup(driver.page_source, 'html.parser')
            body_text_div = article_soup.find("div", class_="bodyTesto")
        except TimeoutException:
            print(f"Elemento {i}: div con classe 'bodyTesto' non trovato dopo attesa.")
            driver.close()
            driver.switch_to.window(main_window)
            continue

        # Inizia l'esplorazione ricorsiva dei link partendo dalla pagina corrente con contatore reference_count
        reference_count = 0
        reference_count = recursive_scrape_links(article_url, main_folder, folder_name, formatted_article_number, 0, max_depth, reference_count)

        # Chiudi la scheda secondaria e torna alla finestra principale
        driver.close()
        driver.switch_to.window(main_window)

    print("Riferimenti trovati")

    return article_links


start_or_reset_session()
href="https://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.legislativo:2001-06-08;231"
main_folder="Dataset"
folder_name="DECRETO LEGISLATIVO 08 giugno 2001,n. 231"
link_finded = find_reference(href,main_folder,folder_name,2)

Sessione esistente chiusa.
Nuova sessione avviata.
Caricamento della pagina principale: https://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.legislativo:2001-06-08;231
Numero di elementi trovati con 'numero_articolo': 107
Elemento 0 - URL dell'articolo: https://www.normattiva.it/atto/caricaArticolo?art.versione=1&art.idGruppo=1&art.flagTipoArticolo=0&art.codiceRedazionale=001G0293&art.idArticolo=1&art.idSottoArticolo=1&art.idSottoArticolo1=10&art.dataPubblicazioneGazzetta=2001-06-19&art.progressivo=0&
Salvato contenuto di https://www.normattiva.it/atto/caricaArticolo?art.versione=1&art.idGruppo=1&art.flagTipoArticolo=0&art.codiceRedazionale=001G0293&art.idArticolo=1&art.idSottoArticolo=1&art.idSottoArticolo1=10&art.dataPubblicazioneGazzetta=2001-06-19&art.progressivo=0& in art_1/reference_1.txt
Numero di link trovati in https://www.normattiva.it/atto/caricaArticolo?art.versione=1&art.idGruppo=1&art.flagTipoArticolo=0&art.codiceRedazionale=001G0293&art.idArticolo=1&art.idSottoAr

### Cerchiamo la norma e la scarichiamo:

In [6]:
start_or_reset_session()

search_query = input("Inserisci il nome della normativa da cercare: ")
query = search_query + " normattiva"
url = f"https://www.google.com/search?q={query.replace(' ', '+')}"

# Invia la richiesta HTTP alla pagina di ricerca di Google
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova tutti i risultati di ricerca
links = soup.find_all('a', href=True)

# Base URL
base_url = "https://www.google.com"

# Percorso del file NormattivaLinks
normattiva_links_file = os.path.join(os.path.expanduser('~'), 'Desktop', 'NormattivaLinks.txt')

# Controlla se il file esiste, se no lo crea
if not os.path.isfile(normattiva_links_file):
    open(normattiva_links_file, 'w').close()

# Cerca il primo link con "uri-res/N2Ls?"
for link in links:
    href = link['href']
    if "uri-res/N2Ls?" in href:
        href = urljoin(base_url, href)
        print(f"Link trovato: {href}")
        # Estrai l'URN dal link
        urn_start = href.find("urn:nir:")
        if urn_start != -1:
            # Prendi tutto ciò che c'è dopo "urn:nir:"
            urn = href[urn_start:]  # Prendi tutto il resto della stringa a partire da "urn:nir:"
            print(f"URN estratto: {urn}")
        tipo_documento, formatted_date, numero_documento = extract_details_from_urn(urn)
        if tipo_documento and formatted_date and numero_documento:
            # Formatta la cartella principale
            folder_name = f"{tipo_documento} {formatted_date},n. {numero_documento}"

            # Leggi il contenuto attuale del file per controllare duplicati
            with open(normattiva_links_file, 'r') as f:
                existing_links = f.readlines()
            
            # Verifica se il link è già presente
            new_entry = f"{href};{folder_name}\n"
            if new_entry not in existing_links:
                # Aggiungi il link e il nome della cartella al file NormattivaLinks
                with open(normattiva_links_file, 'a') as f:
                    f.write(new_entry)
            
            print(f"Cartella da creare: {folder_name}")
            # Crea la cartella principale per il documento
            main_folder = os.path.join(os.path.expanduser('~'), 'Desktop', 'Dataset', folder_name)
            os.makedirs(main_folder, exist_ok=True)
        try:
            driver.get(href)
            # Usa WebDriverWait per aspettare che il link di download sia cliccabile
            download_link = WebDriverWait(driver, 20).until(
                EC.element_to_be_clickable((By.XPATH, "//a[contains(@href, '/do/atto/caricaAKN?')]"))
            )
            
            # Trova l'URL del link di download
            file_url = download_link.get_attribute('href')
            print(f"Link per il download trovato: {file_url}")
            # Clicca sul link una volta che è pronto
            download_link.click()
            recent_file = wait_for_recent_xml(dataset_folder)
            if recent_file:
                analyze_file(recent_file,main_folder)
                # Elimina il file XML scaricato dopo averlo elaborato
                os.remove(recent_file)
                print(f"File XML eliminato: {recent_file}")
                # reference_finded = find_reference(href)
        finally: 
            print("Download completato")
        break
else:
    print("Nessun link di download trovato.")

driver.quit()

Sessione esistente chiusa.
Nuova sessione avviata.


Inserisci il nome della normativa da cercare:  DECRETO DEL PRESIDENTE DELLA REPUBBLICA 22 settembre 1988, n. 447


Link trovato: https://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.del.presidente.della.repubblica:1988-09-22;447
URN estratto: urn:nir:stato:decreto.del.presidente.della.repubblica:1988-09-22;447
Cartella da creare: DECRETO DEL PRESIDENTE DELLA REPUBBLICA 22 settembre 1988,n. 447
Link per il download trovato: https://www.normattiva.it/do/atto/caricaAKN?dataGU=19881024&codiceRedaz=088G0492&dataVigenza=20241108
Attesa del completamento del download per il file XML
File XML trovato: C:\Users\burre\Desktop\Dataset\19881024_088G0492_VIGENZA_20241004.xml
File XML eliminato: C:\Users\burre\Desktop\Dataset\19881024_088G0492_VIGENZA_20241004.xml
Download completato
