# Pulizia dataset originale

In [1]:
import pandas as pd

df = pd.read_csv('normattiva.csv')
print('Dataset originale: ', len(df['lavori_preparatori']))

# Drop rows with missing 'lavori_preparatori'
df = df[df['lavori_preparatori'].notna()]
print('Drop missing \'lavori preparatori\': ', len(df['lavori_preparatori']))

df.head()

Dataset originale:  16871
Drop missing 'lavori preparatori':  5197


Unnamed: 0,titolo,data,descrizione,lavori_preparatori,num_articoli,full_text_url
0,L. 11/2025,11/02/2025,Istituzione del Parco ambientale per lo svilup...,LAVORI PREPARATORI Camera dei deputati (atto n...,11,https://www.normattiva.it/esporta/attoCompleto...
1,L. 7/2025,31/01/2025,Conversione in legge del decreto-legge 27 dice...,LAVORI PREPARATORI Senato della Repubblica (at...,1,https://www.normattiva.it/esporta/attoCompleto...
2,L. 6/2025,31/01/2025,Istituzione della Giornata degli internati ita...,LAVORI PREPARATORI Camera dei deputati (atto n...,4,https://www.normattiva.it/esporta/attoCompleto...
3,L. 4/2025,24/01/2025,"Conversione in legge, con modificazioni, del d...",LAVORI PREPARATORI Senato della Repubblica (at...,2,https://www.normattiva.it/esporta/attoCompleto...
4,L. 2/2025,24/01/2025,Ratifica ed esecuzione della Convenzione tra i...,LAVORI PREPARATORI Senato della Repubblica (at...,35,https://www.normattiva.it/esporta/attoCompleto...


In [None]:
# Add case_id - coincide con il Codice Redazionale

import re

for index,row in df.iterrows():
    m = re.search(r'(?<=codiceRedazionale=).*$',str(row['full_text_url']))
    df.at[index,'case_id'] = m.group(0)

df.head()

  df.at[index,'case_id'] = m.group(0)


Unnamed: 0,titolo,data,descrizione,lavori_preparatori,num_articoli,full_text_url,case_id
0,L. 11/2025,11/02/2025,Istituzione del Parco ambientale per lo svilup...,LAVORI PREPARATORI Camera dei deputati (atto n...,11,https://www.normattiva.it/esporta/attoCompleto...,25G00016
1,L. 7/2025,31/01/2025,Conversione in legge del decreto-legge 27 dice...,LAVORI PREPARATORI Senato della Repubblica (at...,1,https://www.normattiva.it/esporta/attoCompleto...,25G00014
2,L. 6/2025,31/01/2025,Istituzione della Giornata degli internati ita...,LAVORI PREPARATORI Camera dei deputati (atto n...,4,https://www.normattiva.it/esporta/attoCompleto...,25G00011
3,L. 4/2025,24/01/2025,"Conversione in legge, con modificazioni, del d...",LAVORI PREPARATORI Senato della Repubblica (at...,2,https://www.normattiva.it/esporta/attoCompleto...,25G00009
4,L. 2/2025,24/01/2025,Ratifica ed esecuzione della Convenzione tra i...,LAVORI PREPARATORI Senato della Repubblica (at...,35,https://www.normattiva.it/esporta/attoCompleto...,25G00008


## Text normalization
* Rimuove 'LAVORI PREPARATORI'
* Rimpiazza abbreviazioni

In [3]:
from utils import *

In [4]:
# Function to remove 'LAVORI PREPARATORI ' from text
def clean_prep_works(text):
    return text.replace('LAVORI PREPARATORI ', '')

# Apply function to text
df['lavori_preparatori'] = df['lavori_preparatori'].apply(clean_prep_works)

print(df.head())

       titolo        data                                        descrizione  \
0  L. 11/2025  11/02/2025  Istituzione del Parco ambientale per lo svilup...   
1   L. 7/2025  31/01/2025  Conversione in legge del decreto-legge 27 dice...   
2   L. 6/2025  31/01/2025  Istituzione della Giornata degli internati ita...   
3   L. 4/2025  24/01/2025  Conversione in legge, con modificazioni, del d...   
4   L. 2/2025  24/01/2025  Ratifica ed esecuzione della Convenzione tra i...   

                                  lavori_preparatori  num_articoli  \
0  Camera dei deputati (atto n. 400): Presentato ...            11   
1  Senato della Repubblica (atto n. 1335): Presen...             1   
2  Camera dei deputati (atto n. 1835): Presentato...             4   
3  Senato della Repubblica (atto n. 1315): Presen...             2   
4  Senato della Repubblica (atto n. 1128): Presen...            35   

                                       full_text_url   case_id  
0  https://www.normattiva.it/espo

In [5]:
df['lavori_preparatori'] = df['lavori_preparatori'].astype(str).apply(replace_abbreviations)

In [6]:
cols = ['case_id','titolo','data','num_articoli','descrizione','lavori_preparatori']
clean_df = df[cols]

clean_df.head()

Unnamed: 0,case_id,titolo,data,num_articoli,descrizione,lavori_preparatori
0,25G00016,L. 11/2025,11/02/2025,11,Istituzione del Parco ambientale per lo svilup...,Camera dei deputati (atto numero 400): Present...
1,25G00014,L. 7/2025,31/01/2025,1,Conversione in legge del decreto-legge 27 dice...,Senato della Repubblica (atto numero 1335): Pr...
2,25G00011,L. 6/2025,31/01/2025,4,Istituzione della Giornata degli internati ita...,Camera dei deputati (atto numero 1835): Presen...
3,25G00009,L. 4/2025,24/01/2025,2,"Conversione in legge, con modificazioni, del d...",Senato della Repubblica (atto numero 1315): Pr...
4,25G00008,L. 2/2025,24/01/2025,35,Ratifica ed esecuzione della Convenzione tra i...,Senato della Repubblica (atto numero 1128): Pr...


In [7]:
clean_df.to_csv('dataset/normattiva_clean.csv',index=False)

# Creazione dataset di lavoro

In [24]:
df = pd.read_csv('dataset/normattiva_clean.csv')

# Get small dataframe [id,text] to work with
df = df[['case_id','lavori_preparatori']].head(500)
df.head()

Unnamed: 0,case_id,lavori_preparatori
0,25G00016,Camera dei deputati (atto numero 400): Present...
1,25G00014,Senato della Repubblica (atto numero 1335): Pr...
2,25G00011,Camera dei deputati (atto numero 1835): Presen...
3,25G00009,Senato della Repubblica (atto numero 1315): Pr...
4,25G00008,Senato della Repubblica (atto numero 1128): Pr...


In [25]:
# Per ogni riga 'case_id' in 'lavori_preparatori', crea una nuova colonna 'sentences' con l'array di frasi
df['sentences'] = df['lavori_preparatori'].apply(lambda text: splitter_e_tokenizzatore(text)[0])

df['sentences'].head().iloc[0]

["Camera dei deputati (atto numero 400): Presentato dall'Onorevole Marco Simiani (PD-IDP) e altri, in data 19 ottobre 2022.",
 'Assegnato alla 8 Commissione (Ambiente, territorio e lavori pubblici), in sede referente, il 23 novembre 2022, con i pareri delle commissioni 1 (Affari costituzionali, della Presidenza del Consiglio e Interni), 2 (Giustizia), 5 (Bilancio, tesoro e programmazione), 11 (Lavoro pubblico e privato) e per le Questioni regionali.',
 'Esaminato dalla Commissione 8 (Ambiente, territorio e lavori pubblici), in sede referente, il 15, il 21 e il 28 novembre 2023; il 17 gennaio 2024; il 7 febbraio 2024; il 23 aprile 2024; il 5 agosto 2024; il 2 ottobre 2024.',
 "Esaminato in Aula il 16 ottobre 2024 e trasferito all'8 Commissione (Ambiente, territorio e lavori pubblici), in sede legislativa, il 17 ottobre 2024.",
 'Nuovamente assegnato alla 8 Commissione (Ambiente, territorio e lavori pubblici), in sede legislativa, il 17 ottobre 2024, con i pareri delle commissioni 1 (Aff

La prossima funzione divide le frasi secondo camera o senato

In [26]:
def divide_in_eventi(frasi):
    eventi = []
    current_section = None
    buffer = []

    for frase in frasi:
        if "Camera dei deputati" in frase:
            if current_section:
                eventi.append((current_section, buffer))  # Salva la sezione precedente
            current_section = "camera"
            buffer = [frase]  # Inizia una nuova sezione
        elif "Senato della Repubblica" in frase:
            if current_section:
                eventi.append((current_section, buffer))  # Salva la sezione precedente
            current_section = "senato"
            buffer = [frase]  # Inizia una nuova sezione
        else:
            buffer.append(frase)  # Aggiunge la frase alla sezione corrente

    if current_section:
        eventi.append((current_section, buffer))  # Salva l'ultima sezione

    # Separa le frasi per Camera e Senato
    camera_frasi = []
    senato_frasi = []
    for section, frasi in eventi:
        if section == "camera":
            camera_frasi.extend(frasi)
        elif section == "senato":
            senato_frasi.extend(frasi)

    return camera_frasi, senato_frasi

In [27]:
# Applicare la funzione alla colonna 'sentences' del DataFrame
df[['buffer_camera', 'buffer_senato']] = pd.DataFrame(df['sentences'].apply(divide_in_eventi).tolist(), index=df.index)

df.head()

Unnamed: 0,case_id,lavori_preparatori,sentences,buffer_camera,buffer_senato
0,25G00016,Camera dei deputati (atto numero 400): Present...,[Camera dei deputati (atto numero 400): Presen...,[Camera dei deputati (atto numero 400): Presen...,[Senato della Repubblica (atto numero 1275): A...
1,25G00014,Senato della Repubblica (atto numero 1335): Pr...,[Senato della Repubblica (atto numero 1335): P...,[Camera dei deputati (atto numero 2206): Asseg...,[Senato della Repubblica (atto numero 1335): P...
2,25G00011,Camera dei deputati (atto numero 1835): Presen...,[Camera dei deputati (atto numero 1835): Prese...,[Camera dei deputati (atto numero 1835): Prese...,[Senato della Repubblica (atto numero 1239): A...
3,25G00009,Senato della Repubblica (atto numero 1315): Pr...,[Senato della Repubblica (atto numero 1315): P...,[Camera dei deputati (atto numero 2196): Asseg...,[Senato della Repubblica (atto numero 1315): P...
4,25G00008,Senato della Repubblica (atto numero 1128): Pr...,[Senato della Repubblica (atto numero 1128): P...,[Camera dei deputati (atto numero 2031): Asseg...,[Senato della Repubblica (atto numero 1128): P...


Salva in un dataset

In [28]:
import ast

# Crea DataFrame solo per df['camera']
df_corpus = pd.DataFrame(df, columns=['case_id', 'buffer_camera', 'buffer_senato'])

# Salva come CSV
df_corpus.to_csv('dataset/chambers.csv', index=False)

# Verifica il risultato
print(df_corpus.head())

    case_id                                      buffer_camera  \
0  25G00016  [Camera dei deputati (atto numero 400): Presen...   
1  25G00014  [Camera dei deputati (atto numero 2206): Asseg...   
2  25G00011  [Camera dei deputati (atto numero 1835): Prese...   
3  25G00009  [Camera dei deputati (atto numero 2196): Asseg...   
4  25G00008  [Camera dei deputati (atto numero 2031): Asseg...   

                                       buffer_senato  
0  [Senato della Repubblica (atto numero 1275): A...  
1  [Senato della Repubblica (atto numero 1335): P...  
2  [Senato della Repubblica (atto numero 1239): A...  
3  [Senato della Repubblica (atto numero 1315): P...  
4  [Senato della Repubblica (atto numero 1128): P...  
