In [9]:
# %%bash
# python -m venv openai-env
# openai-env\Scripts\activate
# pip install --upgrade openai
# setx OPENAI_API_KEY "your_api"

---
# IMPORT libraries

In [1]:
import pip

def import_or_install(package):
    try:
        __import__(package)
    except ImportError:
        pip.main(['install', package])  

import_or_install("transformers")
import_or_install("translators")
# ! pip install --upgrade openai
# ! pip install httpx==0.24.1
# ! pip install transformers
# ! pip install --upgrade translators

In [2]:
from openai import OpenAI
import pandas as pd
import numpy as np
import os
import time
from datetime import datetime
import nltk
from pathlib import Path
import pickle
import torch
import random
random.seed(42)
import transformers
from transformers import pipeline, AutoTokenizer,AutoModelForCausalLM, AutoModelWithLMHead
import textwrap
from pprint import pprint
from  langchain import LLMChain, HuggingFacePipeline, PromptTemplate
from huggingface_hub import login

import translators as ts
import warnings
warnings.simplefilter("ignore")

device = torch.device("cuda")
device

device(type='cuda')

---
## Metodi ad utilizzo generico 

In [3]:
# text wrapping function
def wrap(x):
  return textwrap.fill(x, replace_whitespace = False, fix_sentence_endings = True)

def translate(text,from_lang='it',to_lang="en"):
    segments=split_text_in_periods(text,500)
    summary_final=[]
    for text in segments:
        translation = ts.translate_text(text,from_language=from_lang,to_language=to_lang)
        summary_final.append(translation)
    return ''.join(summary_final),segments

def split_text_in_periods(text, max_length=512):
    # Lista per mantenere i segmenti divisi
    segments = []
    current_segment = ''
    current_length = 0
    
    # Dividere il testo in periodi basandosi sul carattere punto
    periods = text.split('.')
    
    for period in periods:
        # Aggiungere uno spazio per il periodo successivo, tranne che per il primo
        if current_length != 0:
            period = ' ' + period
        period_length = len(period)
        
        # Controllare se l'aggiunta del periodo corrente supera il limite di lunghezza
        if current_length + period_length <= max_length:
            current_segment += period + '.'
            current_length += period_length + 1  # Aggiunge 1 per il punto
        else:
            # Se il segmento attuale è vuoto ma il periodo è troppo lungo, lo spezziamo
            if not current_segment and period_length > max_length:
                part_length = max_length - 1  # -1 per lasciare spazio al punto
                while period:
                    segment_part = period[:part_length] + '.'
                    segments.append(segment_part)
                    period = period[part_length:].strip()
            else:
                # Salvare il segmento corrente e iniziare un nuovo segmento
                segments.append(current_segment)
                current_segment = period + '.'
                current_length = period_length + 1
    
    # Assicurarsi di aggiungere l'ultimo segmento se non è vuoto
    if current_segment:
        segments.append(current_segment)
    return segments

---
# SUMMAIZATION

---
## Data Extraction

In [4]:
path_model="model/"
path_data="data/"

df_sentence = pd.read_csv(path_data+"dataset_topics_GA_10000.csv",  sep=";;;;", encoding="utf-8")
print("La dimensione del dataset è la seguente: ",len(df_sentence))
df_sentence.head(2)

La dimensione del dataset è la seguente:  165991


Unnamed: 0,Id,FactAndLaw,Topics
0,ga-tar_cz-2021-3-1,"-OMISSIS-, Luogotenente dell&rsquo;Arma dei Ca...","""[""""Procedimento amministrativo""""]"""
1,ga-tar_fi-2021-3-1,La ricorrente agisce per ottenere l&rsquo;acce...,"""[""""Sospensione Concessione""""]"""


---
## Data analysis

In [5]:
df=df_sentence.copy()
df_without_duplicates = df.drop_duplicates()
df_without_duplicates.reset_index(drop=True,inplace=True)
print("La dimensione del dataset è la seguente: ",len(df_without_duplicates))
df_without_duplicates.head(2)['FactAndLaw'][0]
def clear_topics(x):
    chars = '"[];\\\r\\\n\\'
    return x.translate(str.maketrans('', '', chars))
df_without_duplicates['Topics']=df_without_duplicates['Topics'].apply(clear_topics)
df_without_duplicates=df_without_duplicates.dropna( subset=['FactAndLaw']).reset_index(drop=True)
print(df_without_duplicates.isna().sum())
df=pd.DataFrame(df_without_duplicates['FactAndLaw'])

La dimensione del dataset è la seguente:  164271
Id            0
FactAndLaw    0
Topics        0
dtype: int64


---
## Data Preparation

In [6]:
def preprocessing(ds,print_val=1000,first=0,end=len(df)):
    New_Testo = []
    occ=0
    occ_print=print_val
    start_time = time.time()

    with open(path_data+"exception/"+"otherStopwords.txt", "r") as tfo:
        otherstopwords = tfo.read().split('\n')
    otherstopwords=set(list(x.lower() for x in otherstopwords))
    otherstopwords=set(otherstopwords.union(['&','|','^',';','\s','\n','\t']))
    with open(path_data+"exception/"+"codifiche_accenti.txt", "r") as tfo:
        codifiche_accenti = tfo.read().split('\n')
    codifiche_accenti=set(list(x.lower() for x in codifiche_accenti))

    for _,_,files in os.walk(path_data+"exception/"):
        for file in files:
            if not file in ['codifiche_accenti.txt','otherStopwords.txt']: 
                print(f"Ci troviamo nella cartella: '{file}'")
                with open(path_data+"exception/"+file, "r") as tfo:
                    otherstopwords_plus = tfo.read().split('\n')
                otherstopwords=set(list(otherstopwords+otherstopwords_plus))
    print('Analizzare i testi dalla riga:',first,', alla riga:',end)

    # stopwords list
    eccezioni=set(codifiche_accenti.union(otherstopwords))

    
    for ind in range (first,end):
        
        testo= str(ds[ind]).lower()

        # tokenization
        word_tokens = nltk.word_tokenize(testo)
        
        filtered_sentence= [w for w in word_tokens if (not w in eccezioni)]

        document = ' '.join(filtered_sentence)
        # sostituisci risultato:
        New_Testo.append(document)
        end_time = time.time()
        t = time.strftime("%Hh:%Mm:%Ss",time.gmtime(int(end_time)-int(start_time)))
        if (occ%occ_print==0 and occ!=0) or (occ==(len(ds)-1)):
            print('analizzati',occ,'record',",tempo impiegato per trasformare",occ_print,"file: "+t,'size del vettore:',len(New_Testo)-1)
            start_time = time.time()
        occ+=1
    return New_Testo

def index_download(indice_path):
    ind=0
    if not Path(indice_path).exists():
        f= open(indice_path, "w")
        f.write(str(0))
        f.close()
    f=open(indice_path,"r")
    ind=int(f.read())
    f.close()
    return int(ind)

def carica_text(indice,path_d):
    if not Path(path_d).exists():
        print('Creato file di checkpoint per il nostro array dei testi processati')
        with open(path_d, 'w') as temp:
            primo=preprocessing(testi,10,indice,indice+1)
            pp=pd.DataFrame(primo, columns = ['FactAndLaw'])
            pp.to_csv(temp, index=False)
            indice+=1
    with open (path_d, 'r') as temp:
        processed_text = pd.read_csv(temp)
    return processed_text,indice

def salva_text(indice,testi, indice_path, path_d):
    with open(indice_path, 'w') as temp:
        temp.truncate(0)
        temp.write(str(indice))
        temp.close()

    with open(path_d, 'w') as temp:
        testi.to_csv(temp, index=False)
    return testi

def preprocessing_col(testi, indice_path,path_d):
    print('I record in totale sono:',len(testi))
    indice=index_download(indice_path)
    print("L'ultimo checkpoit è stato al record:",indice)

    text_loaded,indice=carica_text(indice,path_d)

    intervall=5

    stampa_ogni=(len(df))//intervall
    end_ds=indice+(stampa_ogni*intervall)
    # step_NO
    # end_ds=end_ds//4
    stampa_ogni=stampa_ogni//10
    processed_text_final=text_loaded
    if indice==1:
        end_ds-=1
    if end_ds>len(testi):
        end_ds=len(testi)
    if indice!=len(testi):
        new_text_processed=pd.DataFrame( preprocessing(testi,stampa_ogni,indice,end_ds),columns = ['FactAndLaw'])
        processed_text=pd.concat([text_loaded,new_text_processed],ignore_index=True)
        processed_text_final=salva_text(end_ds,processed_text,indice_path,path_d)

    return processed_text_final


testi=df['FactAndLaw'].copy().tolist()

start_time = time.time()
processed_sentence_final=preprocessing_col(testi,path_data+"index_scan_sentence.txt",path_data+'outputfile_sentence_processed.csv')
end_time = time.time()
t = time.strftime("%Hh:%Mm:%Ss",time.gmtime(int(end_time)-int(start_time)))
print("Tempo totale impiegato per la trasformazione dei files: "+t)

print(processed_sentence_final.info())
len(processed_sentence_final)
processed_sentence_final.head(2)

I record in totale sono: 164271
L'ultimo checkpoit è stato al record: 164271
Tempo totale impiegato per la trasformazione dei files: 00h:00m:17s
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 164271 entries, 0 to 164270
Data columns (total 1 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   FactAndLaw  164271 non-null  object
dtypes: object(1)
memory usage: 1.3+ MB
None


Unnamed: 0,FactAndLaw
0,", luogotenente dell arma dei carabinieri , ha ..."
1,la ricorrente agisce per ottenere l accesso al...


---
## Preparation final Dataset

In [7]:
Data_Set=pd.DataFrame({'text':list(processed_sentence_final['FactAndLaw'])})
Data_Set.head(2)

Unnamed: 0,text
0,", luogotenente dell arma dei carabinieri , ha ..."
1,la ricorrente agisce per ottenere l accesso al...


---
# SUMMAIZATION

---
## SET API KEY OPEN-AI

In [8]:
# Once you add your API key below, make sure to not share it with anyone! The API key should remain private.
OPENAI_API_KEY='your_api'

client = OpenAI(api_key=OPENAI_API_KEY)
# defaults to getting the key using os.environ.get("OPENAI_API_KEY")
# if you saved the key under a different environment variable name, you can do something like:
# client = OpenAI(
#   api_key=os.environ.get("CUSTOM_ENV_NAME"),
# )

---
## Generazione richiesta

In [9]:
def generate_summary(text):
    input_chunks = text
    completion = client.chat.completions.create(
      model="gpt-3.5-turbo",
      messages=[
        {"role": "system", "content": "Legal Assistant able to analyze the text of the judgment extract its main concepts, identify relevant legal precedents, and provide a detailed summary."},
        # {"role": "user", "content": "Summarize the following article and return the result into Italian:\n"+input_chunks}
        {"role": "user", "content": "Summarize the following article:\n"+input_chunks}
      ]
    )
    output_chunks=completion.choices
    output_gen=output_chunks[0].message
    return output_chunks,output_gen.content

def generate_translation(text,language_from="English",language_to="Italian"):
    input_chunks = text
    completion = client.chat.completions.create(
      model="gpt-3.5-turbo",
      messages=[
        {"role": "user", "content": "Translate the following article written in "+language_from+" into "+language_to+":\n"+input_chunks}
      ]
    )
    output_chunks=completion.choices
    output_gen=output_chunks[0].message
    return output_gen.content

In [10]:
path_data="data/"

df_sentence = pd.read_csv(path_data+"outputfile_sentence_processed.csv",  sep=";;;;", encoding="utf-8")
print("La dimensione del dataset è la seguente: ",len(df_sentence))

r= random.randint(0,len(df_sentence['FactAndLaw']))
text=str(df['FactAndLaw'][r])

text=str(Data_Set['text'][r])
print(wrap(text))

with open(path_data+"/Input.txt", "w") as text_file:
    text_file.write(wrap(text))

La dimensione del dataset è la seguente:  164271
1. con atto depositato in data 1 marzo 2019 , i signori armando
vecchio ed ettore vecchio nonch l avv . luigi imperia hanno proposto
ricorso innanzi a questo tribunale amministrativo regionale contro il
ministero della giustizia per ottenere l esecuzione del giudicato
derivante dal decreto ex l.  n.  89/2001 , emesso dalla corte d
appello di roma sezione equa riparazione il 22 settembre 2016 e
depositato il 5 ottobre 2016 ( n.  cronol . 6894/2016 , procedimento
iscritto al ruolo n.  51406/2016 v.g . ) , esponendo che : - con il
predetto decreto , il ministero della giustizia stato condannato a
corrispondere ai ricorrenti vecchio armando e vecchio ettore , a
titolo di equa riparazione per l irragionevole durata del processo ,
la somma di 2.000,00 ( duemila/00 ) ciascuno , oltre gli interessi
legali dalla domanda ( 28/06/16 ) al saldo , nonch alla rifusione
delle spese di giudizio , liquidate nella somma di 450,00 (
quattrocentocinquanta/0

In [19]:
# english_text=generate_translation(text,language_from="Italian",language_to="English")
# output_chunks,output_gen_summary=generate_summary(english_text)
# output_gen=generate_translation(output_gen_summary,language_from="English",language_to="Italian")
# output_gen

"Gli attori, Armando Vecchio, Ettore Vecchio e l'avvocato Luigi Imperia, hanno presentato un ricorso presso il Tribunale Amministrativo Regionale contro il Ministero della Giustizia al fine di ottenere l'esecuzione di una sentenza derivante da un decreto emesso dalla Corte d'Appello di Roma. Nel decreto, il Ministero della Giustizia è stato condannato a versare la somma di 2.000 euro a ciascun attore a titolo di equa riparazione per la durata irragionevole del processo, oltre agli interessi legali e alle spese processuali. Nonostante il decreto sia stato munito di formula esecutiva e notificato al Ministero della Giustizia, quest'ultimo non ha adempiuto agli obblighi di pagamento. Pertanto, gli attori hanno chiesto al Tribunale di adottare misure per assicurare l'esecuzione del decreto e di nominare un commissario ad acta nel caso di ulteriore inerzia. Durante il procedimento, è stato sollevato un possibile profilo di inammissibilità del ricorso dovuto alla mancata allegazione delle di

In [51]:
# with open(path_data+"/Output-chatgpt.txt", "w") as text_file:
#     text_file.write(wrap(output_gen))

---
# LLAMA 2

In [29]:
mytoken='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'
# devi accettare il seguente permesso
# https://huggingface.co/meta-llama/Llama-2-7b-chat-hf

# esempio di utilizzo
# https://medium.com/@ankit941208/generating-summaries-for-large-documents-with-llama2-using-hugging-face-and-langchain-f7de567339d2
# login()
login(mytoken)
model = "meta-llama/Llama-2-7b-chat-hf"
# tokenizer = AutoTokenizer.from_pretrained(model,token=mytoken)
# model = AutoModelForCausalLM.from_pretrained(model,token=mytoken)

tokenizer = AutoTokenizer.from_pretrained(model,token=mytoken)
MAX_LENGTH=512#3000

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to C:\Users\matti\.cache\huggingface\token
Login successful


In [30]:
def summary_generator_LLaMA2(text,MAX_LENGTH=MAX_LENGTH):
  pipeline = transformers.pipeline(
      "text-generation",
      model=model,
      tokenizer=tokenizer,
      torch_dtype=torch.bfloat16,
      trust_remote_code=True,
      device_map="auto",
      max_length= MAX_LENGTH,
      do_sample=True,
      top_k=10,
      num_return_sequences=1,
      eos_token_id=tokenizer.eos_token_id
  )
  llm=HuggingFacePipeline(pipeline=pipeline, model_kwargs={'temperature':0})
  summary_prompt = """
              Summarize the following article.
              Translate the result into Italian.
              \n"""+text+"""\n
              SUMMARY:
           """
  return llm(summary_prompt)

In [31]:
template = """
              Summarize the following article.
              Translate the result into Italian.
              ```{text}```
              SUMMARY:
           """
llm = HuggingFacePipeline(pipeline = pipeline, model_kwargs = {'temperature':0})
prompt = PromptTemplate(template=template, input_variables=["text"])
# llm_chain = LLMChain(prompt=prompt, llm=llm) impiega molto tempo

---
# T5

In [32]:
tokenizer=AutoTokenizer.from_pretrained('T5-large')
model=AutoModelWithLMHead.from_pretrained('T5-base', return_dict=True)

MAX_LENGTH=512

In [33]:
def generete_summary_t5(text):
    try:
        traslation,_=translate(text,from_lang='it',to_lang="en")
        text=traslation
    except:
        print()
    segments=split_text_in_periods(text)
    max_length=MAX_LENGTH//2#100
    min_length=(max_length)//4#80
    summary_final=[]
    for text in segments:
        sequence = text
        inputs=tokenizer.encode("sumarize: " +sequence,return_tensors='pt', max_length=MAX_LENGTH,truncation=True)
        output = model.generate(inputs, min_length=min_length, max_length=max_length)
        summary=tokenizer.decode(output[0])
        if not('....' in summary):
            summary_final.append(summary[5:-4])   
    traslation=''.join(summary_final)
    try:
        traslation,_=translate(''.join(summary_final),from_lang='en',to_lang="it")
    except:
        print()
    return traslation,segments
sequence = text
summary,segments=generete_summary_t5(text)
wrap(summary)

"302/1990. a) Violazione dell'autorità di cosa giudicata della sentenza\nn.  97/2000. b) Violazione dell'autorità di cosa giudicata della\nsentenza n.  97/2000. c) Violazione dell'autorità di cosa giudicata\ndella sentenza n.  97/2000. d) Violazione dell'autorità di cosa\ngiudicata della sentenza n.  97/2000. e) violazione del TAR Lazio,\nart.  I ter, del 7/11/2017, manifesta ingiustizia, violazione e falsa\napplicazione dell'art.  1, 4 e 7 della Legge 302/1990 e successive\nmodifiche.  d.  p.  r.510/1999, manifesta ingiustizia, violazione e\nfalsa applicazione dell'art.  97 Cost.  3 della legge 241/90, difetto\ndi motivazione e contraddizione 2 ) violazione e falsa applicazione\ndelle norme e dei principi menzionati nel primo motivo sotto diversi\nprofili.  Poiché la motivazione contenuta nel decreto impugnato è in\ncontrasto con gli esiti del procedimento penale 3) violazione\ndell'art.una memoria depositata il 21 novembre 2020 con la quale si\nchiedeva il rinvio dell'udienza per con

In [34]:
with open(path_data+"/Output-t5.txt", "w") as text_file:
    text_file.write(wrap(summary))

---
# Summarize distilbart

In [35]:
print(wrap(text))
print(len(text))

con ricorso , notificato il 29 ottobre 2020 e depositato il successivo
5 novembre , gli odierni ricorrenti hanno impugnato il decreto del
ministero dell interno meglio descritto in epigrafe con cui stata
respinta l istanza tesa ad ottenere il riconoscimento dei benefici di
cui alla legge n.  302/1990 . a sostegno della domanda i ricorrenti
articolano i seguenti motivi di doglianza : 1 ) la violazione del
giudicato formatosi sulla sentenza n.  11071/2017 emessa dal tar lazio
, sez . i ter , del 7/11/2017 , la violazione e/o falsa applicazione
degli artt . 1 , 4 e 7 della legge 302/1990 e s.m.i.  , del d.p.r .
510/1999 , ingiustizia manifesta , violazione e falsa applicazione
dell art . 97 cost.  , delle norme in materia di giusto procedimento e
affidamento , dell art . 3 della legge 241/90 , difetto di motivazione
e contraddittoriet 2 ) violazione e falsa applicazione delle norme e
dei principi menzionati nel primo motivo sotto il diverso profilo ,
atteso che la motivazione contenuta ne

In [36]:
summarizer = pipeline('summarization',model='sshleifer/distilbart-cnn-12-6')

def generete_summary_distilbart(text,summarizer=summarizer):
    try:
        traslation,_=translate(text,from_lang='it',to_lang="en")
        text=traslation
    except:
        print()
    segments=split_text_in_periods(text)
    max_length=MAX_LENGTH//8
    min_length=(max_length)//16
    summary_final=[]
    for text in segments:
        sequence = text
        summarized = summarizer(sequence, min_length=min_length, max_length=max_length)
        summary_final.append(str(summarized[0]['summary_text']))
    traslation=''.join(summary_final)
    try:
        traslation,_=translate(traslation,from_lang='en',to_lang="it")
    except:
        print()
    try:
        traslation,_=translate(traslation,from_lang='en',to_lang="it")
    except:
        print()
    return traslation,segments
sequence = text
summary,segments=generete_summary_distilbart(text)
wrap(summary)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.
Your max_length is set to 64, but your input_length is only 62. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=31)
Your max_length is set to 64, but your input_length is only 41. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=20)
Your max_length is set to 64, but your input_length is only 59. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=29)


"Con un ricorso, gli odierni ricorrenti impugnavano il decreto del\nMinistero dell'Interno meglio descritto in epigrafe con il quale la\ndomanda mirava ad ottenere il riconoscimento dei benefici di cui alla\nLegge n.  302/1990 .  A sostegno del loro ricorso, le ricorrenti\ndeducono le seguenti censure .  TAR Lazio sez.  I ter, sez.\n11071/2017 emesso dal TAR Lazio, del 7/11/2017.La violazione e/o la\nfalsa applicazione dell'art.    1, 4 e 7 della Legge 302/1990 e\nsuccessive modifiche.  Legge 241/90 , difetto di motivazione e\ncontraddizione 2 ) violazione e falsa applicazione delle norme e dei\nprincipi menzionati nel primo motivo sotto diversi profili .  La\nmotivazione contenuta nel decreto impugnato è contraria agli esiti del\nprocedimento penale .L amministrazione convenuta si è costituita in\ngiudizio con memoria depositata in data 21 novembre 2020 con la quale\nsi chiedeva il rinvio dell udienza per consentire il completamento\ndell istruttoria avviata a seguito della notifica d

In [37]:
print(wrap(summary))
print(len(summary))

Con un ricorso, gli odierni ricorrenti impugnavano il decreto del
Ministero dell'Interno meglio descritto in epigrafe con il quale la
domanda mirava ad ottenere il riconoscimento dei benefici di cui alla
Legge n.  302/1990 .  A sostegno del loro ricorso, le ricorrenti
deducono le seguenti censure .  TAR Lazio sez.  I ter, sez.
11071/2017 emesso dal TAR Lazio, del 7/11/2017.La violazione e/o la
falsa applicazione dell'art.    1, 4 e 7 della Legge 302/1990 e
successive modifiche.  Legge 241/90 , difetto di motivazione e
contraddizione 2 ) violazione e falsa applicazione delle norme e dei
principi menzionati nel primo motivo sotto diversi profili .  La
motivazione contenuta nel decreto impugnato è contraria agli esiti del
procedimento penale .L amministrazione convenuta si è costituita in
giudizio con memoria depositata in data 21 novembre 2020 con la quale
si chiedeva il rinvio dell udienza per consentire il completamento
dell istruttoria avviata a seguito della notifica dell odierno
ric

In [38]:
with open(path_data+"/Output-distilbart.txt", "w") as text_file:
    text_file.write(wrap(summary))