In [None]:
import os
import json
import nltk
import re
from nltk.tokenize import sent_tokenize, word_tokenize

nltk.download('punkt')  # Assicura che i modelli necessari siano scaricati

# Percorsi dei file di output
output_txt_path = "/mnt/data/unified_bandi.txt"
output_json_path = "/mnt/data/unified_bandi.json"

# Lista di file caricati
document_files = ["/mnt/data/plain_9", "/mnt/data/plain_10", "/mnt/data/plain_11", "/mnt/data/plain_12"]

def clean_text(text):
    """Effettua la pulizia del testo rimuovendo caratteri speciali e spazi extra."""
    text = re.sub(r'[^\w\s.,!?]', '', text)  # Rimuove caratteri non alfanumerici tranne punteggiatura
    text = re.sub(r'\s+', ' ', text).strip()  # Rimuove spazi extra
    return text

def segment_text(text):
    """Segmenta il testo in frasi usando nltk."""
    sentences = sent_tokenize(text)
    return "\n".join(sentences)  # Ritorna le frasi separate da una nuova riga

# Creazione della lista JSON
documents = []

# Unificazione dei file
with open(output_txt_path, "w", encoding="utf-8") as txt_file:
    for file_path in document_files:
        if os.path.exists(file_path):
            with open(file_path, "r", encoding="utf-8") as f:
                content = f.read()
                doc_id = os.path.basename(file_path).replace("plain_", "").strip()
                
                # Pulizia e segmentazione
                cleaned_content = clean_text(content)
                segmented_content = segment_text(cleaned_content)
                
                # Scrivere su file di testo
                txt_file.write(f"\n--- Document {doc_id} ---\n")
                txt_file.write(segmented_content + "\n")
                
                # Aggiungere al JSON
                documents.append({"id": doc_id, "content": segmented_content})

# Salvare il JSON
with open(output_json_path, "w", encoding="utf-8") as json_file:
    json.dump(documents, json_file, ensure_ascii=False, indent=4)

print(f"Processo completato! File salvati: {output_txt_path}, {output_json_path}")
