In [19]:
import nltk
from nltk.tokenize import sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.cluster.util import cosine_distance

# Scarica i dati necessari per il tokenizzazione delle frasi e le stop words.
nltk.download('punkt')
nltk.download('stopwords')

# Funzione per calcolare la similarità tra due blocchi di testo utilizzando la distanza coseno.
def sentence_similarity(sent1, sent2, stopwords=None):
    if stopwords is None:
        stopwords = []
 
    words1 = [word.lower() for word in sent1]
    words2 = [word.lower() for word in sent2]
 
    all_words = list(set(words1 + words2))
 
    vector1 = [0] * len(all_words)
    vector2 = [0] * len(all_words)
 
    # Riempimento dei vettori delle parole per le due frasi
    for w in words1:
        if w not in stopwords:
            vector1[all_words.index(w)] += 1
 
    for w in words2:
        if w not in stopwords:
            vector2[all_words.index(w)] += 1
 
    return 1 - cosine_distance(vector1, vector2)

# Funzione per eseguire il text tiling
def text_tiling(text, num_tiles):
    # Tokenizzazione del testo in frasi
    sentences = sent_tokenize(text)
    print(sentences)
    
    # Rimozione delle stopwords e stemming
    stop_words = set(stopwords.words('english'))
    ps = PorterStemmer()
    tokenized_sentences = [[ps.stem(word) for word in sentence.split() if word not in stop_words] for sentence in sentences]

    # Calcolo delle similarità tra frasi adiacenti
    sentence_similarity_matrix = [[sentence_similarity(sent1, sent2, stop_words) for sent2 in tokenized_sentences] for sent1 in tokenized_sentences]
    
    # Calcolo delle somme delle similarità per ogni frase
    sentence_similarity_scores = [sum(similarity_row) for similarity_row in sentence_similarity_matrix]

    # Trovare i punti di divisione
    boundaries = [0]
    for i in range(1, len(sentence_similarity_scores)):
        if sentence_similarity_scores[i] < sentence_similarity_scores[i - 1]:
            boundaries.append(i)

    # Dividere il testo in parti basate sui punti di divisione
    tiles = []
    for i in range(len(boundaries) - 1):
        start = boundaries[i]
        end = boundaries[i + 1]
        tile = ' '.join(sentences[start:end])
        tiles.append(tile)

    # Assicurarsi di ottenere almeno 3 parti
    while len(tiles) < num_tiles:
        tiles.append("")

    return tiles[:num_tiles]

# Test del text tiling con un esempio di testo
text = """
Questo è un esempio di testo da suddividere utilizzando il text tiling. Il text tiling è una tecnica di analisi testuale che suddivide il testo in blocchi coesi basati sulla similarità tra le frasi. Questo testo di esempio ha tre parti principali. La prima parte riguarda il text tiling e la sua definizione. La seconda parte spiega come calcolare la similarità tra frasi e come identificare i punti di divisione. La terza parte illustra l'uso di NLTK per implementare il text tiling in Python.
"""

# Specifica il percorso del file che desideri leggere
file_path = "./document.txt"

# Apre il file in modalità di lettura ('r')
with open(file_path, 'r') as file:
        # Legge il contenuto del file e lo assegna a una variabile (ad esempio, 'content')
    text = file.read()
        # Puoi ora elaborare il contenuto del file come desideri

num_tiles = 3

result = text_tiling(text, num_tiles)

# Stampa le tre parti del testo suddivise
for i, part in enumerate(result):
    print(f"Parte {i + 1}:\n{part}\n")


['In common usage and medicine, health, according to the World Health Organization, is "a state of complete physical, mental and social well-being and not merely the absence of disease and infirmity".', '[1] A variety of definitions have been used for different purposes over time.', 'Health can be promoted by encouraging healthful activities, such as regular physical exercise and adequate sleep,[2] and by reducing or avoiding unhealthful activities or situations, such as smoking or excessive stress.', 'Some factors affecting health are due to individual choices, such as whether to engage in a high-risk behavior, while others are due to structural causes, such as whether the society is arranged in a way that makes it easier or harder for people to get necessary healthcare services.', 'Still, other factors are beyond both individual and group choices, such as genetic disorders.', 'The meaning of health has evolved over time.', "In keeping with the biomedical perspective, early definition

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/rossellaborra/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/rossellaborra/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
