<a href="https://colab.research.google.com/github/AndreaMarini01/NLP_tasks/blob/main/Summarizing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%pip install spacy
%pip install nltk
%pip install transformers
%pip install transformers
%pip install torch
%pip install rouge-score evaluate
!python -m spacy download it_core_news_sm

Collecting it-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.7.0/it_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m51.6 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
import spacy
from spacy.tokens import Doc
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk import pos_tag, ne_chunk
from nltk.tree import Tree
from typing import List, Tuple
import os
import nltk
import re

# Caricamento del modello spaCy per l'analisi NLP
nlp = spacy.load("it_core_news_sm")

def preprocess_text(text: str) -> str:
    # Suddividi il testo in frasi
    # Imposta una directory locale per il download
    nltk_data_dir = './nltk_data'
    if not os.path.exists(nltk_data_dir):
      os.makedirs(nltk_data_dir)

    nltk.download('punkt_tab', download_dir=nltk_data_dir)
    # Aggiungi manualmente il percorso alla ricerca di NLTK
    nltk.data.path.append(nltk_data_dir)
    sentences = sent_tokenize(text)
    processed_sentences = []

    for sentence in sentences:
        # Rimuovi eventuali spazi iniziali e converti la prima lettera in minuscolo
        if len(sentence) > 1:
            sentence = sentence.strip()  # Rimuovi spazi iniziali/finali
            sentence = sentence[0].lower() + sentence[1:]  # Converte la prima lettera in minuscolo
        processed_sentences.append(sentence)

    # Unisci le frasi con uno spazio, mantenendo i punti
    processed_text = " ".join(processed_sentences)

    # Trasforma in minuscolo ogni parola che segue un punto
    processed_text = re.sub(r'(?<=\.\s)(\w)', lambda match: match.group(0).lower(), processed_text)

    return processed_text

# Funzione per la segmentazione delle frasi
# Segmentazione: trasfromazione del testo in singole frasi
def sentence_segmentation(text: str) -> List[str]:
    return sent_tokenize(text)

# Funzione per la tokenizzazione delle parole
def word_tokenization(sentence: str) -> List[str]:
    return word_tokenize(sentence)

# Funzione per il Part of Speech Tagging
# Assegnamento della funziona grammaticale di una parola
def pos_tagging_with_spacy(text: str) -> List[Tuple[str, str]]:
    doc = nlp(text)  # Analizza il testo con spaCy
    return [(token.text, token.pos_) for token in doc]  # Restituisce i token con i tag POS

# Funzione per la Named Entity Recognition (NER)
# Ricerca di elementi chiave nel testo (entità)
def named_entity_recognition(doc: Doc) -> List[Tuple[str, str]]:
    return [(ent.text, ent.label_) for ent in doc.ents]

# Funzione per la Key Phrase Extraction
# Identificazione di parole chiave rilevanti per l'estrazione
def key_phrase_extraction(doc: Doc) -> List[str]:
    return [chunk.text for chunk in doc.noun_chunks]

# Funzione per il Syntactic Parsing
# Analisi per comprendere le relazioni tra le parole
def syntactic_parsing(doc: Doc):
    return [(token.text, token.dep_, token.head.text) for token in doc]

# Funzione per la Coreference Resolution
# Collegamento tra parole e entità
def coreference_resolution(doc: Doc) -> List[Tuple[str, List[str]]]:
    # Mock: restituirebbe risoluzione dei riferimenti
    return [("entity1", ["pronome1", "entità correlata"])]  # Personalizzare con librerie aggiuntive

# Funzione per la Relation Extraction
# Identificazione delle relazioni tra entità
def relation_extraction(doc: Doc) -> List[Tuple[str, str, str]]:
    relations = []
    for token in doc:
        if token.dep_ == "nsubj" and token.head.dep_ == "ROOT":
            relations.append((token.text, token.head.text, token.head.children))
    return relations

# Funzione per l'Event Extraction
# Individuazione di eventi nel testo
def event_extraction(doc: Doc) -> List[Tuple[str, List[str]]]:
    events = []
    for token in doc:
        if token.ent_type_ in ["EVENT"]:
            events.append((token.text, [child.text for child in token.children]))
    return events

# Pipeline di Information Extraction
def information_extraction_pipeline(text: str):
    sentences = sentence_segmentation(text)
    for sentence in sentences:
        print(f"\nFrase: {sentence}")

        tokens = word_tokenization(sentence)
        print(f"Token: {tokens}")

        pos_tags = pos_tagging_with_spacy(sentence)  # Passa la frase come stringa
        print(f"Part of Speech Tagging: {pos_tags}")

        doc = nlp(sentence)

        ner = named_entity_recognition(doc)
        print(f"Named Entity Recognition: {ner}")

        key_phrases = key_phrase_extraction(doc)
        print(f"Key Phrase Extraction: {key_phrases}")

        syntactic_structure = syntactic_parsing(doc)
        print(f"Syntactic Parsing: {syntactic_structure}")

        coreferences = coreference_resolution(doc)
        print(f"Coreference Resolution: {coreferences}")

        relations = relation_extraction(doc)
        print(f"Relation Extraction: {relations}")

        events = event_extraction(doc)
        print(f"Event Extraction: {events}")


# Lettura del testo da un file
def read_text_from_file(file_path: str) -> str:
    with open(file_path, "r", encoding="utf-8") as file:
        return file.read()

# Esegui la pipeline sul testo di un file
file_path = "/content/TextSummarizing.txt"
testo = read_text_from_file(file_path)
processed_text = preprocess_text(testo)
information_extraction_pipeline(processed_text)

[nltk_data] Downloading package punkt_tab to ./nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!



Frase: negli ultimi anni, l'Intelligenza Artificiale (IA) ha avuto un impatto profondo e rivoluzionario su molteplici settori, trasformando radicalmente il modo in cui le persone vivono, lavorano e interagiscono con le tecnologie digitali.
Token: ['negli', 'ultimi', 'anni', ',', "l'Intelligenza", 'Artificiale', '(', 'IA', ')', 'ha', 'avuto', 'un', 'impatto', 'profondo', 'e', 'rivoluzionario', 'su', 'molteplici', 'settori', ',', 'trasformando', 'radicalmente', 'il', 'modo', 'in', 'cui', 'le', 'persone', 'vivono', ',', 'lavorano', 'e', 'interagiscono', 'con', 'le', 'tecnologie', 'digitali', '.']
Part of Speech Tagging: [('negli', 'ADP'), ('ultimi', 'ADJ'), ('anni', 'NOUN'), (',', 'PUNCT'), ("l'", 'DET'), ('Intelligenza', 'PROPN'), ('Artificiale', 'PROPN'), ('(', 'PUNCT'), ('IA', 'PROPN'), (')', 'PUNCT'), ('ha', 'AUX'), ('avuto', 'VERB'), ('un', 'DET'), ('impatto', 'NOUN'), ('profondo', 'ADJ'), ('e', 'CCONJ'), ('rivoluzionario', 'ADJ'), ('su', 'ADP'), ('molteplici', 'ADJ'), ('settori', '

In [3]:
from transformers import pipeline

def chunk_text(text: str, max_tokens: int = 1024) -> list:
    """
    Divide il testo in blocchi di lunghezza massima specificata.
    :param text: Testo da segmentare.
    :param max_tokens: Lunghezza massima per ogni blocco (in token).
    :return: Lista di blocchi di testo.
    """
    sentences = text.split('. ')  # Segmenta il testo in frasi
    chunks = []
    current_chunk = ""

    for sentence in sentences:
        if len(current_chunk) + len(sentence) + 1 <= max_tokens:
            current_chunk += sentence + ". "
        else:
            chunks.append(current_chunk.strip())
            current_chunk = sentence + ". "

    if current_chunk:  # Aggiungi l'ultimo blocco
        chunks.append(current_chunk.strip())

    return chunks


def summarize_text(text: str, max_length: int = 200, min_length: int = 100) -> str:
    """
    Riassume il testo utilizzando un modello di Hugging Face.
    :param text: Il testo da riassumere.
    :param max_length: Lunghezza massima del riassunto.
    :param min_length: Lunghezza minima del riassunto.
    :return: Riassunto del testo.
    """
    # Carica la pipeline di summarization
    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

    # Suddividi il testo in blocchi gestibili
    chunks = chunk_text(text, max_tokens=1024)

    # Genera i riassunti per ogni blocco
    summaries = []
    for chunk in chunks:
        summary = summarizer(
            chunk,
            max_length=max_length,
            min_length=min_length,
            do_sample=False
        )[0]['summary_text']
        summaries.append(summary)

    # Combina i riassunti in un unico testo
    final_summary = " ".join(summaries)

    # Post-processing: assicurati che termini con un punto
    if not final_summary.endswith('.'):
        last_period_index = final_summary.rfind('.')
        if last_period_index != -1:
            final_summary = final_summary[:last_period_index + 1]

    return final_summary

# Riassunto del testo preprocessato
summary = summarize_text(processed_text, max_length=200, min_length=100)
print("Riassunto del testo:")
print(summary)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Device set to use cpu


Riassunto del testo:
L'Intelligenza Artificiale (IA) ha avuto un impatto profondo e rivoluzionario su molteplici settori. Il Natural Language Processing (NLP) emerge come uno dei più affascinanti e promettenti. Questo campo combina competenze avanzate di linguistica, informatica e matematica. L’NLP è alla base di molte tecnologie che ormai consideriamo indispensabili nella vita quotidiana. Analisi del sentiment consente individuare tendenze emergenti, anticipare crisi reputazionali e personalizzare le strategie di comunicazione. L’analisi automatizzata di testi provenienti da social media, recensioni e sondaggi, possono ottenere una panoramica delle opinioni e dei sentimenti del pubblico nei confronti di un prodotto, un servizio o un marchio. NLP è il summarizing automatico. Questo strumento permette di sintetizzare grandi quantità di informazioni in riassunti concisi e facilmente comprensibili. la sintesi dei testi è particolarmente utile in settori such as giornalismo. Siri, Alexa e 

In [4]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# Caricamento del modello
model = SentenceTransformer('all-MiniLM-L6-v2')

# Preprocessing del testo originale
processed_text = preprocess_text(processed_text)  # Applica la funzione di preprocessing

# Calcolo degli embeddings per il testo originale e il riassunto
original_embedding = model.encode(processed_text)  # Passa il testo preprocessato
summary_embedding = model.encode(summary)  # Passa il riassunto

# Calcolo della similarità del coseno
similarity = cosine_similarity([original_embedding], [summary_embedding])

# Stampa della similarità
print("Cosine Similarity:", similarity[0][0])


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

[nltk_data] Downloading package punkt_tab to ./nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Cosine Similarity: 0.7794912
