<a href="https://colab.research.google.com/github/sergiomora03/AdvancedTopicsAnalytics/blob/main/exercises/E7-TextSummary.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Text Summary

Text summarization is important in the field of machine learning and natural language processing for several reasons:

1. **Information Retrieval:** Text summarization helps users quickly grasp the main points or key information from a large document, making it easier to decide whether to read the full document or not. This is particularly valuable in scenarios where individuals are inundated with vast amounts of textual data, such as news articles, research papers, or social media posts.

2. **Time Efficiency:** Summarization algorithms can process and generate summaries much faster than humans can read and summarize large texts. This saves time and allows users to focus their attention on the most relevant content.

3. **Content Extraction:** Text summarization can automatically extract essential information from a document, enabling applications like content recommendation, keyword extraction, and topic modeling.

4. **Content Generation:** Summarization models can be used to generate concise, coherent, and informative summaries for various purposes, such as creating abstracts for research papers, news article headlines, or social media post previews.

5. **Multilingual Support:** Text summarization can be applied to texts in multiple languages, making it a valuable tool for global communication and information retrieval.

6. **Personalization:** Summarization can be personalized to individual preferences. Machine learning models can learn from user feedback to generate summaries that align more closely with a user's interests and priorities.

7. **Scalability:** As the volume of digital content continues to grow, automated summarization becomes crucial for scaling information processing and retrieval. Machine learning-based summarization models can adapt and handle large volumes of text efficiently.

8. **Legal and Compliance:** In legal and regulatory contexts, automated summarization can help organizations review contracts, policies, and legal documents to ensure compliance and identify critical clauses or information.

9. **Search Engine Optimization (SEO):** Summarized content can be used to create concise and engaging snippets for search engine results, improving the discoverability of web content.

10. **Content Creation:** Summarization can be integrated into content creation tools, helping authors and content creators generate concise and informative content more efficiently.

Overall, text summarization is an essential component of machine learning and natural language processing, enabling efficient information retrieval, content extraction, and content generation across a wide range of applications and industries. It plays a critical role in handling the ever-increasing amount of textual data available in the digital age.

---
Exercise:

Now, as a data scientist expert in NLP, you are asked to create a model to be able to summarize text in Spanish. Your stakeholders will pass you an article and your model should summarize it.

In [1]:
!pip install requests beautifulsoup4



In [2]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar el contenido del artículo (puedes inspeccionar el HTML de la página para encontrar la estructura adecuada)
    article_content = soup.find("div", {"class": "article-content"})

    # Extraer el texto del artículo
    article_text = ""
    for paragraph in article_content.find_all("p"):
        article_text += paragraph.get_text() + "\n"

    # Imprimir el texto del artículo
    print(article_text)
else:
    print("Error al obtener la página:", response.status_code)

Over the course of February, Geoffrey Hinton, one of the most influential AI researchers of the past 50 years, had a “slow eureka moment.”
Hinton, 76, has spent his career trying to build AI systems that model the human brain, mostly in academia before joining Google in 2013. He had always believed that the brain was better than the machines that he and others were building, and that by making them more like the brain, they would improve. But in February, he realized “the digital intelligence we’ve got now may be better than the brain already. It’s just not scaled up quite as big.” 
Developers around the world are currently racing to build the biggest AI systems that they can. Given the current rate at which AI companies are increasing the size of models, it could be less than five years until AI systems have 100 trillion connections—roughly as many as there are between neurons in the human brain.
Alarmed, Hinton left his post as VP and engineering fellow in May and gave a flurry of in

In [3]:
pip install transformers torch



In [4]:
# Convertir el texto a una sola línea eliminando saltos de línea
article_text_single_line = article_text.replace("\n", " ")

# Imprimir el texto del artículo en una sola línea
article_text_single_line

'Over the course of February, Geoffrey Hinton, one of the most influential AI researchers of the past 50 years, had a “slow eureka moment.” Hinton, 76, has spent his career trying to build AI systems that model the human brain, mostly in academia before joining Google in 2013. He had always believed that the brain was better than the machines that he and others were building, and that by making them more like the brain, they would improve. But in February, he realized “the digital intelligence we’ve got now may be better than the brain already. It’s just not scaled up quite as big.”  Developers around the world are currently racing to build the biggest AI systems that they can. Given the current rate at which AI companies are increasing the size of models, it could be less than five years until AI systems have 100 trillion connections—roughly as many as there are between neurons in the human brain. Alarmed, Hinton left his post as VP and engineering fellow in May and gave a flurry of i

- **Importación de Módulos:** Se importan los módulos transformers y logging, que son necesarios para trabajar con el modelo BART (un modelo de Transformer para tareas de procesamiento de lenguaje natural, como la generación de resúmenes) y para configurar el nivel de registro, respectivamente.

- **Configuración del Nivel de Registro:** Se ajusta el nivel de registro a ERROR utilizando transformers.logging.set_verbosity_error(). Esto se hace para omitir las advertencias generadas por la biblioteca transformers, mostrando solo errores en la salida. Esto ayuda a mantener la salida más limpia y centrada en los errores críticos.

- **Supresión de Advertencias:** Se utiliza el módulo warnings para filtrar y suprimir todas las advertencias dentro del entorno de ejecución. Esto asegura que cualquier advertencia, no solo las de transformers, no se muestren, lo que puede ser útil para evitar distracciones con mensajes de advertencia no críticos durante la ejecución del código.

- **Inicialización del Tokenizer de BART:** Se carga el tokenizer para el modelo facebook/bart-large-cnn usando BartTokenizer.from_pretrained("facebook/bart-large-cnn"). Este tokenizer es específico para el modelo BART y se utiliza para convertir el texto en tokens, lo cual es un paso necesario para procesar el texto con el modelo BART.

- **Tokenización del Texto:** Se tokeniza el texto contenido en article_text_single_line utilizando el tokenizer previamente inicializado. Esta operación convierte el texto en una serie de tokens que representan las unidades básicas de texto (como palabras y signos de puntuación) que el modelo BART puede entender y procesar.

- **Cálculo y Visualización de la Longitud en Tokens:** Finalmente, se calcula la longitud del texto tokenizado (es decir, el número de tokens) y se imprime esta información. Esto proporciona una visión cuantitativa de cuán largo es el texto en términos de tokens, lo cual es relevante para entender si el texto necesita ser truncado o dividido antes de ser procesado por modelos de lenguaje natural que tienen limitaciones en la longitud de entrada.

In [5]:
import transformers
import logging
from transformers import BartTokenizer
from transformers import pipeline
import warnings

# Configura el nivel de logging a ERROR para omitir las advertencias
transformers.logging.set_verbosity_error()

# Suprimir todas las advertencias
warnings.filterwarnings("ignore")

# Inicializar el tokenizer y el summarizer para BART
tokenizer = BartTokenizer.from_pretrained("facebook/bart-large-cnn")

# Tokeniza el texto para calcular su longitud en tokens
tokens = tokenizer.tokenize(article_text_single_line)

# Verificar la longitud en tokens
print(f"Longitud del texto en tokens: {len(tokens)}")


Longitud del texto en tokens: 1395


- **Importación de Componentes Necesarios:** Comenzamos importando BartTokenizer y BartForConditionalGeneration de la biblioteca transformers. Estas clases son necesarias para tokenizar el texto de entrada y para cargar el modelo de generación de texto, respectivamente.

- **Inicialización del Tokenizer y el Modelo:** Se inicializan tanto el tokenizer como el modelo BART usando el nombre del modelo preentrenado "facebook/bart-large-cnn". El tokenizer se utiliza para convertir el texto de entrada en un formato que el modelo pueda procesar, mientras que el modelo se utiliza para la generación de texto (en este caso, la generación de resúmenes).

- **Preparación del Texto de Entrada:** El texto (article_text_single_line) se tokeniza usando el tokenizer previamente inicializado. Durante la tokenización, se especifica truncar el texto si excede el límite máximo de tokens permitidos por el modelo (1024 tokens) y aplicar relleno hasta alcanzar esa longitud máxima, garantizando así que el texto de entrada tenga una longitud uniforme.

- **Generación del Resumen:** Se invoca el método generate del modelo para producir un resumen del texto de entrada. Se ajustan varios parámetros para controlar el proceso de generación:

    - num_beams=10: Utiliza una búsqueda por haz con 10 haces para explorar diversas posibilidades de generación de texto, mejorando la calidad del resumen.
    - max_length=500 y min_length=450: Define la longitud máxima y mínima del resumen generado para garantizar que el resultado tenga un tamaño adecuado.
    - length_penalty=3.0: Aplica una penalización a secuencias más largas para fomentar o desalentar la generación de textos más largos que el mínimo especificado.
    - no_repeat_ngram_size=2: Previene la repetición de bigramas en el resumen para aumentar la diversidad del texto y evitar redundancias.

- **Decodificación y Visualización del Resumen:** Finalmente, el resumen generado (identificado por summary_ids) se decodifica a texto legible, omitiendo tokens especiales que puedan haber sido insertados durante la generación. El resumen decodificado se imprime para su revisión.

In [6]:
from transformers import BartTokenizer, BartForConditionalGeneration

# Inicializa el tokenizer y el modelo para BART
model_name = "facebook/bart-large-cnn"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# Tokeniza el texto. Esta función también trunca el texto si excede el máximo permitido por el modelo
inputs = tokenizer(article_text_single_line, return_tensors="pt", max_length=1024, truncation=True, padding="max_length")

# Genera el resumen. El modelo devuelve un tensor que contiene los IDs de los tokens del resumen
summary_ids = model.generate(
    inputs["input_ids"],
    num_beams=10,
    max_length=500,
    min_length=450,
    length_penalty=3.0,
    no_repeat_ngram_size=2)

# Decodifica el resumen
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

# Imprime el resumen
print(summary)


Geoffrey Hinton, 76, has spent his career trying to build AI systems that model the human brain. In February, he realized “the digital intelligence we’ve got now may be better than the brain already. It's just not scaled up quite as big” Given the current rate at which AI companies are increasing the size of models, it could be less than five years untilAI systems have 100 trillion connections. ‘This stuff will get smarter than us and take over,' he says. "And if you want to know what that feels like, ask a chicken.‘If I hadn't done it, I would have console myself with the normal excuse: If I didn't know how to prevent any superhuman AI system from taking over, there would be no reason for me to work on it at all' He worries about the prospect of humanity being wiped out by the technology he helped create. He has been instrumental in the development and popularization of neural networks, the dominant AI development paradigm that has allowed huge amounts of data to be ingested and proce

In [7]:
pip install rouge_score



- **Inicialización del Evaluador ROUGE:** Se crea una instancia de RougeScorer, especificando que se evaluarán las métricas ROUGE-1 y ROUGE-L. El parámetro use_stemmer=True indica que se aplicará stemming a los textos antes de la evaluación, lo cual puede ayudar a mejorar la comparación al reducir las palabras a su raíz.

- **Cálculo de las Puntuaciones ROUGE:** Se utiliza el evaluador para calcular las puntuaciones ROUGE entre el resumen generado (summary) y el resumen de referencia (reference_summary). Esto proporciona una evaluación cuantitativa de la calidad del resumen en términos de la similitud con el resumen de referencia.

- **Visualización de Resultados:**

    - ROUGE-1: Muestra la precisión, recall y medida-F para la coincidencia de unigramas entre el resumen generado y el resumen de referencia. Es útil para evaluar la captura de palabras clave individuales.
    - ROUGE-L: Muestra la precisión, recall y medida-F para la secuencia más larga común entre el resumen generado y el resumen de referencia. Es útil para evaluar la estructura y orden de las palabras.

In [8]:
from rouge_score import rouge_scorer

# Define el resumen de referencia y el resumen generado
summary = summary
reference_summary = article_text_single_line

# Inicializa el evaluador ROUGE
scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)

# Calcula las puntuaciones ROUGE
scores = scorer.score(reference_summary, summary)

# Imprime las puntuaciones ROUGE
print("ROUGE-1:", scores['rouge1'])
print("ROUGE-L:", scores['rougeL'])



ROUGE-1: Score(precision=0.8126649076517151, recall=0.2838709677419355, fmeasure=0.42076502732240445)
ROUGE-L: Score(precision=0.47757255936675463, recall=0.16682027649769585, fmeasure=0.2472677595628415)
