## Text Summary

Text summarization is important in the field of machine learning and natural language processing for several reasons:

1. **Information Retrieval:** Text summarization helps users quickly grasp the main points or key information from a large document, making it easier to decide whether to read the full document or not. This is particularly valuable in scenarios where individuals are inundated with vast amounts of textual data, such as news articles, research papers, or social media posts.

2. **Time Efficiency:** Summarization algorithms can process and generate summaries much faster than humans can read and summarize large texts. This saves time and allows users to focus their attention on the most relevant content.

3. **Content Extraction:** Text summarization can automatically extract essential information from a document, enabling applications like content recommendation, keyword extraction, and topic modeling.

4. **Content Generation:** Summarization models can be used to generate concise, coherent, and informative summaries for various purposes, such as creating abstracts for research papers, news article headlines, or social media post previews.

5. **Multilingual Support:** Text summarization can be applied to texts in multiple languages, making it a valuable tool for global communication and information retrieval.

6. **Personalization:** Summarization can be personalized to individual preferences. Machine learning models can learn from user feedback to generate summaries that align more closely with a user's interests and priorities.

7. **Scalability:** As the volume of digital content continues to grow, automated summarization becomes crucial for scaling information processing and retrieval. Machine learning-based summarization models can adapt and handle large volumes of text efficiently.

8. **Legal and Compliance:** In legal and regulatory contexts, automated summarization can help organizations review contracts, policies, and legal documents to ensure compliance and identify critical clauses or information.

9. **Search Engine Optimization (SEO):** Summarized content can be used to create concise and engaging snippets for search engine results, improving the discoverability of web content.

10. **Content Creation:** Summarization can be integrated into content creation tools, helping authors and content creators generate concise and informative content more efficiently.

Overall, text summarization is an essential component of machine learning and natural language processing, enabling efficient information retrieval, content extraction, and content generation across a wide range of applications and industries. It plays a critical role in handling the ever-increasing amount of textual data available in the digital age.

---
Exercise:

Now, as a data scientist expert in NLP, you are asked to create a model to be able to summarize text in Spanish. Your stakeholders will pass you an article and your model should summarize it.

In [1]:
!pip install requests beautifulsoup4



In [2]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar el contenido del artículo (puedes inspeccionar el HTML de la página para encontrar la estructura adecuada)
    article_content = soup.find("div", {"class": "article-content"})

    # Extraer el texto del artículo
    article_text = ""
    for paragraph in article_content.find_all("p"):
        article_text += paragraph.get_text() + "\n"

    # Imprimir el texto del artículo
    print(article_text)
else:
    print("Error al obtener la página:", response.status_code)

Over the course of February, Geoffrey Hinton, one of the most influential AI researchers of the past 50 years, had a “slow eureka moment.”
Hinton, 76, has spent his career trying to build AI systems that model the human brain, mostly in academia before joining Google in 2013. He had always believed that the brain was better than the machines that he and others were building, and that by making them more like the brain, they would improve. But in February, he realized “the digital intelligence we’ve got now may be better than the brain already. It’s just not scaled up quite as big.” 
Developers around the world are currently racing to build the biggest AI systems that they can. Given the current rate at which AI companies are increasing the size of models, it could be less than five years until AI systems have 100 trillion connections—roughly as many as there are between neurons in the human brain.
Alarmed, Hinton left his post as VP and engineering fellow in May and gave a flurry of in

In [3]:
!pip install transformers sentencepiece



**Primero traducimos el texto a español**

In [4]:
import requests
from transformers import pipeline

# Crear un pipeline de traducción
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")

# Dividir el texto en fragmentos más pequeños para evitar problemas de longitud
chunk_size = 1000
chunks = [article_text[i:i + chunk_size] for i in range(0, len(article_text), chunk_size)]

translated_text = ""
for chunk in chunks:
     # Traducir cada fragmento por separado
    translated_chunk = translator(chunk, max_length=chunk_size)[0]['translation_text']
    translated_text += translated_chunk + " " # Concatenar la traducción de cada fragmento

print(translated_text)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]



A lo largo de febrero, Geoffrey Hinton, uno de los investigadores de IA más influyentes de los últimos 50 años, tuvo un “momento de eureka lento”. Hinton, de 76 años, ha pasado su carrera tratando de construir sistemas de IA que modelen el cerebro humano, sobre todo en la academia antes de unirse a Google en 2013. Siempre había creído que el cerebro era mejor que las máquinas que él y otros estaban construyendo, y que al hacerlos más parecidos al cerebro, mejorarían. Pero en febrero, se dio cuenta de que “la inteligencia digital que tenemos ahora puede ser mejor que el cerebro ya. No es tan grande”. Los desarrolladores de todo el mundo están compitiendo actualmente para construir los sistemas de IA más grandes que pueden. Dada la tasa actual en la que las compañías de IA están aumentando el tamaño de los modelos, podría ser menos de cinco años hasta que los sistemas de IA tengan 100 billones de conexiones —más o menos tantas como haya entre las neuronas en el cerebro humano. Alarmado, 

**Resumen el texto en español**

In [6]:
from transformers import pipeline

# Cargar el modelo de resumen en español
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

def summarize_spanish_text(text):
  # Truncar el texto si es muy grande para el modelo
  max_input_length = summarizer.model.config.max_position_embeddings
  truncated_text = text[:max_input_length]

  summary = summarizer(truncated_text, do_sample=False)[0]['summary_text']
  return summary

if article_text:
  summary = summarize_spanish_text(translated_text)
  print("\nResumen del artículo:\n", summary)
else:
  print("No se pudo extraer el texto del artículo.")

config.json:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]


Resumen del artículo:
 Geoffrey Hinton, uno de los investigadores de IA más influyentes de los últimos 50 años, tuvo un “momento de eureka lento’ Hinton ha pasado su carrera tratando de construir sistemas de IA that modelen el cerebro humano.


In [7]:
from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "mrm8488/bert2bert_shared-spanish-finetuned-summarization"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

max_input_length = tokenizer.model_max_length

if len(tokenizer.encode(translated_text)) > max_input_length:
    truncated_text = tokenizer.decode(tokenizer.encode(translated_text)[:max_input_length], skip_special_tokens=True)
else:
    truncated_text = translated_text

resumen = summarizer(truncated_text, min_length=50, max_length=200)
print(resumen)

tokenizer_config.json:   0%|          | 0.00/520 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/4.51k [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/555M [00:00<?, ?B/s]

The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
Token indices sequence length is longer than the specified maximum sequence length for this model (1400 > 512). Running this sequence through the model will result in indexing errors


[{'summary_text': 'Geoffrey Hinton, investigador de IA más influyente de los últimos 50 años, ha pasado su carrera tratando de construir sistemas de IA que modelen el cerebro humano, sobre todo en la academia antes de unirse a Google en 2013, y que al hacerlo más parecido al cerebro ya'}]


**Ahora extraemos un artículo en español**

In [10]:
import requests
from bs4 import BeautifulSoup

# URL del artículo en español sobre inteligencia artificial
url = "https://es.wired.com/articulos/el-plan-de-geoffrey-hinton-el-padrino-de-la-ia-para-mantener-a-la-inteligencia-artificial-de-nuestro-lado"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar el contenido del artículo (puedes inspeccionar el HTML de la página para encontrar la estructura adecuada)
    article_content = soup.find("article", {"class": "article main-content"})  # Ajusta el selector según la estructura del sitio web

    # Extraer el texto del artículo
    article_text = ""
    if article_content:
        for paragraph in article_content.find_all("p"):
            article_text += paragraph.get_text() + "\n"

    # Imprimir el texto del artículo
    print(article_text)
else:
    print("Error al obtener la página:", response.status_code)

Geoffrey Hinton, quizá el investigador de inteligencia artificial más famoso del mundo, causó un gran revuelo hace unos meses cuando reveló públicamente que dejaba Google para poder hablar con franqueza sobre los peligros de la tecnología que ayudó a desarrollar. Su anuncio no surgió de la nada. A finales de 2022 todo giraba en torno al embriagador descubrimiento de lo que la IA podría hacer por nosotros. En 2023, incluso mientras usábamos ChatGPT y chateábamos con Bing, el vértigo se mezclaba con un cóctel de pánico y de angustia existencial. Así que no fue una sorpresa total que el hombre conocido como "El Padrino de la IA" compartiera sus propias reservas. Hinton se esforzó en decir que su crítica no era al gigante de las búsquedas que le había empleado durante una década; su marcha simplemente evitaba cualquier posible tensión derivada de criticar una tecnología que tu empresa está desplegando agresivamente. Se estaba dando permiso para disentir.
El mensaje básico de Hinton era que

**Resumir el artículo en español**

In [11]:
from transformers import pipeline

# Cargar el modelo de resumen en español
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

def summarize_spanish_text(text):
  max_input_length = summarizer.model.config.max_position_embeddings
  truncated_text = text[:max_input_length]

  summary = summarizer(truncated_text, do_sample=False)[0]['summary_text']
  return summary

if article_text:
  summary = summarize_spanish_text(article_text)
  print("\nResumen del artículo:\n", summary)
else:
  print("No se pudo extraer el texto del artículo.")


Resumen del artículo:
 Geoffrey Hinton, el investigador de inteligencia artificial más famoso del mundo, dejaba Google para poder hablar sobre los peligros de la tecnología. Hinton se esforzó en decir que su crítica no era al gigante de las búsquedas que le había empleado durante una década.


In [12]:
from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "mrm8488/bert2bert_shared-spanish-finetuned-summarization"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

max_input_length = tokenizer.model_max_length

truncated_text = tokenizer.decode(tokenizer.encode(article_text)[:max_input_length - 2], skip_special_tokens=True)

resumen = summarizer(truncated_text, min_length=50, max_length=150)
print(resumen)

The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']
Token indices sequence length is longer than the specified maximum sequence length for this model (1910 > 512). Running this sequence through the model will result in indexing errors


[{'summary_text': 'El investigador de inteligencia artificial más famoso del mundo, Geoffrey Hinton, se ha convertido en un referente en el mundo de la búsqueda del conocimiento de los peligros de la tecnología que ayudó a desarrollar el conocimiento de la vida y su misión después de Google Maps'}]


In [15]:
print('Resumen')
summary_text = resumen[0]['summary_text']
print(summary_text)

Resumen
El investigador de inteligencia artificial más famoso del mundo, Geoffrey Hinton, se ha convertido en un referente en el mundo de la búsqueda del conocimiento de los peligros de la tecnología que ayudó a desarrollar el conocimiento de la vida y su misión después de Google Maps
