# Building abstractive text summaries

_This notebook is part of a tutorial series on [txtai](https://github.com/neuml/txtai), an AI-powered semantic search platform._

In the field of text summarization, there are two primary categories of summarization, extractive and abstractive summarization.

Extractive summarization takes subsections of the text and joins them together to form a summary. This is commonly backed by graph algorithms like TextRank to find the sections/sentences with the most commonality. These summaries can be highly effective but they are unable to transform text and don't have a contextual understanding.

Abstractive summarization uses Natural Language Processing (NLP) models to build transformative summaries of text. This is similar to having a human read an article and asking what was it about. A human wouldn't just give a verbose reading of the text. This notebook shows how blocks of text can be summarized using an abstractive summarization pipeline. 

# Install dependencies

Install `txtai` and all dependencies. Since this notebook is using optional pipelines, we need to install the pipeline extras package.

In [5]:
%%capture
!pip install git+https://github.com/neuml/txtai#egg=txtai[pipeline]

# Create a Summary instance

The Summary instance is the main entrypoint for text summarization. This is a light-weight wrapper around the summarization pipeline in Hugging Face Transformers.

In addition to the default model, additional models can be found on the [Hugging Face model hub](https://huggingface.co/models?pipeline_tag=summarization).


In [8]:
#%%capture
!pip install Pillow==9.0.0
from txtai.pipeline import Summary

# Create summary model
summary = Summary()

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting Pillow==9.0.0
  Downloading Pillow-9.0.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (4.3 MB)
[K     |████████████████████████████████| 4.3 MB 29.2 MB/s 
[?25hInstalling collected packages: Pillow
  Attempting uninstall: Pillow
    Found existing installation: Pillow 9.1.1
    Uninstalling Pillow-9.1.1:
      Successfully uninstalled Pillow-9.1.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
albumentations 0.1.12 requires imgaug<0.2.7,>=0.2.5, but you have imgaug 0.2.9 which is incompatible.[0m
Successfully installed Pillow-9.0.0


Downloading:   0%|          | 0.00/1.76k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.14G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/878k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/446k [00:00<?, ?B/s]

# Summarize text

The example below shows how a large block of text can be distilled down into a smaller summary.

In [12]:
text = ("Search is the base of many applications. Once data starts to pile up, users want to be able to find it. It’s the foundation "
       "of the internet and an ever-growing challenge that is never solved or done. The field of Natural Language Processing (NLP) is "
       "rapidly evolving with a number of new developments. Large-scale general language models are an exciting new capability "
       "allowing us to add amazing functionality quickly with limited compute and people. Innovation continues with new models "
       "and advancements coming in at what seems a weekly basis. This article introduces txtai, an AI-powered search engine "
       "that enables Natural Language Understanding (NLU) based search in any application."
)

summary(text, maxlength=20)
#print ('resumen')
#summary(text)

resumen


'The field of Natural Language Processing (NLP) is rapidly evolving with a number of new developments. Large-scale general language models are an exciting new capability allowing us to add amazing functionality quickly. This article introduces txtai, an AI-powered search engine that enables Natural Language Understanding (NLU) based search in any application.'

Notice how the summarizer built a sentence using parts of the document above. It takes a basic understanding of language in order to understand the first two sentences and how to combine them into a single transformative sentence.

# Summarize a document

The next section retrieves an article, extracts text from it (more to come on this topic) and summarizes that text.

In [None]:
!wget -q "https://medium.com/neuml/time-lapse-video-for-the-web-a7d8874ff397"

from txtai.pipeline import Textractor

textractor = Textractor()
text = textractor("time-lapse-video-for-the-web-a7d8874ff397")

summary(text)

'Time-lapse video is a popular way to show an area or event over a long period of time. The same concept can be applied to a dynamic real-time website with frequently updated data. webelapse is an open source project developed to provide this functionality. It can be used as is or modified for different use cases.'

Click through the link to see the full article. This summary does a pretty good job of covering what the article is about!

# Caso de estudio
**Capítulo de libro**

In [18]:
text = ("Desarrollo de software profesional"  
"Capítulo 1 ■ Introducción"
"Los ingenieros de software están interesados por el desarrollo de productos de software (es "
"decir, software que puede venderse a un cliente). Existen dos tipos de productos de software:"

"1. Productos genéricos Consisten en sistemas independientes que se producen por "
"una organización de desarrollo y se venden en el mercado abierto a cualquier cliente "
"que desee comprarlos. Ejemplos de este tipo de productos incluyen software para PC, "
"como bases de datos, procesadores de texto, paquetes de dibujo y herramientas de "
"administración de proyectos. También abarcan las llamadas aplicaciones verticales "
"diseñadas para cierto propósito específico, tales como sistemas de información de "
"librería, sistemas de contabilidad o sistemas para mantener registros dentales."

"2. Productos personalizados (o a la medida) Son sistemas que están destinados para "
"un cliente en particular. Un contratista de software desarrolla el programa especial-"
"mente para dicho cliente. Ejemplos de este tipo de software incluyen los sistemas de "
"control para dispositivos electrónicos, sistemas escritos para apoyar cierto proceso "
"empresarial y los sistemas de control de tráfico aéreo."

"Una diferencia importante entre estos tipos de software es que, en productos gené-"
"ricos, la organización que desarrolla el software controla la especificación del mismo. "
"Para los productos personalizados, la organización que compra el software generalmente "
"desarrolla y controla la especificación, por lo que los desarrolladores de software deben "
"trabajar siguiendo dicha especificación."

"Sin embargo, la distinción entre estos tipos de producto de sistemas se vuelve cada "
"vez más difusa. Ahora, cada vez más sistemas se construyen con un producto genérico "
"como base, que luego se adapta para ajustarse a los requerimientos de un cliente. Los sis-"
"temas Enterprise Resource Planning (ERP, planeación de recursos empresariales), como "
"el sistema SAP, son los mejores ejemplos de este enfoque. Aquí, un sistema grande y "
"complejo se adapta a una compañía al incorporar la información acerca de las reglas y los "
"procesos empresariales, los reportes requeridos, etcétera."

"Cuando se habla de la calidad del software profesional, se debe considerar que el software "
"lo usan y cambian personas, además de sus desarrolladores. En consecuencia, la calidad no "
"tiene que ver sólo con lo que hace el software. En cambio, debe incluir el comportamiento "
"del software mientras se ejecuta, y la estructura y organización de los programas del sis-"
"tema y la documentación asociada. Esto se refleja en los llamados calidad o atributos no "
"funcionales del software. Ejemplos de dichos atributos son el tiempo de respuesta del soft-"
"ware ante la duda de un usuario y la comprensibilidad del código del programa."

"El conjunto específico de atributos que se espera de un sistema de software depende "
"evidentemente de su aplicación. Así, un sistema bancario debe ser seguro, un juego inte-"
"ractivo debe tener capacidad de respuesta, un sistema de conmutación telefónica debe ser "
"confiable, etcétera. Esto puede generalizarse en el conjunto de atributos que se muestra "
"en la figura 1.2, los cuales consideran las características esenciales de un sistema de "
"software profesional."
)

summary(text)
#print ('resumen')
#summary(text)

'Existen two tipos de productos de software: Productos genéricos, sistemas personalizados, software for PC, herramientas de administración de proyectos. Un contratista de software desarrolla el programa especial-mente for dicho cliente. Un sistema grande y complejo se adapta a una compañía al incorporar la information acerca de reglas y procesos empresarial.'

In [19]:
text = ("Desarrollo de software profesional"  
"Capítulo 1 ■ Introducción"
"Los ingenieros de software están interesados por el desarrollo de productos de software (es decir, software que puede venderse a un cliente). Existen dos tipos de productos de software:"

"1. Productos genéricos Consisten en sistemas independientes que se producen por una organización de desarrollo y se venden en el mercado abierto a cualquier cliente que desee comprarlos. Ejemplos de este tipo de productos incluyen software para PC, como bases de datos, procesadores de texto, paquetes de dibujo y herramientas de administración de proyectos. También abarcan las llamadas aplicaciones verticales diseñadas para cierto propósito específico, tales como sistemas de información de librería, sistemas de contabilidad o sistemas para mantener registros dentales."

"2. Productos personalizados (o a la medida) Son sistemas que están destinados para un cliente en particular. Un contratista de software desarrolla el programa especialmente para dicho cliente. Ejemplos de este tipo de software incluyen los sistemas de control para dispositivos electrónicos, sistemas escritos para apoyar cierto proceso empresarial y los sistemas de control de tráfico aéreo."

"Una diferencia importante entre estos tipos de software es que, en productos genéricos, la organización que desarrolla el software controla la especificación del mismo. "
"Para los productos personalizados, la organización que compra el software generalmente desarrolla y controla la especificación, por lo que los desarrolladores de software deben trabajar siguiendo dicha especificación."

"Sin embargo, la distinción entre estos tipos de producto de sistemas se vuelve cada vez más difusa. Ahora, cada vez más sistemas se construyen con un producto genérico como base, que luego se adapta para ajustarse a los requerimientos de un cliente. Los sistemas Enterprise Resource Planning (ERP, planeación de recursos empresariales), como el sistema SAP, son los mejores ejemplos de este enfoque. Aquí, un sistema grande y complejo se adapta a una compañía al incorporar la información acerca de las reglas y los procesos empresariales, los reportes requeridos, etcétera."

"Cuando se habla de la calidad del software profesional, se debe considerar que el software lo usan y cambian personas, además de sus desarrolladores. En consecuencia, la calidad no tiene que ver sólo con lo que hace el software. En cambio, debe incluir el comportamiento del software mientras se ejecuta, y la estructura y organización de los programas del sistema y la documentación asociada. Esto se refleja en los llamados calidad o atributos no funcionales del software. Ejemplos de dichos atributos son el tiempo de respuesta del software ante la duda de un usuario y la comprensibilidad del código del programa."

"El conjunto específico de atributos que se espera de un sistema de software depende evidentemente de su aplicación. Así, un sistema bancario debe ser seguro, un juego interactivo debe tener capacidad de respuesta, un sistema de conmutación telefónica debe ser confiable, etcétera. Esto puede generalizarse en el conjunto de atributos que se muestra en la figura 1.2, los cuales consideran las características esenciales de un sistema de software profesional."
)

summary(text)


'Existen dos tipos de productos de software: Productos genéricos, productos personalizados, producto personalizado for clients. Producto genericos se construyen in sistemas, personalizadas, aplicaciones verticales. Software profesional debe considerar that el software lo usan y cambian personas, además de sus desarrolladores.'

In [20]:
summary(text, Some("es"))

NameError: ignored