## Resumen extractivo
Definimos el texto que queremos resumir

In [7]:
text = '''
Pablo Ruiz Picasso (Málaga, 25 de octubre de 1881–Mougins, 8 de abril de 1973) fue un pintor y escultor español, creador, junto con Georges Braque, del cubismo. Es considerado desde la génesis del siglo XX como uno de los mayores pintores que participaron en los variados movimientos artísticos que se propagaron por el mundo y ejercieron una gran influencia en otros grandes artistas de su tiempo. Sus trabajos están presentes en museos y colecciones de toda Europa y del mundo. Además, abordó otros géneros como el dibujo, el grabado, la ilustración de libros, la escultura, la cerámica y el diseño de escenografía y vestuario para montajes teatrales. También tiene una breve obra literaria. En lo político, Picasso se declaraba pacifista y comunista. Fue miembro del Partido Comunista de España y del Partido Comunista Francés hasta su muerte,​ acaecida el 8 de abril de 1973 a los noventa y un años de edad, en su casa llamada «Notre-Dame-de-Vie» de la localidad francesa de Mougins. Está enterrado en el parque del castillo de Vauvenargues (Bouches-du-Rhone).​
'''

Importamos librerías para el resumen. En este caso Gensim con la funcion `summarize`. Este paquete trabaja con TextRank

In [8]:
import gensim
from gensim.summarization import summarize
 
summary = summarize(text, ratio=0.2)
print(summary)

Es considerado desde la génesis del siglo XX como uno de los mayores pintores que participaron en los variados movimientos artísticos que se propagaron por el mundo y ejercieron una gran influencia en otros grandes artistas de su tiempo.


Uso de párametro `word_count`

In [9]:
summary = summarize(text, word_count=75)
print(summary)

Pablo Ruiz Picasso (Málaga, 25 de octubre de 1881–Mougins, 8 de abril de 1973) fue un pintor y escultor español, creador, junto con Georges Braque, del cubismo.
Es considerado desde la génesis del siglo XX como uno de los mayores pintores que participaron en los variados movimientos artísticos que se propagaron por el mundo y ejercieron una gran influencia en otros grandes artistas de su tiempo.


Probemos otro paquete para usar otros algortimos con `sumy`

In [10]:
!pip install sumy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sumy
  Downloading sumy-0.10.0-py2.py3-none-any.whl (94 kB)
[?25l[K     |███▌                            | 10 kB 32.3 MB/s eta 0:00:01[K     |███████                         | 20 kB 17.8 MB/s eta 0:00:01[K     |██████████▍                     | 30 kB 10.2 MB/s eta 0:00:01[K     |██████████████                  | 40 kB 4.3 MB/s eta 0:00:01[K     |█████████████████▍              | 51 kB 4.4 MB/s eta 0:00:01[K     |████████████████████▉           | 61 kB 5.3 MB/s eta 0:00:01[K     |████████████████████████▎       | 71 kB 5.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 81 kB 5.4 MB/s eta 0:00:01[K     |███████████████████████████████▎| 92 kB 6.1 MB/s eta 0:00:01[K     |████████████████████████████████| 94 kB 2.3 MB/s 
Collecting breadability>=0.1.20
  Downloading breadability-0.1.20.tar.gz (32 kB)
Collecting pycountry>=18.2.23
  Downloading pycoun

In [11]:
import sumy
import nltk

nltk.download('punkt')
 
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer

parser = PlaintextParser.from_string(text, Tokenizer('spanish'))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


En este caso, se usará LexRank

In [13]:
from sumy.summarizers.lex_rank import LexRankSummarizer

summary = LexRankSummarizer()(parser.document, sentences_count=1)
for sentence in summary:
    print(sentence)

Pablo Ruiz Picasso (Málaga, 25 de octubre de 1881–Mougins, 8 de abril de 1973) fue un pintor y escultor español, creador, junto con Georges Braque, del cubismo.


A continuación, el uso de LSA (latent semantic analysis)

In [14]:
from sumy.summarizers.lsa import LsaSummarizer
 
summary = LsaSummarizer()(parser.document, sentences_count=1)
for sentence in summary:
    print(sentence)

Es considerado desde la génesis del siglo XX como uno de los mayores pintores que participaron en los variados movimientos artísticos que se propagaron por el mundo y ejercieron una gran influencia en otros grandes artistas de su tiempo.


Caso con técnica de Luhn

In [15]:
from sumy.summarizers.luhn import LuhnSummarizer
 
summary = LuhnSummarizer()(parser.document, sentences_count=1)
for sentence in summary:
    print(sentence)

Fue miembro del Partido Comunista de España y del Partido Comunista Francés hasta su muerte,​ acaecida el 8 de abril de 1973 a los noventa y un años de edad, en su casa llamada «Notre-Dame-de-Vie» de la localidad francesa de Mougins.


Caso con KL-Sum

In [16]:
from sumy.summarizers.kl import KLSummarizer

summary = KLSummarizer()(parser.document, sentences_count=2)
for sentence in summary:
    print(sentence)

Pablo Ruiz Picasso (Málaga, 25 de octubre de 1881–Mougins, 8 de abril de 1973) fue un pintor y escultor español, creador, junto con Georges Braque, del cubismo.
Sus trabajos están presentes en museos y colecciones de toda Europa y del mundo.


## Resumen abstractivo

Importamos librerías. Para este caso de resumen abstractivo, Huggingface

In [17]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.19.4-py3-none-any.whl (4.2 MB)
[K     |████████████████████████████████| 4.2 MB 5.3 MB/s 
Collecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.7.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 6.7 MB/s 
[?25hCollecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 55.6 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 71.7 MB/s 
Installing collected packages: pyyaml, tokenizers, huggingface-hub, transformers
  Attempting uninstall: pyyaml
    Found existing installation: PyYAML 3.13
    Uninstallin

In [18]:
from transformers import pipeline

Se usará el modelo T5-small para resumir el mismo texto `text`

In [20]:
summarizer = pipeline("summarization",
                      model="t5-small")

summary_t5_small = summarizer(text,
                     max_length=150,
                     min_length=30,
                     do_sample=False)
 
print(summary_t5_small)

For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-small automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.


[{'summary_text': 'Pablo Ruiz Picasso (Málaga, 25 de octubre de 1881–Mougins, 8 de abril de 1973) fue un pintor y escultor espaol, creador, junto con Georges Braque, del cubismo.'}]


Cambiamos por un modelo más grande: t5-base

In [21]:
summarizer = pipeline("summarization",
                      model="t5-base")

summary_t5_base = summarizer(text,
                     max_length=150,
                     min_length=30,
                     do_sample=False)
 
print(summary_t5_base)

Downloading:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/850M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/773k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.32M [00:00<?, ?B/s]

For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-base automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.


[{'summary_text': 'Pablo Ruiz Picasso was a pintor y escultor espaol, creador, junto con Georges Braque . he was considered desde la génesis del siglo XX como uno de los mayores pintores . his trabajos are presente in museos y colecciones de toda Europa y del mundo .'}]


Ahora con Bart, basado en una arquitectura estándar secuencia-a-secuencia con un codificador bidireccional (como BERT) y un decodificador de izquierda a derecha (como GPT).

In [23]:
summarizer = pipeline("summarization",
                      model="facebook/bart-large-cnn")

summary_bart = summarizer(text,
                     max_length=150,
                     min_length=30,
                     do_sample=False)
 
print(summary_bart)

[{'summary_text': 'Pablo Ruiz Picasso (Málaga, 25 de octubre de 1881–Mougins, 8 de abril de 1973) fue un pintor y escultor español, creador, junto with Georges Braque, del cubismo. Es considerado desde la génesis del siglo XX como uno of los mayores pintores que participaron en los variados movimientos artísticos.'}]
