# [Curso de Procesamiento del Lenguaje Natural (NLP) | Crear un resumen de textos con Python | E35](https://www.youtube.com/watch?v=SiOIrMR6aw8&list=PL7HAy5R0ehQVdPVLV6pIJA9ZE2vVyLRxX&index=35)

Los resumenes basados en vectores son muy mejorables pero esta es una forma rápida de realizarlos.

1. Se divide el documento en oraciones.
2. Se computa una matriz TF-IDF para esas oraciones.
3. Cada oración se convierte en un vector de valores TF-IDE para cada palabra.
4. Se puntúa cada oración tomando el **promedio de los componentes TF-IDF**.
5. El resumen consiste en las oraciones con la puntuación más alta.

In [1]:
import pandas as pd
import numpy as np

# Prevenir que no se corten las oraciones entre palabras debido a saltos de línea, sino en palabras completas
import textwrap
import nltk
from nltk.corpus import stopwords
from nltk import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Jaime\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Jaime\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
df = pd.read_csv('df_total.csv')

In [4]:
df.head()

Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas
3,https://www.larepublica.co/redirect/post/3342889,Con el dato de marzo el IPC interanual encaden...,Macroeconomia
4,https://www.larepublica.co/redirect/post/3427208,Ayer en Cartagena se dio inicio a la versión n...,Otra


In [5]:
print(df["news"][2])

En una industria históricamente masculina como lo es la aviación Viva presentó su avión rosado A320NEO que apuesta por la equidad de género la lucha contra el cáncer de mama la inclusión y la diversidad.Desde Francia llegó Go Pink que tuvo un precio promedio de US50 millones convirtiéndose en la aeronave número 20 de las 21 con las que finalizará el año esta aerolínea.En Viva estamos trabajando muy fuerte para que haya más mujeres. Actualmente el grupo ejecutivo está compuesto por 42 mujeres pero la meta es llegar en 2022 con 50 de ellas en nuestro staff señaló Félix Antelo CEO de Viva.Asimismo agregó que están evaluando traer otro avión con esta propuesta para el próximo año así como proyectan un crecimiento de 60 en sillas para el último trimestre de 2021 en comparación con el mismo periodo de 2019.Vamos a estar moviendo más de dos millones de pasajeros para finalizar el año es un número ambicioso pero estamos contentos por la reacción del mercado y porque muchos pasajeros están elig

In [6]:
doc = df['news'].sample()

In [7]:
print(doc.iloc[0])

BBVA pone al alcance de sus clientes la posibilidad de firmar todas las operaciones bancarias desde la ‘app’ con la biometría de su dispositivo -huella dactilar o reconocimiento facial- almacenada en su dispositivo móvil. Se convierte así en la primera entidad financiera en España en ofrecerlo. De esta forma, gracias a este sistema de autenticación permite al usuario acelerar la gestión de los trámites, así como tener un mayor nivel de seguridad, protegiéndolo ante posibles fraudes. Actualmente, uno de cada dos clientes en España accede a la ‘app’ a través de la biometría.
Innovación
BBVA New Gen, la cuenta de inversión de la filial del Grupo en Suiza, cumple un año desde su lanzamiento. Para agilizar aún más el proceso de alta, New Gen ha incorporado un registro mejorado que, mediante un ‘selfie’, verifica la identidad de sus clientes en cuestión de segundos. BBVA Suiza pone en valor esta tecnología, capaz de verificar documentos de identidad y pasaportes de más de 190 países, para im

In [8]:
doc2 = textwrap.fill(doc.iloc[0], replace_whitespace=False, fix_sentence_endings=True)

In [9]:
print(doc2)

BBVA pone al alcance de sus clientes la posibilidad de firmar todas
las operaciones bancarias desde la ‘app’ con la biometría de su
dispositivo -huella dactilar o reconocimiento facial- almacenada en su
dispositivo móvil.  Se convierte así en la primera entidad financiera
en España en ofrecerlo.  De esta forma, gracias a este sistema de
autenticación permite al usuario acelerar la gestión de los trámites,
así como tener un mayor nivel de seguridad, protegiéndolo ante
posibles fraudes.  Actualmente, uno de cada dos clientes en España
accede a la ‘app’ a través de la biometría.
Innovación
BBVA New Gen,
la cuenta de inversión de la filial del Grupo en Suiza, cumple un año
desde su lanzamiento.  Para agilizar aún más el proceso de alta, New
Gen ha incorporado un registro mejorado que, mediante un ‘selfie’,
verifica la identidad de sus clientes en cuestión de segundos.  BBVA
Suiza pone en valor esta tecnología, capaz de verificar documentos de
identidad y pasaportes de más de 190 países, pa

In [10]:
lineas = doc2.split(".")
lineas

['BBVA pone al alcance de sus clientes la posibilidad de firmar todas\nlas operaciones bancarias desde la ‘app’ con la biometría de su\ndispositivo -huella dactilar o reconocimiento facial- almacenada en su\ndispositivo móvil',
 '  Se convierte así en la primera entidad financiera\nen España en ofrecerlo',
 '  De esta forma, gracias a este sistema de\nautenticación permite al usuario acelerar la gestión de los trámites,\nasí como tener un mayor nivel de seguridad, protegiéndolo ante\nposibles fraudes',
 '  Actualmente, uno de cada dos clientes en España\naccede a la ‘app’ a través de la biometría',
 '\r\nInnovación\r\nBBVA New Gen,\nla cuenta de inversión de la filial del Grupo en Suiza, cumple un año\ndesde su lanzamiento',
 '  Para agilizar aún más el proceso de alta, New\nGen ha incorporado un registro mejorado que, mediante un ‘selfie’,\nverifica la identidad de sus clientes en cuestión de segundos',
 '  BBVA\nSuiza pone en valor esta tecnología, capaz de verificar documentos de\ni

In [11]:
tokenizar = TfidfVectorizer(
    stop_words=stopwords.words('spanish'),
    norm='l1',
)

In [12]:
X = tokenizar.fit_transform(lineas)
X

<26x206 sparse matrix of type '<class 'numpy.float64'>'
	with 357 stored elements in Compressed Sparse Row format>

In [13]:
filas, columnas = X.shape

for i in range(filas):
    for j in range(columnas):
        print(X[i, j], end=' ')  # Imprime el elemento y un espacio en blanco
    print()

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.06637972693080428 0.0 0.0 0.06637972693080428 0.0 0.0 0.0 0.049497027092188894 0.0 0.0 0.0 0.0 0.0 0.0461377438315522 0.0 0.03496966313713672 0.040837188113586824 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.03496966313713672 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.05890901324016092 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.09899405418437779 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.06637972693080428 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.049497027092188894 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.05890901324016092 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.049497027092188894 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.040837188113586824 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.053608457522195556 0.05890901324016092 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.06637972693080428 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

In [14]:
def obtener_score(tfidf_row):
    x = tfidf_row[tfidf_row != 0]
    return x.mean()

In [15]:
scores = np.zeros(len(lineas))
for i in range(len(lineas)):
    score = obtener_score(X[i,:])
    scores[i] = score

  return self.astype(np.float_)._mul_scalar(1./other)


In [16]:
scores

array([0.05555556, 0.14285714, 0.05882353, 0.11111111, 0.08333333,
       0.0625    , 0.06666667, 0.05882353, 0.06666667, 0.05882353,
       0.05      , 0.04347826, 0.08333333, 0.08333333, 0.0625    ,
       0.06666667, 0.06666667, 0.07142857, 0.1       , 0.06666667,
       0.08333333, 0.08333333, 0.1       , 0.09090909, 0.05882353,
       0.        ])

In [17]:
sort_idx = np.argsort(-scores)

In [18]:
sort_idx

array([ 1,  3, 18, 22, 23, 20, 12, 21,  4, 13, 17,  8, 15, 16, 19,  6,  5,
       14,  7, 24,  2,  9,  0, 10, 11, 25], dtype=int64)

In [19]:
print("Resumen:")
oraciones = []
for i in range(0,5):
    oraciones.append([sort_idx[i], scores[sort_idx[i]], lineas[sort_idx[i]]])
    print(f"{scores[sort_idx[i]]}: {lineas[sort_idx[i]]}")

Resumen:
0.14285714285714285:   Se convierte así en la primera entidad financiera
en España en ofrecerlo
0.1111111111111111:   Actualmente, uno de cada dos clientes en España
accede a la ‘app’ a través de la biometría
0.1:   Será el propio cliente quien finalice la
transacción usando esos valores únicos e intransferibles que tiene
cada persona
0.1:   El objetivo de la entidad para 2022
es que alrededor del 70% de los clientes utilicen esta herramienta
para acceder a BBVA
0.09090909090909093: 
En ningún caso, BBVA almacena, ni hace
tratamiento de la información biométrica registrada por los clientes
en sus dispositivos


In [20]:
oraciones

[[1,
  0.14285714285714285,
  '  Se convierte así en la primera entidad financiera\nen España en ofrecerlo'],
 [3,
  0.1111111111111111,
  '  Actualmente, uno de cada dos clientes en España\naccede a la ‘app’ a través de la biometría'],
 [18,
  0.1,
  '  Será el propio cliente quien finalice la\ntransacción usando esos valores únicos e intransferibles que tiene\ncada persona'],
 [22,
  0.1,
  '  El objetivo de la entidad para 2022\nes que alrededor del 70% de los clientes utilicen esta herramienta\npara acceder a BBVA'],
 [23,
  0.09090909090909093,
  '\r\nEn ningún caso, BBVA almacena, ni hace\ntratamiento de la información biométrica registrada por los clientes\nen sus dispositivos']]

In [21]:
# Ordenar la lista por el primer elemento de cada sublista
oraciones_ord = sorted(oraciones, key=lambda x: x[0])

# Imprimir la lista ordenada
for item in oraciones_ord:
    print(item[2])

  Se convierte así en la primera entidad financiera
en España en ofrecerlo
  Actualmente, uno de cada dos clientes en España
accede a la ‘app’ a través de la biometría
  Será el propio cliente quien finalice la
transacción usando esos valores únicos e intransferibles que tiene
cada persona
  El objetivo de la entidad para 2022
es que alrededor del 70% de los clientes utilicen esta herramienta
para acceder a BBVA

En ningún caso, BBVA almacena, ni hace
tratamiento de la información biométrica registrada por los clientes
en sus dispositivos
