<a href="https://colab.research.google.com/github/emmanuel-mejia/Matematicas-para-Ciencia-de-Datos/blob/main/semana6_Algebra_Textrank.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Implementación de TextRank para la obtención de resúmenes

En este Notebook se implementará TextRank para obtener un resumen con las oraciones clave de todo un texto.

# Dependencias

In [1]:
%%capture
!pip install wikipedia git+https://github.com/neuml/txtai#egg=txtai[pipeline]

In [2]:
# PUEDE ser necesario utilizar una versión anterior de pillow
!pip install Pillow==9.0.0

Collecting Pillow==9.0.0
  Using cached Pillow-9.0.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (4.3 MB)
Installing collected packages: Pillow
  Attempting uninstall: Pillow
    Found existing installation: Pillow 9.1.0
    Uninstalling Pillow-9.1.0:
      Successfully uninstalled Pillow-9.1.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
albumentations 0.1.12 requires imgaug<0.2.7,>=0.2.5, but you have imgaug 0.2.9 which is incompatible.[0m
Successfully installed Pillow-9.0.0


In [1]:
import re

import pandas as pd
import numpy as np
import scipy.linalg as splinalg

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

import wikipedia

from txtai.pipeline import Translation

In [2]:
nltk.download("punkt")
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [3]:
# Radicalizador
stemmer = PorterStemmer()

# Palabras de paro
cached_stopwords = stopwords.words('english')
cached_stopwords[:10]

# Traductor
translate = Translation()

# Datos

Los datos que ocuparemos serán el texto de páginas de Wikipedia. Descargaremos el texto ocupando el módulo [```wikipedia```](https://pypi.org/project/wikipedia/) que es un "wrapper" del API de Wikipedia. A este texto lo dividiremos en oraciones, procesaremos cada oración, radicalizaremos cada palabra, y aplicaremos TextRank para obtener las oraciones más importantes de todo el documento.

## Lectura de los datos

Descargamos un artículos de Wikipedia.

In [4]:
wiki = wikipedia.page('Expropiación del petróleo en México')
book = wiki.content
print(book)

The Mexican oil expropriation (Spanish: expropiación petrolera) was the nationalization of all petroleum reserves, facilities, and foreign oil companies in Mexico on March 18, 1938.  In accordance with Article 27 of the Constitution of 1917, President Lázaro Cárdenas declared that all mineral and oil reserves found within Mexico belong to "the nation", i.e., the federal government. The Mexican government established a state-owned petroleum company, Petróleos Mexicanos, or PEMEX.  For a short period, this measure caused an international boycott of Mexican products in the following years, especially by the United States, the United Kingdom, and the Netherlands, but with the outbreak of World War II and the alliance between Mexico and the Allies, the disputes with private companies over compensation were resolved. The anniversary, March 18, is now a Mexican civic holiday.


== Background ==

On August 16, 1935, the Petroleum Workers Union of Mexico (Sindicato de Trabajadores Petroleros de

## Procesamiento

Dividimos el texto en oraciones.

In [7]:
sentences = [x for x in sent_tokenize(book)]
print(f"# oraciones: {len(sentences)}")
for sentence in sentences[:3]:
    print(sentence)
    print()
    print("...Fin de la oración...")
    print()


# oraciones: 94
The Mexican oil expropriation (Spanish: expropiación petrolera) was the nationalization of all petroleum reserves, facilities, and foreign oil companies in Mexico on March 18, 1938.

...Fin de la oración...

In accordance with Article 27 of the Constitution of 1917, President Lázaro Cárdenas declared that all mineral and oil reserves found within Mexico belong to "the nation", i.e., the federal government.

...Fin de la oración...

The Mexican government established a state-owned petroleum company, Petróleos Mexicanos, or PEMEX.

...Fin de la oración...



convertimos a minúsculas, eliminamos stopwords, eliminamos signos de puntuación y radicalizamos.

EMJ La siguiente linea quita los signos de puntuación y estematiza las palaabras.
Este funciona bien en inglés pero en español hay que susutituir á por a en la paalabra Lázaro
Casi nadie hace a mano sus expresiones regulares porque son cansadas, por lo general las buscamos en internet

In [6]:
sent_low = [[stemmer.stem(re.sub('[^a-z]', "", word.lower())) for word in word_tokenize(sentence) if word not in cached_stopwords and len(word) > 2] for sentence in sentences]
sent_low[1]

['accord',
 'articl',
 'constitut',
 '',
 'presid',
 'lzaro',
 'crdena',
 'declar',
 'miner',
 'oil',
 'reserv',
 'found',
 'within',
 'mexico',
 'belong',
 'nation',
 'ie',
 'feder',
 'govern']

# TextRank

Construimos la matriz de adyacencias/similitud A entre las oraciones, tomando el número de palabras que están en ambas como la similitud entre las dos oraciones.

EMJ Haremos una matriz de ceros de nxn donde n es el número de oraciones de 94x94 donde vamos a tener una comparación de textos, para ver la longitud de este conjunto

In [8]:
A = np.zeros((len(sent_low), len(sent_low)))

for i in range(len(sentences)):
    if i % 100 == 0:
        print(i, end=", ")
        if i % 1000 == 0:
            print()
    for j in range(i+1, len(sentences)):
        # La simillitud entre oraciones va a ser el número de palabras que tienen en común
        A[i][j] = A[j][i] = len([x for x in sentences[i] if x in sentences[j]])

0, 


Así es como se ve un fragmento de la matriz A.

EMJ Esta oración tiene 164 en comun... Donde tenemos numeros grandes porque tienen mas influencia o mas cosas en común

In [9]:
A[:5, :5]

array([[  0., 164., 167., 169., 151.],
       [164.,   0., 181., 186., 160.],
       [167., 181.,   0.,  90.,  77.],
       [169., 186.,  90.,   0., 270.],
       [151., 160.,  77., 270.,   0.]])

Normalizamos las columnas de A

EMJ Hacemos la normalización para que me de la suma de 1, ya tenemos las ocurrncias, normalizo esto dependiendo de las columnas...

EMJ 
El sigueinte comando es solo para imprimir notación científica, no es tana imporatante, de A por pi y luego por A, son vectores de probaabilidades

In [10]:
# Comparamos las oraciones unas con otras, pero no consigo mismas
suma = np.sum(A, axis=0)
A_norm = np.divide(A, suma, where=suma!=0)
A_norm[:5, :5]

array([[0.        , 0.01004348, 0.02120366, 0.0061283 , 0.02966601],
       [0.01122058, 0.        , 0.02298121, 0.00674475, 0.03143418],
       [0.01142583, 0.01108457, 0.        , 0.00326359, 0.0151277 ],
       [0.01156267, 0.01139078, 0.01142712, 0.        , 0.05304519],
       [0.01033114, 0.00979852, 0.00977654, 0.00979077, 0.        ]])

Se crea el vector de TextRank con unos y se itera hasta que converja. Es decir, hasta que obtengamos $\Pi$ tal que $$\Pi = A~\Pi$$ 

In [11]:
np.set_printoptions(suppress=True)

EMJ
Creamaos un vector de 1s, vemos que tantaa diferencia tienen entre ellas dos y decimos si estan muy cerca entonces, metemos el vector de 1s, hacemos una comparación y hacemos otra iteración y así sucesivamente...
Al finaal se hace pequeña la diferencia...

In [12]:
tol = 1e-7

PI_ = np.ones(A_norm.shape[1])
    
i = 0
while True:
    pi_ = A_norm.dot(PI_)
    print(i, abs(PI_- pi_).sum()) 
    if np.allclose(PI_, pi_, tol):
        break
    i += 1
    PI_ = pi_

0 25.119042342061313
1 3.9834907908161306
2 0.6743622225980425
3 0.11271087281569248
4 0.01906787655554515
5 0.0032164628903882386
6 0.0005432400722331088
7 9.173100230158715e-05
8 1.549020578223148e-05
9 2.616007513722707e-06


EMJ
Una manera de obtener los eigen valores de la matriz con una función de sci pi, es decir calcular los eigenvectores 
Dependiendo de la matriz de nxn, no necesariamente son distintos, si tomo la primer fila, lo que voy a obtnere el vector de probabilidades de la amtriz

Alternativamente, podemos obtener los eigenvectores izquierdos de nuestra matriz A_norm. Los valores de PageRank corresponden al vector de probabilidades del estado estacionario de la matriz A que a su vez es el eigenvector izquierdo con eigenvalor asociado 1.

$$\Pi = \Pi A^T$$

In [13]:
_, vecs = splinalg.eig(A_norm.T, left=True, right=False)

EMJ 
Los valores mas grndes tendrán un valor mayor en pagerank ???


In [14]:
pi_ = vecs[:, 0]
pi_

array([0.11513537, 0.12862927, 0.06204202, 0.21723372, 0.04009572,
       0.24791601, 0.1968944 , 0.04618491, 0.09318907, 0.14523473,
       0.15436458, 0.07491361, 0.08680841, 0.07936432, 0.10138151,
       0.11062165, 0.15954   , 0.09155846, 0.0503284 , 0.06498815,
       0.08231832, 0.14549468, 0.12219348, 0.13968907, 0.0981518 ,
       0.08349993, 0.09306303, 0.10068043, 0.11075556, 0.12292607,
       0.08794275, 0.09195232, 0.07398409, 0.07832451, 0.08063257,
       0.10305151, 0.09930977, 0.15245038, 0.06701263, 0.09131426,
       0.09513477, 0.09115671, 0.0710222 , 0.12204381, 0.06067924,
       0.06411376, 0.07806455, 0.12736102, 0.089597  , 0.08630426,
       0.10294123, 0.06479909, 0.03369143, 0.1084475 , 0.05774886,
       0.11238617, 0.08791124, 0.12323329, 0.0999951 , 0.12122456,
       0.11086585, 0.11203169, 0.09476454, 0.09968788, 0.09711987,
       0.11414282, 0.09484331, 0.09988482, 0.10243708, 0.11970423,
       0.10192505, 0.11525353, 0.12236678, 0.09449671, 0.09651

Obtenemos los índices de los k valores más grandes en $\Pi$ y los usamos para obtener las oraciones más relevantes.

In [21]:
k = 10
pi_.argsort()[-k:][::-1]

array([ 5,  3,  6, 16, 10, 37, 21,  9, 23,  1])

EMJ
Las cuatro masa represnativas de mi texto

In [22]:
summary = [sentences[idx] for idx in pi_.argsort()[-k:][::-1]]

In [23]:
summary

['== Background ==\n\nOn August 16, 1935, the Petroleum Workers Union of Mexico (Sindicato de Trabajadores Petroleros de la República Mexicana) was formed and one of the first actions was the writing of a lengthy draft contract transmitted to the petroleum companies demanding a 40-hour working week, a full salary paid in the event of sickness, and the payment of 65 million pesos towards benefits and wages.',
 'For a short period, this measure caused an international boycott of Mexican products in the following years, especially by the United States, the United Kingdom, and the Netherlands, but with the outbreak of World War II and the alliance between Mexico and the Allies, the disputes with private companies over compensation were resolved.',
 'The foreign oil companies refused to sign the agreement, and counter offered with a payment of 14 million pesos toward wages and benefits.On November 3, 1937, the union demanded that the companies sign the collective agreement and on May 17, th

Por último, sólo queda ver qué considero TextRank como las oraciones más importantes.

EMJ 
Obtenemos las orcaiones mas importantes, esta herramienta es muy pesada, pero muy útil, 

In [24]:
for bullet in summary:
    print('___________')
    print(bullet)

___________
== Background ==

On August 16, 1935, the Petroleum Workers Union of Mexico (Sindicato de Trabajadores Petroleros de la República Mexicana) was formed and one of the first actions was the writing of a lengthy draft contract transmitted to the petroleum companies demanding a 40-hour working week, a full salary paid in the event of sickness, and the payment of 65 million pesos towards benefits and wages.
___________
For a short period, this measure caused an international boycott of Mexican products in the following years, especially by the United States, the United Kingdom, and the Netherlands, but with the outbreak of World War II and the alliance between Mexico and the Allies, the disputes with private companies over compensation were resolved.
___________
The foreign oil companies refused to sign the agreement, and counter offered with a payment of 14 million pesos toward wages and benefits.On November 3, 1937, the union demanded that the companies sign the collective agr

Podemos traducir la salida.

In [25]:
# Aprox 34 seg las primeras 10 oraciones
for bullet in summary:
    print()
    print(translate(bullet, "es"))


== Antecedentes ==El 16 de agosto de 1935, se formó el Sindicato de Trabajadores Petroleros de la República Mexicana y una de las primeras acciones fue la redacción de un largo borrador de contrato transmitido a las compañías petroleras exigiendo una semana laboral de 40 horas, un salario completo pagado en caso de enfermedad y el pago de 65 millones de pesos por beneficios y salarios.

Durante un corto período, esta medida provocó un boicot internacional a los productos mexicanos en los años siguientes, especialmente por parte de los Estados Unidos, el Reino Unido y los Países Bajos, pero con el estallido de la Segunda Guerra Mundial y la alianza entre México y los Aliados, se resolvieron las disputas con empresas privadas por la compensación.

El 3 de noviembre de 1937, el sindicato exigió a las empresas que firmaran el convenio colectivo y el 17 de mayo, el sindicato convocó una huelga en caso de que no se cumplieran sus demandas.

En respuesta, Jesús Silva Herzog (presente en la r

# Función para crear resúmenes

Podemos condensar todo lo anterior en una función que reciba texto y nos regrese las oraciones más relevantes de acuerdo a TextRank.

EMJ 
Analizar y preguntar sobre esta función

Número de oraciones ?
stemmer ? para 
TextRang  Resp. Tener o no eigenvectors, separamos los casos en los que si quiero obtenerlos o si quiero hacer el proceso de iterción, es decri si ver los vectores iz o si es necesario verlos por la aderecha,
Distribución estaacionaria es decir los 

eig - si queremos recuperar los eignevalores


EL primer caso es con los eignevectores y el otro es con el pi

Traaduciendo despues de TextRank
Si podriamos aplicar la traducción antes pero cuidado y que nos puede regresar un vaalor distinto






In [28]:
def summary(text, k, to_spanish = True, tol = 1e-5, d = .15, eig = False):
    print("Paso 1. Obteniendo oraciones")
    sentences = [x for x in sent_tokenize(text)]

    print(f"# oraciones: {len(sentences)}")
    
    print("Paso 2. Procesando texto")
    sent_low = [[stemmer.stem(re.sub('[^a-z]', "", word.lower())) for word in word_tokenize(sentence) if word not in cached_stopwords and len(word) > 2] for sentence in sentences]
    
    print("Paso 3. Creando matriz de similitud")
    A = np.zeros((len(sent_low), len(sent_low)))
    
    for i in range(len(sentences)):
        for j in range(i+1, len(sentences)):
            # La simillitud entre oraciones va a ser el número de palabras que tienen en común
            A[i][j] = A[j][i] = len([x for x in sentences[i] if x in sentences[j]])

    print("Paso 4. Normalizando matriz de similitud")   
    suma = np.sum(A, axis=0)
    A_norm = np.divide(A, suma, where=suma!=0)
    
    print("Paso 5. Ejecutando TextRank")
    if eig:
        vals, vecs = splinalg.eig(A_norm.T, left=True, right=False)
        pi_ = vecs[:, 0]
    else:
        PI_ = np.ones(A_norm.shape[1])
        
        while True:
            pi_ = A_norm.dot(PI_)
            if np.allclose(PI_, pi_, tol):
                break
            PI_ = pi_

    print("\tPaso 5. Terminado")

    if not to_spanish:
        return [sentences[idx] for idx in pi_.argsort()[-k:][::-1]]

    print("Paso 6. Traduciendo")
    return [translate(sentences[idx], "es") for idx in pi_.argsort()[-k:][::-1]]

def print_bullet_points(bullet_points):
    for point in bullet_points:
        print(f"- {point}\n")


In [27]:
wiki = wikipedia.page('Automatic summarization')
text = wiki.content
bullet_points = summary(text, 5, False, eig = False)

Paso 1. Obteniendo oraciones
# oraciones: 316
Paso 2. Procesando texto
Paso 3. Creando matriz de similitud
Paso 4. Normalizando matriz de similitud
Paso 5. Ejecutando TextRank
	Paso 5. Terminado


In [30]:
print_bullet_points(bullet_points)

- Consider the example text from a news article:


- Text summarization finds the most informative sentences in a document; various methods of image summarization are the subject of ongoing research, with some looking to display the most representative images from a given collection or generating a video; video summarization extracts the most important frames from the video content.

- For text, extraction is analogous to the process of skimming, where the summary (if available), headings and subheadings, figures, the first and last paragraphs of a section, and optionally the first and last sentences in a paragraph are read before one chooses to read the entire document in detail.

- Such transformation, however, is computationally much more challenging than extraction, involving both natural language processing and often a deep understanding of the domain of the original text in cases where the original document relates to a special field of knowledge.

- They can enable document brow

EMJ
Del siguiente proyecto obtenemos un archivo, vaamos a leer algunos caapítulos, 

In [29]:
!wget https://www.gutenberg.org/files/84/84-0.txt -O book.txt

--2022-05-09 13:49:15--  https://www.gutenberg.org/files/84/84-0.txt
Resolving www.gutenberg.org (www.gutenberg.org)... 152.19.134.47, 2610:28:3090:3000:0:bad:cafe:47
Connecting to www.gutenberg.org (www.gutenberg.org)|152.19.134.47|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 448821 (438K) [text/plain]
Saving to: ‘book.txt’


2022-05-09 13:49:15 (3.53 MB/s) - ‘book.txt’ saved [448821/448821]



EMJ en la siguiente instrucción abrimos, leemos e imprimimos el rchivo

In [31]:
with open("book.txt") as f:
    book_raw = f.read()
print(book_raw[0:1000])

﻿The Project Gutenberg eBook of Frankenstein, by Mary Wollstonecraft (Godwin) Shelley

This eBook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this eBook or online at
www.gutenberg.org. If you are not located in the United States, you
will have to check the laws of the country where you are located before
using this eBook.

Title: Frankenstein
       or, The Modern Prometheus

Author: Mary Wollstonecraft (Godwin) Shelley

Release Date: 31, 1993 [eBook #84]
[Most recently updated: November 13, 2020]

Language: English

Character set encoding: UTF-8

Produced by: Judith Boss, Christy Phillips, Lynn Hanninen, and David Meltzer. HTML version by Al Haines.
Further corrections by Menno de Leeuw.

*** START OF THE PROJECT GUTENBERG EBOOK FRANKENSTEIN ***




Frankenstein;

or, the Modern Pro

EMJ
En la siguiente linea buscamos en los siguientes capitulos


In [32]:
start = book_raw.rfind("Chapter 5\n")
end = book_raw.rfind('Chapter 6\n')

In [33]:
chapter_n = book_raw[start + len("Chapter 5\n"): end]

Este va a leer todo el contenido del caapitulo 1 y su indice

In [36]:
bullet_points = summary(chapter_n, 5, False, eig = True)

Paso 1. Obteniendo oraciones
# oraciones: 90
Paso 2. Procesando texto
Paso 3. Creando matriz de similitud
Paso 4. Normalizando matriz de similitud
Paso 5. Ejecutando TextRank
	Paso 5. Terminado


In [38]:
print_bullet_points(bullet_points)

- “You may easily believe,” said
he, “how great was the difficulty to persuade my father that all
necessary knowledge was not comprised in the noble art of book-keeping;
and, indeed, I believe I left him incredulous to the last, for his constant
answer to my unwearied entreaties was the same as that of the Dutch
schoolmaster in The Vicar of Wakefield: ‘I have ten thousand florins
a year without Greek, I eat heartily without Greek.’ But his
affection for me at length overcame his dislike of learning, and he has
permitted me to undertake a voyage of discovery to the land of
knowledge.”

“It gives me the greatest delight to see you; but tell me how you left
my father, brothers, and Elizabeth.”

“Very well, and very happy, only a little uneasy that they hear from
you so seldom.

- But, my dear Frankenstein,” continued he, stopping
short and gazing full in my face, “I did not before remark how very ill
you appear; so thin and pale; you look as if you had been watching for
several nights.”



# Ejercicios

## Matriz de similitud entre oraciones

Para la similitud entre las oraciones se uso el número de palabras que aparecen en ambas. **Reemplazar por similitud coseno** y comparar los resultados.

Un muy buen primer acercamiento podría ser usando Latent Semantic Analysis y calcular la similitud coseno entre todos los documentos.

Si tienen una DataFrame con las columnas ```[id_documento_1, id_documento_2, similitud]```, usar la función [```pandas.DataFrame.pivot```](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html) puede ayudar a crear la matriz de similitud, dicha función toma como argumentos "index", "columns" y "values".




## Idioma

Este ejemplo esta hecho para texto en inglés por las stopwords que se usan y el radicalizador (PorterStemmer). Hacer los cambios necesarios para que reciba textos en español.

Esto es, cambiar las stopwords (nltk tiene stopwords en español) y el radicalizador (Pista: ```nltk.stemmer``` tiene más radicalizadores y uno de ellos tienen un algoritmo para el español)

## Oraciones vs. Palabras

En este Notebook utilizamos las oraciones para obtener el resumen, de haber utilizado las palabras, de TextRank obtendríamos las palabras clave del texto. 

Implementar TextRank con palabras. Para la matriz de similitud (o adyacencias), se pueden ligar las palabras que son consecutivas o definir una ventana de k palabras consecutivas en cada oración (parecido a skip-gram) y ligar todas estas palabras. En este caso, la matriz A tendría la dimensión del vocabulario (lista de palabras únicas) y tendría un 1 si las palabras están ligadas.

Una alternativa más sería ocupar un embedding de palabras (e.g. word2vec) y calcular la similitud coseno entre los vectores de cada palabra para llenas a A.

Después de eso, todo sería lo mismo.

## Resumen sobre un tema

Aquí usamos sólo un documento para aplicarle TextRank. Podemos tener un corpus de documentos del mismo tema (e.g. noticias sobre el AIFA, etc) y aplicarlo para obtener los puntos importantes de todo el corpus.

A la implementación actual no se le tiene que cambiar nada, sólo concatenar en una sola cadena de texto todo el corpus.

Ejercicio: Construir un corpus con 4 artículos sobre un tema de interés, concatenarlos y pasarlo como parámetro a la función ```summary```.

## Mejorar la función ```summary```

Podemos dividir el código de la función para que funcionen como módulos y permita cierta libertad a la hora de ejecutarse. Por ejemplo, podríamos tener varias funciones que calculen la matriz A de diferentes maneras y que dentro de ```summary``` se ejecute una de tantas de acuerdo a un parámetro de la función.

Ejercicio: Crear funciones para cada paso de ```summary```

# Sobre la obtención de los valores de PageRank

https://nlp.stanford.edu/IR-book/html/htmledition/the-pagerank-computation-1.html

https://nlp.stanford.edu/IR-book/html/htmledition/markov-chains-1.html