# Summarizer with Python and NLTK (Resumidor con Python y NLTK)

In [24]:
# Importa los metodos a trabajar desde NLTK:

# stopwords = palabras reservadas.
from nltk.corpus import stopwords

# word_tokenize = valorizador de palabras.
# sent_tokenize = valorizador de oraciones.
from nltk.tokenize import word_tokenize, sent_tokenize

In [25]:
# Descarga de metodos debido a que stopwords y tokenize
#   no se podían usar sin ellos.
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\migue\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\migue\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [26]:
# Se crean 2 arreglos y 1 variable:

# arreglo 1) - SW - configura el método de entrada o idioma en el que se 
                    # van a trabajar las palabras en el metodo words de stopwords, en este caso, Español.
SW = set(stopwords.words("spanish"))

# text para definir el texto a resumir.
#text = """El secreto de Edgar Allan Poe es la previa organización metódica de sus elementos a fin de producir efectos. Haciendo una lectura tamizada de la obra, se develan aquellos elementos patrones que, casualmente, emplea para su misión de expresar una porción del terreno de la melancolía y el horror diabólico. Poe escribe sus relatos teniendo en mente un simple efecto propenso a estallar en terror o pasión durante el momento final de la historia. Sostiene que en la totalidad de la composición no debe haber palabras que tiendan, directa o indirectamente, a deducir el efecto que el autor se ha propuesto. Lo asombroso es que un amante de la casualidad haya preparado sistemáticamente los elementos que se deben integrar en el relato, como si hubiese sido dotado del don para controlar el destino: azares de la expresión. Así es como sorprende, manipula el campo de lo inesperado, sobresalta al lector y en la apuesta final saca el as de la manga y gana la jugada astutamente. Los detalles funcionan como sostenes del relato hasta que la última oración narra el efecto preciso: el más planeado por el autor y el menos pensado para el lector. En Edgar Poe no es la inventiva lo que deslumbra sino la capacidad de incertidumbre de las situaciones, la aproximación a lo temido por desconocido, a la muerte. Maestro de la desesperación que parece hallar en la muerte el corte al sufrimiento de sus personajes, de su propio dolor. Tomando las palabras del poeta y dramaturgo David H. Lawrence: « Las mejores producciones de Poe no son relatos. Son algo más. Son descripciones del alma humana, retorciéndose en las convulsiones de la ruptura»"""

text="""El PP no suelta la presa sobre la esposa del presidente del Gobierno, Pedro Sánchez, por las reuniones que mantuvo con la matriz de Air Europa unos días antes de que la aerolínea fuera rescatada con dinero público en 2020. El líder popular, Alberto Núñez Feijóo, avisó este miércoles a Sánchez de que el PP impulsará una "investigación específica" sobre los vínculos Begoña Gómez con esa empresa y su supuesta intermediación para el rescate, una investigación que será "parlamentaria" pero que, amenazó Feijóo, puede terminar llegando a los tribunales si el presidente no ofrece explicaciones. En una intervención con un tono algo más sosegado que en las últimas semanas, Feijóo aseguró que Sánchez que "se equivoca" si cree que ha "resuelto las dudas de lo que ha pasado en su Gobierno y en su partido", una referencia muy poco velada a la conocida como trama Koldo, que se habría beneficiado de mordidas en la compra de mascarillas durante la pandemia. Al líder del PP también le genera dudas "lo que ha pasado" en la "casa" del presidente, en referencia a la esposa de Sánchez, a quien no llamó por su nombre. "Se equivoca si cree que ha dado carpetazo" a ese asunto, espetó Feijóo, que prometió que si el presidente "vuelve a negarse a dar explicaciones" impulsará "una investigación específica sobre los asuntos que le afectan a su entorno más inmediato". "Parlamentaria seguro, y judicial también, si es necesaria", espetó el líder del PP. En respuesta, Sánchez ironizó con la "paciencia" que, dijo, tiene que tener para responder semanalmente a las mismas preguntas, y exigió a Feijóo que "plante cara a la corrupción" en el PP y "exija la dimisión a la señora [Isabel Díaz] Ayuso como presidenta de la Comunidad de Madrid" por las informaciones sobre el fraude fiscal que habría cometido su pareja."""
# arreglo 2) - words - almacena el texto en el método word_tokenize para 
                        # previamente darle valor.
words = word_tokenize(text)

In [27]:
# Se crea un diccionario para crear una tabla de frecuencias de las palabras.
freqTable = dict()

# Con un for se recorre el texto y se almacena en la tabla.
for word in words:
    word = word.lower() # setea las palabras en minúscula y las almacena en word.
    if word in SW: 
        continue # Si la palabra se encuentra en SW, continua con el ciclo.
    if word in freqTable: # Si la palabra ya se encuentra en la tabla frecuencia,
        freqTable[word] += 1 # Suma 1 a la posición donde se encuentra la palabra.
    else:
        freqTable[word] = 1 # Sino, la palabra en la TF va a ser igual a 1.

In [28]:
#Muestra la tabla de frecuencias de cada palabra.
freqTable

{'pp': 5,
 'suelta': 1,
 'presa': 1,
 'esposa': 2,
 'presidente': 4,
 'gobierno': 2,
 ',': 21,
 'pedro': 1,
 'sánchez': 5,
 'reuniones': 1,
 'mantuvo': 1,
 'matriz': 1,
 'air': 1,
 'europa': 1,
 'días': 1,
 'aerolínea': 1,
 'rescatada': 1,
 'dinero': 1,
 'público': 1,
 '2020': 1,
 '.': 7,
 'líder': 3,
 'popular': 1,
 'alberto': 1,
 'núñez': 1,
 'feijóo': 5,
 'avisó': 1,
 'miércoles': 1,
 'impulsará': 2,
 '``': 13,
 'investigación': 3,
 'específica': 2,
 "''": 13,
 'vínculos': 1,
 'begoña': 1,
 'gómez': 1,
 'empresa': 1,
 'supuesta': 1,
 'intermediación': 1,
 'rescate': 1,
 'parlamentaria': 2,
 'amenazó': 1,
 'puede': 1,
 'terminar': 1,
 'llegando': 1,
 'tribunales': 1,
 'si': 5,
 'ofrece': 1,
 'explicaciones': 2,
 'intervención': 1,
 'tono': 1,
 'sosegado': 1,
 'últimas': 1,
 'semanas': 1,
 'aseguró': 1,
 'equivoca': 2,
 'cree': 2,
 'resuelto': 1,
 'dudas': 2,
 'pasado': 2,
 'partido': 1,
 'referencia': 2,
 'velada': 1,
 'conocida': 1,
 'trama': 1,
 'koldo': 1,
 'beneficiado': 1,
 'mor

In [29]:
# Crea una variable y un diccionario.

# Variable sentences para almacenar las oraciones a valorizar del texto.
sentences = sent_tokenize(text)

# Diccionario sentenceValue para almacenar los valores de las oraciones.
sentenceValue = dict()

In [30]:
#Se crea un ciclo for para recorrer las oraciones que se encuentran en el texto.
for sentence in sentences:
    # Se crea un segundo for para recorrer los items que se encuentran el la TF.
    for word, freq in freqTable.items():
        if word in sentence.lower(): # Si la palabra se encuentra en las oraciones (en minuscula)
            if sentence in sentenceValue: # Y si la oración está en el diccionario de las oraciones a valorizar.
                sentenceValue[sentence] += freq # Entonces sume 1 al número de frecuencia en la posición de la oración del sV.
            else:
                sentenceValue[sentence] = freq # Sino, que el valor de la posición de la oración sea igual a la frecuencia.

In [31]:
#Muestra las oraciones ya valorizadas con su respectivo puntaje.
sentenceValue

{'El PP no suelta la presa sobre la esposa del presidente del Gobierno, Pedro Sánchez, por las reuniones que mantuvo con la matriz de Air Europa unos días antes de que la aerolínea fuera rescatada con dinero público en 2020.': 65,
 'El líder popular, Alberto Núñez Feijóo, avisó este miércoles a Sánchez de que el PP impulsará una "investigación específica" sobre los vínculos Begoña Gómez con esa empresa y su supuesta intermediación para el rescate, una investigación que será "parlamentaria" pero que, amenazó Feijóo, puede terminar llegando a los tribunales si el presidente no ofrece explicaciones.': 85,
 'En una intervención con un tono algo más sosegado que en las últimas semanas, Feijóo aseguró que Sánchez que "se equivoca" si cree que ha "resuelto las dudas de lo que ha pasado en su Gobierno y en su partido", una referencia muy poco velada a la conocida como trama Koldo, que se habría beneficiado de mordidas en la compra de mascarillas durante la pandemia.': 72,
 'Al líder del PP tam

In [32]:
# Se crea una variable donde se almacena la suma de los valores.
sumValues = 0

# Se crea un ciclo for para evaluar la oración dentro del Diccionario de las oraciones valorizadas.
for sentence in sentenceValue:
    sumValues += sentenceValue[sentence] # Se suma 1 al valor de la Oración en su respectiva posición
    
# Valor promedio de una oración desde un texto original
average = int(sumValues/ len(sentenceValue)) # Divide la suma de valores en la total de oraciones valorizadas.

In [33]:
# Se crea una variable para almacenar el resumen a imprimir.
summary = ''

# Se crea un for para recorrer las oraciones almacenadas
for sentence in sentences:
    
    #Donde si, la oración está las oraciones Valorizadas y la posición de la oración es mayor que 1.2 veces el promedio:
    if (sentence in sentenceValue) and (sentenceValue[sentence] > (1.2 * average)):
        
        # El resumen va a agregar un espacio más la oración que aprobó la condición.
        summary += " " + sentence 

In [34]:
# Se imprime el resumen.
print(summary)

 El líder popular, Alberto Núñez Feijóo, avisó este miércoles a Sánchez de que el PP impulsará una "investigación específica" sobre los vínculos Begoña Gómez con esa empresa y su supuesta intermediación para el rescate, una investigación que será "parlamentaria" pero que, amenazó Feijóo, puede terminar llegando a los tribunales si el presidente no ofrece explicaciones.
