# Summarizer with Python and NLTK (Resumidor con Python y NLTK)

In [79]:
# Importa los metodos a trabajar desde NLTK:

# stopwords = palabras reservadas.
from nltk.corpus import stopwords

# word_tokenize = valorizador de palabras.
# sent_tokenize = valorizador de oraciones.
from nltk.tokenize import word_tokenize, sent_tokenize

In [80]:
# Descarga de metodos debido a que stopwords y tokenize
#   no se podían usar sin ellos.
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to C:\Users\Will
[nltk_data]     Royero\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to C:\Users\Will
[nltk_data]     Royero\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [81]:
# Se crean 2 arreglos y 1 variable:

# arreglo 1) - SW - configura el método de entrada o idioma en el que se 
                    # van a trabajar las palabras en el metodo words de stopwords, en este caso, Español.
SW = set(stopwords.words("spanish"))

# text para definir el texto a resumir.
text = """El secreto de Edgar Allan Poe es la previa organización metódica de sus elementos a fin de producir efectos. Haciendo una lectura tamizada de la obra, se develan aquellos elementos patrones que, casualmente, emplea para su misión de expresar una porción del terreno de la melancolía y el horror diabólico. Poe escribe sus relatos teniendo en mente un simple efecto propenso a estallar en terror o pasión durante el momento final de la historia. Sostiene que en la totalidad de la composición no debe haber palabras que tiendan, directa o indirectamente, a deducir el efecto que el autor se ha propuesto. Lo asombroso es que un amante de la casualidad haya preparado sistemáticamente los elementos que se deben integrar en el relato, como si hubiese sido dotado del don para controlar el destino: azares de la expresión. Así es como sorprende, manipula el campo de lo inesperado, sobresalta al lector y en la apuesta final saca el as de la manga y gana la jugada astutamente. Los detalles funcionan como sostenes del relato hasta que la última oración narra el efecto preciso: el más planeado por el autor y el menos pensado para el lector. En Edgar Poe no es la inventiva lo que deslumbra sino la capacidad de incertidumbre de las situaciones, la aproximación a lo temido por desconocido, a la muerte. Maestro de la desesperación que parece hallar en la muerte el corte al sufrimiento de sus personajes, de su propio dolor. Tomando las palabras del poeta y dramaturgo David H. Lawrence: « Las mejores producciones de Poe no son relatos. Son algo más. Son descripciones del alma humana, retorciéndose en las convulsiones de la ruptura»"""

# arreglo 2) - words - almacena el texto en el método word_tokenize para 
                        # previamente darle valor.
words = word_tokenize(text)

In [82]:
# Se crea un diccionario para crear una tabla de frecuencias de las palabras.
freqTable = dict()

# Con un for se recorre el texto y se almacena en la tabla.
for word in words:
    word = word.lower() # setea las palabras en minúscula y las almacena en word.
    if word in SW: 
        continue # Si la palabra se encuentra en SW, continua con el ciclo.
    if word in freqTable: # Si la palabra ya se encuentra en la tabla frecuencia,
        freqTable[word] += 1 # Suma 1 a la posición donde se encuentra la palabra.
    else:
        freqTable[word] = 1 # Sino, la palabra en la TF va a ser igual a 1.

In [90]:
#Muestra la tabla de frecuencias de cada palabra.
freqTable

{',': 12,
 '.': 11,
 ':': 3,
 'allan': 1,
 'alma': 1,
 'amante': 1,
 'aproximación': 1,
 'apuesta': 1,
 'aquellos': 1,
 'as': 1,
 'asombroso': 1,
 'astutamente': 1,
 'así': 1,
 'autor': 2,
 'azares': 1,
 'campo': 1,
 'capacidad': 1,
 'casualidad': 1,
 'casualmente': 1,
 'composición': 1,
 'controlar': 1,
 'convulsiones': 1,
 'corte': 1,
 'david': 1,
 'debe': 1,
 'deben': 1,
 'deducir': 1,
 'desconocido': 1,
 'descripciones': 1,
 'desesperación': 1,
 'deslumbra': 1,
 'destino': 1,
 'detalles': 1,
 'develan': 1,
 'diabólico': 1,
 'directa': 1,
 'dolor': 1,
 'don': 1,
 'dotado': 1,
 'dramaturgo': 1,
 'edgar': 2,
 'efecto': 3,
 'efectos': 1,
 'elementos': 3,
 'emplea': 1,
 'escribe': 1,
 'estallar': 1,
 'expresar': 1,
 'expresión': 1,
 'fin': 1,
 'final': 2,
 'funcionan': 1,
 'gana': 1,
 'h.': 1,
 'haber': 1,
 'haciendo': 1,
 'hallar': 1,
 'historia': 1,
 'horror': 1,
 'humana': 1,
 'incertidumbre': 1,
 'indirectamente': 1,
 'inesperado': 1,
 'integrar': 1,
 'inventiva': 1,
 'jugada': 1,
 

In [84]:
# Crea una variable y un diccionario.

# Variable sentences para almacenar las oraciones a valorizar del texto.
sentences = sent_tokenize(text)

# Diccionario sentenceValue para almacenar los valores de las oraciones.
sentenceValue = dict()

In [85]:
#Se crea un ciclo for para recorrer las oraciones que se encuentran en el texto.
for sentence in sentences:
    # Se crea un segundo for para recorrer los items que se encuentran el la TF.
    for word, freq in freqTable.items():
        if word in sentence.lower(): # Si la palabra se encuentra en las oraciones (en minuscula)
            if sentence in sentenceValue: # Y si la oración está en el diccionario de las oraciones a valorizar.
                sentenceValue[sentence] += freq # Entonces sume 1 al número de frecuencia en la posición de la oración del sV.
            else:
                sentenceValue[sentence] = freq # Sino, que el valor de la posición de la oración sea igual a la frecuencia.

In [86]:
#Muestra las oraciones ya valorizadas con su respectivo puntaje.
sentenceValue

{'Así es como sorprende, manipula el campo de lo inesperado, sobresalta al lector y en la apuesta final saca el as de la manga y gana la jugada astutamente.': 42,
 'El secreto de Edgar Allan Poe es la previa organización metódica de sus elementos a fin de producir efectos.': 31,
 'En Edgar Poe no es la inventiva lo que deslumbra sino la capacidad de incertidumbre de las situaciones, la aproximación a lo temido por desconocido, a la muerte.': 42,
 'Haciendo una lectura tamizada de la obra, se develan aquellos elementos patrones que, casualmente, emplea para su misión de expresar una porción del terreno de la melancolía y el horror diabólico.': 45,
 'Lo asombroso es que un amante de la casualidad haya preparado sistemáticamente los elementos que se deben integrar en el relato, como si hubiese sido dotado del don para controlar el destino: azares de la expresión.': 49,
 'Los detalles funcionan como sostenes del relato hasta que la última oración narra el efecto preciso: el más planeado po

In [87]:
# Se crea una variable donde se almacena la suma de los valores.
sumValues = 0

# Se crea un ciclo for para evaluar la oración dentro del Diccionario de las oraciones valorizadas.
for sentence in sentenceValue:
    sumValues += sentenceValue[sentence] # Se suma 1 al valor de la Oración en su respectiva posición
    
# Valor promedio de una oración desde un texto original
average = int(sumValues/ len(sentenceValue)) # Divide la suma de valores en la total de oraciones valorizadas.

In [88]:
# Se crea una variable para almacenar el resumen a imprimir.
summary = ''

# Se crea un for para recorrer las oraciones almacenadas
for sentence in sentences:
    
    #Donde si, la oración está las oraciones Valorizadas y la posición de la oración es mayor que 1.2 veces el promedio:
    if (sentence in sentenceValue) and (sentenceValue[sentence] > (1.2 * average)):
        
        # El resumen va a agregar un espacio más la oración que aprobó la condición.
        summary += " " + sentence 

In [89]:
# Se imprime el resumen.
print(summary)

 Haciendo una lectura tamizada de la obra, se develan aquellos elementos patrones que, casualmente, emplea para su misión de expresar una porción del terreno de la melancolía y el horror diabólico. Sostiene que en la totalidad de la composición no debe haber palabras que tiendan, directa o indirectamente, a deducir el efecto que el autor se ha propuesto. Lo asombroso es que un amante de la casualidad haya preparado sistemáticamente los elementos que se deben integrar en el relato, como si hubiese sido dotado del don para controlar el destino: azares de la expresión.
