# Resumidor Automatico de Texto

El siguiente notebook hace uso de **NLTK** que es una herramienta poderosa y versátil que ofrece una amplia gama de funcionalidades para el procesamiento del lenguaje natural. Se escogió debido a sus capacidades de tokenización de texto, eliminación de palabras vacías y análisis de frecuencia de palabras. Lo que resulta ideal para identificar las palabras clave, determinar la relevancia de cada palabra y, en general, procesar el texto de manera efectiva para crear resúmenes concisos y precisos.

A continuacion se resaltan los pasos a seguir para realizar el resumen de un texto

## Importar las librerias necesarias

Se utilizaron las siguientes librerías en el desarrollo del script para resumir automáticamente un artículo corto en Python:

- **nltk**: Se utiliza esta librería para el procesamiento del lenguaje natural. Se importan varios módulos de `nltk` para el tokenización de palabras y oraciones, así como para obtener una lista de palabras vacías (stopwords) en español.

- **heapq**: Se utiliza esta librería para obtener las `n` oraciones más relevantes del texto, basadas en su puntuación.

In [137]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
import heapq

## Tokenizar el texto

A continuacion, se analiza el texto ingresado. Primero, se divide el texto en oraciones procurando no tener en cuenta oraciones vacías. Luego, se calcula la frecuencia de cada palabra en el texto. Finalmente, se normalizan las frecuencias dividiéndolas por la frecuencia máxima encontrada en el texto.


In [138]:
# Aqui se define el texto a resumir
texto = """
Dentro de los platos tradicionales y típicos de la deliciosa gastronomía lojana estan la deliciosa Cecina, este es un plato tradicional lojano que consiste en un filete muy muy fino de lomo de cerdo. El proceso de obtener el filete "finitito"  se conoce como cecinar la carne y por eso recibe el nombre de Cecina.

Es un plato muy tradicional en toda la provincia de Loja, y dependiendo del lugar se prepara de forma diferente. La preparación más frecuente es la de secar la cecina al sol y/o aumarla en leña, luego adobar con ajo y sal.

Finalmente se asa al carbón o a la plancha. El sabor se determina por la calidad de la carne y el toque secreto lo agrega el aliño.

Cuando estes en Loja, debes disfrutar una buena Cecina Lojana, mucho mejor si lo haces en el Emporio Lojano.

El edificio emporio lojano, es una de las primeras edificaciones de la ciudad, su decoración simple y elegante, fiel a la Loja de antaño, es el escenario propicio para degustar buena comida en compañia de colegas, amigos y familia.
"""

In [139]:
# Dividir el texto en oraciones
lista_oraciones = [oracion for oracion in texto.split('.') if oracion]

frecuencia_palabras = {}
palabras_vacias = set(stopwords.words('spanish'))

# Calcular la frecuencia de las palabras en el texto
for oracion in lista_oraciones:
    palabras = word_tokenize(oracion, language="spanish")
    for palabra in palabras:
        if palabra.isalpha() and palabra not in palabras_vacias:
            if palabra not in frecuencia_palabras.keys():
                frecuencia_palabras[palabra] = 1
            else:
                frecuencia_palabras[palabra] += 1

# Normalizar las frecuencias de las palabras
frecuencia_maxima = max(frecuencia_palabras.values())
for palabra in frecuencia_palabras.keys():
    frecuencia_palabras[palabra] = frecuencia_palabras[palabra] / frecuencia_maxima


## Calcular la puntuación de las oraciones

Luego, se calcula la puntuación de cada oración en función de la frecuencia de las palabras que contiene. Para cada oración, se suman las frecuencias de las palabras que la componen. Esto permite identificar las oraciones más relevantes del texto, ya que contienen las palabras clave con mayor frecuencia.

In [140]:
# Calcular la puntuación de las oraciones
puntuacion_oraciones = {}
for oracion in lista_oraciones:
    for palabra in word_tokenize(oracion, language="spanish"):
        if palabra.isalpha() and palabra in frecuencia_palabras.keys():
            if oracion not in puntuacion_oraciones.keys():
                puntuacion_oraciones[oracion] = frecuencia_palabras[palabra]
            else:
                puntuacion_oraciones[oracion] += frecuencia_palabras[palabra]


## Seleccionar las 5 oraciones más relevantes para el resumen

Despues, se seleccionan las 5 oraciones más relevantes para el resumen. Para ello, se utilizan las puntuaciones calculadas anteriormente y se seleccionan las oraciones con las puntuaciones más altas. Si la longitud del resumen supera las 100 palabras, se detiene el proceso y se devuelve el resumen actual.

In [141]:
# Seleccionar las 5 oraciones más relevantes para el resumen
oraciones_resumen = heapq.nlargest(5, puntuacion_oraciones, key=puntuacion_oraciones.get)

# Limitar el resumen a un máximo de 100 palabras
resumen = []
cantidad_palabras = 0

for oracion in oraciones_resumen:
    palabras = word_tokenize(oracion, language="spanish")
    if cantidad_palabras + len(palabras) <= 100:
        resumen.append(oracion)
        cantidad_palabras += len(palabras)
    else:
        break

resumen = '.'.join(resumen)
# Eliminar Saltos de Linea dobles
resumen = resumen.replace('\n\n', '\n')


# Generar una lista de palabras más relevantes

Como ultimo paso del proceso, se generan las palabras claves del texto. Para ello, se seleccionan las 5 palabras con mayor frecuencia en el texto, excluyendo las palabras vacías comunes en español.

In [142]:
# Generar un título propuesto basado en las palabras más relevantes
palabras_titulo = heapq.nlargest(5, frecuencia_palabras, key=frecuencia_palabras.get)
# Se filtran las palabras que no aportan relevancia
palabras_titulo_filtradas = [palabra for palabra in palabras_titulo if palabra.lower() not in ['para', 'sobre', 'de', 'en', 'con', 'los', 'las', 'del', 'la', 'el', 'y', 'a', 'un', 'una', 'su', 'sus', 'sus', 'se', 'es', 'que', 'no', 'al', 'o', 'por', 'como', 'lo', 'si', 'para', 'más', 'también', 'hasta', 'pero', 'ante', 'sí', 'sobre', 'tras', 'durante', 'aunque', 'entre', 'así', 'mientras', 'ya', 'cuando', 'donde', 'quien', 'cual', 'cada', 'todo', 'otro', 'otra', 'otros', 'otras', 'algo', 'alguien', 'nadie', 'ninguno', 'ninguna', 'cómo', 'cuál', 'cuáles', 'cuán', 'cuánto', 'cuánta', 'cuántos', 'cuántas', 'qué', 'dónde', 'cómo', 'por qué', 'para qué', 'quién', 'quiénes', 'cuál', 'cuáles']]
titulo = ', '.join(palabras_titulo_filtradas).title()


# Imprimir el resumen y palabras clave

Finalmente, se imprime el resumen generado y las palabras clave encontradas. El resumen contiene las 5 oraciones más relevantes del texto, limitadas a un máximo de 100 palabras. Las palabras clave se utilizan para intentar resumir el contenido del texto de manera concisa y precisa.

In [143]:
print(f"Palabras Clave: {titulo} \n")
print("Resumen: ")
print(resumen)


Palabras Clave: Cecina, Loja, Deliciosa, Plato 

Resumen: 

El edificio emporio lojano, es una de las primeras edificaciones de la ciudad, su decoración simple y elegante, fiel a la Loja de antaño, es el escenario propicio para degustar buena comida en compañia de colegas, amigos y familia.
Dentro de los platos tradicionales y típicos de la deliciosa gastronomía lojana estan la deliciosa Cecina, este es un plato tradicional lojano que consiste en un filete muy muy fino de lomo de cerdo.
Cuando estes en Loja, debes disfrutar una buena Cecina Lojana, mucho mejor si lo haces en el Emporio Lojano


## Nota Aclaratoria

Este notebook contiene el código de manera secuencial y explicativa. Sin embargo, en el proyecto donde se encuentra este archivo, el código está ordenado en funciones para su uso en la API.