# Resumen de Textos con NLP

In [None]:
!pip install beautifulsoup4
!pip install lxml



In [None]:
import bs4 as bs
import urllib.request
import re

In [None]:
URL_INGLES = 'https://en.wikipedia.org/wiki/Artificial_intelligence'
URL_ESPAÑOL = 'https://es.wikipedia.org/wiki/Procesamiento_de_lenguajes_naturales'
scraped_data = urllib.request.urlopen(URL_ESPAÑOL)
article = scraped_data.read()

parsed_article = bs.BeautifulSoup(article,'lxml')

paragraphs = parsed_article.find_all('p')

article_text = ""

for p in paragraphs:
    article_text += p.text

In [None]:
article_text

'El procesamiento de lenguaje natural,[1]\u200b[2]\u200b abreviado PLN[3]\u200b[4]\u200b —en inglés, natural language processing, NLP— es un campo de las ciencias de la computación, de la inteligencia artificial y de la lingüística que estudia las interacciones entre las computadoras y el lenguaje humano. Se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio del lenguaje natural, es decir, de las lenguas del mundo. No trata de la comunicación por medio de lenguas naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación—. Los modelos aplicados se enfocan no solo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve solo de medio para estudiar estos fenómenos. Hasta la

## Proprocesamiento

In [None]:
# Removing Square Brackets and Extra Spaces
article_text = re.sub(r'[[0-9]*]', ' ', article_text) # Borrar los números entre corchetes
article_text = re.sub(r'\s+', ' ', article_text) # Borrar los espacios extra dejando solo un espacio

In [None]:
# Removing special characters and digits
formatted_article_text = re.sub('[^a-zA-Z]', ' ', article_text )
formatted_article_text = re.sub(r's+', ' ', formatted_article_text)

## Convertir el texto a frases

In [None]:
import nltk
nltk.download('punkt')
sentence_list = nltk.sent_tokenize(article_text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Eliminación de Stop Words

In [None]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('spanish')

word_frequencies = {} # Diccionario de frecuencias
for word in nltk.word_tokenize(formatted_article_text): # Para cada frase, tokenizar e iterar por palabra
    if word not in stopwords: # Si no esta en la lista de Stop Words
        if word not in word_frequencies.keys(): # Si la palabra no esta en el diccionario
            word_frequencies[word] = 1 # La añado e inicializo la frecuencia a 1
        else:
            word_frequencies[word] += 1 # Si esta, aumento la frecuencia

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
print(word_frequencies)

{'El': 4, 'proce': 5, 'amiento': 4, 'lenguaje': 7, 'natural': 4, 'abreviado': 1, 'PLN': 6, 'ingl': 2, 'language': 1, 'ing': 1, 'NLP': 3, 'campo': 1, 'ciencia': 1, 'computaci': 1, 'n': 23, 'inteligencia': 2, 'artificial': 1, 'ling': 3, 'tica': 10, 'tudia': 1, 'interaccione': 1, 'computadora': 1, 'humano': 2, 'Se': 3, 'ocupa': 1, 'formulaci': 1, 'inve': 3, 'tigaci': 2, 'mecani': 2, 'mo': 3, 'eficace': 2, 'computacionalmente': 2, 'comunicaci': 3, 'per': 1, 'ona': 1, 'm': 4, 'quina': 2, 'medio': 4, 'decir': 1, 'lengua': 7, 'mundo': 1, 'No': 1, 'trata': 1, 'naturale': 3, 'forma': 1, 'ab': 1, 'tracta': 1, 'ino': 2, 'di': 3, 'ar': 1, 'comunicar': 1, 'ean': 1, 'puedan': 1, 'realizar': 1, 'programa': 1, 'ejecuten': 1, 'imulen': 1, 'Lo': 2, 'modelo': 1, 'aplicado': 1, 'enfocan': 1, 'olo': 2, 'compren': 1, 'i': 7, 'pecto': 1, 'generale': 1, 'cognitivo': 1, 'organizaci': 1, 'memoria': 1, 'irve': 1, 'tudiar': 1, 'to': 3, 'fen': 1, 'meno': 1, 'Ha': 1, 'ta': 2, 'd': 1, 'cada': 1, 'mayor': 1, 'tema': 

In [None]:
maximum_frequncy = max(word_frequencies.values()) # Obtenemos la frecuencia maxima

for word in word_frequencies.keys(): # Iteramos todas las palabras del diccionario
    word_frequencies[word] = (word_frequencies[word]/maximum_frequncy) # Actualizamos su frecuencia normalizandola al dividirla por el máximo. Ahora todas estaran el el rango (0-1]

In [None]:
print(word_frequencies)

{'El': 0.17391304347826086, 'proce': 0.21739130434782608, 'amiento': 0.17391304347826086, 'lenguaje': 0.30434782608695654, 'natural': 0.17391304347826086, 'abreviado': 0.043478260869565216, 'PLN': 0.2608695652173913, 'ingl': 0.08695652173913043, 'language': 0.043478260869565216, 'ing': 0.043478260869565216, 'NLP': 0.13043478260869565, 'campo': 0.043478260869565216, 'ciencia': 0.043478260869565216, 'computaci': 0.043478260869565216, 'n': 1.0, 'inteligencia': 0.08695652173913043, 'artificial': 0.043478260869565216, 'ling': 0.13043478260869565, 'tica': 0.43478260869565216, 'tudia': 0.043478260869565216, 'interaccione': 0.043478260869565216, 'computadora': 0.043478260869565216, 'humano': 0.08695652173913043, 'Se': 0.13043478260869565, 'ocupa': 0.043478260869565216, 'formulaci': 0.043478260869565216, 'inve': 0.13043478260869565, 'tigaci': 0.08695652173913043, 'mecani': 0.08695652173913043, 'mo': 0.13043478260869565, 'eficace': 0.08695652173913043, 'computacionalmente': 0.08695652173913043, 

## Calculo de puntuaciones en las oraciones

In [None]:
sentence_scores = {} # Diccionario de puntuación de frases del tipo frase --> Puntuacion
for sent in sentence_list: # Recorremos todas las frases
    for word in nltk.word_tokenize(sent.lower()): # Dividimos en palabras (tokenizamos), y las iteramos para cada frase
        if word in word_frequencies.keys(): # Si la palabra esta en el diccionario de frecuencias
            if len(sent.split(' ')) < 30: # Si hay menos de 30 palabras
                if sent not in sentence_scores.keys(): # Si no existia la frase en el diccionario de puntuación de frases
                    sentence_scores[sent] = word_frequencies[word] # La añado y pongo la puntuación de la  palabra
                else: # Si existia
                    sentence_scores[sent] += word_frequencies[word] # Sumo la puntuación a la acumulada para esa frase

In [None]:
print(sentence_scores)

{'Los modelos aplicados se enfocan no solo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria.': 0.3913043478260869, 'El lenguaje natural sirve solo de medio para estudiar estos fenómenos.': 0.6521739130434783, 'Hasta la década de 1980, la mayoría de los sistemas de PLN se basaban en un complejo conjunto de reglas diseñadas a mano.': 0.17391304347826086, 'A partir de finales de 1980, sin embargo, hubo una revolución en PLN con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje.': 0.5217391304347826, '\u200b \u200b La historia del PLN empieza desde 1950, aunque se han encontrado trabajos anteriores.': 0.13043478260869565, 'En 1950, Alan Turing publicó Computing machinery and intelligence, donde proponía lo que hoy se llama el test de turing como criterio de inteligencia.': 0.47826086956521735, 'En 1954, el experimento de Georgetown involucró traducción automática de más de sesent

## Obtención del resumen

In [None]:
import heapq
summary_sentences = heapq.nlargest(7, sentence_scores, key=sentence_scores.get)

summary = '\n\t'.join(summary_sentences)

print('Texto Original:\n\t',article_text)

print('\n\nResumido:\n\t',summary)

Texto Original:
	 El procesamiento de lenguaje natural, ​ ​ abreviado PLN ​ ​ —en inglés, natural language processing, NLP— es un campo de las ciencias de la computación, de la inteligencia artificial y de la lingüística que estudia las interacciones entre las computadoras y el lenguaje humano. Se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio del lenguaje natural, es decir, de las lenguas del mundo. No trata de la comunicación por medio de lenguas naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación—. Los modelos aplicados se enfocan no solo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve solo de medio para estudiar estos fenómenos. Hasta la década de 