![image.png](attachment:6a8f7149-8322-4964-9117-d62f53b1ca71.png)

**Introducción**:

Según las estimaciones de la industria, sólo el 21% de los datos disponibles están presentes en forma estructurada. Los datos se están generando mientras hablamos, mientras twiteamos, mientras enviamos mensajes en Whatsapp y en varias otras actividades. La mayoría de estos datos existen en forma textual, que es de naturaleza altamente desestructurada.
Entonces, viendo la relevancia que está ganando el Procesamiento del Lenguaje Natural, es que se ha realizado el presente trabajo de investigación sobre una de las tantas aplicaciones que tiene NLP.
En este caso nos referimos a los algoritmos que existen detrás de las técnicas de "Text Summarization" o lo que son los Resúmenes de Texto. 
En esta oportunidad utilizaremos una biblioteca llamada Sumy.

Sumy es una biblioteca de Python para extraer resúmenes de páginas HTML o textos planos. Fue desarrollada por Miso-Belica, un estudiante Ruso/Eslovaco que desarrolló Sumy como proyecto de  <a href="https://dspace.vutbr.cz/xmlui/handle/11012/53529" > Tesis de grado</a>. Esta <a href="https://pypi.org/project/sumy/" > biblioteca</a> es útil para ver como funcionan los diferentes métodos de "summarization" que se pueden listar de la siguiente manera:

#### Listado de métodos de reducción/resúmen de textos
1. Luhn
2. Edmundson
3. **Latent Semantic Analysis | LSA**
4. **LexRank**
5. TextRank
6. SumBasic


En esta oportunidad vamos a comparar el funcionamiento de 2 de estos métodos de resumen, que son LSA y LexRank y los vamos a aplicar a Proyectos de Ley.

**Métodologías**:

A la hora de resumir téxto, existen dos enfoques que deben ser considerados:
1. Técnicas Extractivas
2. Técnicas Abstractivas


**Enfoque por Extracción:**

Es el más simples de los enfoques, que trata las fuentes como un conjunto de frases. 
Para llevar a cabo el proceso de extracción, el primer paso es identificar las frases más relevantes de las fuentes. Para proceder en esta fase se pueden utilizar criterios de selección basados en métodos estadísticos y otros tipos de heurísticos durante el tratamiento de la fuente, también puede resultar útil tener en cuenta las colisiones entre diferentes fuentes como indicativo de la bondad de la frase. 
En segundo lugar y a partir de los fragmentos extraídos previamente, hay que generar un resumen procurando perder la menor cantidad de información posible y evitando la redundancia. Por último, pueden aplicarse tratamientos posteriores al resumen para conseguir un texto coherente y bien cohesionado, uniendo los diferentes fragmentos o completando frases que puedan haber quedado incompletas. 


**Enfoque por Abstracción:**

El método abstractivo produce un resumen con palabras, frases y oraciones nuevas e innovadoras.
Los resúmenes por abstracción suponen un reto mucho mayor que el de los resúmenes por extracción, ya que las técnicas de tratamiento del lenguaje natural empleadas en estos son mucho más sofisticadas. Esto es debido a que los resúmenes por abstracción no se limitan a extraer fragmentos relevantes de un texto, sino que analizan el texto con mayor profundidad para poder comprenderlo y poder generar un nuevo resumen a partir de la información analizada de la fuente.

Si la idea es comprender el texto de forma más profunda, esto  ya hace que el problema sea más difícil, a esto se le añade la dificultad de generar texto desde cero a partir de una base de conocimiento. 
El resumen por abstracción es por lo tanto similar al método que emplearía un ser humano para hacer un resumen propio de un texto, y la dificultad de reproducir ese método por un ordenador es lo que hace que los métodos de extracción sean los que han conseguido avances mas significativos.

**Enfoque seleccionado:**

En este notebook sólo se abordan algoritmos basados en enfoque de extracción, dado que para usar métodos abstractivos se tendrían que utilizar soluciones basadas en Machine Learning, lo que se escapa del target de esta investigación. 

### Algoritmos

En esta oportunidad, sólo nos concentraremos en la técnica de extracción utilizando las dos variables antes mencionadas. La razón es que para el ejemplo que utilizaremos son las que mejores resultados arrojaron al momento de ejecutar el código.

1. **Análisis de la Semántica Latente | LSA:**
Es una técnica que utiliza procesos estadísticos para extraer y representar los significados de las palabras. Los significados son representados en términos de su semejanza con otras palabras en un extenso texto llamado "corpus de documentos".
La ventaja práctica del LSA sobre otros tipos de mediciones es que va más allá de las similitudes léxicas tales como silla/sillas o correr/corrió, y en el mismo sentido es capaz de evaluar la similitud semántica entre términos tales como silla/mesa, mesa/madera y madera/bosque. De este modo, el Análisis Semántico Latente no solo indica que dos términos están relacionados, sino que también señala cuán similares son.
El LSA comienza procesando un texto de grandes dimensiones. Este texto contiene miles de párrafos y frases y es conocido como corpus lingüístico. El corpus se representa en una matriz cuyas filas contiene todos los términos distintos del corpus (palabras). De este modo, la matriz contiene sencillamente el número de veces que cada término aparece en un documento. Sobre esta matriz de frecuencias se efectúa una ponderación con el objeto de restar importancia a las palabras excesivamente frecuentes y aumentarla a las palabras moderadamente infrecuentes. La razón de esta ponderación es sencilla: las palabras demasiado frecuentes no sirven para discriminar bien la información importante del párrafo y las moderadamente infrecuentes sí. El siguiente paso es someter 16 esta matriz ponderada a un algoritmo llamado Descomposición en Valores Singulares. SVD es una técnica de reducción de dimensiones.

1. **LexRank:**
Es un sistema de resúmenes automático no supervisado basado en grafos y el cual está inspiradoen técnicas de PageRank, o sea: Ranking Léxico. 
Se basa en la idea de que la importancia de una frase depende de la similitud que esta tenga con el resto de oraciones del texto. 
Se basa en los cálculos del coseno para calcular la similitud entre dos frases. Dos frases están conectadas si el coseno de la similitud entre ambas es superior a cierto umbral. Para la selección de las frases que forman parte del resumen, busca cuáles son los nodos –oraciones– más centrales del texto; es por ello que existen diversas medidas de centralidad las cuales pasaremos a comentar:
Centralidad basada en el grado: Donde la importancia de una frase depende del número de conexiones que esta tenga con el resto de nodos. 
Centralidad basada en vectores propios: Pondera cada una de las conexiones con la importancia del nodo con el que se conecta; por ello un nodo será más importante cuanto mayor sea el valor de los nodos a los que se conecta. 
Entonces: este método tiende a seleccionar oraciones que tengan más términos centrales en común con los documentos y todos los rasgos se consideran de igual manera.


### Código

Descomentando el las lineas del siguiente código se podrán instalar las bibliotecas. Si ya están instaladas, favor de comentar nuevamente y recargar el Kernel. 

In [None]:
#pip install sumy
#pip install newspaper3k

In [2]:
import sumy
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lex_rank import LexRankSummarizer
from sumy.summarizers.lsa import LsaSummarizer
from newspaper import Article

### Contexto

Para las siguientes partes de código, vamos a utilizar un poco de Web Scraping para extraer el contenido de la ley publicada en el diario oficial del Congreso Colombiano.

Para este ejemplo se utiliza el Congreso de este país dado que su publicación es a través de una página scrapeable ya que es html puro, no así el caso de Chile en donde la Biblioteca Nacional y el Diario Oficial enmascaran con Javascript. 

In [3]:
#Caso de Estudio 1 
ley1 = "https://www.suin-juriscol.gov.co/viewDocument.asp?id=30039047"

In [4]:
# Descargar el articulo y convertirlo a texto plano en un gran string
contenido1 = Article(ley1)
contenido1.download()
contenido1.parse()
 
# articulo
print(contenido1.text)

Subtipo: DECRETO LEGISLATIVO

En ejercicio de las atribuciones que le confieren el artículo 215 de la Constitución Política, en concordancia con la Ley 137 de 1994, y en desarrollo de lo previsto desarrollo de lo previsto en el Decreto 417 del 17 de marzo de 2020, «Por el cual se declara un Estado de Emergencia Económica, Social y Ecológica en todo el territorio nacional», y

CONSIDERANDO

Que, en los términos del artículo 215 de la Constitución Política, el presidente de la República, con la firma de todos los ministros, en caso de que sobrevengan hechos distintos de los previstos en los artículos 212 y 213 de la Constitución Política, que perturben o amenacen perturbar en forma grave e inminente el orden económico, social y ecológico del país, o que constituyan grave calamidad pública, podrá declarar el Estado de Emergencia Económica, Social y Ecológica.

Que, según la misma norma constitucional, una vez declarado el estado de Emergencia Económica, Social y Ecológica el Presidente, c

In [5]:
#Vamos a tokenizar nuestro texto utilizando nuestro lenguaje natural
parser = PlaintextParser.from_string(contenido1.text,Tokenizer("spanish"))
parser

<sumy.parsers.plaintext.PlaintextParser at 0x285bebfed60>

In [6]:
# Usando LexRank
lexrank = LexRankSummarizer()
# Usando LSA
lsa = LsaSummarizer()
#Resumir el proyecto de ley en 3 ideas
resumen_lexrank = lexrank(parser.document, 3)
resumen_lsa = lsa(parser.document, 3)

In [7]:
start = "\033[1m"
end = "\033[0;0m"

In [8]:
print(start + 'Resumen utilizando algoritmo LexRank:' + end)
print()
for ideas in resumen_lexrank:
    print(ideas, '\n')

[1mResumen utilizando algoritmo LexRank:[0;0m

Que mediante Resolución 385 del 12 de marzo de 2020, el ministro de Salud y Protección Social, de acuerdo con lo establecido en el artículo 69 de la Ley 1753 de 2015, declaró el estado de emergencia sanitaria por causa del nuevo Coronavirus COVID-19 en todo el territorio nacional hasta el 30 de mayo de 2020 y, en virtud de la misma, adoptó una serie de medidas con el objeto de prevenir y controlar la propagación del COVID-19 y mitigar sus efectos. 

Que, en consecuencia, resulta necesaria la adopción de una medida de orden legislativo, tendiente a permitir que: (i) el Programa de Alimentación Escolar se brinde a los niños, niñas y adolescentes matriculados en el sector oficial para su consumo en casa, durante la vigencia del estado de Emergencia Económica, Social y Ecológica; y, (ii) además de municipios y distritos, habilitar a los departamentos recursos de los criterios de Equidad y Calidad del Sistema General de Participaciones, para 

In [9]:
print(start + 'Resumen utilizando algoritmo LSA:' + end)
print()
for ideas in resumen_lsa:
    print(ideas, '\n')

[1mResumen utilizando algoritmo LSA:[0;0m

Que según la OMS la pandemia del nuevo Coronavirus COVID-19 es una emergencia sanitaria y social mundial, que requiere una acción efectiva e inmediata de los gobiernos, las personas y las empresas. 

Que el sistema educativo oficial brinda atención en educación preescolar, básica y media a 6.928.742 niños, niñas y adolescentes, quienes con ocasión de las medidas adoptadas para prevenir la propagación del Coronavirus CQVID-19, deberán ser atendidos a través de estrategias pedagógicas flexibles coordinadas con las 96 Secretarías de Educación certificadas. 

(861), Cundinamarca (60), Antioquia (209), Valle del Cauca (250), Bolívar (63), Atlántico (63), Magdalena (14), Cesar (17), Norte de Santander (26), Santander (14), Cauca (14), Caldas (16), Risaralda (44), Quindío (34), Huila (34), Tolíma (15), Meta (14), Casanare (2), San Andrés y Providencia (2), Nariño (7), Boyacá (13), Córdoba (7), Sucre (1) y La Guajira (1). 



### Conclusiones

Como vimos anteriormente en como funciona en grandes términos cada algoritmo, vemos que a pesar de que LSA pareciera ser la solución predilecta por estos sistemas de resúmenes, cuando están aplicados a textos de una complejidad superior como es el caso de las leyes, estos tienen a perder un poco la objetividad del contenido, aún en caso de LSA que es producto del análisis semántico de las palabras. A esto se le debe sumar que en este caso no hicimos reducción por stopwords dado que es en estos enfoques en donde ganan relevancia. Resumir textos sin stopwords no tendría sentido dado que perdería la cohesión y coherencia. 

Como vimos, el Natural Language Processing es una especialidad muy compleja: en ella, los ordenadores tienen que hacer frente a casos concretos y, en el caso de las palabras ambiguas, existe la probabilidad de que el ordenador las interprete erróneamente.
Y el resultado también puede verse afectado por el método que utilicemos para una tarea determinada.



![image.png](attachment:e0cf7650-d78f-433a-a583-f05cb8b78828.png)

Gracias!