# Procesamiento de Requerimiento

## OBJETIVO
El objetivo que se persigue es poder descubrir dentro del texto del requerimiento, cuales son las tareas a realizar y explorar el contexto relacionado.

### Librerías
Las librería principal a utilizar es <a href="http://www.nltk.org/" target="_blanck"> <b>nltk</b> </a>.
<br>Nltk es una plataforma que brinda herramientas para el procesamiento del lenguaje natural, como clasificadores, etiquetadores, analizadores semanticos y sintacticos, etc.

<b>Glosario relacionado</b>
<br>
<u>Corpus</u>: es una coleccion de docuementos sobre un tema en particular.
<br>
<u>Corpora</u>: es un conjunto de Corpus.

In [1]:
import nltk
# corpora español
from nltk.corpus import cess_esp as cess
# tokenize divide un string en substrings (ejemplo: palabras u oraciones)
from nltk.tokenize import word_tokenize, sent_tokenize

In [2]:
# separador de horaciones para idioma español
spanish_sentence_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

## Etiquetador
Se define las funciones para <b>crear el etiquetador</b> y para <b>etiquetar el texto</b> a trabajar.
<br>
<b>trigram_tagger:</b> es un etiquetador que recibe como parametro el texto para entrenamiento. Este etiquetador se basa en ...(estudiar los unigram, bigram y trigram para describir el funcionamiento)
<br>
<b>tag_sentences:</b> es una funcion que recibe el etiquetador, el separador de horaciones (preparado para idioma español) y el texto a etiquetar. Retorna las palabras del texto etiquetadas.

In [3]:
def trigram_tagger(training_set):
   default_tagger = nltk.DefaultTagger('NN')
   unigram_tagger = nltk.UnigramTagger(training_set, backoff=default_tagger)
   bigram_tagger = nltk.BigramTagger(training_set, backoff=unigram_tagger)
   return nltk.TrigramTagger(training_set, backoff=bigram_tagger)

def tag_sentences(tagger, sentence_tokenizer, sentences):
   tokenized_sentences = sentence_tokenizer.tokenize(sentences)
   return [tagger.tag(word_tokenize(s)) for s in tokenized_sentences]

In [4]:
# Entreno el etiquetador con un corpus en español
tagger = trigram_tagger(cess.tagged_sents())

In [5]:
# Pruebo el modelo e imprimo las etiquetas de cada palabra procesada
texto = "Poner un botón en la pantalla de tramites y luego eliminar el filtro de \
cuil de la pantalla Pensiones y quitar el titulo a la pagina"
print(tag_sentences(tagger, spanish_sentence_tokenizer, texto))

[[('Poner', 'vmn0000'), ('un', 'di0ms0'), ('botón', 'ncms000'), ('en', 'sps00'), ('la', 'da0fs0'), ('pantalla', 'ncfs000'), ('de', 'sps00'), ('tramites', 'NN'), ('y', 'cc'), ('luego', 'rg'), ('eliminar', 'vmn0000'), ('el', 'da0ms0'), ('filtro', 'ncms000'), ('de', 'sps00'), ('cuil', 'NN'), ('de', 'sps00'), ('la', 'da0fs0'), ('pantalla', 'ncfs000'), ('Pensiones', 'NN'), ('y', 'cc'), ('quitar', 'vmn0000'), ('el', 'da0ms0'), ('titulo', 'NN'), ('a', 'sps00'), ('la', 'da0fs0'), ('pagina', 'NN')]]


## Patrones
Se busca patrones en el texto, que cumplan con una cierta composicion gramatical.
<br>
Se define la funcion <b>tag_sentences_chunk</b> para encontrar patrones de texto que esten relacionados a la ejecucion de una accion.

In [None]:
def tag_sentences_chunk(tagger, sentence_tokenizer, sentences):
    tokenized_sentences = sentence_tokenizer.tokenize(sentences)
    try:
        for i in tokenized_sentences:
            words = nltk.word_tokenize(i)
            tagged = tagger.tag(words)
            
            #busco el patron
            chunkGram = r"""Accion: {<v.*> <d.*> <n.*> <s.*> <N.*> <s.*> <d.*> <n.*> <N.*>+}
                                    {<v.*> <d.*> <n.*> <s.*> <d.*> <n.*> <s.*> <N.*>}
                                    {<v.*> <d.*> <n.*> <s.*> <N.*> <s.*> <d.*> <n.*>+}
                                    {<v.*> <d.*> <n.*> <s.*> <d.*> <n.*>+} 
                                    {<v.*> <d.*> <n.*> <s.*> <d.*> <n.*>+}                                    
                                    {<v.*> <d.*> <N.*> <s.*> <d.*> <N.*>+}
                                    {<v.*> <d.*> <n.*>+}                                    
                                    """
            
            # Si quiero eliminar del texto
            # chunkGram = r"""Accion: {<.*>+} 
            #                         }<d.*|s.*|c.*|r.*>{"""
            chunkParser = nltk.RegexpParser(chunkGram)
            chunked = chunkParser.parse(tagged)
            
            #imprimo los pedazos detectados
            print(chunked)
            
            #imprimo los pedazos detectados del tipo Accion
            for subtree in chunked.subtrees(filter=lambda t: t.label() == 'Accion'):
                print(subtree)

            #grafico el analizis producido
            chunked.draw()
               

    except Exception as e:
        print(str(e))

In [None]:
# Ejemcuto la funcion para detectar los patrones del texto con alguna accion
texto_chunk = "Poner un botón en la pantalla de tramites y luego eliminar el filtro de cuil de la pantalla Pensiones y quitar el titulo a la pagina"
tag_sentences_chunk(tagger, spanish_sentence_tokenizer, texto_chunk)

(S
  (Accion
    Poner/vmn0000
    un/di0ms0
    botón/ncms000
    en/sps00
    la/da0fs0
    pantalla/ncfs000
    de/sps00
    tramites/NN)
  y/cc
  luego/rg
  (Accion
    eliminar/vmn0000
    el/da0ms0
    filtro/ncms000
    de/sps00
    cuil/NN
    de/sps00
    la/da0fs0
    pantalla/ncfs000
    Pensiones/NN)
  y/cc
  (Accion
    quitar/vmn0000
    el/da0ms0
    titulo/NN
    a/sps00
    la/da0fs0
    pagina/NN))
(Accion
  Poner/vmn0000
  un/di0ms0
  botón/ncms000
  en/sps00
  la/da0fs0
  pantalla/ncfs000
  de/sps00
  tramites/NN)
(Accion
  eliminar/vmn0000
  el/da0ms0
  filtro/ncms000
  de/sps00
  cuil/NN
  de/sps00
  la/da0fs0
  pantalla/ncfs000
  Pensiones/NN)
(Accion
  quitar/vmn0000
  el/da0ms0
  titulo/NN
  a/sps00
  la/da0fs0
  pagina/NN)
