## __Text mining y Procesamiento de Lenguaje Natural (NLP)__

__Profesor__: Anthony D. Cho

__Tema__: Análisis sintáctico

__Método__: Extracción de información - Basadas en reglas

***

__Dependencias__

```python
    python -m pip install nltk spacy
    python -m spacy download en_core_web_sm
    python -m spacy download es_core_news_sm
    
```

### Librerias

In [None]:
import re
from spacy import load

## Carga del modelo de lenguaje
nlp = load('es_core_news_sm')    

### Declaración de funciones

In [None]:
def pos_tagger(text):
    """
        DESCRIPTION:
            Apply POS-Tagging to a corpus document
        
        INPUT:
            @param text: corpus document
            @type text: str
        
        OUTPUT:
            @param tagget_text: POS-tagged text
            @type tagget_text: str
        
    """
    
    ## Apply language model to a text
    document = nlp(text)
    
    ## Apply word-tagging
    tagget_text = ''.join( f'{word.text}/{word.pos_} ' for word in document )
    
    ## Remove any white spaces at the end of the string  
    tagget_text = tagget_text.rstrip()
    
    ## Return tagged text
    return tagget_text

## Extracción de términos numéricos enteros

In [None]:
## Inserción del texto
texto = 'El numero de personas infectadas pasó de 1000 a 2001 en una semana.'

## Extracción de los tokens numéricos enteros en el texto
## Patron numerico en expresión regular
patron = '[0-9]+'

## Find all tokens that match the pattern
token_numericos = re.findall(pattern=patron, string=texto)

## Mostrar la lista de los tokens numericos
token_numericos


## Extracción de pronombres

In [None]:
## Establecer conexión con el archivo de información
filename = 'Data/texto_01.txt'
file = open(filename, 'r', encoding='utf-8')

## Lista para almacenar los pronombres
pronom_lista = []

## Patron de expresión regular para extrae PROPN o NOUN
patron = '(\w+)/(PROPN|NOUN)'

for line in file:
    
    ## Eliminar espacios vacios al final del text.
    text = line.rstrip()
    
    ## Aplicar POS tagging al texto
    text_POS = pos_tagger(text)
    
    ## Extract words from POS tagged text based on the RE pattern
    word_list = [w for (w,t) in re.findall(pattern=patron, string=text_POS)]

    if len(word_list):
        ## Si hay al menos una palabra, se almacena en la lista de pronombres
        pronom_lista.append(word_list)

## Cerrar la coneion con el archivo de información
file.close()

## Mostrar la lista de pronombres
pronom_lista

## Extracción de información relevante basada en relación. 

In [None]:
## Inserción del texto
texto = 'Jenny, gerente de la AMD'

## Aplicar POS tagging al texto
text_POS = pos_tagger(texto)

## Patron en expresión regular para reconocimiento
name = '(\s*(\w+)/PROPN)+\s*'
position = '\,/PUNCT\s*(\w+)/NOUN'
separator = '\s*\w+/ADP\s*\w+/DET\s*'
organization = '(\w+)/PROPN'

patron = name + position + separator + organization

## Encontrar el primer match del patron en el texto
relacion = re.search(pattern=patron, string=text_POS)

## Mostrar hallazgo
print(relacion)

## Mostrar la relación
if relacion is not None:
    for i in range(1, len(relacion.groups())):
        print(relacion.groups()[i])