# Uso de spacy para desarrollo de tareas de NLP

En este notebook nos enfocaremos a desarrollar algunas tareas básicas de NLP como _Tokenization_, _Lemmatization_ y _POS tagging_ utilizando la librería de Python spaCy. 

In [1]:
# Carga de librerías
import spacy
import pandas as pd
import numpy as np

## Carga de modelos


In [2]:
# Descarga de modelo de lenguaje
!python -m spacy download es_core_news_md

Collecting es_core_news_md==2.3.1
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-2.3.1/es_core_news_md-2.3.1.tar.gz (47.4 MB)
[+] Download and installation successful
You can now load the model via spacy.load('es_core_news_md')


In [3]:
# Cargamos datos. Antes hay que reiniciar el runtime (Runtime -> Restart Runtime) e importar spacY
import spacy
nlp = spacy.load('es_core_news_md')

Puedes encontrar más modelos de idiomas en https://spacy.io/models.

## Tokenization

Separa en unidades básicas para analizar el texto. Normalmente, se separa en palabras ignorando los espacios. Los signos de puntuación se tomarán en cuenta en función del contexto, el cuál depende del lenguaje.

A los elementos resultantes de este proceso se le conocen como _tokens_

In [4]:
# Definimos un documento o texto a analizar
texto = "Este es un texto de prueba para las prácticas de procesamiento del lenguaje natural impartido por Alejandro. El objetivo es probar los tres procesos que se pueden realizar al texto."
#texto = "juan paco pedro de la mar"
doc = nlp(texto) 

In [5]:
type(doc)

spacy.tokens.doc.Doc

In [6]:
# Separamos en tokens.
for token in doc:
  print(token)

juan
paco
pedro
de
la
mar


## Podemos acceder a los tokens por su posición
print(doc[5])

In [7]:
# Los token de spacy tienen otras propiedades útiles para analizar su contenido
print('Indice:   ', [token.i for token in doc]) # i nos indica la posición que tiene en el texto
print('Texto:    ', [token.text for token in doc]) # el contenido de cada token 
print("\n")
print('Son letras:', [token.is_alpha for token in doc]) # identifica si el token es una palabra "alpha", formada sólo por letras
print("\n")
print('Es signo de puntuación:', [token.is_punct for token in doc]) # Identifica si es signo de puntiación 
print("\n")
print('Es número:', [token.like_num for token in doc]) # Identifica si es número, a pesar de que sea texto, si dicho texto se refiere a un número se identificará como número

Indice:    [0, 1, 2, 3, 4, 5]
Texto:     ['juan', 'paco', 'pedro', 'de', 'la', 'mar']


Son letras: [True, True, True, True, True, True]


Es signo de puntuación: [False, False, False, False, False, False]


Es número: [False, False, False, False, False, False]


## Part-of-speech tagging

Es útil para saber que tipos de palabras estamos manejando.

In [8]:
for token in doc:
  print(token.text, token.pos_)

juan PROPN
paco PROPN
pedro PROPN
de ADP
la DET
mar NOUN


In [9]:
#  Y qué significan estas etiquetas.
print(spacy.explain("LEMMA"))

None


# Entidades propias

Se refiere a identificar si las palabras son entidades propias, como nombres de personas, paises, instituciones. 

In [10]:
for ent in doc.ents:
  print(ent.text, ent.label_)

juan paco pedro de la mar PER


# Lemmatization

Este proceso es para encontrar la raíz de las palabras manteniendo el sentido dentro  del idioma.

In [11]:
for token in doc:
  print(token.text, "\t", token.lemma_)

juan 	 juan
paco 	 paco
pedro 	 pedro
de 	 de
la 	 lo
mar 	 mar


# Búsqueda de patrones avanzados

Spacy incluye un _matcher_ para buscar expresiones o patrones en los documentos. 

Esto es una herramienta muy poderosa porque se buscan patrones en términos de lo que significa el texto y no sólo correspondencias de texto. 

In [12]:
from spacy.matcher import Matcher

In [13]:
texto = 'El día de ayer no dormí bien y compré café por la mañana.'
doc = nlp(texto)

patron = [{"LEMMA": 'comprar'}, {'POS': 'NOUN'}]
buscador = Matcher(nlp.vocab)
buscador.add('compras', None, patron)

resultado = buscador(doc)

In [14]:
# ¿Qué contiene resultado?
print(resultado)
#el primero es el número del identificador que se le dió al patrón y los otros dos valores son las posiciones del texto donde se encontró 

[(11387699898349888678, 8, 10)]


In [15]:
for match_id, inicio, fin in resultado:
  print(doc[inicio:fin])

compré café


In [16]:
# Espacio para que pruebes tus ideas

In [17]:
texto = 'El día de ayer no dormí bien y compré café y compramos cerveza por la mañana y dormi super bien'
doc = nlp(texto)

patron_1 = [{"LEMMA": 'comprar'}, {'POS': 'NOUN'}]
patron_2 = [{"LEMMA": 'dormir'}, {'POS': 'ADV'}]

buscador.add('compras', None, patron_1)
buscador.add('calidad_dormir', None, patron_2)

resultado = buscador(doc)

In [18]:
for match_id, inicio, fin in resultado:
  print(doc[inicio:fin])

dormí bien
compré café
compramos cerveza


## Representación vectorial de palabras y similitud semántica

Actualmente hay dos corrientes: 
1. Bolsas de palabras
2. Representaciones vectoriales

![alt text](https://drive.google.com/uc?id=1wvynnUPy2TIuarqHnKgMj5y6GN0RIvKt)


![alt text](https://drive.google.com/uc?id=1bkrKq9N9_M-zTNFidIAP1GuT2p1rt0t9)

Word2Vec es una de las metdologías basadas en redes neuronales para encontrar representaciones vectoriales de palabras. Se basa en la idea de que palabras que comparten el mismo contexto, deben de ser palabras similares.

Las más usadas son las representaciones vectoriales. Las podemos usar para calcular similitud semántica entre las palabras o documentos. 



In [19]:
doc1 = nlp("Hola, soy Alejandro")
doc2 = nlp('Me gusta el sol.')
print(doc1.similarity(doc2))

0.12066709274720755


In [27]:
doc1 = nlp("cumpleaños")
doc2 = nlp('fiesta')
print(doc1.similarity(doc2))

0.5064237378084101


# RETO:

Con lo que hemos revisado hasta este punto: 
1. ¿Crees que puedas hacer un chatbot?
2. ¿Qué complicaciones observas?