# SpaCy 101

### Por: Fernando Gómez Perera

SpaCy es una librería que puede parecer compleja, pero en realidad es muy simple e intuitiva de usar. Sin embargo, es muy poderosa. De hecho, es mucho más poderosa de lo que imaginé, y este proyecto me ha permitido comprobarlo.

SpaCy facilita mucho las tareas relacionadas al Procesamiento del Lenguaje Natural. Pero primero, ¿Qué es NLP (en inglés, Natural Language Processing)? Para ello, definamos Lenguaje Natural.

## El Lenguaje Natural y su procesamiento

El **lenguaje natural** es un concepto por mucho muy simple: Es el lenguaje que usamos los seres humanos para comunicarnos. Dentro de este concepto, podemos englobar lo que decimos, lo que escuchamos, lo que escribimos y lo que leemos. Con ello expresamos ideas, sentimientos, nos quejamos, cantamos, nos inspiramos... Todo eso se puede incluir dentro del lenguaje natural.

Para nosotros resulta muy sencillo procesar esta información. Nuestro cerebro es capaz de procesar esta información de forma casi intuitiva, pues conforme crecemos aprendemos a desarrollar estos sentidos, mejoramos nuestro conocimiento de los idiomas, y realizamos estas tareas de forma casi automática, como respirar.

Sin embargo, para una computadora esto no es posible. No solamente no pueden procesar esta información de forma simple: La tarea de procesar lenguaje natural resulta por mucho muy compleja, por todo lo que rodea al lenguaje: Sentimientos, conocimiento previo, experiencia, recuerdos... Una computadora no posee ninguna de estas herramientas en su haber. Es ahí donde el Procesamiento del Lenguaje Natural entra al rescate.

El **Procesamiento del Lenguaje Natural** es una subrama de la **Inteligencia Artificial**, cuyo objetivo es el procesamiento *automático* o *semi-automático* del lenguaje natural humano dentro de una computadora. En ella se mezclan distintas ramas de las Ciencias de la Computación, como la programación y la *Lingüística Computacional*, así como otras áreas como la *Estadística*.

Esta área está más presente en nuestra vida de lo que parece. Podemos encontrar aplicaciones en los asistentes inteligentes, como Cortana, o el corrector ortográfico de Microsoft Word.

## NLP con SpaCy
Finalmente, SpaCy no es más que una de las muchas herramientas que existen en el mercado para facilitar las tareas relacionadas al NLP, usando para ello Python.

SpaCy incluye muchas funcionalidades enfocadas a resolver los problemas más comúnes que existen al momento de procesar texto de forma computacional. Basa su funcionamiento en modelos de datos, los cuales ya se encuentran listos para su uso. Estos modelos incluyen en su interior reglas específicas del lenguaje, reglas para separar texto (*tokenización*), y otras herramientas para analizar texto abierto de forma sencilla usando *análisis basado en reglas* o *Machine Learning* para ello. Estos modelos pueden ser datasets (que en NLP se conocen como *corpus*), o clases de Python donde se representan idiomas completos.

En este ejemplo, tomaremos el segundo caso, y analizaremos texto usando la clase del idioma Inglés.

In [1]:
# Primero es necesario importar la clase del idioma
from spacy.lang.en import English

Esta clase contiene en su interior todo un conjunto de atributos y métodos relacionados al procesamiento del texto en idioma inglés.

In [2]:
# Instanciamos la clase. Por convencion, se usa el nombre nlp para este objeto
nlp = English()

Con este objeto, podemos procesar cadenas de texto de forma simple. SpaCy crea un objeto de tipo *Doc* a partir del texto, con el cual se representa un documento en memoria.

In [3]:
# Ejemplo de un texto en inglés. Por convencion se almacena en la variable doc
moses = "Come on now, don't you want to see this thing that's happening to me. Like Moses has power over sea so you've got a power over me.\n\
Come on now, don't you want to know that you're a refuge, somewhere I can go. And you're air that, air that I can breathe. \
You're my golden opportunity.\n\
And oh, oh yes I would, Iif I only could. And you know I would and baby I, oh baby I, I wish.\n\
Come on now, don't you want to see just what a difference you've made to me. \
I'll be waiting no matter what you say and I'll keep waiting for days and days and days.\n\
I wish \n\
Oh, oh, oh. Oh, oh, oh. If the sky's gonna fall down let it fall on me, if you're gonna break down you can break on me.\n\
If the sky's gonna fall down let it fall on me, oh Lord, let it fall on me"

doc = nlp(moses)

Este objeto separa el texto en *tokens*, que son simples fragmentos del mismo de acuerdo a un nivel del texto (palabra, oración...). Por defecto, el texto se separa a nivel de palabra.

In [4]:
# Se puede iterar el objeto doc usando los tokens del texto.
for token in doc[0:10]:
    print(token)

Come
on
now
,
do
n't
you
want
to
see


Cada token contiene atributos, llamados *atributos léxicos*, los cuales son los atributos que caracterizan a ese token, como su categoría (alfanumérico, dígito, letra).

In [7]:
# Caracteristicas del token
token = doc[7]
# Texto del token
print("Token: ", token.text)
# ¿El token es un signo de puntuacion?
print("Puntuación: ", token.is_punct)
# ¿El token es un digito?
print("Dígito: ", token.is_digit)
# ¿El token es de letras minusculas?
print("Minúsculas: ", token.is_lower)
# ¿EL token es una stop word?
print("Stop word: ", token.is_stop)
# ¿El token contiene solamente caracteres ASCII validos?
print("ASCII válidos: ", token.is_ascii)

Token:  want
Puntuación:  False
Dígito:  False
Minúsculas:  True
Stop word:  False
ASCII válidos:  True


Además, cada token tiene *anotaciones lingüísticas*, las cuales permiten identificar los elementos propios del texto para su análisis morfológico. Dentro de esas anotaciones se encuentran su etiqueta *POS (Part-of-Speech)*, su representación como *lemma (forma base de la palabra, como aparece en el diccionario)* , entre otras.

In [6]:
# Anotaciones de los tokens
[(token.text, token.lemma_, token.lower_, token.tag_) for token in doc[0:15]]

[('Come', 'Come', 'come', ''),
 ('on', 'on', 'on', ''),
 ('now', 'now', 'now', ''),
 (',', ',', ',', ''),
 ('do', 'do', 'do', ''),
 ("n't", 'not', "n't", 'RB'),
 ('you', 'you', 'you', ''),
 ('want', 'want', 'want', ''),
 ('to', 'to', 'to', ''),
 ('see', 'see', 'see', ''),
 ('this', 'this', 'this', ''),
 ('thing', 'thing', 'thing', ''),
 ('that', 'that', 'that', ''),
 ("'s", 'have', "'s", ''),
 ('happening', 'happen', 'happening', '')]