# Spacy (https://spacy.io)

Spacy es una librería moderna para procesamiento de lenguaje natural. Los objetos de la librería son objetos con un sentido lingüistico relevante.

## Instalación

Para instalar spacy, creamos y activamos un entorno nuevo primero,

```
conda create -n spacy

conda activate spacy
```

Dentro del entorno, instalamos las librerías generales que vamos a necesitar,
````
conda install python jupyter notebook
pip install -U spacy
pip install -U spacy-lookups-data
python -m spacy download en_core_web_lg
python -m spacy download es_core_news_lg
```

## Primeros pasos

Primero importamos la clase de algún lenguaje, por ejemplo, inglés o español

In [1]:
from spacy.lang.en import English

Creamos un objeto `nlp`, con el cual vamos a procesar texto.

In [2]:
nlp_en = English()

Creamos un documento, que es mucho más que simplemente texto.

In [3]:
doc_en = nlp_en('The dog barks under the Moon')

`nlp` es una instancia de una clase de tipo `English`, mientras que `doc` es una instancia de una clase `spacy.tokens.doc.Doc`, que se inicializa con un `str`. La instancia resultante, precisamente como instancia de clase, tiene un conjunto de atributos.

In [4]:
print(doc_en.text)

The dog barks under the Moon


Cuando inicializamos `nlp` sobre un `str`, **spacy** crea un objeto de tipo `Doc` y tokeniza el texto que le damos. El objeto resultante se puede indexar y sus elementos son precisamente los tokens en que el texto se divide.

In [5]:
print(doc_en[0])
print(type(doc_en[0]))

The
<class 'spacy.tokens.token.Token'>


In [6]:
for token in doc_en:
    print(token.text)

The
dog
barks
under
the
Moon


Varios índices consecutivos del documento dan pie a un `Span`,

In [7]:
slice = doc_en[1:4]

In [8]:
print(slice.text)
print(type(slice))

dog barks under
<class 'spacy.tokens.span.Span'>


## Atributos léxicos

Además de la separación en tokens, la clase `Token` contiene además un conjunto de atributos que permiten caracterizar la naturaleza del token.

In [9]:
from spacy.lang.es import Spanish

In [10]:
nlp_es = Spanish()

In [11]:
doc_es = nlp_es(
    "En 1990, más del 60% de las personas en Asia Oriental vivían en pobreza extrema. "
    "Ahora menos del 4% viven en pobreza extrema."
)

for token in doc_es:
    if token.like_num:
        print(f'Número {token.text} encontrado')

Número 1990 encontrado


In [13]:
# Process the text
doc_en = nlp_en(
    "In 1990, more than 60% of people in East Asia were in extreme poverty. "
    "Now less than 4% are."
)

for token in doc_en:
    if token.like_num:
        print(f'Número {token.text} encontrado')

Número 1990 encontrado
Número 60 encontrado
Número 4 encontrado


Hasta ahora hemos visto propiedades de los tokens asociadas estrictamente al **léxico**, es decir, a las propiedades aisladas que pueden ser encontradas en el diccionario. Más adelante veremos propiedades **contextuales**.

In [14]:
for token in doc_es:
    print(f'Lemma: {token.lemma_} \t\t Norm: {token.norm_}')

Lemma: En 		 Norm: en
Lemma: 1990 		 Norm: 1990
Lemma: , 		 Norm: ,
Lemma: más 		 Norm: más
Lemma: del 		 Norm: del
Lemma: 60% 		 Norm: 60%
Lemma: de 		 Norm: de
Lemma: los 		 Norm: las
Lemma: personar 		 Norm: personas
Lemma: en 		 Norm: en
Lemma: Asia 		 Norm: asia
Lemma: Oriental 		 Norm: oriental
Lemma: vivir 		 Norm: vivían
Lemma: en 		 Norm: en
Lemma: pobreza 		 Norm: pobreza
Lemma: extremo 		 Norm: extrema
Lemma: . 		 Norm: .
Lemma: Ahora 		 Norm: ahora
Lemma: menos 		 Norm: menos
Lemma: del 		 Norm: del
Lemma: 4% 		 Norm: 4%
Lemma: vivir 		 Norm: viven
Lemma: en 		 Norm: en
Lemma: pobreza 		 Norm: pobreza
Lemma: extremo 		 Norm: extrema
Lemma: . 		 Norm: .


Para referencia: https://spacy.io/api/token