<img style="float: left;;" src='Figures/alinco.png' /></a>

# Introducción: Librería spaCy
___

**spaCy** (https://spacy.io/) es una biblioteca de Python de código abierto que analiza y "comprende" grandes volúmenes de texto. Hay disponibles modelos separados que se adaptan a idiomas específicos (inglés, francés, alemán, etc.).

En esta sección instalaremos y configuraremos spaCy para que funcione con Python y luego presentaremos algunos conceptos relacionados con el procesamiento del lenguaje natural.

# Instalación

La instalación es un proceso de dos pasos. Primero, instale spaCy usando conda o pip. A continuación, descargue el modelo específico que desee, según el idioma. <br> Para obtener más información, visite https://spacy.io/usage/

### 1. Desde la  terminal:
> `conda install -c conda-forge spacy`
> <br>*or*<br>
> `pip install -U spacy`

> ### Podemos crear un ambiente virtual:
> `conda create -n spacyenv python=3 spacy=2`

### 2. A continuación, también desde la línea de comandos (debe ejecutar esto como administrador o usar sudo):

> `python -m spacy download en`

> ### Si tiene éxito, debería ver un mensaje como:

> **`Linking successful`**<br>
> `    C:\Anaconda3\envs\spacyenv\lib\site-packages\en_core_web_sm -->`<br>
> `    C:\Anaconda3\envs\spacyenv\lib\site-packages\spacy\data\en`<br>
> ` `<br>
> `    You can now load the model via spacy.load('en')`


# Trabajando con spaCy en Python

Este es un conjunto típico de instrucciones para importar y trabajar con spaCy. No se sorprenda si esto toma un tiempo, spaCy tiene una biblioteca bastante grande para cargar:

In [1]:
import spacy

nlp = spacy.load('en_core_web_sm')

doc = nlp(u'Tesla is looking at buying U.S. startup for $6 million')

for token in doc:
    print(token.text, token.pos_, token.dep_)



Tesla PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.S. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
6 NUM compound
million NUM pobj


Esto no parece muy fácil de usar, pero de inmediato vemos que suceden algunas cosas interesantes:
1. Se reconoce que Tesla es un sustantivo propio, no solo una palabra al comienzo de una oración.
2. EE. UU. Se mantiene unido como una entidad (a esto lo llamamos un "token")

A medida que nos sumerjamos más en el espacio, veremos qué significan cada una de estas abreviaturas y cómo se derivan. También veremos cómo spaCy puede interpretar los últimos tres tokens combinados de "$ 6 millones" como una referencia a ***dinero***.

___
# Objetos spaCy

Después de importar el módulo de espacio en la celda de arriba, cargamos un ** modelo ** y lo llamamos `nlp`. <br> A continuación, creamos un objeto ** Doc ** aplicando el modelo a nuestro texto y lo llamamos` doc `. <br> spaCy también crea un objeto ** Vocab ** complementario que cubriremos en secciones posteriores. <br> El objeto ** Doc ** que contiene el texto procesado es nuestro enfoque aquí.

___
# Pipeline
Cuando ejecutamos `nlp`, nuestro texto entra en una * canalización de procesamiento * que primero desglosa el texto y luego realiza una serie de operaciones para etiquetar, analizar y describir los datos. Fuente de imagen:
https://spacy.io/usage/spacy-101#pipelines

<img src='Figures/pipeline1.png' width="600">

Podemos comprobar qué componentes están actualmente en proceso. En secciones posteriores, aprenderemos cómo deshabilitar componentes y agregar nuevos según sea necesario. 

In [2]:
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7f23f163f400>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x7f23f15de860>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x7f23f17aa3a0>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7f23f2230d80>),
 ('lemmatizer',
  <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x7f23f159ea00>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x7f23f17aa880>)]

In [3]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

___
## Tokenización
El primer paso en el procesamiento del texto es dividir todos los componentes (palabras y puntuación) en "fichas". Estos tokens están anotados dentro del objeto Doc para contener información descriptiva. Entraremos en muchos más detalles sobre la tokenización en una próxima conferencia. Por ahora, veamos otro ejemplo:

In [5]:
doc2 = nlp(u"Tesla isn't looking into startups anymore.")
for token in doc2:
    print(token.text, token.pos_, token.dep_)


Tesla PROPN nsubj
is AUX aux
n't PART neg
looking VERB ROOT
into ADP prep
startups NOUN pobj
anymore ADV advmod
. PUNCT punct


Observe cómo "no" se ha dividido en dos fichas. spaCy reconoce tanto la raíz del verbo "es" como la negación que se le atribuye. Observe también que tanto el espacio en blanco extendido como el punto al final de la oración tienen asignados sus propios tokens.

Es importante tener en cuenta que aunque `doc2` contiene información procesada sobre cada token, también conserva el texto original:

In [6]:
doc2

Tesla isn't looking into startups anymore.

In [7]:
doc2[0]

Tesla

In [8]:
type(doc2)

spacy.tokens.doc.Doc

___
## Etiquetado de parte del discurso (POS)
El siguiente paso después de dividir el texto en fichas es asignar partes del discurso. En el ejemplo anterior, se reconoció que Tesla era un *** nombre propio ***. Aquí se requiere algún modelo estadístico. Por ejemplo, las palabras que siguen a "the" suelen ser sustantivos.

Para obtener una lista completa de etiquetas POS, visite https://spacy.io/api/annotation#pos-tagging

In [9]:
doc2[0].pos_

'PROPN'

___
## Dependencias
También analizamos las dependencias sintácticas asignadas a cada token. `Tesla` se identifica como un` nsubj` o el *** sujeto nominal *** de la oración.

Para obtener una lista completa de las dependencias sintácticas, visite https://spacy.io/api/annotation#dependency-parsing
<br> Se puede encontrar una buena explicación de las dependencias escritas [aquí] (https://nlp.stanford.edu/software/dependencies_manual.pdf)

In [10]:
doc2[0].dep_


'nsubj'

Para ver el nombre completo de una etiqueta, use `spacy.explain (tag)`

In [11]:
spacy.explain('PROPN')

'proper noun'

In [12]:
spacy.explain('nsubj')

'nominal subject'

___
## Atributos de token adicionales
Los veremos nuevamente en las próximas conferencias. Por ahora, solo queremos ilustrar parte de la otra información que spaCy asigna a los tokens:

|Tag|Description|doc2[0].tag|
|:------|:------:|:------|
|`.text`|The original word text<!-- .element: style="text-align:left;" -->|`Tesla`|
|`.lemma_`|The base form of the word|`tesla`|
|`.pos_`|The simple part-of-speech tag|`PROPN`/`proper noun`|
|`.tag_`|The detailed part-of-speech tag|`NNP`/`noun, proper singular`|
|`.shape_`|The word shape – capitalization, punctuation, digits|`Xxxxx`|
|`.is_alpha`|Is the token an alpha character?|`True`|
|`.is_stop`|Is the token part of a stop list, i.e. the most common words of the language?|`False`|

In [13]:
doc2[0].is_stop

False

___
## Spans
Large Doc objects can be hard to work with at times. A **span** is a slice of Doc object in the form `Doc[start:stop]`.

In [14]:
doc3 = nlp(u'Although commmonly attributed to John Lennon from his song "Beautiful Boy", \
the phrase "Life is what happens to us while we are making other plans" was written by \
cartoonist Allen Saunders and published in Reader\'s Digest in 1957, when Lennon was 17.')

In [15]:
quote = doc3[16:30]
print(quote)

"Life is what happens to us while we are making other plans"


En próximas conferencias veremos cómo crear objetos Span usando `Span ()`. Esto nos permitirá asignar información adicional al Span.

___
## Sentences
Certain tokens inside a Doc object may also receive a "start of sentence" tag. While this doesn't immediately build a list of sentences, these tags enable the generation of sentence segments through `Doc.sents`. Later we'll write our own segmentation rules.

In [17]:
doc4 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

In [18]:
for sent in doc4.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.
