#spaCy

Vamos a usar modelos ya creados. Con spacy se puede modelar desde cero.

[spaCy](https://spacy.io/) es una librería de Python de código abierto que analiza y "comprende" grandes volúmenes de texto. Hay modelos separados disponibles que se adaptan a idiomas específicos (inglés, español, francés, alemán, etc.).

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm') #Ya viene instalado para el modelo pequeño, el mediano y largo hay que instalarlos
#El modelo es el de ingles en su tamaño pequeño

In [None]:
text = 'Tesla is looking at buying U.S. startup for $6 million' #Definimos la cadena de texto

In [None]:
doc = nlp(text) #Aplicamos la capa de spacy
type(doc) #Validamos el tipo de objeto

spacy.tokens.doc.Doc

In [None]:
"""Atributos"""
for token in doc:
    print(token.text, token.pos_, token.dep_, "\n")
#token.text regresa el texto en grudo
#token.pos_ regresa el part of speach taggin o estiquetado grmatical
#token.dep_ da dependecias del objeto
# al ser iterable pasamos por cada token del enunciado

Tesla PROPN nsubj 

is AUX aux 

looking VERB ROOT 

at ADP prep 

buying VERB pcomp 

U.S. PROPN compound 

startup NOUN dobj 

for ADP prep 

$ SYM quantmod 

6 NUM compound 

million NUM pobj 



Esto no parece muy fácil de usar, pero de inmediato vemos que suceden algunas cosas interesantes:
1. Se reconoce que Tesla es un nombre propio, no solo una palabra al comienzo de una oración.
2. U.S. se mantiene unido como una sola entidad (lo llamamos "token")

A medida que profundicemos en spaCy, veremos qué significa cada una de estas abreviaturas y cómo se derivan.

## Tokenización

El primer paso en el procesamiento de texto es dividir todas las partes componentes (palabras y puntuación) en tokens. Estos tokens se anotan dentro del objeto `Doc` para contener información descriptiva.

In [None]:
"""Proponemos otro ejemplo sacando las mismas dependencias"""
doc2 = nlp("Tesla isn't looking  into startups anymore.")

for token in doc2:
    print(token.text, token.pos_, token.dep_, "\n")

Tesla PROPN nsubj 

is AUX aux 

n't PART neg 

looking VERB ROOT 

  SPACE dep 

into ADP prep 

startups NOUN pobj 

anymore ADV advmod 

. PUNCT punct 



Observe cómo `isn't` se ha dividido en dos tokens. spaCy reconoce tanto el verbo raíz `is` como la negación adjunta. Observe también que tanto el espacio en blanco extendido como el punto al final de la oración tienen asignados sus propios tokens.

Es importante tener en cuenta que aunque `doc2` contiene información procesada sobre cada token, también conserva el texto original:

In [None]:
doc2 #recuperamos la variable

Tesla isn't looking  into startups anymore.

In [None]:
doc2[0] #Elementos indivudales extraibles

Tesla

In [None]:
type(doc2[0]) #cambia el type del objeto

spacy.tokens.token.Token

## Etiquetado Gramatical (Part-of-Speech Tagging)

Para obtener una lista completa de etiquetas POS, visite https://universaldependencies.org/u/pos/

In [None]:
doc2[0].pos_ #Post tagging es algo universal y no solo de spacy

'PROPN'

## Dependencias
También analizamos las dependencias sintácticas asignadas a cada token. `Tesla` se identifica como `nsubj` o el ***sujeto nominal*** de la oración.

Se puede encontrar una buena explicación de las dependencias escritas [aquí](https://nlp.stanford.edu/software/dependencies_manual.pdf)

In [None]:
doc2[0].dep_ #de igual se cuenta con mas informacion en un manual

'nsubj'

Para ver el nombre completo de una etiqueta, use `spacy.explain(tag)`

In [None]:
spacy.explain('PROPN') #La misma herramienta aporta soporte para el nombre completo de las etiquetas

'proper noun'

In [None]:
spacy.explain('nsubj')

'nominal subject'

## Atributos de tokens adicionales

|Tag|Descripción|doc2[0].tag|
|:------|:------:|:------|
|`.text`|El texto original de la palabra<!-- .element: style="text-align:left;" -->|`Tesla`|
|`.lemma_`|La forma básica de la palabra|`tesla`|
|`.pos_`|La etiqueta gramatical simple (POS)|`PROPN`/`proper noun`|
|`.tag_`|La etiqueta gramatical detallada|`NNP`/`noun, proper singular`|
|`.shape_`|La forma de la palabra: mayúsculas, puntuación, dígitos|`Xxxxx`|
|`.is_alpha`|¿El token es un carácter alfanúmerico?|`True`|
|`.is_stop`|¿El token es parte de una lista de stopwords, es decir, de las palabras más comunes del idioma?|`False`|

In [None]:
# Lemas (la forma base de la palabra):
print(doc2[3].text) #Palabra
print(doc2[3].lemma_) #Forma básica de la palabra

looking
look


In [None]:
# Parts-of-Speech Tagging:
print(doc2[3].pos_)
print(doc2[3].tag_ + ' / ' + spacy.explain(doc2[3].tag_)) #Mas detalle de los atributos que pos

VERB
VBG / verb, gerund or present participle


In [None]:
# Formas de la palabra (Extracción de caracteristicas):
print(doc2[0].text+': '+doc2[0].shape_)
print(doc[5].text+' : '+doc[5].shape_)

Tesla: Xxxxx
U.S. : X.X.


In [None]:
# Valores booleanos (regresa una bandera):
print(doc2[0].is_alpha) #alfanumerico
print(doc2[0].is_stop) #no es una stopword

True
False


## Spans (tramos)

A veces puede ser difícil trabajar con objetos grandes de un `Doc`. Un *span* es una porción del objeto `Doc` de la forma `Doc[start:stop]`.

In [None]:
doc3 = nlp('Although commmonly attributed to John Lennon from his song "Beautiful Boy", \
the phrase "Life is what happens to us while we are making other plans" was written by \
cartoonist Allen Saunders and published in Reader\'s Digest in 1957, when Lennon was 17.') #pasamos por la capa de spyci

In [None]:
"""Bastante util para oraciones largas"""
life_quote = doc3[16:30] #Filtrado por token
print(life_quote)

"Life is what happens to us while we are making other plans"


In [None]:
type(life_quote) #Paso intermedio para oraciones muy largas

spacy.tokens.span.Span

## Oraciones

Ciertos tokens dentro de un objeto `Doc` también pueden recibir una etiqueta de "Comienzo de oración".

In [None]:
doc4 = nlp('This is the first sentence. This is another sentence. This is the last sentence.')

In [None]:
"""Split por oracion, sents hace el split por cada oración"""
for sent in doc4.sents:
    print(sent, "\n")

This is the first sentence. 

This is another sentence. 

This is the last sentence. 



In [None]:
doc4[6].is_sent_start #Determinado token en determinada oracion es el principio, recupera a This

True

## Conteo de Tokens

Los objetos `Doc` tienen un número determinado de tokens haciendo posible su conteo.

In [None]:
# Se crea una cadena de texto que incluye comillas de apertura y cierre

mystring = '"We\'re moving to L.A.!"' #Es importante tener cuidado con los strings dentro de otro string
print(mystring)

"We're moving to L.A.!"


In [None]:
doc5 = nlp(mystring)

"""Extraemos el token y sus atributos"""
for token in doc5:
    print(token.text, end=' | ')

" | We | 're | moving | to | L.A. | ! | " | 

In [None]:
len(doc5) #damos el conteo de los tokens

8

# Entidades Nombradas

Las entidades nombradas agregan otra capa de contexto. El modelo de lenguaje reconoce que ciertas palabras son nombres de organizaciones mientras que otras son ubicaciones, y otras combinaciones se relacionan con dinero, fechas, etc. Las entidades nombradas son accesibles a través de la propiedad `ent` de un objeto `Doc`.

In [None]:
doc6 = nlp('Apple will build a factory in Hong Kong for $6 million')

for token in doc6:
    print(token.text, end=' | ')

print('\n----')

"""Traemos las entidades nombradas"""
for ent in doc6.ents:
    print(ent.text+' - '+ent.label_+' - '+str(spacy.explain(ent.label_)))

Apple | will | build | a | factory | in | Hong | Kong | for | $ | 6 | million | 
----
Apple - ORG - Companies, agencies, institutions, etc.
Hong Kong - GPE - Countries, cities, states
$6 million - MONEY - Monetary values, including unit


Observe cómo se combinan dos tokens para formar la entidad 'Hong Kong', y cómo se combinan tres tokens para formar la entidad monetaria: '$6 millones'

In [None]:
len(doc6.ents) #Recuperar entidades nombradas por la oración

3

# Visualizadores incorporados

spaCy incluye una herramienta de visualización integrada llamada **displaCy**.

Para obtener más información, visite https://spacy.io/usage/visualizers

In [None]:
from spacy import displacy

doc7 = nlp('Apple is going to build a U.K. factory for $6 million.')
displacy.render(doc7, style='dep', jupyter=True, options={'distance': 110})
#Con style dep contruye las flechas de dependencias, jupyter visualizacion interna del notebook, distance, separacion del grafico

El argumento opcional `'distance'` establece la distancia entre tokens. Si la distancia se hace demasiado pequeña, el texto que aparece debajo de las flechas cortas puede quedar demasiado comprimido para leer.

In [None]:
# Visualizando entidades nombradas, o renderizado.

doc8 = nlp('Over the last quarter Apple sold nearly 20 thousand iPods for a profit of $6 million.')
displacy.render(doc8, style='ent', jupyter=True)

## Lematización

A diferencia de el stemming (truncado a secas de la palabra), la lematización va más allá de la reducción de palabras y considera el vocabulario completo de un idioma para aplicar un *análisis morfológico* a las palabras. El lema de `'was'` es `'be'` y el lema de `'mice'` es `'mouse'`. Además, el lema de `'meeting'` podría ser `'meet'` o `'meeting'` dependiendo de su uso en una oración.

In [None]:
doc9 = nlp(u"I am a runner running in a race because I love to run since I ran today")

"""Extraemos los componentes de la oracion, lemma_ forma canonica de la palabra"""
for token in doc9:
    print(token.text, '\t\t', token.pos_, '\t\t', token.lemma, '\t\t', token.lemma_)

I 		 PRON 		 4690420944186131903 		 I
am 		 AUX 		 10382539506755952630 		 be
a 		 DET 		 11901859001352538922 		 a
runner 		 NOUN 		 12640964157389618806 		 runner
running 		 VERB 		 12767647472892411841 		 run
in 		 ADP 		 3002984154512732771 		 in
a 		 DET 		 11901859001352538922 		 a
race 		 NOUN 		 8048469955494714898 		 race
because 		 SCONJ 		 16950148841647037698 		 because
I 		 PRON 		 4690420944186131903 		 I
love 		 VERB 		 3702023516439754181 		 love
to 		 PART 		 3791531372978436496 		 to
run 		 VERB 		 12767647472892411841 		 run
since 		 SCONJ 		 10066841407251338481 		 since
I 		 PRON 		 4690420944186131903 		 I
ran 		 VERB 		 12767647472892411841 		 run
today 		 NOUN 		 11042482332948150395 		 today


En la oración anterior, `running`, `run` y `ran` apuntan al mismo lema `run`.

## Función para mostrar lemas

Dado que la celda anterior está escalonada, es difícil de leer, por lo que se escribe una función que muestre la información que queremos de forma más clara.

In [None]:
def show_lemmas(text):
    for token in text:
        print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}') #Usando fstrings, con :{12} se estable ¿ce un margen

In [None]:
show_lemmas(doc9)

I            PRON   4690420944186131903    I
am           AUX    10382539506755952630   be
a            DET    11901859001352538922   a
runner       NOUN   12640964157389618806   runner
running      VERB   12767647472892411841   run
in           ADP    3002984154512732771    in
a            DET    11901859001352538922   a
race         NOUN   8048469955494714898    race
because      SCONJ  16950148841647037698   because
I            PRON   4690420944186131903    I
love         VERB   3702023516439754181    love
to           PART   3791531372978436496    to
run          VERB   12767647472892411841   run
since        SCONJ  10066841407251338481   since
I            PRON   4690420944186131903    I
ran          VERB   12767647472892411841   run
today        NOUN   11042482332948150395   today


In [None]:
doc10 = nlp("I saw eighteen mice today!")
show_lemmas(doc10) #Formal de normalizar el texto

I            PRON   4690420944186131903    I
saw          VERB   11925638236994514241   see
eighteen     NUM    9609336664675087640    eighteen
mice         NOUN   1384165645700560590    mouse
today        NOUN   11042482332948150395   today
!            PUNCT  17494803046312582752   !


Observe que el lema de `saw` es `see`, `mice` es la forma plural de `mouse` y, sin embargo, `eighteen` es su propio número, *no* una forma expandida de `eight`.

In [None]:
doc11 = nlp("I am meeting him tomorrow at the meeting.")
show_lemmas(doc11)

I            PRON   4690420944186131903    I
am           AUX    10382539506755952630   be
meeting      VERB   6880656908171229526    meet
him          PRON   1655312771067108281    he
tomorrow     NOUN   3573583789758258062    tomorrow
at           ADP    11667289587015813222   at
the          DET    7425985699627899538    the
meeting      NOUN   14798207169164081740   meeting
.            PUNCT  12646065887601541794   .


Aquí el lema `meeting` está determinado por el contexto de la oración.

## Stop Words

Palabras como `a` y `the` aparecen con tanta frecuencia que no requieren un etiquetado tan exhaustivo como los sustantivos, los verbos y los modificadores. Las llamamos stopwords o *palabras vacías* y se pueden filtrar del texto que se va a procesar. spaCy tiene una lista integrada de palabras vacías en varios idiomas.

In [None]:
# Conjunto de palabras vacías predeterminadas de spaCy (recuerde que los conjuntos no tienen un orden):
print(nlp.Defaults.stop_words)

{'some', 'get', 'up', 'full', 'move', 'put', 'everything', 'hence', 'quite', 'not', 'do', 'nevertheless', 'third', 'was', 'now', 'a', 'can', 'noone', 'he', '’ve', 'my', 'except', 'none', 'an', 'yours', 'nine', 'your', 'since', 'its', 'over', 'before', 're', 'any', 'often', 'whither', 'anything', 'six', 'same', 'alone', 'whereby', 'call', 'becomes', 'when', 'indeed', 'regarding', 'me', 'whatever', 'itself', 'whoever', '’m', 'against', 'further', 'one', 'together', 'nor', 'his', 'latter', 'only', "'m", 'be', 'show', 'toward', 'each', 'beyond', 'such', 'both', 'herein', 'us', 'wherever', 'whereafter', 'sometimes', 'whose', 'whence', 'into', 'just', 'at', '’d', 'may', 'fifteen', 'hereby', 'part', 'ours', 'rather', 'make', 'former', 'above', 'our', 'hundred', 'until', 'whereas', 'am', 'used', 'anyhow', 'anywhere', 'and', 'doing', 'while', 'or', 'once', 'how', 'please', 'own', 'we', 'for', 'becoming', 'top', 'forty', 'herself', 'twenty', 'thereafter', 'still', 'the', 'within', '’re', 'always

In [None]:
len(nlp.Defaults.stop_words)

326

In [None]:
# Para ver si una palabra es una stopword

In [None]:
nlp.vocab['myself'].is_stop #Vemos si la palabra es un stopword

True

In [None]:
nlp.vocab['mystery'].is_stop

False

## Para agregar una stopword

Puede haber ocasiones en las que desee agregar una palabra vacía al conjunto predeterminado. Tal vez decidas que `'btw'` (abreviatura común para "*by the way*") debe considerarse una palabra vacía.

In [None]:
# Agregue la palabra al conjunto de palabras vacías. ¡Use minúsculas!
nlp.Defaults.stop_words.add('btw') #Añadimos la palbra a la listado de stopwords

# Establece la etiqueta stop_word en el lexema
nlp.vocab['btw'].is_stop = True

In [None]:
len(nlp.Defaults.stop_words) #longitud del set de stopwords (palabras vacias)

327

In [None]:
nlp.vocab['btw'].is_stop #Preguntamos si es una palabra vacia

True

## Para eliminar una stopword

Alternativamente, puede decidir que `'beyond'` no debe considerarse una palabra vacía.

In [None]:
# Elimina la palabra del conjunto de palabras vacías
nlp.Defaults.stop_words.remove('beyond') #Removemos del conjunto

# Elimina la etiqueta stop_word del lexema
nlp.vocab['beyond'].is_stop = False

In [None]:
len(nlp.Defaults.stop_words)

326

In [None]:
nlp.vocab['beyond'].is_stop #Vemos que ya no esta en el conjunto de palabras vacias.

False

In [None]:
#Se pueden añadir entidades, lemas etc. Pero eso lo dicta el objetivo y la necesidad del negocio.