# Características Linguisticas de un texto usando SpaCy

El procesamiento sintáctico y semantico de texto puede llegar a ser muy complicado si no se cuenta con un modelo lo suficientemente completo para llevar a cabo esta tarea. En este cuaderno se mostrarán algunas soluciones que nos proporciona el paquete [SpaCy](https://spacy.io/)  para llevar a cabo esta tarea:

## Cargamos un modelo en español de spaCy

Los modelos en Spacy han sido pre entrenados en diferentes idiomas y  se pueden encontrar en [spaCy - Models](https://spacy.io/models). En ese directorio se encuentran dos tipos de modelos:


* **Core Models** modelos pre-entrenados de uso general para predecir '*named entities recognition*', etiquetas de parte del discurso y dependencias sintácticas. Está listo para usar en datos más específicos.

* **Starter Models** Usando paquetes con pesos preentrenados se puede inicializar modelos para lograr una mayor precisión. Entre ellos se puede incluir vectores de palabras (que se utilizarán como características durante el entrenamiento) u otras representaciones previamente formadas como BERT. Estos modelos no incluyen componentes para tareas específicas como NER o clasificación de texto y están destinados a ser utilizados como modelos base al entrenar sus propios modelos.




In [None]:
#!pip install spacy
#!python -m spacy download es_core_news_sm

In [None]:
import spacy
import es_core_news_sm
nlp=spacy.load("es_core_news_sm")
from spacy import displacy

In [None]:
texto="La Ocde le dio respaldo total a Colombia en la aplicación de la devolución del IVA."
doc=nlp(texto)

## Tagueo POS

Identificamos los lemas y características de las palabras en el documento:

In [None]:
TOK=[]
for token in doc:
    TOK.append([token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop,token.ent_type_])

In [None]:
import pandas as pd 
TextAnalysis=pd.DataFrame(data=TOK,columns=["Text","Lemma","POS","Tag","Dep","Shape","alpha","stop","Tipo Entidad"])
TextAnalysis

Unnamed: 0,Text,Lemma,POS,Tag,Dep,Shape,alpha,stop,Tipo Entidad
0,La,el,DET,DET,det,Xx,True,True,
1,Ocde,Ocde,PROPN,PROPN,nsubj,Xxxx,True,False,ORG
2,le,él,PRON,PRON,obj,xx,True,True,
3,dio,dar,VERB,VERB,ROOT,xxx,True,True,
4,respaldo,respaldo,NOUN,NOUN,obj,xxxx,True,False,
5,total,total,ADJ,ADJ,amod,xxxx,True,True,
6,a,a,ADP,ADP,case,x,True,False,
7,Colombia,Colombia,PROPN,PROPN,nmod,Xxxxx,True,False,LOC
8,en,en,ADP,ADP,case,xx,True,True,
9,la,el,DET,DET,det,xx,True,True,


[Atributos de Token en Spacy](https://spacy.io/api/token#attributes)

## Análisis gramátical de dependencia

La clase pasada vimos como generar un arbol que expresaba el análisis de dependencia de las palabras dispuestas en una oración:

In [None]:
displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...



127.0.0.1 - - [10/Apr/2021 09:31:57] "GET / HTTP/1.1" 200 13408
127.0.0.1 - - [10/Apr/2021 09:31:57] "GET /favicon.ico HTTP/1.1" 200 13408


Shutting down server on port 5000.


Para ver el valor de cada dependencia puede consultar en [Syntactic Dependency Parsing](https://spacy.io/api/annotation#dependency-parsing)

In [None]:
doc=nlp('A mi me gustan los gatos, los perros, los loros y los ratones')
displacy.render(doc, style="dep")


## Sintagmas nominales

Los sintagmas nominales son "frases nominales básicas", frases planas que tienen un sustantivo como cabeza. Puede pensar en los sintagmas de sustantivos como un sustantivo más las palabras que describen el sustantivo, por ejemplo, "el joven sin gracia" o "el fondo tecnológico más grande del mundo". Para obtener los fragmentos de sustantivo en un documento, simplemente itere sobre Doc.noun_chunks

In [None]:
NOUN_CHUNK=[]
for chunk in doc.noun_chunks:
    NOUN_CHUNK.append([chunk.text, chunk.root.text, chunk.root.dep_,
            chunk.root.head.text])
    
pd.DataFrame(data=NOUN_CHUNK,columns=["Text","Root.text","Root.dep_","root.head.text"])

Unnamed: 0,Text,Root.text,Root.dep_,root.head.text
0,La Ocde,Ocde,nsubj,dio
1,le,le,obj,dio
2,respaldo,respaldo,obj,dio
3,Colombia,Colombia,nmod,respaldo
4,la aplicación,aplicación,obl,dio
5,la devolución,devolución,nmod,aplicación
6,IVA,IVA,nmod,devolución


## Comparemos con el modelo en Inglés

Una dificultad con buena parte de los modelos en español es que no son tan eficientes y detallados como los que tenemos en inglés:

In [None]:
nlp2=spacy.load("en_core_web_sm")
texto2="OECD gave full support to Colombia in the application of the VAT refund."
doc2=nlp2(texto2)

In [None]:
NOUN_CHUNK=[]
for chunk in doc2.noun_chunks:
    NOUN_CHUNK.append([chunk.text, chunk.root.text, chunk.root.dep_,
            chunk.root.head.text])
    
pd.DataFrame(data=NOUN_CHUNK,columns=["Text","Root.text","Root.dep_","root.head.text"])

Unnamed: 0,Text,Root.text,Root.dep_,root.head.text
0,OECD,OECD,nsubj,gave
1,full support,support,dobj,gave
2,Colombia,Colombia,pobj,to
3,the application,application,pobj,in
4,the VAT refund,refund,pobj,of


## Información del análisis de dependencia en una tabla

Los comandos `head` y `child` nos permite explorar en los diferentes arcos obtenidos por el análisis de dependencias.

In [None]:
Dep_Tree=[]
for token in doc:
    Dep_Tree.append([token.text, token.dep_, token.head.text, token.pos_,
            [child for child in token.children],[anc for anc in token.ancestors]])
pd.DataFrame(data=Dep_Tree,columns=["Text","Dep","Head","POS","Children","Ancestors"])

Unnamed: 0,Text,Dep,Head,POS,Children,Ancestors
0,La,det,Ocde,DET,[],"[Ocde, dio]"
1,Ocde,nsubj,dio,PROPN,[La],[dio]
2,le,obj,dio,PRON,[],[dio]
3,dio,ROOT,dio,VERB,"[Ocde, le, respaldo, aplicación, .]",[]
4,respaldo,obj,dio,NOUN,"[total, Colombia]",[dio]
5,total,amod,respaldo,ADJ,[],"[respaldo, dio]"
6,a,case,Colombia,ADP,[],"[Colombia, respaldo, dio]"
7,Colombia,nmod,respaldo,PROPN,[a],"[respaldo, dio]"
8,en,case,aplicación,ADP,[],"[aplicación, dio]"
9,la,det,aplicación,DET,[],"[aplicación, dio]"


Debido a que las relaciones sintácticas forman un árbol, cada palabra tiene exactamente una '*head*'. Por lo tanto, se puede iterar sobre los arcos en el árbol iterando sobre las palabras en la oración.

Esta suele ser la mejor manera de hacer coincidir un arco de interés, desde abajo:

In [None]:
from spacy.symbols import nsubj, VERB
verbs = []
sujeto=[]
for possible_subject in doc:
    if possible_subject.dep == nsubj and possible_subject.head.pos == VERB:
        verbs.append(possible_subject.head)
        sujeto.append(possible_subject)
print(verbs)
print(sujeto)

[dio]
[Ocde]


Ahora desde arriba, observe que se debe iterar dos veces:

In [None]:
verbs = []
for possible_verb in doc:
    if possible_verb.pos == VERB:
        for possible_subject in possible_verb.children:
            if possible_subject.dep == nsubj:
                verbs.append(possible_verb)
                break
                
verbs

[dio]

Podemos determinar en cada palabra su cabeza sintáctica:

In [None]:
doc3 = nlp("Los titulares de cuentas de crédito e hipotecas deben presentar sus solicitudes")
root = [token for token in doc3 if token.head == token][0]
subject = list(root.lefts)[0]
Sintac_head=[]
for descendant in subject.subtree:
    assert subject is descendant or subject.is_ancestor(descendant)
    Sintac_head.append([descendant.text, descendant.dep_, descendant.n_lefts,
            descendant.n_rights,
            [ancestor.text for ancestor in descendant.ancestors]])

pd.DataFrame(data=Sintac_head,columns=["Text","Dep","n_lefts","n_rights","ancestors"])

Unnamed: 0,Text,Dep,n_lefts,n_rights,ancestors
0,Los,det,0,0,"[titulares, presentar]"
1,titulares,nsubj,1,1,[presentar]
2,de,case,0,0,"[cuentas, titulares, presentar]"
3,cuentas,nmod,1,1,"[titulares, presentar]"
4,de,case,0,0,"[crédito, cuentas, titulares, presentar]"
5,crédito,nmod,1,1,"[cuentas, titulares, presentar]"
6,e,cc,0,0,"[hipotecas, crédito, cuentas, titulares, prese..."
7,hipotecas,conj,1,0,"[crédito, cuentas, titulares, presentar]"


## Reconocimiento de entidades con nombre

Una entidad con nombre es un "objeto del mundo real" al que se le asigna un nombre, por ejemplo, una persona, un país, un producto o el título de un libro. spaCy puede reconocer varios tipos de entidades con nombre en un documento, pidiéndole al modelo una predicción. Debido a que los modelos son estadísticos y dependen en gran medida de los ejemplos en los que fueron entrenados, esto no siempre funciona a la perfección y podría necesitar algún ajuste posterior, dependiendo de su caso de uso.

In [None]:
ENT=[]
doc4 = nlp("El Gobierno de Colombia abrió la puerta a una compra de acciones en la mayor aerolínea del país, Avianca, la cual está teniendo dificultades para mantenerse a flote ante la pandemia de coronavirus. ")

for ent in doc4.ents:
    ENT.append([ent.text, ent.start_char, ent.end_char, ent.label_])
    
pd.DataFrame(data=ENT,columns=["Text","Inicio","Final","Etiqueta"])

Unnamed: 0,Text,Inicio,Final,Etiqueta
0,Gobierno de Colombia,3,23,LOC
1,Avianca,97,104,ORG


## Visualización NER

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
doc=nlp('Se le conoce principalmente por ser el autor de la obra The Art of Computer Programming (El arte de programar computadoras), una de las más respetadas referencias en el campo de las ciencias de la computación. Sentó las bases y dio nombre al análisis de algoritmos, y ha realizado numerosos aportes a varias ramas teóricas de la informática. Es el creador de TEX, del sistema de diseño de tipos METAFONT y del estilo de programación conocido como programación literaria (Literate programming). Knuth es conocido como el "padre del análisis de algoritmos". Knuth es un programador conocido por su humor geek: ofrece una recompensa de 2,56 dólares a quien encuentre errores conceptuales o tipográficos en sus libros (la razón detrás de la extraña cifra es que "256 centavos son 1 dólar hexadecimal"), y por otro lado ofrecía 3,16 por errores en 3:16 Bible Texts Illuminated. Numeró las distintas versiones de TEX de manera que se aproximaran al número π (3, 3.1, 3.14, etc.), al igual que los números de versión de MetaFont se van aproximando a e. Su cita más célebre, al enviarle sus comentarios a un colega autor de un algoritmo, es: "Cuidado con los errores en el código anterior; sólo he demostrado que es correcto, no lo he probado". Knuth es el autor de 3:16 Bible Texts Illuminated (1991, ISBN 0-89579-252-4), libro en el que intenta examinar la Biblia por un proceso de "muestreo estratificado aleatorio", es decir, un análisis del capítulo 3, versículo 16 de cada libro. Cada versículo se acompaña de un renderizado en arte caligráfico, realizado por un grupo de calígrafos capitaneado por Hermann Zapf. Ha sido galardonado con el Premio Fundación BBVA Fronteras del Conocimiento 2010 en la categoría de Tecnologías de la Información y la Comunicación. Está casado con Jill Carter Knuth. Tienen dos hijos. ')
for sent in doc.sents:
    displacy.render(nlp(sent.text), style="ent",jupyter=True)

In [None]:
doc2=nlp2("Donald Ervin Knuth is an American computer scientist, mathematician, and professor emeritus at Stanford University. He is the 1974 recipient of the ACM Turing Award, informally considered the Nobel Prize of computer science. He is the author of the multi-volume work The Art of Machine Programming. He contributed to the development of the rigorous analysis of the computational complexity of algorithms and systematized formal mathematical techniques for it. In the process he also popularized the asymptotic notation. In addition to fundamental contributions in several branches of theoretical computer science, Knuth is the creator of the TeX computer typesetting system, the related METAFONT font definition language and rendering system, and the Computer Modern family of typefaces. As a writer and scholar, Knuth created the WEB and CWEB computer programming systems designed to encourage and facilitate literate programming, and designed the MIX/MMIX instruction set architectures. Knuth strongly opposes granting software patents, having expressed his opinion to the United States Patent and Trademark Office and European Patent Organisation. For Donald one hexadecimal dollar is 2.56 dollars")

In [None]:
for sent in doc2.sents:
    displacy.render(nlp2(sent.text), style="ent",jupyter=True)

In [None]:
ENT=[]
for ent in doc2.ents:
    ENT.append([ent.text, ent.start_char, ent.end_char, ent.label_])
    
pd.DataFrame(data=ENT,columns=["Text","Inicio","Final","Etiqueta"])

Unnamed: 0,Text,Inicio,Final,Etiqueta
0,Donald Ervin Knuth,0,18,PERSON
1,American,25,33,NORP
2,Stanford University,95,114,ORG
3,1974,126,130,DATE
4,the Nobel Prize,188,203,WORK_OF_ART
5,The Art of Machine Programming,267,297,WORK_OF_ART
6,Knuth,614,619,PERSON
7,TeX,642,645,PERSON
8,Modern,760,766,PERSON
9,Knuth,813,818,PERSON


In [None]:
ENT=[]
for ent in doc.ents:
    ENT.append([ent.text, ent.start_char, ent.end_char, ent.label_])
    
pd.DataFrame(data=ENT,columns=["Text","Inicio","Final","Etiqueta"])

Unnamed: 0,Text,Inicio,Final,Etiqueta
0,The Art of Computer Programming,56,87,MISC
1,El arte de programar computadoras,89,122,MISC
2,Sentó,210,215,ORG
3,Es el creador de TEX,342,362,MISC
4,METAFONT,395,403,ORG
5,Literate programming,471,491,PER
6,Knuth,494,499,PER
7,Knuth,556,561,PER
8,Bible Texts Illuminated,848,871,MISC
9,Numeró,873,879,PER


In [None]:
texto="Las tradicionales y multitudinarias marchas que colman las plazas principales de las capitales del país cada primero de mayo se transformaron, debido a la cuarentena por el coronavirus, en charlas y arengas virtuales en las que la crisis económica y la pérdida de cientos de empleos por la covid-19 fueron los principales puntos. En Medellín, por ejemplo, Jaime Montoya, presidente de la Central Unitaria de Trabajadores (CUT) Antioquia, manifestó que a pesar del confinamiento, la movilización social no se detiene y pasó de la calle a la virtualidad."
doc=nlp(texto)

In [None]:
displacy.render(doc,style='dep')

In [None]:
from spacy.symbols import nsubj, VERB
verbs = []
sujeto=[]
for possible_subject in doc:
    if possible_subject.dep == nsubj and possible_subject.head.pos == VERB:
        verbs.append([possible_subject.head,[child for child in possible_subject.head.children]])
        sujeto.append(possible_subject)
print(verbs)
print(sujeto)

[[transformaron, [marchas, se, cuarentena, .]], [colman, [que, plazas, primero]], [manifestó, [Medellín, Jaime, detiene, .]], [detiene, [que, confinamiento, movilización, no, se, pasó]]]
[marchas, que, Jaime, movilización]


In [None]:
NOUN_CHUNK=[]
for chunk in doc.noun_chunks:
    NOUN_CHUNK.append([chunk.text, chunk.root.text, chunk.root.dep_,
            chunk.root.head.text])
    
pd.DataFrame(data=NOUN_CHUNK,columns=["Text","Root.text","Root.dep_","root.head.text"])

Unnamed: 0,Text,Root.text,Root.dep_,root.head.text
0,que,que,nsubj,colman
1,las plazas,plazas,obj,colman
2,las capitales,capitales,nmod,plazas
3,país,país,nmod,capitales
4,mayo,mayo,nmod,primero
5,se,se,obj,transformaron
6,la cuarentena,cuarentena,obl,transformaron
7,el coronavirus,coronavirus,nmod,cuarentena
8,charlas,charlas,nmod,coronavirus
9,arengas,arengas,conj,charlas


In [None]:
root = [token for token in doc if token.head == token][0]
subject = list(root.children)[0]
Sintac_head=[]
for descendant in subject.subtree:
    assert subject is descendant or subject.is_ancestor(descendant)
    Sintac_head.append([descendant.text, descendant.dep_, descendant.n_lefts,
            descendant.n_rights,
            [ancestor.text for ancestor in descendant.ancestors]])

pd.DataFrame(data=Sintac_head,columns=["Text","Dep","n_lefts","n_rights","ancestors"])

Unnamed: 0,Text,Dep,n_lefts,n_rights,ancestors
0,Las,det,0,0,"[marchas, transformaron]"
1,tradicionales,amod,0,1,"[marchas, transformaron]"
2,y,cc,0,0,"[multitudinarias, tradicionales, marchas, tran..."
3,multitudinarias,conj,1,0,"[tradicionales, marchas, transformaron]"
4,marchas,nsubj,2,1,[transformaron]
5,que,nsubj,0,0,"[colman, marchas, transformaron]"
6,colman,acl,1,2,"[marchas, transformaron]"
7,las,det,0,0,"[plazas, colman, marchas, transformaron]"
8,plazas,obj,1,2,"[colman, marchas, transformaron]"
9,principales,amod,0,0,"[plazas, colman, marchas, transformaron]"
