In [1]:
# pip install -U spacy
# python -m spacy download es_core_news_sm

import spacy
from spacy.symbols import nsubj, VERB
from spacy import displacy


# Load English tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load("es_core_news_sm")
    

In [2]:
# Process whole documents
#Escasa participación de la profesora que ni siquiera ha preparardo unidades didácticas. 
#Se ha limitado a colgar una ley ( en una versión antigua, por cierto) 
#y dos comunicaciones ( una ni siquiera tenía mucho que ver con la asignatura)
#y a decirnos qué actividades deberíamos realizar sin explicar la materia, sin conceptualizaciones,
#sin indicaciones concretas. 
#No se han ido facilitando las correcciones de las materias, cosa que sería interesante 
#para ir sabiendo en la siguiente actividad en qué podemos mejorar. 
#La presencia de la profesora ha sido casi nula. No ha dado instrucciones para ordenar 
#el foro de la última actividad, no ha enviado ni un sólo mensaje al foro...
#ha estado muy ausente durante toda la materia. 77
text = (u"Escasa participación de la profesora Josefina Hernández que ni siquiera ha preparado unidades didácticas. "
       "No se han ido facilitando las correcciones de las materias")

doc = nlp(text)


In [3]:
# Word decomposition
print([(w.text) for w in doc])


[u'Escasa', u'participaci\xf3n', u'de', u'la', u'profesora', u'Josefina', u'Hern\xe1ndez', u'que', u'ni', u'siquiera', u'ha', u'preparado', u'unidades', u'did\xe1cticas', u'.', u'No', u'se', u'han', u'ido', u'facilitando', u'las', u'correcciones', u'de', u'las', u'materias']


In [4]:
# Part of speech tagging
for token in doc:
    print(token.text, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)


(u'Escasa', u'ADJ', u'ADJ__Gender=Fem|Number=Sing', u'amod', u'Xxxxx', True, False)
(u'participaci\xf3n', u'NOUN', u'NOUN__Gender=Fem|Number=Sing', u'ROOT', u'xxxx', True, False)
(u'de', u'ADP', u'ADP__AdpType=Prep', u'case', u'xx', True, True)
(u'la', u'DET', u'DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art', u'det', u'xx', True, True)
(u'profesora', u'NOUN', u'NOUN__Gender=Fem|Number=Sing', u'nmod', u'xxxx', True, False)
(u'Josefina', u'PROPN', u'PROPN', u'appos', u'Xxxxx', True, False)
(u'Hern\xe1ndez', u'PROPN', u'PROPN', u'flat', u'Xxxxx', True, False)
(u'que', u'SCONJ', u'PRON__PronType=Int,Rel', u'nsubj', u'xxx', True, True)
(u'ni', u'CCONJ', u'CCONJ', u'advmod', u'xx', True, True)
(u'siquiera', u'INTJ', u'NOUN', u'fixed', u'xxxx', True, False)
(u'ha', u'AUX', u'AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin', u'aux', u'xx', True, True)
(u'preparado', u'VERB', u'VERB__Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part', u'acl', u'xxxx', True, False)
(u'unidades'

text	unicode	Verbatim text content.

pos_	unicode	Coarse-grained part-of-speech from the Universal POS tag set.

tag_	unicode	Fine-grained part-of-speech.

dep_	unicode	Syntactic dependency relation.

is_alpha	bool	Does the token consist of alphabetic characters?

is_stop	bool	Is the token part of a “stop list”?

Universal POS tags:

    ADJ: adjective
    ADP: adposition
    ADV: adverb
    AUX: auxiliary verb
    CONJ: coordinating conjunction
    DET: determiner
    INTJ: interjection
    NOUN: noun
    NUM: numeral
    PART: particle
    PRON: pronoun
    PROPN: proper noun
    PUNCT: punctuation
    SCONJ: subordinating conjunction
    SYM: symbol
    VERB: verb
    X: other


In [5]:
# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)

(u'Josefina Hern\xe1ndez', u'PER')
(u'No se han ido', u'MISC')


In [6]:
# Noun chunks
for chunk in doc.noun_chunks:
    print(chunk.text, chunk.root.text, chunk.root.dep_,
            chunk.root.head.text)

(u'participaci\xf3n', u'participaci\xf3n', u'ROOT', u'participaci\xf3n')
(u'la profesora', u'profesora', u'nmod', u'participaci\xf3n')
(u'Josefina Hern\xe1ndez', u'Josefina', u'appos', u'profesora')
(u'unidades', u'unidades', u'obj', u'preparado')
(u'se', u'se', u'obj', u'facilitando')
(u'las correcciones', u'correcciones', u'nsubj', u'facilitando')
(u'las materias', u'materias', u'nmod', u'correcciones')


In [7]:
# Navigating the parse tree
for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
            [child for child in token.children])

(u'Escasa', u'amod', u'participaci\xf3n', u'NOUN', [])
(u'participaci\xf3n', u'ROOT', u'participaci\xf3n', u'NOUN', [Escasa, profesora, preparado, .])
(u'de', u'case', u'profesora', u'NOUN', [])
(u'la', u'det', u'profesora', u'NOUN', [])
(u'profesora', u'nmod', u'participaci\xf3n', u'NOUN', [de, la, Josefina])
(u'Josefina', u'appos', u'profesora', u'NOUN', [Hernández])
(u'Hern\xe1ndez', u'flat', u'Josefina', u'PROPN', [])
(u'que', u'nsubj', u'preparado', u'VERB', [])
(u'ni', u'advmod', u'preparado', u'VERB', [siquiera])
(u'siquiera', u'fixed', u'ni', u'CCONJ', [])
(u'ha', u'aux', u'preparado', u'VERB', [])
(u'preparado', u'acl', u'participaci\xf3n', u'NOUN', [que, ni, ha, unidades])
(u'unidades', u'obj', u'preparado', u'VERB', [didácticas])
(u'did\xe1cticas', u'amod', u'unidades', u'NOUN', [])
(u'.', u'punct', u'participaci\xf3n', u'NOUN', [])
(u'No', u'advmod', u'facilitando', u'VERB', [])
(u'se', u'obj', u'facilitando', u'VERB', [])
(u'han', u'aux', u'facilitando', u'VERB', [])
(u'id

In [8]:
# Finding a verb with a subject from below — good
verbs = set()
for possible_subject in doc:
    if possible_subject.dep == nsubj and possible_subject.head.pos == VERB:
        verbs.add(possible_subject.head)
print(verbs)

set([preparado, facilitando])


In [9]:
root = [token for token in doc if token.head == token][0]
subject = list(root.lefts)[0]
for descendant in subject.subtree:
    assert subject is descendant or subject.is_ancestor(descendant)
    print(descendant.text, descendant.dep_, descendant.n_lefts,
            descendant.n_rights,
            [ancestor.text for ancestor in descendant.ancestors])

(u'Escasa', u'amod', 0, 0, [u'participaci\xf3n'])


In [10]:
# Accessing entity annotations
ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print(ents)


[(u'Josefina Hern\xe1ndez', 37, 55, u'PER'), (u'No se han ido', 106, 119, u'MISC')]


In [11]:
displacy.render(doc, style="ent")

In [12]:
displacy.render(doc, style="dep")

In [13]:
# Sentence Segmentation
for sent in doc.sents:
    print(sent.text)

Escasa participación de la profesora Josefina Hernández que ni siquiera ha preparado unidades didácticas.
No se han ido facilitando las correcciones de las materias
