In [4]:
# pip install https://github.com/ccoreilly/spacy-catala/releases/download/v0.0.2/ca_fasttext_wiki-0.0.2.tar.gz
# python -m spacy link ca_fasttext_wiki ca

import spacy
from spacy.symbols import nsubj, VERB
from spacy import displacy

# Load English tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load("ca_fasttext_wiki")
    



In [12]:
# Process whole documents
text = (u"L'assignatura va començar el dia 8 de març amb una sessió de seguiment en horari laboral. ")
doc = nlp(text)

In [5]:
# Word decomposition
print([(w.text) for w in doc])

["L'", 'assignatura', 'va', 'començar', 'el', 'dia', '8', 'de', 'març', 'amb', 'una', 'sessió', 'de', 'seguiment', 'en', 'horari', 'laboral', '.']


In [6]:
# Part of speech tagging
for token in doc:
    print(token.text, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

L' DET DET det X' False False
assignatura NOUN NOUN nsubj xxxx True False
va AUX AUX aux xx True True
començar VERB VERB ROOT xxxx True False
el DET DET det xx True True
dia NOUN NOUN obl xxx True False
8 NUM NUM compound d False False
de ADP ADP case xx True True
març NOUN NOUN compound xxxx True False
amb ADP ADP case xxx True True
una DET DET det xxx True True
sessió NOUN NOUN obl xxxx True False
de ADP ADP case xx True True
seguiment NOUN NOUN nmod xxxx True False
en ADP ADP case xx True True
horari NOUN NOUN nmod xxxx True False
laboral ADJ ADJ amod xxxx True False
. PUNCT PUNCT punct . False False


In [7]:
# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)

8 de març ORG
sessió de seguiment en horari ORG


In [8]:
# Noun chunks
for chunk in doc.noun_chunks:
    print(chunk.text, chunk.root.text, chunk.root.dep_,
            chunk.root.head.text)

In [9]:
# Navigating the parse tree
for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
            [child for child in token.children])

L' det assignatura NOUN []
assignatura nsubj començar VERB [L']
va aux començar VERB []
començar ROOT començar VERB [assignatura, va, dia, sessió, .]
el det dia NOUN []
dia obl començar VERB [el, 8, març]
8 compound dia NOUN []
de case març NOUN []
març compound dia NOUN [de]
amb case sessió NOUN []
una det sessió NOUN []
sessió obl començar VERB [amb, una, seguiment, horari]
de case seguiment NOUN []
seguiment nmod sessió NOUN [de]
en case horari NOUN []
horari nmod sessió NOUN [en, laboral]
laboral amod horari NOUN []
. punct començar VERB []


In [13]:
# Finding a verb with a subject from below — good
verbs = set()
for possible_subject in doc:
    if possible_subject.dep == nsubj and possible_subject.head.pos == VERB:
        verbs.add(possible_subject.head)
print(verbs)

{començar}


In [14]:
root = [token for token in doc if token.head == token][0]
subject = list(root.lefts)[0]
for descendant in subject.subtree:
    assert subject is descendant or subject.is_ancestor(descendant)
    print(descendant.text, descendant.dep_, descendant.n_lefts,
            descendant.n_rights,
            [ancestor.text for ancestor in descendant.ancestors])

L' det 0 0 ['assignatura', 'començar']
assignatura nsubj 1 0 ['començar']


In [15]:
# Accessing entity annotations
ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print(ents)

[('8 de març', 33, 42, 'ORG'), ('sessió de seguiment en horari', 51, 80, 'ORG')]


In [16]:
displacy.render(doc, style="ent")

In [17]:
displacy.render(doc, style="dep")

SyntaxError: invalid syntax (<ipython-input-3-5f990016a217>, line 1)