In [9]:
import spacy

# Load Portuguese tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load("pt_core_news_sm")

# Process whole documents
text = ("A Igreja de São Domingos data do século XIII e foi uma das mais importantes do tempo da realeza. Sobreviveu parcialmente ao terramoto de 1755, voltando a erguer-se, mas havia de sofrer uma tragédia ainda maior - a 13 de Agosto de 1959 um terrível incêndio destruiu por completo a decoração interior da igreja, onde constavam altares em talha dourada, imagens valiosas e pinturas de grande valor, bem como toda a sua cobertura. Ainda que parcialmente destruída, é uma igreja que sobressai pela policromia dos seus mármores e pela magnitude das suas dimensões, não deixando ninguém indiferente.")
doc = nlp(text)

In [10]:
# Analyze syntax
print("Noun phrases:", [chunk.text for chunk in doc.noun_chunks])
print("Verbs:", [token.text for token in doc if token.pos_ == "VERB"])

Noun phrases: []
Verbs: ['data', 'foi', 'Sobreviveu', 'voltando', 'havia', 'sofrer', 'destruiu', 'constavam', 'dourada', 'é', 'sobressai', 'das', 'deixando']


In [11]:
# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)

Igreja de São Domingos LOC
Agosto LOC


In [12]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

A DET det
Igreja PROPN nsubj
de ADP case
São PROPN nmod
Domingos PROPN flat:name
data VERB ROOT
do ADP case
século NOUN nmod
XIII ADJ amod
e CCONJ cc
foi VERB cop
uma DET det
das NOUN conj
mais ADV advmod
importantes ADJ amod
do ADP case
tempo NOUN obl
da ADP case
realeza NOUN nmod
. PUNCT punct
Sobreviveu VERB ROOT
parcialmente ADV advmod
a ADP case
o DET det
terramoto NOUN obl
de ADP case
1755 NUM nmod
, PUNCT punct
voltando VERB advcl
a DET det
erguer-se PROPN obj
, PUNCT punct
mas CCONJ cc
havia VERB aux
de ADP obl
sofrer VERB conj
uma DET det
tragédia NOUN obj
ainda ADV advmod
maior ADJ amod
- PUNCT punct
a ADP case
13 NUM obl
de ADP case
Agosto NOUN nmod:tmod
de ADP case
1959 NUM nmod
um DET det
terrível ADJ amod
incêndio NOUN nsubj
destruiu VERB xcomp
por ADP case
completo NOUN obl
a DET det
decoração NOUN obj
interior ADJ amod
da ADP case
igreja NOUN nmod
, PUNCT punct
onde ADV advmod
constavam VERB acl:relcl
altares NOUN obj
em ADP case
talha NOUN nmod
dourada VERB acl
, PUNCT

In [13]:
for token in doc:
    print(token.text)

A
Igreja
de
São
Domingos
data
do
século
XIII
e
foi
uma
das
mais
importantes
do
tempo
da
realeza
.
Sobreviveu
parcialmente
a
o
terramoto
de
1755
,
voltando
a
erguer-se
,
mas
havia
de
sofrer
uma
tragédia
ainda
maior
-
a
13
de
Agosto
de
1959
um
terrível
incêndio
destruiu
por
completo
a
decoração
interior
da
igreja
,
onde
constavam
altares
em
talha
dourada
,
imagens
valiosas
e
pinturas
de
grande
valor
,
bem
como
toda
a
sua
cobertura
.
Ainda
que
parcialmente
destruída
,
é
uma
igreja
que
sobressai
pela
policromia
dos
seus
mármores
e
pela
magnitude
das
suas
dimensões
,
não
deixando
ninguém
indiferente
.


In [14]:
for sent in doc.sents:
    print(sent.text)

A Igreja de São Domingos data do século XIII e foi uma das mais importantes do tempo da realeza.
Sobreviveu parcialmente ao terramoto de 1755, voltando a erguer-se, mas havia de sofrer uma tragédia ainda maior - a 13 de Agosto de 1959 um terrível incêndio destruiu por completo a decoração interior da igreja, onde constavam altares em talha dourada, imagens valiosas e pinturas de grande valor, bem como toda a sua cobertura.
Ainda que parcialmente destruída, é uma igreja que sobressai pela policromia dos seus mármores e pela magnitude das suas dimensões, não deixando ninguém indiferente.
