# spaCy

In [2]:
import spacy

In [1]:
# sm porque é a versão reduzida 
# core porque é a versão inglesa tradicional

In [3]:
nlp = spacy.load('en_core_web_sm')

In [4]:
# Criar um documento
doc = nlp("u'Tesla is looking at buying U.S. startup for $6 million")

In [5]:
# Imprimir cada token(palavra) separadamente
for token in doc:
    print(token.text)

u'Tesla
is
looking
at
buying
U.S.
startup
for
$
6
million


In [6]:
# Imprimir cada token separadamente
# token.pos - part of speech(verbo, nome, etc)
# token.dep - syntactic dependency
for token in doc:
    print(token.text, token.pos_, token.dep_)

u'Tesla PROPN nsubj
is VERB aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.S. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
6 NUM compound
million NUM pobj


## Pipline
<img src="pipeline.svg" width="600">

In [7]:
# https://spacy.io/usage/spacy-101#pipelines

# Depois do texto ser dividido em tokens,o pipline padrão do spacy passa pelas seguintes fases:
# tag - Part-of-Speech Tagging: atribui anotações(classes gramaticais) às palavras (nome, verbo), Doc[i].tag, Doc[i].pos_

# parser - Dependency Parser: atribui dependencia entre palavras(object of preposition, possession modifier) Doc[i].head,
# Doc[i].dep, Doc.sents, Doc.noun_chunks

# ner - Entity Recognizer: Identificar as entidades do texto ( “O Rato roeu a roupa do rei de Roma” as entidades seriam Rato, 
# Roma e talvez roupa), Doc.ents, Doc[i].ent_iob, Doc[i].ent_type

# É possivel introduzir mais fases neste pipline
nlp.pipeline

[('tagger', <spacy.pipeline.pipes.Tagger at 0x9e88a0e240>),
 ('parser', <spacy.pipeline.pipes.DependencyParser at 0x9e8a2d1fa8>),
 ('ner', <spacy.pipeline.pipes.EntityRecognizer at 0x9e8a2ea048>)]

In [8]:
nlp.pipe_names

['tagger', 'parser', 'ner']

## Tokens

In [9]:
# Converter o texto em uma lista de tokens (palavras). No fim desta etapa tem-se um bag of words (“saco de palavras”).
doc2 = nlp(u"Tesla isn't   looking into startups anymore.")

for token in doc2:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is VERB aux
n't ADV neg
   SPACE 
looking VERB ROOT
into ADP prep
startups NOUN pobj
anymore ADV advmod
. PUNCT punct


In [10]:
doc2[0]

Tesla

In [11]:
type(doc2)

spacy.tokens.doc.Doc

## Part-of-Speech Tagging (POS)

In [12]:
# Apos se dividir o texto em palavras(tokens) atribui-se a classe gramatical das palavras.
# Corresponde a fase tagger na figura do pipeline acima
doc2[0].pos_

'PROPN'

In [13]:
# https://spacy.io/api/annotation#pos-tagging
# As anotações das palavras são as seguintes(classes gramaticais):
# VGB -Verbo
# CD - Número cardinal
# VBG - Verbo no gerundio ou particípio presente

# em vez do tag.tag_ pode-se utilizar o tag.pos_,
for tag in doc2:
    print(tag, tag.tag_)

Tesla NNP
is VBZ
n't RB
   _SP
looking VBG
into IN
startups NNS
anymore RB
. .


## Dependências

In [14]:
# Apos a marcação das partes do discurso estabelecem-se as dependencias entre as palavras.
# Corresponde a fase parser na figura do pipeline acima
doc2[0].dep_

'nsubj'

In [15]:
# https://spacy.io/api/annotation#dependency-parsing
# As dependencias entre as palavras são as seguintes:
# pobj - Objecto de preposição
# dobj - Objecto directo
for dependency in doc2:
    print(dependency, dependency.dep_)

Tesla nsubj
is aux
n't neg
   
looking ROOT
into prep
startups pobj
anymore advmod
. punct


In [16]:
spacy.explain('PROPN')

'proper noun'

In [17]:
spacy.explain('nsubj')

'nominal subject'

## Entidades

In [18]:
# Após a fase das dependencias identificam-se as entidades do texto.
# As entidades do texto são US e 6 million e foram identificadas como GPE (Geopolitical entity) e dinheiro.
doc.ents

(U.S., $6 million)

In [19]:
for entity in doc.ents:
    print(entity, entity.label_)

U.S. GPE
$6 million MONEY


## Atributos adicionais dos Token

|Tag|Description|doc2[0].tag|
|:------|:------:|:------|
|`.text`|The original word text<!-- .element: style="text-align:left;" -->|`Tesla`|
|`.lemma_`|The base form of the word|`tesla`|
|`.pos_`|The simple part-of-speech tag|`PROPN`/`proper noun`|
|`.tag_`|The detailed part-of-speech tag|`NNP`/`noun, proper singular`|
|`.shape_`|The word shape – capitalization, punctuation, digits|`Xxxxx`|
|`.is_alpha`|Is the token an alpha character?|`True`|
|`.is_stop`|Is the token part of a stop list, i.e. the most common words of the language?|`False`|

In [20]:
# Lemmas
# Forma original da palavra
print(doc2[4].text)
print(doc2[4].lemma_)

looking
look


In [21]:
# Parts-of-Speech simples e com informação detalhada
print(doc2[4].pos_)
print(doc2[4].tag_ + ' / ' + spacy.explain(doc2[4].tag_))

VERB
VBG / verb, gerund or present participle


In [22]:
# Formato das palavras
print(doc2[0].text+': '+doc2[0].shape_)
print(doc[5].text+' : '+doc[5].shape_)

Tesla: Xxxxx
U.S. : X.X.


In [23]:
# Valores boleanos
print(doc2[0].is_alpha)
print(doc2[0].is_stop)

True
False


## Spans - Partes do texto

In [24]:
# Documentos muito grandes, com muito texto, podem ser dificeis de trabalhar.
# Um span é uma parte desse texto com a forma `Doc[start:stop]`.

doc3 = nlp(u'Although commmonly attributed to John Lennon from his song "Beautiful Boy", \
the phrase "Life is what happens to us while we are making other plans" was written by \
cartoonist Allen Saunders and published in Reader\'s Digest in 1957, when Lennon was 17.')

In [25]:
life_quote = doc3[16:30]
print(life_quote)

"Life is what happens to us while we are making other plans"


In [26]:
type(life_quote)

spacy.tokens.span.Span

## Sentences - Frases

In [27]:
# Alguns tokens dentro de um documento podem receber a notação de "inicio de frase".
# Isto não cria uma lista de frase automaticamente mas permite que se criem segmentos de frases atraves de `Doc.sents`. 

doc4 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

In [28]:
# Separar as 3 frases
for sent in doc4.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.


In [29]:
# Confirmar que a palavra This é o inicio de uma frase
doc4[6].is_sent_start

True