# Capítulo 1

In [1]:
!python -m spacy download pt_core_news_sm

Collecting pt_core_news_sm==2.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.3.0/pt_core_news_sm-2.3.0.tar.gz (19.6 MB)
[K     |████████████████████████████████| 19.6 MB 4.5 MB/s eta 0:00:01    |████████                        | 4.9 MB 221 kB/s eta 0:01:06
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')


In [2]:
from spacy.lang.pt import Portuguese
from spacy.matcher import Matcher
import pt_core_news_sm
import spacy

In [3]:
nlp = Portuguese()

## O objeto 'doc' é um documento que contém o texto e outras características dos tokens.

In [4]:
doc = nlp('Olá Mundo!')
for token in doc:
    print(token)

Olá
Mundo
!


## O objeto 'span' é uma partição de 'doc' que contém um ou mais tokens.

In [5]:
span = doc[1:3]
span.text

'Mundo!'

## Atributos léxicos

In [6]:
doc = nlp('Isso custa R$5 com 10% de desconto.')
print('Índice:', [token.i for token in doc])
print('Texto:', [token.text for token in doc])
print('É palavra?', [token.is_alpha for token in doc])
print('É pontuação?' , [token.is_punct for token in doc])
print('É número?', [token.like_num for token in doc])

#Iterando os tokens
for token in doc:
    if token.like_num:
        if doc[token.i + 1].text == '%':
            print('Porcentagem achada:', token.text)

Índice: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
Texto: ['Isso', 'custa', 'R$', '5', 'com', '10', '%', 'de', 'desconto', '.']
É palavra? [True, True, False, False, True, False, False, True, True, False]
É pontuação? [False, False, False, False, False, False, True, False, False, True]
É número? [False, False, False, True, False, True, False, False, False, False]
Porcentagem achada: 10


## Manipulando Tokens

In [7]:
doc = nlp("Eu tenho quatro cachorros e nenhum gato.")
first_token = doc[0]
print(first_token)
dogs_qty = doc[2:4]
print(dogs_qty)
dogs_cats_qty = doc[2:-1]
print(dogs_cats_qty)

Eu
quatro cachorros
quatro cachorros e nenhum gato


## Classes gramaticais

In [8]:
nlp = pt_core_news_sm.load()
doc = nlp("Eu comi uma pizza muito gostosa!")
for token in doc:
    print(token.text, token.pos_)

Eu PRON
comi VERB
uma DET
pizza NOUN
muito ADV
gostosa ADJ
! PUNCT


## Dependência gramatical

In [9]:
for token in doc:
    print(token.text, token.pos_, token.dep_, token.head.text)

Eu PRON nsubj comi
comi VERB ROOT comi
uma DET advmod comi
pizza NOUN obj comi
muito ADV advmod gostosa
gostosa ADJ amod pizza
! PUNCT punct comi


## Reconhecimento de Entidade Mencionada

In [10]:
# o NER para português não funciona muito bem.
doc = nlp('Fui na pizzaria Queijada comer uma pizza com o Hermes e o Renato.')
print(doc.ents)
for ent in doc.ents:
    print(ent.text, ent.label_)

(Queijada, Hermes, Renato)
Queijada MISC
Hermes MISC
Renato PER


In [11]:
print (spacy.explain('MISC'))
print(spacy.explain('PER'))

Miscellaneous entities, e.g. events, nationalities, products or works of art
Named person or family.


## Comparando atributos

In [12]:
matcher = Matcher(nlp.vocab)
pattern = [{'TEXT':'iPhone'}, {'TEXT':'X'}]
matcher.add('PADRAO_IPHONE', None, pattern)
doc = nlp('O novo iPhone X é mais caro que um rim.')
matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone X


In [13]:
pattern = [{'LOWER':'copa'}, {'LOWER':'do'}, {'LOWER':'mundo'}, {'LOWER':'fifa'}, {'IS_DIGIT':True}]
matcher.add('PADRAO_FIFA', None, pattern)
doc = nlp('A copa do mundo FIFA 2018 é um verdadeiro caça-níquel!')
matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

copa do mundo FIFA 2018


In [14]:
pattern = [{'LEMMA':'gostar'}, {'POS':'ADP'}, {'POS':'NOUN'}]
matcher.add('GOSTAR_DE', None, pattern)
doc = nlp("Eu gostava de futebol, mas agora eu gosto de basquete")
matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

gostava de futebol
gosto de basquete


In [15]:
pattern = [{'POS':'VERB'}, {'POS':'DET', 'OP':'?'}, {'POS':'NOUN'}]
matcher.add('COMPRAR', None, pattern)
doc = nlp('Comprei uma pipoca. Estou a comprar ingressos também.')
matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

Comprei uma pipoca
comprar ingressos
