In [5]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [6]:
import spacy
from spacy.lang.pt.examples import sentences

# Load the spaCy model with the "en_core_web_md" model
nlp = spacy.load("pt_core_news_lg")

In [7]:
sentences

['Apple está querendo comprar uma startup do Reino Unido por 100 milhões de dólares',
 'Carros autônomos empurram a responsabilidade do seguro para os fabricantes.São Francisco considera banir os robôs de entrega que andam pelas calçadas',
 'Londres é a maior cidade do Reino Unido']

In [8]:
# Process a text    
doc = nlp('Apple está querendo comprar uma empresa do Reino Unido por 100 milhões de dólares, e está cara')
# doc = nlp(text_example)

In [9]:
doc

Apple está querendo comprar uma empresa do Reino Unido por 100 milhões de dólares, e está cara

In [10]:
sentences[0]

'Apple está querendo comprar uma startup do Reino Unido por 100 milhões de dólares'

In [11]:
base_token = nlp("Apple")

# Tokenização

In [12]:
# 3. Using Tokens
for token in doc:
    print(f"{token.text:{12}}{token.pos_:{12}}{token.dep_:{12}}{token.lemma_}")

Apple       PROPN       nsubj       Apple
está        AUX         aux         estar
querendo    VERB        ROOT        querer
comprar     VERB        xcomp       comprar
uma         DET         det         um
empresa     NOUN        obj         empresa
do          ADP         case        de o
Reino       PROPN       nmod        Reino
Unido       PROPN       flat:name   Unido
por         ADP         case        por
100         NUM         obl         100
milhões     NUM         flat        milhão
de          ADP         case        de
dólares     NOUN        nmod        dólar
,           PUNCT       punct       ,
e           CCONJ       cc          e
está        AUX         cop         estar
cara        NOUN        conj        cara


In [13]:
# 3. Using Tokens
for token in doc:
    if token.similarity(base_token) >= 0.00:
        print(f"{token.text} <-> {base_token.text}: ",token.similarity(base_token))

Apple <-> Apple:  0.999999948360845
está <-> Apple:  0.09764363587718057
querendo <-> Apple:  0.05668881436784956
comprar <-> Apple:  0.22860162630698808
uma <-> Apple:  0.07211384795355319
empresa <-> Apple:  0.4044905873572315
Reino <-> Apple:  0.0949611913458397
Unido <-> Apple:  0.2563567052041741
100 <-> Apple:  0.07885382781428071
milhões <-> Apple:  0.14781124407655616
dólares <-> Apple:  0.234518081110331
está <-> Apple:  0.09764363587718057
cara <-> Apple:  0.11495819377915499


# Lemmatização

In [14]:
for token in doc:
    print(token.text, token.lemma_)

Apple Apple
está estar
querendo querer
comprar comprar
uma um
empresa empresa
do de o
Reino Reino
Unido Unido
por por
100 100
milhões milhão
de de
dólares dólar
, ,
e e
está estar
cara cara


# NER - Name Entity Recognition

In [15]:
for ent in doc.ents:
    print(ent.text, ent.label_)

Apple ORG
Reino Unido LOC



# Part-of-speech (POS) Tagging

In [16]:

for token in doc:
    print(token.text, token.pos_)

Apple PROPN
está AUX
querendo VERB
comprar VERB
uma DET
empresa NOUN
do ADP
Reino PROPN
Unido PROPN
por ADP
100 NUM
milhões NUM
de ADP
dólares NOUN
, PUNCT
e CCONJ
está AUX
cara NOUN


In [17]:
for token in doc:
    print(token.text, "-->", token.dep_)


Apple --> nsubj
está --> aux
querendo --> ROOT
comprar --> xcomp
uma --> det
empresa --> obj
do --> case
Reino --> nmod
Unido --> flat:name
por --> case
100 --> obl
milhões --> flat
de --> case
dólares --> nmod
, --> punct
e --> cc
está --> cop
cara --> conj


In [18]:
# Iterate over the named entities in the document
for ent in doc.ents:
    # Print the text and label of the entity
    print(ent.text, ent.label_)

# Extract the first noun phrase in the text
first_noun_phrase = doc[0:2]
print(first_noun_phrase.text)


Apple ORG
Reino Unido LOC
Apple está


In [19]:
# Extract the dependencies of the tokens in the text
dependencies = [(token.text, token.dep_, token.head.text) for token in doc]
print(dependencies)


[('Apple', 'nsubj', 'querendo'), ('está', 'aux', 'querendo'), ('querendo', 'ROOT', 'querendo'), ('comprar', 'xcomp', 'querendo'), ('uma', 'det', 'empresa'), ('empresa', 'obj', 'comprar'), ('do', 'case', 'Reino'), ('Reino', 'nmod', 'empresa'), ('Unido', 'flat:name', 'Reino'), ('por', 'case', '100'), ('100', 'obl', 'comprar'), ('milhões', 'flat', '100'), ('de', 'case', 'dólares'), ('dólares', 'nmod', '100'), (',', 'punct', 'querendo'), ('e', 'cc', 'cara'), ('está', 'cop', 'cara'), ('cara', 'conj', 'querendo')]


In [20]:

# Get the part-of-speech tags for the tokens in the text
pos_tags = [token.pos_ for token in doc]
print(pos_tags)


# Get the lemma of the first token in the text
first_token_lemma = doc[0].lemma_
print(first_token_lemma)

['PROPN', 'AUX', 'VERB', 'VERB', 'DET', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'ADP', 'NUM', 'NUM', 'ADP', 'NOUN', 'PUNCT', 'CCONJ', 'AUX', 'NOUN']
Apple


In [21]:
from spacy import displacy
displacy.render(doc, style="dep")


In [22]:
displacy.render(doc, style="dep",jupyter=True)