In [1]:
# importando a biblioteca scaCY
import spacy

In [2]:
# Criar um objeto nlp vazio da lingua portuguesa
nlp = spacy.blank("pt")

In [3]:
# Criado após processar um texto com o objeto nlp
doc = nlp("Olá mundo!")

In [4]:
# Iterando nos tokens do doc
for token in doc:
    print(token.text)

Olá
mundo
!


In [5]:
# Indexar o Doc para obter um Token
token = doc[1]

In [6]:
# Obter o texto do token através do atributo.text
print(token.text)

mundo


In [7]:
# Um pedaço do Doc é um objeto Particao (Span)
span = doc[1:3]

In [8]:
# Obter o texto da particao com atributo text
print(span.text)

mundo!


In [9]:
# Atributos léxicos
doc = nlp("Isso custa R$ 5")

In [10]:
print("Index: ", [token.i for token in doc])

Index:  [0, 1, 2, 3]


In [11]:
print("Text: ", [token.text for token in doc])

Text:  ['Isso', 'custa', 'R$', '5']


In [12]:
print("is_alpha: ", [token.is_alpha for token in doc])

is_alpha:  [True, True, False, False]


In [13]:
print("is_punct: ", [token.is_punct for token in doc])

is_punct:  [False, False, False, False]


In [14]:
print("linke_num: ", [token.like_num for token in doc])

linke_num:  [False, False, False, True]


## Primeiros passos

In [15]:
# spacy.blank para criar um objeto nlp vazio do idioma português
import spacy

# objeto nlp do portugues
nlp = spacy.blank("pt")

# Processar o texto em portugues
doc = nlp("Como vai?")

# imprimir o texto do documento
print(doc.text)

Como vai?


## Documentos, partições e tokens
* Quando você chama o objeto nlp passando uma string como parâmetro, a spaCy faz a toquenização do texto e cria um objeto do tipo documento. Neste exercício, você vai aprender mais sobre o documento Doc, assim como os objetos Token e partição Span.

In [16]:
import spacy

nlp = spacy.blank("pt")

# Processar o texto
doc = nlp("Eu gosto de gatos e cachorros.")

# Selecionar o primeiro token
first_token = doc[0]

# Imprimir o texto do primeiro token
print(first_token.text)

Eu


In [17]:
import spacy

nlp = spacy.blank("pt")

# Processar o texto
doc = nlp("Eu tenho três cachorros e dois gatos")

# Uma partição do Doc para "três cachorros"
tres_cachorros = doc[2:4]
print(tres_cachorros)

três cachorros


In [18]:
# Uma particao do Doc para "três cachorros e dois gatos"
tres_cachorros_dois_gatos = doc[2:7]
print(tres_cachorros_dois_gatos)

três cachorros e dois gatos


## Atributos léxicos

* usar os objetos Doc e Token combinados com atributos léxicos para encontrar referências de porcentagem em seu texto. Procurar por dois elementos (tokens) sequenciais: um número e um sinal de porcentagem.

In [19]:
import spacy

# Processar o texto

doc = nlp(
    "Em 1990, mais de 60% da população da Ásia Oriental estava em situação de extrema pobreza."
    "Agora, menos de 4% está nessa situação."  
)

# Iterar os tokens de um documento doc
for token in doc:
    # Checar se o token é composto por algarismo numéricos
    if token.like_num:
        # Selecionar o próximo token do documento
        next_token = doc[token.i + 1]
        # Checar se o texto do proximo token é igal a "%"
        if next_token.text == "%":
            print("Percentuais encontrados: ", token.text,"%")

Percentuais encontrados:  60 %
Percentuais encontrados:  4 %


## Fluxos (pipelines) de processamento treinado

In [20]:
!python -m spacy download pt_core_news_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


Os fluxos (pipelines) de processamento que estamos usando neste treinamento já vem pré-instalados. Para saber mais informações sobre os fluxos (pipelines) de processamento treinados e como instalá-los em seu computador, consulte essa documentação.

    Utilize spacy.load para carregar o fluxo (pipeline) de processamento pequeno do idioma português "pt_core_news_sm".
    Processe o texto e imprima o texto do documento.


In [21]:
import spacy

# Carregando o fluxo de processamento
nlp = spacy.load("pt_core_news_sm")

text = "É oficial: a Apple é a primeira empresa dos Estados Unidos a ter o valor de mercado acima de 1 trilhão."

# Processe o texto
doc = nlp(text)

# imprimindo o atributo texto do documento
print(doc.text)

É oficial: a Apple é a primeira empresa dos Estados Unidos a ter o valor de mercado acima de 1 trilhão.


### Prevendo Anotações linguísticas

Agora vamos experimentar um dos fluxos (pipelines) de processamento treinados da biblioteca spaCy e ver o resultado de sua previsão. Fique à vontade e experimente com seu próprio texto! Use spacy.explain para saber o significado de um determinado marcador. Por exemplo: spacy.explain("PROPN") ou spacy.explain("GPE").
Parte 1

    Processe o texto utilizando o objeto nlp e crie um doc.
    Para cada token, imprima seu texto, sua classe gramatical .pos_ e seu termo sintático .dep_


In [23]:
import spacy

# Carregando o fluxo de processamento
nlp = spacy.load("pt_core_news_sm")

text = "É oficial: a Apple é a primeira empresa dos Estados Unidos a ter o valor de mercado acima de 1 trilhão."

# Processe o texto
doc = nlp(text)

for token in doc:
    # Selecionar o texto, a classe gramatical e o termo sintático de um token
    token_text = token.text
    token_pos = token.pos_
    token_dep = token.dep_
    print(f"{token_text:<12}{token_pos:<10}{token_dep:<10}")

É           AUX       cop       
oficial     ADJ       ROOT      
:           PUNCT     punct     
a           DET       det       
Apple       PROPN     nsubj     
é           AUX       cop       
a           DET       det       
primeira    ADJ       amod      
empresa     NOUN      csubj     
dos         ADP       case      
Estados     PROPN     nmod      
Unidos      PROPN     flat:name 
a           SCONJ     mark      
ter         VERB      acl       
o           DET       det       
valor       NOUN      obj       
de          ADP       case      
mercado     NOUN      nmod      
acima       ADV       advmod    
de          ADP       case      
1           NUM       nummod    
trilhão     NOUN      obl       
.           PUNCT     punct     


In [24]:
import spacy

# Carregando o fluxo de processamento
nlp = spacy.load("pt_core_news_sm")

text = "É oficial: a Apple é a primeira empresa dos Estados Unidos a ter o valor de mercado acima de 1 trilhão."

# Processe o texto
doc = nlp(text)

# Iterando nas entidades previstas
for ent in doc.ents:
    # Imprimir o texto e a etiqueta da entidade
    print(ent.text, ent.label_)

Apple ORG
Estados Unidos LOC


### Prevendo Entidades em um contexto


Os modelos são estatísticos e por isso não acertam 100% dos casos. A acurácia do modelo depende dos dados nos quais o modelo foi treinado e também dos dados que você está processando. Vamos ver um exemplo:

    Processe o texto utilizando o objeto nlp.
    Construa uma iteração nas entidades e imprima o texto e o marcador (label) da entidade.
    Note que o modelo não previu “iPhone X”. Crie manualmente uma partição para esses tokens.


In [25]:
import spacy

nlp = spacy.load("pt_core_news_sm")

text = "Vazou a data de lançamento do novo iPhone X após a Apple revelar a existência de compras antecipadas."

doc = nlp(text)

# Iterando as entidades previstas
for ent in doc.ents:
    # Imprimir o texto e etiqueta (label) da entidade
    print(ent.text, ent.label_)
    
# Selecionar a partição para iphone x
iphone_x = doc[7:9]

print("Partição: ", iphone_x.text)

iPhone X MISC
Apple ORG
Partição:  iPhone X


### Usando comparador Matcher

Vamos agora testar o comparador de expressões Matcher baseado em regras. Você vai usar o exemplo do exercício anterior e escrever uma expressão que faça a correspondência para a frase “iPhone X” no texto.

    Importe o Matcher de spacy.matcher.
    Inicialize o comparador com o objeto compartilhado vocabdo nlp.
    Crie uma expressão que faça a correspondência dos valores em "TEXT" para dois tokens: "iPhone" e "X".
    Use o método matcher.add e adicione essa expressão ao comparador.
    Chame o comparador passando como parâmetro o doc e armazene o resultado na variável matches.
    Itere nos resultados e selecione a partição de texto com o índice start até end.


In [27]:
import spacy

# Comparador mathcer
from spacy.matcher import Matcher

nlp = spacy.load("pt_core_news_sm")
doc = nlp("Vazou a data de lançamento do novo iPhone X após a Apple revelar a existência de compras antecipadas.")

# Inicialize o comparador com o vocabulario compartilhado
matcher = Matcher(nlp.vocab)

# Crie uma expressao que faça a correspondencia dos tokens iphone e x
pattern = [{"TEXT": "iPhone"}, {"TEXT": "X"}]

# Adicionando uma expressao ao comparador
matcher.add("IPHONE_X_PATTERN", [pattern])

# Use o comparador no doc
matches = matcher(doc)
print("Correspondências:", [doc[start:end].text for match_id, start, end in matches])

Correspondências: ['iPhone X']
