# Sobre o curso
spaCy é uma biblioteca moderna em Python para Processamento de Linguagem Natural (PLN) em escala profissional. Neste curso online, gratuito e interativo, você aprenderá a utilizar a biblioteca spaCy para construir sistemas avançados de entendimento de linguagem natural, usando tanto estratégias baseadas em regras como aprendizado de máquina.

Site do curso: https://course.spacy.io

# Capítulo 1: Selecionando palavras, frases, nomes e alguns conceitos
Neste capítulo vamos apresentar os conceitos básicos de processamento de texto utilizando a biblioteca spaCy. Você vai aprender sobre as estruturas de dados, como trabalhar com modelos estatísticos e como usá-los para prever anotações linguísticas do seu texto.

## 1.1 - Introdução da Biblioteca spaCy

In [2]:
# Importando Bibliotecas.

# O objeto nlp
#Importando classe para a longua inglesa.
from spacy.lang.en import English

# Criando objeto de nlp.
nlp = English()

In [3]:
# O objeto Doc
# Criado após processar um texto com o objeto nlp
doc = nlp("Hello world!")

# Iterar nos tokens do Doc
for token in doc:
    print(token.text)

Hello
world
!


In [8]:
# Objeto token.
# Indexar o Doc para obter um Token
token = doc[1]

# Obter o texto do token através do atributo .text
print(token.text)

world


In [9]:
# O objeto Partição (Span)
# Um pedaço do Doc é um objeto Partição (Span) 
span = doc[1:3]

# Obter o texto da partição com o atributo .text
print(span.text)

world!


In [10]:
# Atributos léxicos
doc = nlp("It costs $5.")

print("Index:   ", [token.i for token in doc])
print("Text:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])
print("is_punct:", [token.is_punct for token in doc])
print("like_num:", [token.like_num for token in doc])

Index:    [0, 1, 2, 3, 4]
Text:     ['It', 'costs', '$', '5', '.']
is_alpha: [True, True, False, False, False]
is_punct: [False, False, False, False, True]
like_num: [False, False, False, True, False]


## 1.2 - Primeiros passos
Vamos começar colocando a mão na massa! Neste exercício você fará experimentos com alguns dos mais de 55 idiomas disponíveis.

https://spacy.io/usage/models#languages

https://spacy.io/usage/models

Parte 1: Inglês
Faça a importação da classe English da biblioteca spacy.lang.en e crie um objeto nlp.
Crie uma variável doc e imprima o seu conteúdo.

In [None]:
# Importe a classe do idioma inglês
from spacy.lang.en import English

# Crie um objeto nlp
nlp = English()

# Processe o texto
doc = nlp("This is a sentence.")

# Imprima o texto do documento
print(doc.text)

Parte 2: Alemão
Faça a importação da classe German da biblioteca spacy.lang.de e crie um objeto nlp.
Crie uma variável doc e imprima o seu conteúdo.

In [None]:
# Importe a classe do idioma alemão (German)
from spacy.lang.de import German

# Crie um objeto nlp
nlp = German()

# Processe o texto (equivalente ao português: "Atenciosamente")
doc = nlp("Liebe Grüße!")

# Imprima o texto do documento
print(doc.text)

Parte 3: Espanhol
Faça a importação da classe Spanish da biblioteca spacy.lang.es e crie um objeto nlp.
Crie uma variável doc e imprima o seu conteúdo.

In [None]:
# Importar a classe da língua espanhola (Spanish) 
from spacy.lang.es import Spanish

# Crie um objeto nlp
nlp = Spanish()

# Processar o texto em espanhol (equivalente ao português: "Como vai?")
doc = nlp("¿Cómo estás?")

# Imprimir o texto do documento
print(doc.text)

## 1.3 - Documentos, partições e tokens

Quando você chama o objeto nlp passando uma string como parâmetro, a spaCy faz a toquenização do texto e cria um objeto do tipo documento. Neste exercício, você vai aprender mais sobre o documento Doc, assim como os objetos Token e partição Span.

Passo 1
Faça a importação da classe English e crie um objeto nlp.
Processe o texto e instancie um objeto Doc na variável doc.
Selecione o primeiro token do objeto Doc e imprima seu texto text.

In [None]:
# Importar a classe da língua inglesa (English) e criar um objeto nlp
from spacy.lang.en import English
nlp = English()

# Processar o texto
doc = nlp("I like tree kangaroos and narwhals.")

# Selecionar o primeiro token
first_token = doc[0]

# Imprimir o texto do primeito token
print(first_token.text)

Passo 2
Faça a importação da classe English e crie um objeto nlp.
Processe o texto e instancie um objeto Doc na variável doc.
Crie uma partição do Doc para os tokens “tree kangaroos” e “tree kangaroos and narwhals”.

In [None]:
# Importar a classe da língua inglesa (English) e criar um objeto nlp
from spacy.lang.en import English

nlp = English()

# Processar o texto
doc = nlp("I like tree kangaroos and narwhals.")

# Uma partição do Doc para "tree kangaroos"
tree_kangaroos = doc[2:4]
print(tree_kangaroos.text)

# Uma partição do Doc para "tree kangaroos and narwhals" (sem incluir o ".")
tree_kangaroos_and_narwhals = doc[2:6]
print(tree_kangaroos_and_narwhals.text)

## 1.4 - Atributos léxicos

Neste exemplo, você poderá usar os objetos Doc e Token combinados com atributos léxicos para encontrar referências de porcentagem em seu texto. Você irá procurar por dois elementos (tokens) sequenciais: um número e um sinal de porcentagem.

Use o atributo like_num para identificar se algum token no documento doc se assemelha a um número.
Selecione o token seguinte ao token atual no documento. O índice para o próximo token no doc é token.i + 1.
Verifique se o atributo text do próximo token é o sinal de porcentagem ”%“.

In [None]:
from spacy.lang.en import English

nlp = English()

# Processar o texto
doc = nlp(
    "In 1990, more than 60% of people in East Asia were in extreme poverty. "
    "Now less than 4% are."
)

# Iterar os tokens de um documento doc
for token in doc:
    # Checar se o token é composto por algarismos numéricos
    if token.like_num:
        # Selecionar o próximo token do documento
        next_token = doc[token.i + 1]
        # Checar se o texto do proximo token é igual a "%"
        if next_token.text == "%":
            print("Percentage found:", token.text)

## 1.5 - Modelos Estatísticos

O que são modelos estatísticos?
Permitem que a spaCy faça previsões de atributos linguísticos em contextos:
Marcadores de classes gramaticais
Dependências sintáticas
Entidades nomeadas
São treinados com exemplos de textos rotulados.
Podem ser atualizados com mais exemplos para um ajuste fino das previsões.

In [None]:
# Pacotes dos modelos
# python -m spacy download en_core_web_sm

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

In [11]:
# Previsão dos marcadores de classe gramatical.
import spacy

# Carregar o modelo pequeno do Inglês
nlp = spacy.load("en_core_web_sm")

# Processar um texto
doc = nlp("She ate the pizza")

# Iterar nos tokens
for token in doc:
    # Imprimir o texto e a classe gramatical prevista
    print(token.text, token.pos_)

She PRON
ate VERB
the DET
pizza NOUN


In [None]:
# Previsão de termos sintáticos.
for token in doc:
    print(token.text, token.pos_, token.dep_, token.head.text)

In [12]:
# Previsão de Entidades Nomeadas.

# Processar um texto
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

# Iterar nas entidades previstas
for ent in doc.ents:
    # Imprimir o texto da entidade e seu marcador
    print(ent.text, ent.label_)

Apple ORG
U.K. GPE
$1 billion MONEY


In [13]:
# Dica: o método spacy.explain
# Obtenha uma suscinta explicação dos marcadores mais comuns:

spacy.explain("GPE")

'Countries, cities, states'

In [14]:
spacy.explain("NNP")

'noun, proper singular'

In [15]:
spacy.explain("dobj")

'direct object'

## 1.6 - Biblioteca dos modelos.

O que NÃO está incluído nos modelos que você pode carregar na spaCy?

Um arquivo com metadados do idioma, pipeline e licença.

Pesos binários para efetuar as previsões estatísticas.

Os dados nos quais o modelo foi treinado.

O vocabulário do modelo e seus códigos indexadores (hashes).

Enviar
Correto! Os modelos estatísticos permitem a generalização a partir de um conjunto de exemplos de treinamento. Uma vez treinados, os modelos usam os pesos binários para fazer as previsões. É por este motivo que não é necessário que os dados de treinamento sejam incluídos nos modelos.

## 1.7 - Carregando os modelos.

Os modelos que estamos usando neste treinamento já vem pré-instalados. Para saber mais informações sobre os modelos estatísticos e como instalá-los em seu computador, consulte essa documentação.

https://spacy.io/usage/models

Utilize spacy.load para carregar o modelo pequeno da língua inglesa "en_core_web_sm".
Processe o texto e imprima o texto do documento.

In [None]:
import spacy

# Carregue o modelo pequeno do idioma inglês "en_core_web_sm"
nlp = spacy.load("en_core_web_sm")

text = "It’s official: Apple is the first U.S. public company to reach a $1 trillion market value"

# Processe o texto
doc = nlp(text)

# Imprima o atributo texto do documento
print(doc.text)

## 1.8 - Prevendo anotações linguísticas.

Agora vamos experimentar um dos modelos pré-treinados da spaCy e ver o resultado de sua previsão. Fique à vontade e experimente com seu próprio texto! Use spacy.explain para saber o significado de um determinado marcador. Por exemplo: spacy.explain("PROPN") ou spacy.explain("GPE").

Parte 1
Processe o texto utilizando o objeto nlp e crie um doc.
Para cada token, imprima seu texto, sua classe gramatical .pos_ e seu termo sintático .dep_

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "It’s official: Apple is the first U.S. public company to reach a $1 trillion market value"

# Processar o texto
doc = nlp(text)

for token in doc:
    # Selecionar o texto, s classe gramatical e o termo sintático de um token
    token_text = token.text
    token_pos = token.pos_
    token_dep = token.dep_
    # Para uma boa formatação da impressão
    print(f"{token_text:<12}{token_pos:<10}{token_dep:<10}")

Parte 2
Processe o texto utilizando o objeto nlp e crie um doc.
Construa uma iteração em doc.ents e imprima os atributos texto e o marcador label_.

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "It’s official: Apple is the first U.S. public company to reach a $1 trillion market value"

# Process the text
doc = nlp(text)

# Iterar nas entidades previstas
for ent in doc.ents:
    # Imprimir o texto e a etiqueta da entidade
    print(ent.text, ent.label_)

## 1.9 - Prevendo Entidades em um contexto.

Os modelos são estatísticos e por isso não acertam 100% dos casos. A acurácia do modelo depende dos dados nos quais o modelo foi treinado e também dos dados que você está processando. Vamos ver um exemplo:

Processe o texto utilizando o objeto nlp.
Construa uma iteração nas entidades e imprima o texto e o marcador (label) da entidade.
Note que o modelo não previu “iPhone X”. Crie manualmente uma partição para esses tokens.

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "Upcoming iPhone X release date leaked as Apple reveals pre-orders"

# Processar o texto
doc = nlp(text)

# Iterar nas entidades previstas
for ent in doc.ents:
    # Print the entity text and label
    print(ent.text, ent.label_)

# Selecionar a partição para "iPhone X"
iphone_x = doc[1:3]

# Imprimir o texto da partição
print("Missing entity:", iphone_x.text)

## 1.10 - Correspondência de texto baseada em regras.

Por que usar o Comparador e não somente expressões regulares?
Compara com objetos Doc e não apenas texto (strings)
Compara com os tokens e seus atributos
Utiliza a previsão do modelo
Exemplo: "duck" (verbo) vs. "duck" (substantivo)

Por que usar o Comparador e não somente expressões regulares?
Compara com objetos Doc e não apenas texto (strings)
Compara com os tokens e seus atributos
Utiliza a previsão do modelo
Exemplo: "duck" (verbo) vs. "duck" (substantivo)

In [None]:
# Expressões de correspondência
# Listas de dicionários, uma por token

# Corresponde exatamente ao texto de um token:
[{"TEXT": "iPhone"}, {"TEXT": "X"}]

# Corresponde a atributos léxicos:
[{"LOWER": "iphone"}, {"LOWER": "x"}]

# Corresponde a qualquer atributo de um token:
[{"LEMMA": "buy"}, {"POS": "NOUN"}]

In [17]:
# Usando o Comparador (Matcher) (1)
import spacy

# Importar o Comparador (Matcher)
from spacy.matcher import Matcher

# Carregar o modelo e criar um objeto nlp
nlp = spacy.load("en_core_web_sm")

# Inicializar o comparador com o vocabulário 
matcher = Matcher(nlp.vocab)

# Adicionar a expressão ao comparador
pattern = [{"TEXT": "iPhone"}, {"TEXT": "X"}]
matcher.add("IPHONE_PATTERN", None, pattern)

# Processar um texto
doc = nlp("Upcoming iPhone X release date leaked")

# Chamar o matcher no doc
matches = matcher(doc)

In [18]:
# Usando o Comparador (Matcher) (2)
# Chamar o comparador e passar o texto
doc = nlp("Upcoming iPhone X release date leaked")
matches = matcher(doc)

# Iterar nas correspondências
for match_id, start, end in matches:
    # Selecionar a partição que houve correspondência
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone X


match_id: código hash da expressão
start: índice inicial da partição em que houve correspondência
end: índice final da partição em que houve correspondência

In [21]:
# Expressões com atributos léxicos
pattern = [
    {"IS_DIGIT": True},
    {"LOWER": "fifa"},
    {"LOWER": "world"},
    {"LOWER": "cup"},
    {"IS_PUNCT": True}
]

doc = nlp("2018 FIFA World Cup: France won!")

In [23]:
# Expressões com outros atributos dos tokens
pattern = [
    {"LEMMA": "love", "POS": "VERB"},
    {"POS": "NOUN"}
]
doc = nlp("I loved dogs but now I love cats more.")

In [24]:
# Utilizando operadores e quantificadores (1)
pattern = [
    {"LEMMA": "buy"},
    {"POS": "DET", "OP": "?"},  # opcional: corresponde a 0 ou 1 vez
    {"POS": "NOUN"}
]
doc = nlp("I bought a smartphone. Now I'm buying apps.")

Utilizando operadores e quantificadores (2)
Exemplo	Descrição
{"OP": "!"}	Negação: corresponde 1 vez
{"OP": "?"}	Opcional: corresponde 0 ou 1 vez
{"OP": "+"}	Corresponde 1 ou mais vezes
{"OP": "*"}	Corresponde 1 ou mais vezes

## 1.11 - Usando o comparador Matcher.

Vamos agora testar o comparador de expressões Matcher baseado em regras. Você vai usar o exemplo do exercício anterior e escrever uma expressão que faça a correspondência para a frase “iPhone X” no texto.

Importe o Matcher de spacy.matcher.
Inicialize o comparador com o objeto compartilhado vocabdo nlp.
Crie uma expressão que faça a correspondência dos valores em "TEXT" para dois tokens: "iPhone" e "X".
Use o método matcher.add e adicione essa expressão ao comparador.
Chame o comparador passando como parâmetro o doc e armazene o resultado na variável matches.
Itere nos resultados e selecione a partição de texto com o índice start até end.

In [26]:
import spacy

# Importe o comparador - Matcher
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
doc = nlp("Upcoming iPhone X release date leaked as Apple reveals pre-orders")

# Inicialize o comparador com o vocabulário compartilhado 
matcher = Matcher(nlp.vocab)

# Crie uma expressão que faça a correspondência dos tokens: "iPhone" and "X"
pattern = [{"TEXT": "iPhone"}, {"TEXT": "X"}]

# Adicione uma expressão ao comparador
matcher.add("IPHONE_X_PATTERN", None, pattern)

# Use o comparador no doc
matches = matcher(doc)
print("Matches:", [doc[start:end].text for match_id, start, end in matches])

Matches: ['iPhone X']


## 1.12 - Escrevendo expressões de correspondência.

Neste exercício, você vai escrever algumas expressões mais complexas de correspondência, usando os atributos dos tokens e operadores.

Parte 1
Escreva uma expressão que corresponda às menções da versão IOS completa: “iOS 7”, “iOS 11” e “iOS 10”.

In [None]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "After making the iOS update you won't notice a radical system-wide "
    "redesign: nothing like the aesthetic upheaval we got with iOS 7. Most of "
    "iOS 11's furniture remains the same as in iOS 10. But you will discover "
    "some tweaks once you delve a little deeper."
)

# Escreva uma expressão que corresponda às versões completas do IOS ("iOS 7", "iOS 11", "iOS 10")
pattern = [{"TEXT": "iOS"}, {"IS_DIGIT": True}]

# Adicione a expressão ao comparador matcher e aplique o matcher ao doc
matcher.add("IOS_VERSION_PATTERN", None, pattern)
matches = matcher(doc)
print("Total matches found:", len(matches))

# Faça a iteração sobre as correspondencias e imprima a partição do texto
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Parte 2
Escreva uma expressão que corresponda às variações de “download” (tokens que tenham “download” como lema), seguido de um token da classe gramatical substativo próprio "PROPN".

In [27]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "i downloaded Fortnite on my laptop and can't open the game at all. Help? "
    "so when I was downloading Minecraft, I got the Windows version where it "
    "is the '.zip' folder and I used the default program to unpack it... do "
    "I also need to download Winzip?"
)

# Escreva uma expressão que corresponda às variações de "download" seguido de um
# substatantivo próprio
pattern = [{"LEMMA": "download"}, {"POS": "PROPN"}]

# Adicione a expressão ao comparador matcher e aplique o matcher ao doc
matcher.add("DOWNLOAD_THINGS_PATTERN", None, pattern)
matches = matcher(doc)
print("Total matches found:", len(matches))

# Faça a iteração nas correspondências e imprima a partição do texto
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Total matches found: 3
Match found: downloaded Fortnite
Match found: downloading Minecraft
Match found: download Winzip


Part 3
Escreva uma expressão que corresponda a adjetivos ("ADJ") seguidos por um ou dois substantivos. (um substantivo obrigatório e um seguinte opcional).

In [28]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "Features of the app include a beautiful design, smart search, automatic "
    "labels and optional voice responses."
)

# Escreva uma expressão que corresponda a um adjetivo seguido de um ou dois substantivos
pattern = [{"POS": "ADJ"}, {"POS": "NOUN"}, {"POS": "NOUN", "OP": "?"}]

# Adicione uma expressão ao comparador matcher e aplique o matcher ao doc
matcher.add("ADJ_NOUN_PATTERN", None, pattern)
matches = matcher(doc)
print("Total matches found:", len(matches))

# Faça a iteração sobre as correspondencias e imprima a partição do texto
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Total matches found: 5
Match found: beautiful design
Match found: smart search
Match found: automatic labels
Match found: optional voice
Match found: optional voice responses
