# Biblioteca Spacy
Spacy é uma biblioteca Python de Processamento de Linguagem Natural (PLN) de código aberto, projetada para auxiliar na construção de soluções de PLN escaláveis e eficientes.

---

### Instalação

In [None]:
%pip install spacy -U

Após instalar o pacote spaCy devemos baixar as ferramentas específicas para o português com o seguinte comando:

In [None]:
!python -m spacy download pt_core_news_sm

Após instalar o pacote e baixar os módulos para português, é possível utilizar o spaCy através da importação do pacote e carregamento do módulo correspondente.

É importante ressaltar que, caso haja discrepâncias nos resultados obtidos, pode ser devido ao uso de versões diferentes do spaCy, que é frequentemente atualizado.

In [2]:
import spacy
import pt_core_news_sm
spacyPT = pt_core_news_sm.load()

In [3]:
spacy.__version__

'3.5.2'

Observa-se que o spaCy presume que os caracteres estejam codificados em utf-8, logo é necessário gerar uma entrada nesse formato e submetê-la ao módulo carregado.

In [4]:
entrada = spacyPT("Mais vale um asno que me carregue que um cavalo que me derrube.")
entrada

Mais vale um asno que me carregue que um cavalo que me derrube.

### Tokenização
A sequência de entrada gerada consiste em uma lista iterável de tokens (ou palavras). Para visualizar o texto contido nesta sequência, podemos utilizar:

In [5]:
entrada.text

'Mais vale um asno que me carregue que um cavalo que me derrube.'

Para separar a entrada em tokens, é possível utilizar o método "split".

In [6]:
entrada.text.split()

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube.']

Observe que o ponto final foi incorporado à palavra, e o mesmo ocorreria com outros sinais de pontuação se usássemos o método split. 

Para separar a pontuação das palavras, podemos utilizar a tokenização implícita realizada pelo comando "in:".

In [7]:
[token for token in entrada]

[Mais, vale, um, asno, que, me, carregue, que, um, cavalo, que, me, derrube, .]

Observe que os streams não estão entre aspas, uma vez que a lista contém uma sequência de objetos da classe Token. Se a intenção é obter uma lista de strings, podemos seguir o seguinte procedimento.

In [9]:
[token.text for token in entrada]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube',
 '.']

Para remover completamente a pontuação da lista, basta limitar sua criação utilizando is_punct.

In [10]:
[token.text for token in entrada if not token.is_punct]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube']

O spaCy já é pré-treinado para fazer a etiquetagem morfossintática (PoS tagging), o que pode ser evidenciado da seguinte forma.

In [11]:
[(token.text, token.pos_) for token in entrada]

[('Mais', 'ADV'),
 ('vale', 'VERB'),
 ('um', 'DET'),
 ('asno', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('carregue', 'VERB'),
 ('que', 'SCONJ'),
 ('um', 'DET'),
 ('cavalo', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('derrube', 'VERB'),
 ('.', 'PUNCT')]

A ajuda do etiquetador nos permite realizar buscas bastante avançadas, como a busca pelos lemas de todos os verbos presentes na sentença.

In [12]:
[token.lemma_ for token in entrada if token.pos_ == 'VERB']

['valer', 'carregar', 'derrube']

Os lemas de verbos conjugados nos fornecem a sua forma infinitiva.

### Reconhecimento de entidades nomeadas
A biblioteca vem pré-treinada com um recurso que possibilita a identificação de entidades nomeadas.

In [13]:
texto2 = spacyPT("A CBF fez um pedido de análise ao Comitê de Apelações da FIFA a fim de diminuir a pena do atacante Neymar, suspenso da Copa América pela Conmebol.")
print(texto2.ents)
[(entidade,entidade.label_) for entidade in texto2.ents]

(CBF, Comitê de Apelações da FIFA, Neymar, Copa América, Conmebol)


[(CBF, 'ORG'),
 (Comitê de Apelações da FIFA, 'ORG'),
 (Neymar, 'PER'),
 (Copa América, 'MISC'),
 (Conmebol, 'ORG')]

---

## Questões

---

### Questão 1
Utilizando o spacy, extraia o nome dos personagens presentes no terceiro capitulo da obra "Mémorias postumas de Brás Cubas" de Machado de Assis.

In [14]:
cap_3_bras_cubas = "Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da Africa, em prêmio da façanha que praticou arrebatando trezentas cubas ao mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.        Vivem ainda alguns membros de minha família, minha sobrinha Venância, por exemplo, o lírio-do-vale, que é a flor das damas do seu tempo; vive o pai, o Cotrim, um sujeito que... Mas não antecipemos os sucessos; acabemos de uma vez com o nosso emplasto. "
cap_3_bras_cubas

'Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da

In [15]:
#Seu código aqui

Quais destas repostas estão corretas? Quais personagens estão faltando?

### Questão 2
Extraia todos os pronomes deste capitulo.

In [16]:
#Seu código aqui

### Questão 3
Acesse os visualizadores do Spacy para explorar o mapa de dependências de uma frase à sua escolha deste capítulo. 

Utilize o gerador "sents" para acessar diretamente uma frase específica, como exemplificado em: https://spacy.io/usage/visualizers.

In [19]:
nlp = spacy.load("pt_core_news_sm")
doc = nlp(cap_3_bras_cubas)
frases = [frase for frase in doc.sents]
frases[2]

Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria.

In [21]:
from spacy import displacy
#Seu código aqui

---

### Fontes
Tanto o capítulo usado nesta aula quanto a obra completa estão disponíveis no domínio público e podem ser baixados em http://www.dominiopublico.gov.br/download/texto/bv000215.pdf.

---

## Resoluções


### Questão 1

In [26]:
# Importe a biblioteca Spacy e carregue o modelo de idioma em português:
import spacy
nlp = spacy.load('pt_core_news_sm')
# Crie um objeto 'doc' contendo o texto do terceiro capítulo:
doc = nlp(cap_3_bras_cubas)
# Percorra cada entidade nomeada (Named Entity) do objeto doc e, caso a categoria (label) seja "PER" (para pessoa), imprima o texto da entidade:
for entidade in doc.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Damião Cubas
Luís Cubas
Damião Cubas
Luís Cubas
conde da Cunha
Damião
Brás Cubas


### Questão 2

In [27]:
# Importe a biblioteca Spacy e carregue o modelo de idioma em português:
import spacy
nlp = spacy.load('pt_core_news_sm')
# Crie um objeto 'doc' contendo o texto do terceiro capítulo:
doc = nlp(cap_3_bras_cubas)
# Percorra cada token do objeto doc e, caso a categoria gramatical (pos) seja "PRON" (para pronome), imprima o texto do token:
for token in doc:
    if token.pos_ == 'PRON':
        print(token.text)

que
onde
que
lhe
que
que
quem
ele
que
onde
me
ele
que
que


### Questão 3

In [25]:
import spacy
from spacy import displacy

# 1. Carregar o modelo do spaCy para a língua portuguesa
nlp = spacy.load("pt_core_news_sm")

# 2. Escolher uma frase do capítulo que você queira analisar e atribuí-la a uma variável
frase = "Eu amo gatos gordinhos."

# 3. Transformar a frase em um objeto Doc do spaCy usando o modelo carregado
doc = nlp(frase)

# 4. Visualizar o mapa de dependências da frase usando o visualizador de dependências do spaCy
displacy.render(doc, style="dep", options={"compact": True})


---