<img src="https://raw.githubusercontent.com/alan-barzilay/NLPortugues/master/imagens/logo_nlportugues.png"   width="150" align="right">



# Lista 1 - spaCy







---



O [spaCy]("https://spacy.io") é uma bilbioteca Python de código fonte [aberto]("https://github.com/explosion/spaCy") para Processamento de
Linguagem Natural, constantemente atualizada e mantida. Essa biblioteca é capaz de
processar diversas línguas, inclusive o português.

### Instalação



In [None]:
%pip install spacy -U

Após instalar o pacote spaCy devemos baixar as ferramentas específicas para o português  com o seguinte comando:

In [None]:
!python -m spacy download pt_core_news_sm

Uma vez que temos o pacote instalado e os módulos para português baixado,  podemos começar a utilizar  o spaCy, importando o pacote e carregando o módulo para português.

**Nota:** Caso seus resultados sejam diferentes dos descritos neste texto isso provavelmente significa que você está utilizando uma versão diferente do spaCy, como essa ferramenta é atualizada com frequência não é incomum encontrar discrepâncias nos resultados.

In [None]:
import spacy
import pt_core_news_sm
spacyPT = pt_core_news_sm.load()

SystemError: --p 00011V() method: bad call flags

In [None]:
import spacy

In [None]:
spacy.__version__

'3.3.0'

É importante notar que o spaCy assume que os caracteres estão codificados no formato utf-8.  O primeiro passo portanto é gerar uma entrada nesse formato e submetê-la ao módulo carregado.

In [None]:
entrada = spacyPT("Mais vale um asno que me carregue que um cavalo que me derrube.")
entrada

Mais vale um asno que me carregue que um cavalo que me derrube.

### Tokenização (itemização)

A entrada que acabamos de gerar é uma sequência iterável de tokens (itens,  
ou instâncias de palavras). Se quisermos verificar qual o texto contido nessa
sequência iterável,  usamos:

In [None]:
entrada.text

'Mais vale um asno que me carregue que um cavalo que me derrube.'

Se quisermos dividir a entrada em token,  podemos utilizar o método __split__:

In [None]:
entrada.text.split()

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube.']

Note que o ponto  final foi absorvido pela palavra;  o mesmo teria acontecido com
outros sinais de pontuação a utilizar  o método __split__. Para separar a pontuação
das palavras utilizamos a  tokenização implícita realizada pelo comando __in__:

In [None]:
[token for token in entrada]

[Mais, vale, um, asno, que, me, carregue, que, um, cavalo, que, me, derrube, .]

Note que os streams não estão entre aspas,  pois na realidade esta lista contém uma sequência de objetos da classe __Token__.

Se o objetivo é obter uma lista de Strings,  podemos proceder da seguinte maneira.


In [None]:
[token.text for token in entrada]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube',
 '.']

E para eliminar totalmente a pontuação da lista,  é só restringirr  a sua criação usando __is_punct__.

In [None]:
[token.text for token in entrada if not token.is_punct]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube']

O spaCy já vem treinado para realizar etiquetagem morfossintática (PoS tagging),  o que pode ser mostrado da seguinte maneira.

In [None]:
[(token.text, token.pos_) for token in entrada]

[('Mais', 'ADV'),
 ('vale', 'VERB'),
 ('um', 'DET'),
 ('asno', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('carregue', 'VERB'),
 ('que', 'SCONJ'),
 ('um', 'DET'),
 ('cavalo', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('derrube', 'VERB'),
 ('.', 'PUNCT')]

A assistência do etiquetador nos permite fazer buscas bastante sofisticadas. Por exemplo podemos buscar os lemas de todos os verbos encontrados  na sentença.

In [None]:
[token.lemma_ for token in entrada if token.pos_ == 'VERB']

['valer', 'carregar', 'derrube']

Os lemas de verbos conjugados nos fornecem  a sua forma infinitiva.

### Reconhecimento de entidades nomeadas

A biblioteca já vem treinada com um  mecanismo que permite o reconhecimento de
entidades nomeadas.

In [None]:
texto2 = spacyPT("A CBF fez um pedido de análise ao Comitê de Apelações da FIFA a fim de diminuir a pena do atacante Neymar, suspenso da Copa América pela Conmebol.")
print(texto2.ents)
[(entidade,entidade.label_) for entidade in texto2.ents]

(CBF, Comitê de Apelações da FIFA, Neymar, Copa América, Conmebol)


[(CBF, 'ORG'),
 (Comitê de Apelações da FIFA, 'ORG'),
 (Neymar, 'PER'),
 (Copa América, 'MISC'),
 (Conmebol, 'ORG')]

___________________________
# <font color='blue'>  Questão 1 </font>

Utilizando o spacy, extraia o nome dos personagens presentes no terceiro capitulo da obra "Mémorias postumas de Brás Cubas" de Machado de Assis

In [None]:
cap_3_bras_cubas = "Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da Africa, em prêmio da façanha que praticou arrebatando trezentas cubas ao mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.        Vivem ainda alguns membros de minha família, minha sobrinha Venância, por exemplo, o lírio-do-vale, que é a flor das damas do seu tempo; vive o pai, o Cotrim, um sujeito que... Mas não antecipemos os sucessos; acabemos de uma vez com o nosso emplasto. "
cap_3_bras_cubas

'Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da

In [None]:
!python -m spacy download pt_core_news_sm
import spacy
import pt_core_news_sm

spacyPT = pt_core_news_sm.load()

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m66.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
#Seu código aqui
cap_3_bras_cubas_doc = spacyPT("Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da Africa, em prêmio da façanha que praticou arrebatando trezentas cubas ao mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.        Vivem ainda alguns membros de minha família, minha sobrinha Venância, por exemplo, o lírio-do-vale, que é a flor das damas do seu tempo; vive o pai, o Cotrim, um sujeito que... Mas não antecipemos os sucessos; acabemos de uma vez com o nosso emplasto." )
print(cap_3_bras_cubas_doc.ents)
[(entidade,entidade.label_) for entidade in cap_3_bras_cubas_doc.ents]

(Damião Cubas, Rio de Janeiro, Luís Cubas, Damião Cubas, Luís Cubas, Coimbra, Estado, conde da Cunha, Cubas, Damião, Africa, Releva, Brás Cubas, São Vicente, Brás, Venância, Cotrim)


[(Damião Cubas, 'PER'),
 (Rio de Janeiro, 'LOC'),
 (Luís Cubas, 'PER'),
 (Damião Cubas, 'PER'),
 (Luís Cubas, 'PER'),
 (Coimbra, 'LOC'),
 (Estado, 'LOC'),
 (conde da Cunha, 'PER'),
 (Cubas, 'LOC'),
 (Damião, 'PER'),
 (Africa, 'LOC'),
 (Releva, 'LOC'),
 (Brás Cubas, 'PER'),
 (São Vicente, 'LOC'),
 (Brás, 'PER'),
 (Venância, 'MISC'),
 (Cotrim, 'LOC')]

Quais destas repostas estão corretas?  Quais personagens estão faltando?

**<font color='red'> Sua resposta aqui </font>**



# <font color='blue'>  Questão 2 </font>

Extraia todos os pronomes deste capitulo.

_____________
**<font color='red'> Sua resposta aqui </font>**


In [None]:
!python -m spacy download pt_core_news_sm
import spacy
import pt_core_news_sm

spacyPT = pt_core_news_sm.load()

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m49.6 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
cap_3_bras_cubas_doc = spacyPT("Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da Africa, em prêmio da façanha que praticou arrebatando trezentas cubas ao mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.        Vivem ainda alguns membros de minha família, minha sobrinha Venância, por exemplo, o lírio-do-vale, que é a flor das damas do seu tempo; vive o pai, o Cotrim, um sujeito que... Mas não antecipemos os sucessos; acabemos de uma vez com o nosso emplasto." )
print(cap_3_bras_cubas_doc.ents)
[token.lemma_ for token in cap_3_bras_cubas_doc if token.pos_ == 'PRON']

(Damião Cubas, Rio de Janeiro, Luís Cubas, Damião Cubas, Luís Cubas, Coimbra, Estado, conde da Cunha, Cubas, Damião, Africa, Releva, Brás Cubas, São Vicente, Brás, Venância, Cotrim)


['que',
 'onde',
 'que',
 'que',
 'ele',
 'que',
 'que',
 'pouco',
 'quem',
 'ele',
 'que',
 'onde',
 'eu',
 'ele',
 'que',
 'que']

# <font color='blue'>  Questão 3 </font>
Utilize os visualizadores para explorar o mapa de dependencias de uma frase a sua escolha deste capitulo.
https://spacy.io/usage/visualizers

Você pode acessar diretamente uma frase especifica ao utilizar o gerador "sents", por exemplo:

```python
frases = [frase for frase in texto.sents]
frases[2]


Era tanoeiro de ofício, natural do Rio de Janeiro LOC , onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria.
```


_______________


**<font color='red'> Sua resposta `a`qui </font>**

In [None]:
import spacy
from spacy import displacy

In [None]:
#Seu código aqui
doc = spacyPT("Era tanoeiro de ofício, natural do Rio de Janeiro LOC , onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria.")
displacy.render(doc, style="dep")

# Fontes
Tanto o capitulo utilizado nesta aula quanto a obra completa fazem parte do dominio publico e podem ser encontrados em http://www.dominiopublico.gov.br/download/texto/bv000215.pdf