<img src="https://raw.githubusercontent.com/alan-barzilay/NLPortugues/master/imagens/logo_nlportugues.png"   width="150" align="right">



# Lista 1 - spaCy







---



O [spaCy]("https://spacy.io") é uma bilbioteca Python de código fonte [aberto]("https://github.com/explosion/spaCy") para Processamento de
Linguagem Natural, constantemente atualizada e mantida. Essa biblioteca é capaz de
processar diversas línguas, inclusive o português.

### Instalação



In [78]:
%pip install spacy -U



Após instalar o pacote spaCy devemos baixar as ferramentas específicas para o português  com o seguinte comando:

In [79]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.6.0/pt_core_news_sm-3.6.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m35.1 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


Uma vez que temos o pacote instalado e os módulos para português baixado,  podemos começar a utilizar  o spaCy, importando o pacote e carregando o módulo para português.

**Nota:** Caso seus resultados sejam diferentes dos descritos neste texto isso provavelmente significa que você está utilizando uma versão diferente do spaCy, como essa ferramenta é atualizada com frequência não é incomum encontrar discrepâncias nos resultados.

In [80]:
import spacy
import pt_core_news_sm
spacyPT = pt_core_news_sm.load()

In [81]:
spacy.__version__

'3.6.1'

É importante notar que o spaCy assume que os caracteres estão codificados no formato utf-8.  O primeiro passo portanto é gerar uma entrada nesse formato e submetê-la ao módulo carregado.

In [82]:
entrada = spacyPT("Mais vale um asno que me carregue que um cavalo que me derrube.")
entrada

Mais vale um asno que me carregue que um cavalo que me derrube.

### Tokenização (itemização)

A entrada que acabamos de gerar é uma sequência iterável de tokens (itens,  
ou instâncias de palavras). Se quisermos verificar qual o texto contido nessa
sequência iterável,  usamos:

In [83]:
entrada.text

'Mais vale um asno que me carregue que um cavalo que me derrube.'

Se quisermos dividir a entrada em token,  podemos utilizar o método __split__:

In [84]:
entrada.text.split()

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube.']

Note que o ponto  final foi absorvido pela palavra;  o mesmo teria acontecido com
outros sinais de pontuação a utilizar  o método __split__. Para separar a pontuação
das palavras utilizamos a  tokenização implícita realizada pelo comando __in__:

In [85]:
[token for token in entrada]

[Mais, vale, um, asno, que, me, carregue, que, um, cavalo, que, me, derrube, .]

Note que os streams não estão entre aspas,  pois na realidade esta lista contém uma sequência de objetos da classe __Token__.

Se o objetivo é obter uma lista de Strings,  podemos proceder da seguinte maneira.


In [86]:
[token.text for token in entrada]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube',
 '.']

E para eliminar totalmente a pontuação da lista,  é só restringirr  a sua criação usando __is_punct__.

In [87]:
[token.text for token in entrada if not token.is_punct]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube']

O spaCy já vem treinado para realizar etiquetagem morfossintática (PoS tagging),  o que pode ser mostrado da seguinte maneira.

In [88]:
[(token.text, token.pos_) for token in entrada]

[('Mais', 'ADV'),
 ('vale', 'VERB'),
 ('um', 'DET'),
 ('asno', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('carregue', 'VERB'),
 ('que', 'SCONJ'),
 ('um', 'DET'),
 ('cavalo', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('derrube', 'VERB'),
 ('.', 'PUNCT')]

A assistência do etiquetador nos permite fazer buscas bastante sofisticadas. Por exemplo podemos buscar os lemas de todos os verbos encontrados  na sentença.

In [89]:
[token.lemma_ for token in entrada if token.pos_ == 'VERB']

['valer', 'carregar', 'derrube']

Os lemas de verbos conjugados normalmente nos fornecem a sua forma infinitiva.
Está em dúvida sobre o que uma tag em específico significa? O Spacy nos fornece a função explain, para obter a legenda de qualquer identificador usado pelos seus modelos.


In [90]:
spacy.explain("SCONJ")

'subordinating conjunction'

### Reconhecimento de entidades nomeadas

A biblioteca já vem treinada com um  mecanismo que permite o reconhecimento de
entidades nomeadas.

In [91]:
texto2 = spacyPT("A CBF fez um pedido de análise ao Comitê de Apelações da FIFA a fim de diminuir a pena do atacante Neymar, suspenso da Copa América pela Conmebol.")
print(texto2.ents)
[(entidade,entidade.label_) for entidade in texto2.ents]

(CBF, Comitê de Apelações da FIFA, Neymar, Copa América, Conmebol)


[(CBF, 'ORG'),
 (Comitê de Apelações da FIFA, 'ORG'),
 (Neymar, 'PER'),
 (Copa América, 'MISC'),
 (Conmebol, 'ORG')]

___________________________
# <font color='blue'>  Questão 1 </font>

Utilizando o spacy, extraia o nome dos personagens neste trecho de "Capitães da Areia", de Jorge Amado

In [92]:
trecho_cda= "João Grande vem vindo para o trapiche. O vento quer impedir seus passos e ele se curva todo, resistindo contra o vento que levanta a areia. Ele foi à Porta do Mar beber um trago de cachaça com o Querido-de-Deus, que chegou hoje dos mares do Sul, de uma pescaria. O Querido-de-Deus é o mais célebre capoeirista da cidade. Quem não o respeita na Bahia? No jogo de capoeira de Angola ninguém pode se medir com o Querido-de-Deus, nem mesmo Zé Moleque, que deixou fama no Rio de Janeiro. O Querido-de-Deus contou as novidades e avisou que no dia seguinte apareceria no trapiche para continuar as lições de capoeira que Pedro Bala, João Grande e Gato tomam."
trecho_cda

texto_cda = spacyPT(trecho_cda)

print("Personagens identificados: ")
[entidade for entidade in texto_cda.ents if entidade.label_ == "PER"]

Personagens identificados: 


[Zé Moleque, Pedro Bala, Gato]

Quais personagens estão faltando? Porque?

**<font color='red'> Sua resposta aqui </font>**

Os personagens faltantes foram: João Grande e Querido-de-Deus. Como podemos ver a seguir, a biblioteca spaCy identificou esses nomes próprios como `'LOC'`, que se refere a uma localização e não a uma pessoa/personagem.

In [93]:
print("Nomes próprios que não foram identificados como personagens: ")
[(entidade, entidade.label_) for entidade in texto_cda.ents if entidade.label_ != "PER"]

Nomes próprios que não foram identificados como personagens: 


[(João Grande, 'LOC'),
 (Porta do Mar, 'LOC'),
 (Querido-de-Deus, 'LOC'),
 (Querido-de-Deus, 'LOC'),
 (Bahia, 'LOC'),
 (Angola, 'LOC'),
 (Querido-de-Deus, 'LOC'),
 (Rio de Janeiro, 'LOC'),
 (Querido-de-Deus, 'LOC'),
 (João Grande, 'LOC')]

# <font color='blue'>  Questão 2 </font>

Extraia todos os pronomes deste capitulo.

_____________
**<font color='red'> Sua resposta aqui </font>**


In [94]:
[token for token in texto_cda if token.pos_ == 'PRON']

[ele, se, que, Ele, que, Quem, o, ninguém, se, que]

# <font color='blue'>  Questão 3 </font>
Utilize os visualizadores para explorar o mapa de dependencias de uma frase a sua escolha deste capitulo.
https://spacy.io/usage/visualizers

Você pode acessar diretamente uma frase especifica ao utilizar o gerador "sents", por exemplo:

```python
frases = [frase for frase in texto.sents]
frases[2]
```


_______________


**<font color='red'> Sua resposta aqui </font>**

In [95]:
frases = [frase for frase in texto_cda.sents]
print(frases[5])

from spacy import displacy

options = {"compact": False, "bg": "#1d417a",
           "color": "white", "font": "Source Sans Pro",
           "distance": 100}

displacy.render(frases[5], style="dep", jupyter=True, options=options)

No jogo de capoeira de Angola ninguém pode se medir com o Querido-de-Deus, nem mesmo Zé Moleque, que deixou fama no Rio de Janeiro.
