# Coursera - USP - Processamento Neural de Linguagem Natural em Português I

![Logo de capa](../Coursera-USP-PLN-Logo.png)


## Lista 1 - spaCy

Modificado por Leonardo Simões

---
## Sumário

- [1.Introdução](#introduction)
- [2.Exemplos](#examples)
- [3.Questão 1](#questao_1)
- [4.Questão 2](#questao_2)
- [5.Questão 3](#questao_3)
- [Referências](#references)

---
<a id='introduction'></a>
## 1. Introdução

O *spaCy* é uma bilbioteca Python de código-fonte aberto para Processamento de Linguagem Natural, constantemente atualizada e mantida. Essa biblioteca é capaz de processar diversas línguas, inclusive o português.

Para instalar o spaCy: `%pip install spacy -U`
Para baixar ferramenta específica para o português: `!python -m spacy download pt_core_news_sm`

Os resultados obtidos podem ser diferentes dependendo das versões do pacote e da ferramenta.

O spaCy assume que os caracteres estão codificados no formato utf-8.



In [1]:
# Verificação da versão do Python
from platform import python_version
print('Versão do Python: ', python_version())

Versão do Python:  3.11.2


In [2]:
# Import dos spaCy e suas ferramentas
import spacy
import pt_core_news_sm
from spacy import displacy

spacyPT = pt_core_news_sm.load()

In [3]:
# Versão do SpaCy
print('SpaCy versão ' + spacy.__version__)

SpaCy versão 3.6.1


---
<a id='examples'></a>
## 2. Exemplos

### Tokenização (itemização)
A entrada a seguir é uma sequência iterável de tokens (itens, ou instâncias de palavras).

Se quisermos verificar qual o texto contido nessa sequência iterável, usamos: `entrada.text`.

In [4]:
# Converte o texto para o tipo que o spaCy manipula
entrada = spacyPT("Mais vale um asno que me carregue que um cavalo que me derrube.")
entrada

Mais vale um asno que me carregue que um cavalo que me derrube.

In [5]:
# Exibe o texto
entrada.text

'Mais vale um asno que me carregue que um cavalo que me derrube.'

O método `__split__` pode ser usado para dividir a entrada em tokens, mas qualquer sinal de pontuação é aborsorvido por uma palavra:

In [6]:
# Divide o texto por espaço
entrada.text.split()

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube.']

O comando `in` pode ser usado para separar a pontuação das palavras com a tokenização implícita.

O `not` e `__is_punct__` são usados para eliminar a pontuação da lista.

In [7]:
# Sequência de objetos da classe __Token__
[token for token in entrada]

[Mais, vale, um, asno, que, me, carregue, que, um, cavalo, que, me, derrube, .]

In [8]:
# Lista de Strings
[token.text for token in entrada]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube',
 '.']

In [9]:
# Lista de Strings sem pontos
[token.text for token in entrada if not token.is_punct]

['Mais',
 'vale',
 'um',
 'asno',
 'que',
 'me',
 'carregue',
 'que',
 'um',
 'cavalo',
 'que',
 'me',
 'derrube']

### Etiquetagem morfossintática (POS tagging)

`pos_` em um token indica a etiqueta morfossintática.

In [10]:
# Exibe o token e sua etiqueta morfossintática
[(token.text, token.pos_) for token in entrada]

[('Mais', 'ADV'),
 ('vale', 'VERB'),
 ('um', 'DET'),
 ('asno', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('carregue', 'VERB'),
 ('que', 'SCONJ'),
 ('um', 'DET'),
 ('cavalo', 'NOUN'),
 ('que', 'PRON'),
 ('me', 'PRON'),
 ('derrube', 'VERB'),
 ('.', 'PUNCT')]

In [11]:
# Filtro para verbos
[token.lemma_ for token in entrada if token.pos_ == 'VERB']

['valer', 'carregar', 'derrube']

### Reconhecimento de entidades nomeadas

A biblioteca já vem treinada com um  mecanismo que permite o reconhecimento de entidades nomeadas.

In [12]:
# Converte o texto para o tipo que o spaCy manipula
texto2 = spacyPT("A CBF fez um pedido de análise ao Comitê de Apelações da FIFA a fim de diminuir a pena do atacante Neymar, suspenso da Copa América pela Conmebol.")
print(texto2.ents)

(CBF, Comitê de Apelações da FIFA, Neymar, Copa América, Conmebol)


In [13]:
# Entidades e seus tipos
[(entidade,entidade.label_) for entidade in texto2.ents]

[(CBF, 'ORG'),
 (Comitê de Apelações da FIFA, 'ORG'),
 (Neymar, 'PER'),
 (Copa América, 'MISC'),
 (Conmebol, 'ORG')]

---
<a id='questao_1'></a>
## 3. Questão 1

Utilizando o spacy, extraia o nome dos personagens presentes no terceiro capitulo da obra "Mémorias postumas de Brás Cubas" de Machado de Assis.

In [14]:
# String do capítulo 3 de "Mémorias postumas de Brás Cubas"
cap_3_bras_cubas = "Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        O fundador de minha família foi um certo Damião Cubas, que floresceu na primeira metade do século XVIII. Era tanoeiro de ofício, natural do Rio de Janeiro, onde teria morrido na penúria e na obscuridade, se somente exercesse a tanoaria. Mas não; fez-se lavrador, plantou, colheu, permutou o seu produto por boas e honradas patacas, até que morreu, deixando grosso cabedal a um filho, o licenciado Luís Cubas. Neste rapaz é que verdadeiramente começa a série de meus avós -- dos avós que a minha família sempre confessou -  porque o Damião Cubas era afinal de contas um tanoeiro, e talvez mau tanoeiro, ao passo que o Luís Cubas estudou em Coimbra, primou no Estado, e foi um dos amigos particulares do vice-rei conde da Cunha.        Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto do Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da Africa, em prêmio da façanha que praticou arrebatando trezentas cubas ao mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.        Vivem ainda alguns membros de minha família, minha sobrinha Venância, por exemplo, o lírio-do-vale, que é a flor das damas do seu tempo; vive o pai, o Cotrim, um sujeito que... Mas não antecipemos os sucessos; acabemos de uma vez com o nosso emplasto. "

In [15]:
# Converte para o tipo que o spaCy manipula
doc = spacyPT(cap_3_bras_cubas)

In [16]:
# Filtra os nomes dos personagens
personagens = []
for entidade in doc.ents:
    if entidade.label_ == 'PER':
        personagens.append(entidade.text)

In [17]:
# Exibe os nomes dos personagens
print(personagens)

['Damião Cubas', 'Luís Cubas', 'Damião Cubas', 'Luís Cubas', 'conde da Cunha', 'Damião', 'Brás Cubas']


---
<a id='questao_2'></a>
## 4. Questão 2

Extraia todos os pronomes deste capitulo.

In [18]:
# Filtra os pronomes
pronomes = []
for token in doc:
    if token.pos_ == 'PRON':
        pronomes.append(token.text)

In [19]:
# Exibe os pronomes
print(pronomes)

['que', 'onde', 'que', 'lhe', 'que', 'que', 'quem', 'ele', 'que', 'onde', 'me', 'ele', 'que', 'que']


---
<a id='questao_3'></a>
## 5. Questão 3

Utilize os visualizadores para explorar o mapa de dependencias de uma frase a sua escolha deste capitulo.

[https://spacy.io/usage/visualizers](https://spacy.io/usage/visualizers)

Você pode acessar diretamente uma frase especifica ao utilizar o gerador “sents”, por exemplo:

In [20]:
# Divide em frases
frases = [frase for frase in doc.sents]
frases[0]

Mas, já que falei nos meus dois tios, deixem-me fazer aqui um curto esboço genealógico.        

In [21]:
# Mostra mapa de dependências da primeira frase
displacy.render(frases[0], style="dep")

---
<a id='references'></a>
## Referências

Coursera - USP - Processamento Neural de Linguagem Natural em Português I:
[https://www.coursera.org/learn/processamento-neural-linguagem-natural-em-portugues-i](https://www.coursera.org/learn/processamento-neural-linguagem-natural-em-portugues-i)

Lista 1 - spaCy:
[https://colab.research.google.com/github/alan-barzilay/NLPortugues/blob/master/Semana%2001/01-Spacy.ipynb](https://colab.research.google.com/github/alan-barzilay/NLPortugues/blob/master/Semana%2001/01-Spacy.ipynb)