<a href="https://colab.research.google.com/github/tmelo-uea/cursos/blob/main/MO_Aula6_Spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#spaCy

## Características:

*   **spaCy** é uma das mais populares bibliotecas de NLP (*Natural Language Processing*).
* Tem suporte para mais de 64 idiomas (incluindo **Português**).  
* Os modelos podem customizados ou criados a partir do zero usando PyTorch, TensorFlow e/ou outras arquiteturas.
* Recursos visuais de análise de dados.
* Versão atual: v3.0.
* URL: [LINK](https://spacy.io)


## Componentes:

*   Reconhecimento de entidade nomeada (*Named Entity Recognition* - NER).
*   *Part-of-speech tagging* (POS).
*   Árvore de dependência (*dependency parsing*).
*   Segmentação de sentenças.
*   Classificação de texto.
*   *Lemmatization*.
*   ...



# Instalação

Se você for usuário de ```pip``` para instalar as bibliotecas Python, então basta executar o seguinte comando:

In [1]:
!pip install -U spacy

Collecting spacy
[?25l  Downloading https://files.pythonhosted.org/packages/1b/d8/0361bbaf7a1ff56b44dca04dace54c82d63dad7475b7d25ea1baefafafb2/spacy-3.0.6-cp37-cp37m-manylinux2014_x86_64.whl (12.8MB)
[K     |████████████████████████████████| 12.8MB 281kB/s 
Collecting pathy>=0.3.5
[?25l  Downloading https://files.pythonhosted.org/packages/13/87/5991d87be8ed60beb172b4062dbafef18b32fa559635a8e2b633c2974f85/pathy-0.5.2-py3-none-any.whl (42kB)
[K     |████████████████████████████████| 51kB 6.2MB/s 
[?25hCollecting thinc<8.1.0,>=8.0.3
[?25l  Downloading https://files.pythonhosted.org/packages/61/87/decceba68a0c6ca356ddcb6aea8b2500e71d9bc187f148aae19b747b7d3c/thinc-8.0.3-cp37-cp37m-manylinux2014_x86_64.whl (1.1MB)
[K     |████████████████████████████████| 1.1MB 37.5MB/s 
Collecting typer<0.4.0,>=0.3.0
  Downloading https://files.pythonhosted.org/packages/90/34/d138832f6945432c638f32137e6c79a3b682f06a63c488dcfaca6b166c64/typer-0.3.2-py3-none-any.whl
Collecting spacy-legacy<3.1.0,>=3.0.

Caso você esteja usando **Anaconda**, você pode usar o seguinte comando:

```
$ conda install -c conda-forge spacy
```

Após você instalar o spaCy, será necessário fazer o download do modelo.

Os modelos estão disponíveis por idioma.

O seguinte comando permite fazer o download do modelo (inglês):

In [2]:
!python -m spacy download en

2021-05-19 17:26:28.791191: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0
[38;5;3m⚠ As of spaCy v3.0, shortcuts like 'en' are deprecated. Please use the
full pipeline package name 'en_core_web_sm' instead.[0m
Collecting en-core-web-sm==3.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl (13.7MB)
[K     |████████████████████████████████| 13.7MB 299kB/s 
Installing collected packages: en-core-web-sm
  Found existing installation: en-core-web-sm 2.2.5
    Uninstalling en-core-web-sm-2.2.5:
      Successfully uninstalled en-core-web-sm-2.2.5
Successfully installed en-core-web-sm-3.0.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


# Funcionalidades Básicas

O primeiro passo é importar a biblioteca.

In [3]:
import spacy

O segundo passo é carregar o modelo.

In [4]:
nlp = spacy.load('en_core_web_sm')

Os nomes dos pacotes (modelos) do spaCy seguem uma convenção.


Os nomes iniciam com `[lang]_[name]` acompanhados por três partes:

1.   **Tipo**: `core` para uso geral (vocabulário, sintaxe, entidades etc) ou `dep` somente para vocabulário e sintaxe. 

2.   **Fonte**: O tipo de texto que o modelo foi treinado (`web` ou `news`).

3.   **Tamanho**: Tamanho do pacote (`sm`, `md` ou `lg`).

Por exemplo, o pacote `en_core_web_sm` é um pequeno modelo em inglês treinado com texto da Web.

Avaliação do Modelo:

<img src='https://drive.google.com/uc?id=12chtMFnRG48gVkBRUe2WPWYmOIOgpd1o'>

# Tokenização

É o processo de separar as palavras (termos), símbolos e pontuações de um texto.

Considere o exemplo de uma sentença abaixo:

In [5]:
texto = "The battery life of S-10 is excellent."

In [6]:
doc = nlp (texto)

In [7]:
for termo in doc:
  print (termo)

The
battery
life
of
S-10
is
excellent
.


# Manipulação de Documentos

Em geral, os textos (documentos) são formados de parágrafos e estes são formados por sentenças.

Um passo comumente necessário é dividir os textos em sentenças.

In [8]:
texto = "I received my phone in 2.5 days! For the price you can't beat it. I have zero complaints. The phone is brand new and no signs of wear. Super clear screen and battery life is good. I have metro pcs and it was very easy to set it up with customer service."

In [9]:
doc = nlp (texto)

É possível separar o texto em sentenças:

In [10]:
for i in doc.sents:
  print (i)

I received my phone in 2.5 days!
For the price you can't beat it.
I have zero complaints.
The phone is brand new and no signs of wear.
Super clear screen and battery life is good.
I have metro pcs and it was very easy to set it up with customer service.


Deve-se observar que o modelo foi capaz de identificar que o ponto em 2.5 não representava o término da sentença.

# POS *tagging*

É possível identificar diversas características dos termos que compõem uma sentença.

Características comumente utilizadas em problemas de NLP:

* `Text`: Palavra original do texto.

* `Lemma`: A forma base do termo.

* `POS`: POS tag do termo.

* `Tag`: POS tag detalhada.

* `Dep`: Dependência sintática entre os termos.

* `is alpha`: Verifica se o termo é formado exclusivamente por caracteres.

* `is stop`: Verifica se o termo é um *stopword* (termo comum).

In [11]:
doc = nlp("The battery life is fantastic.")

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.is_alpha, token.is_stop)

The the DET DT det True True
battery battery NOUN NN compound True False
life life NOUN NN nsubj True False
is be AUX VBZ ROOT True True
fantastic fantastic ADJ JJ acomp True False
. . PUNCT . punct False False


# Árvore de Dependência (*Dependency Parsing*)

É o processo de analisar a estrutura gramatical de uma sentença baseada nas dependências entre os termos em uma sentença.

Caracaterísticas utilizadas em problemas de NLP:

`Text`: O termo original do texto.

`Dep`: A relação sintática entre dois termos (child -> head).

`Head text`: O texto original do termo (*head*).

`Head POS`: O POS tag do *head*.

`Children`: O texto original do termo (*child*).

In [12]:
doc = nlp("The battery life is fantastic and also expensive.")

for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
            [child for child in token.children])

The det life NOUN []
battery compound life NOUN []
life nsubj is AUX [The, battery]
is ROOT is AUX [life, fantastic, .]
fantastic acomp is AUX [and, expensive]
and cc fantastic ADJ []
also advmod expensive ADJ []
expensive conj fantastic ADJ [also]
. punct is AUX []


# Lemmatization e Stemming

Em muitas situações, é necessário aplicar técnicas para reduzir as formas flexionadas de uma palavra para uma forma básica comum.

**Lemmatization** e **stemming** são as duas técnicas comumente utilizadas para tal redução.

## Lemmatization

*Lemmatization* é o processo de agrupar formas flexionadas de uma palavra para que possam ser analisadas como um único termo.

Exemplo: *run*, *runs* e *running* poderiam ser representada apenas como *run*.

O processo de *lemmatization* transforma o contexto e converte para a sua forma base (*lemma*) e que aparece em um dicionário.

In [13]:
lemmatizer = nlp.get_pipe("lemmatizer") 

doc = nlp("go goes going went gone")

print([token.lemma_ for token in doc])

['go', 'go', 'go', 'go', 'go']


## Stemming

Stemming é o processo de cortar o prefixo e/ou sufixo das palavras.

O corte indiscriminado das palavras pode gerar termos que não são palavras existentes em um dicionário.

O spaCy **não** implementa algoritmos de stemming.

Uma alternativa seria usar uma outra biblioteca: [NLTK](https://www.nltk.org/howto/stem.html).

Importar a bilioteca:

In [14]:
import nltk

from nltk.stem.porter import *

Criar um objeto a partir da classe Porter:

In [15]:
stemmer = PorterStemmer()

Exemplos 1:

In [16]:
tokens = ['compute', 'computer', 'computed', 'computing']

for token in tokens:
    print(token + ' --> ' + stemmer.stem(token))

compute --> comput
computer --> comput
computed --> comput
computing --> comput


Exemplos 2:

In [17]:
tokens = ['go', 'goes', 'going', 'went', 'gone']

for token in tokens:
    print(token + ' --> ' + stemmer.stem(token))

go --> go
goes --> goe
going --> go
went --> went
gone --> gone


# Reconhecimento de Entidades Nomeadas (NER)

Uma entidade nomeada (*named entity*) é um objeto do mundo real que pode ter assinalado um nome.

Uma entidade pode ser uma pessoa, país, produto ou título de livro.

Os modelos do spaCy são capazes de reconhecer vários tipos de entidades nomeadas em um documento.

As entidades nomeadas estão disponíveis como proporiedade `ents` de objetos `Docs` do spaCy. 

Exemplo:

In [18]:
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

In [19]:
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY


Deve-se observar que *Apple* foi identificado como uma ORG!

# Visualizador displaCy

O spaCy possui uma biblioteca que permite visualizar as dependências entre os termos de uma sentença.

In [20]:
from spacy import displacy

A biblioteca pode ser utilizada através do seguinte comando: 

`displacy.serve(doc, style="dep")`

Para exibição em um notebook (COLAB ou jupyter), deve-se adaptar uma renderização. A seguir, é apresentado um exemplo.

In [21]:
doc = nlp("The battery life is fantastic.")
displacy.render(doc, style='dep', jupyter=True)

O **displaCy** permite também a visualização de NER.

In [22]:
text = "Apple is looking at buying U.K. startup for $1 billion."

nlp = spacy.load("en_core_web_sm")
doc = nlp(text)
displacy.render(doc, style="ent", jupyter=True)

#spaCy em Português

Vamos executar o parser do modelo em inglês para uma sentença em português e observar o resultado:

In [23]:
nlp = spacy.load("en_core_web_sm")
doc = nlp("O celular é muito bom.")

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.is_alpha, token.is_stop)

O o INTJ UH intj True False
celular celular NOUN NN ROOT True False
é é DET DT det True False
muito muito NOUN NN compound True False
bom bom NOUN NN npadvmod True False
. . PUNCT . punct False False


Um aspecto positivo do spaCy é a possibilidade de usar modelos prontos em vários idiomas e também a facilidade de se construir modelos próprios (customizados).

Vamos instalar o pacote `pt_core_news_sm`.

In [24]:
!python -m spacy download pt_core_news_sm

2021-05-19 17:42:47.195535: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0
Collecting pt-core-news-sm==3.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.0.0/pt_core_news_sm-3.0.0-py3-none-any.whl (22.1MB)
[K     |████████████████████████████████| 22.1MB 1.4MB/s 
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.0.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


Importar o pacote para português:

In [25]:
import pt_core_news_sm

Execução para um texto em Portugue (BR):

In [26]:
nlp = pt_core_news_sm.load()
sentence = "O celular é muito bom."
doc = nlp(sentence)
for token in doc:
    print(token.text, token.tag_, token.head.text, token.dep_, token.pos_)

O DET celular det DET
celular NOUN bom nsubj NOUN
é AUX bom cop AUX
muito ADV bom advmod ADV
bom ADJ bom ROOT ADJ
. PUNCT bom punct PUNCT


# Exercícios

Qual é a diferença entre *lemmatization* e *stemming*? Dê um exemplo de cada.

Implementar um conjunto de regras para extração de aspectos.

Considere o artigo "*Explicit aspects extraction in sentiment analysis using optimal rules combination*" [[1](https://www.sciencedirect.com/science/article/pii/S0167739X1933081X)]. Escolha e implemente cinco regras que aparecem nas tabelas 3, 4 e 5 do artigo e avalie o resultado.

Explore a criação de modelos próprios usando o spaCy [[Link](https://spacy.io/usage/training)].