Para iniciar com o Spacy no ambiente do colab é necessário atualizar a biblioteca e fazer o download do pacote pt_core_news_sm. Esse pacote inclui o modelo de linguagem utilizado pelo Spacy especificamente para língua portuguesa. Esse pacote é uma versão simplificada da linguagem e o website do Spacy disponibiliza modelos de linguagem mais elaborados, dependendo dos requisitos de cada projeto.



In [1]:
!pip install --upgrade spacy
!python -m spacy download pt_core_news_sm

Collecting spacy
  Using cached spacy-3.8.7-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Using cached spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Using cached spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Using cached murmurhash-1.0.13-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.2 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Using cached cymem-2.0.11-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.5 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Using cached preshed-3.0.10-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.4 kB)
Collecting thinc<8.4.0,>=8.3.4 (from spacy)
  Using cached thinc-8.3.6-cp312-cp312-manylinux_

In [None]:
# Solução para o erro de importação do display do IPython
# Esta função resolve o problema de compatibilidade entre spaCy e IPython
def safe_displacy_render(doc, style='dep', jupyter=True, **kwargs):
    """
    Função segura para renderizar visualizações do spaCy displacy
    que resolve problemas de compatibilidade com IPython
    """
    from spacy import displacy
    from IPython.display import HTML, display
    
    try:
        # Tenta usar o método padrão primeiro
        return displacy.render(doc, style=style, jupyter=jupyter, **kwargs)
    except ImportError:
        # Se falhar, usa HTML diretamente
        html = displacy.render(doc, style=style, jupyter=False, **kwargs)
        return display(HTML(html))


Importar o objeto principal do Spacy.

In [2]:
import spacy

Gerar o objeto PLN a partir do objeto Spacy.
Nessa etapa, nós definimos o idioma e os modelos de linguagem que devem ser importados.

Para trabalhar com o Português, utilizamos o modelo pt_core_news_sm.


In [3]:
pln = spacy.load("pt_core_news_sm")

O objeto pln gerado implementa uma API de acesso a diversas funcionalidades do Spacy.

No código apresentado a seguir, vocês devem observar que o objeto pln trata-se de um objeto com a propriedade callable. Ao chamar esse objeto, passando como parâmetro um texto, é retornado um objeto de tipo Documento, com diferentes propriedades associadas à estrutura do Texto, geradas pelo Spacy.

In [4]:
doc = pln("Agora, nós estamos no começo da disciplina de PLN e Mineração de Texto.")

# Tokenização

Entre as propriedades desse objeto tipo Documento, pode ser utilizada a funcionalidade de extração de tokens da frase.


In [5]:
for token in doc:
  print(f'{token.text:20}\t {token.tag_:4}\t {token.lemma_:20}\t {token.is_stop}')

Agora               	 ADV 	 agora               	 True
,                   	 PUNCT	 ,                   	 False
nós                 	 PRON	 nós                 	 True
estamos             	 AUX 	 estar               	 False
no                  	 ADP 	 em o                	 True
começo              	 NOUN	 começo              	 False
da                  	 ADP 	 de o                	 True
disciplina          	 NOUN	 disciplina          	 False
de                  	 ADP 	 de                  	 True
PLN                 	 PROPN	 PLN                 	 False
e                   	 CCONJ	 e                   	 True
Mineração           	 PROPN	 Mineração           	 False
de                  	 ADP 	 de                  	 True
Texto               	 PROPN	 Texto               	 False
.                   	 PUNCT	 .                   	 False


Tokenização de textos consiste em dividir uma frase em palavras ou tokens individuais. Isso é feito para simplificar o texto e prepará-lo para outros estágios de processamento.

# Part-Of-Speech tagger

Juntamente com a tarefa de Tokenização, o Spacy também executa um Part-Of-Speech tagger.

Um Part-Of-Speech Tagger, ou etiquetador de partes do discurso, é uma tarefa de PLN que atribui categorias gramaticais, como substantivos, verbos, adjetivos, advérbios, entre outros, a cada palavra em um texto. Essa técnica pode ser utilizada para a compreensão da estrutura e significado das frases, auxiliando na análise sintática e semântica de textos escritos.

Pelo Spacy, os tokens podem ser acessados com a interface de interação entre os tokens, com um for, por exemplo. Cada token possui diferentes propriedades:
*   text - apresenta o texto do token
*   tag_ - identifica o tipo de token identificado, como na estrutura sintática do texto: adverbos, pronomes, pontuações, conjunções, entre outros.
*   entre outras propriedades relacionadas ao texto.

O relacionamento entre os tokens, seguindo a estrutura sintática do texto, juntamente com os aspectos morfológicos podem ser visualizados com o módulo displaCy.



In [None]:
# Usando a função segura para renderizar a visualização
safe_displacy_render(doc)

# Entidades Nomeadas

O Spacy também é capaz de reconhecer Entidades Nomeadas no texto.

Entidades nomeadas são referências a pessoas, lugares, organizações, eventos e outros conceitos específicos que podem ser identificados em um texto. Elas são uma forma de extração de informações estruturadas a partir de textos não estruturados. A identificação de entidades nomeadas é uma tarefa fundamental, pois permite a extração de informações relevantes de um texto, para sua posterior análise. Por exemplo, a identificação de entidades nomeadas pode ser usada para realizar uma análise de sentimento em textos, identificando as entidades que são mencionadas em comentários de clientes e avaliando a opinião deles em relação a essas entidades. A identificação de entidades nomeadas também pode ser usada em aplicações de busca, para fornecer resultados mais relevantes e precisos.

As Entidades nomeadas são reconhecidas no texto e são embutidas no objeto Documento retornado pelo Spacy.

In [13]:
doc = pln('''A Microsoft tem atuado fortemente na área de Computação em Núvem.
No Brasil, essa área de atuação exige conhecimentos de Programação Web
(Front-End e Back-End), Banco de Dados, JavaScript, entre outras tecnologias.''')

for ent in doc.ents:
  print(f'{ent.text:20}\t{ent.label_:20}')

# Usando a função segura para renderizar entidades nomeadas
safe_displacy_render(doc, style='ent')

Microsoft           	ORG                 
Computação          	LOC                 
Núvem               	LOC                 
Brasil              	LOC                 
Programação Web     	MISC                
Front-End           	LOC                 
Back-End            	LOC                 
Banco de Dados      	ORG                 
JavaScript          	MISC                


NameError: name 'safe_displacy_render' is not defined

In [None]:
doc2 = pln('''Vinícius de Morais é um cantor/compositor de renome de músicas
no estilo de bossa nova. Parte de suas músicas referenciavam a cidade do Rio de
Janeiro. Ele não tinha iPhone e nem gostava de carros no modelo Tesla.''')

# Usando a função segura para renderizar entidades nomeadas
safe_displacy_render(doc2, style='ent')

In [None]:
doc3 = pln('''
UE é uma forma simplificada. União Européia também é a mesma coisa.
Brasil e BR são a mesma coisa também.
Lula é o presidente.
UTFPR é uma universidade tecnológica.
Petrobrás é uma empresa brasileira.
''')

# Usando a função segura para renderizar entidades nomeadas
safe_displacy_render(doc3, style='ent')

for ent in doc3.ents:
  print(f'{ent.text:20} : {ent.label_}')

# Lemas

A tarefa de lematização é uma tarefa de PLN que consiste em reduzir palavras flexionadas a sua forma base ou lema, ou seja, a forma como elas aparecem em um dicionário. Isso é importante porque diferentes formas de uma palavra podem ter o mesmo significado, mas são tratadas como palavras diferentes em um texto. A lematização é diferente do stemming, que é uma técnica mais agressiva que remove sufixos para obter a palavra raiz, mas pode resultar em palavras sem sentido.

Exemplos de palavras e seus lemas incluem:
* Amando / amar
* Correndo / correr
* Casas / casa
* Árvores / árvore
* Mais / mais
* Menos / menos
* Pequenas / pequeno

Nos tokens identificados anteriormente os lemas identificados pelo Spacy, já estavam incorporados:


In [None]:
for token in doc:
  print(f'{token.text:30} -> {token.lemma_}')

# Stop words
Stop words em português são palavras comuns que são frequentemente removidas de um texto em aplicações de mineração de texto porque elas não contribuem significativamente para o significado do texto. Exemplos de stop words em português incluem "de", "a", "o", "que", "e", "do", "da", "em", "um", "para", "e", "com", "nao", "uma", "os", "no", "se", "na", "por", "mais", "as", "dos", "como".

A remoção de stop words pode ser útil em tarefas como análise de sentimento, classificação de texto e busca de informações, pois ela pode ajudar a reduzir o ruído e a melhorar a precisão dos algoritmos de PLN. No entanto, é importante notar que a lista de stop words pode variar dependendo do contexto e do domínio do texto.

O pacote pt_core_news_sm utilizado nos exemplos do curso contém uma lista de stop words para o português.

In [None]:
from spacy.lang.pt import stop_words

print(stop_words.STOP_WORDS)

Os tokens de um Documento definido pelo Spacy já identificam quais tokens são stop words no texto:

In [None]:
for token in doc:
  is_stop = 'é stop word' if token.is_stop else 'não'
  print(f'{token.text:20} -> {is_stop}')