<a>
    <img src="https://ladata-ufs.github.io/Assets/LOGO-EXTENSO-CLARA.png" width=175>
</a>

# **Processamento de Linguagem Natural: das abordagens clássicas aos LLMs**  
> Túlio Gois; Ana Laylla Rocha; Daivik Celeste; David Henrique Ferraz; Letícia Santos.

---
## **Dia 1: Uma breve história do PLN e seus fundamentos**

### **Dependências**

In [None]:
#instalações
!pip install --quiet nltk spacy enelvo

In [None]:
#imports
import spacy
from spacy import displacy
import nltk
import pandas as pd

In [None]:
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')
spacy.cli.download("pt_core_news_md")
nlp = spacy.load("pt_core_news_md")

## **A unidade de processamento**
É importante deixar claro o que vamos processar quanto tratamos de processamento de linguagem natural, ou seja, qual o elemento que vai ser a menor unidade para os métodos computacionais. De modo geral, os modelos de PLN tratam as **palavras** como unidades primárias de processamento.

> **Atenção**  
> Não há um consenso entre pesquisadores e profissionais da área sobre essa delimitação. Nem mesmo na linguística conseguimos encontrar essa certeza, e isso fica claro por conta de como cada subárea dos estudos linguísticos entendem suas unidades mínimas de processamento: por exemplo, para a fonologia, a menor unidade seria o fonema, já para a morfologia, seria o fonema.

Além disso, é importante definir o que seria palavra. Para isso, vamos adotar a explicação presente no livro "Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português":  
> *Uma palavra é uma unidade grafológica delimitada, nas línguas europeias, entre espaços em branco na representação gráfica, ou entre um espaço em branco e um sinal de pontuação.*   



## **Processamento morfológico**
Na maioria das aplicações de PLN vamos encontrar algumas etapas em comum, que aparecem com o nome de pré-processamento. As mais comuns tratam da "quebra" de um texto, seja em sentenças (**sentenciação**) ou palavras (**tokenização**), e normalização (como **lematização** ou radicalização).

Além do pré-processamento, podemos encontrar etapas de processamento, como a **etiquetagem morfossintática** (PoS tagging) — para extrair a classe gramatical de uma palavra — e a **anotação de atributos morfológicos**.

### **Token e Type**
***Token* é um termo que significa qualquer sequência de caracteres que tem valor**. Ao olharmos para o português, podemos dizer que em uma determinada sentença, o número de tokens é representado pela `quantidade de palavras + sinais de pontuação`.

A tarefa que trata de separar as unidades linguísticas mínimas (tokens) é denominada **tokenização** e, no português, ela ocorre através da separação de palavras por delimitadores (sinais de pontuação ou espaços em branco).

Já o ***type***, refere-se aos **tokens únicos** encontrados em uma frase ou texto. Ou seja, dada uma frase onde uma palavra aparece $n$ vezes como token, ela aparecerá apenas 1 vez como type.


#### **Tokenização**

In [None]:
#frase de exemplo
frase = "Boas vindas ao minicurso de Processamento de Linguagem Natural!"

In [None]:
print("Tokenização simples (usando o split)\n")
print(frase.split())

In [None]:
print("Tokenização com a Natural Language Toolkit (NLTK)\n")
print(nltk.tokenize.word_tokenize(frase))

In [None]:
doc = nlp(frase)

print("Tokenização com o spaCy\n")
print([token.text for token in doc])

#### **Verificando os types**
Aqui, vamos utilizar a função `set` do Python, que cria um conjunto não ordenado de itens únicos. Como estamos aplicando essa função à uma lista de tokens, será gerado um conjunto com as palavras únicas (types).


In [None]:
tokens = nltk.tokenize.word_tokenize(frase)
types = set(tokens)
print(types)

#### **Lematização**
A lematização é uma tarefa comumente usada como normalização de palavras para PLN. Ela consiste, de modo geral, em converter uma palavra para o seu formato presente no dicionário. É importante notar que isso requer conhecimento das propriedades sintático-semânticas das palavras. Por exemplo:
> O lema das palavras "filósofos" e "filósofa" é "**filósofo**";  
> Já o lema das palavras "filosofei" e "filosofamos" é "**filosofar**.

In [None]:
teste_lema = "Vamos fazer um teste, testando o lematizador do spacy e vendo quais lemas saem"
doc = nlp(teste_lema)

print("Lematização com o spaCy\n")
print([(token.text, token.lemma_) for token in doc])

### **Léxico**
Quando estamos tratando do conjunto que envolve as palavras de uma língua, juntamente com suas definições morfossintáticas, falamos em **léxico**. Geralmente cada palavra do léxico tem uma ou mais triplas contendo sua categoria gramatical (Part-of-Speech), seu lema e suas características morfológicas.

### **PoS tagging**
O PoS tagging (ou etiquetagem morfossintática) é a técnica que envolve a atribuição das etiquetas gramaticais de cada palavra em um texto. Essas classes de palavras são universais e valem para a maioria das línguas.

Vamos relembrá-las: substantivos, verbos, adjetivos, advérbios, pronomes, numerais, artigos, conjunções, preposições e interjeições.

É importante notar que para uma etiquetagem morfossintática ser feita corretamente, analisar o contexto é essencial, pois existem palavras polissêmicas, ambíguas, homônimas etc. Por exemplo:
> "Hoje eu fui para o trabalho", onde *trabalho* é um substantivo.  
> "Sexta é o dia que eu mais trabalho", onde *trabalho* é um verbo.

In [None]:
doc = nlp(frase)

print("PoS tagging com o spaCy\n")
print([(token.text, token.pos_) for token in doc])

In [None]:
tokens = nltk.tokenize.word_tokenize(frase)
tags = nltk.pos_tag(tokens)

print([tag for tag in tags])

### **Atributos morfológicos**
Os atributos morfológicos (também chamados de *features* ou *feats*) tratam de informações sobre as características gramaticais das palavras em um texto. Esses atributos vão apontar características como número, gênero, grau, modo, tempo, entre outras.

In [None]:
doc = nlp(frase)

dados_morph = []
for token in doc:
    dados_morph.append({
        "token": token.text,
        "morfologia": token.morph.to_dict()
    })

df_morph = pd.DataFrame(dados_morph)
pd.set_option('display.max_colwidth', None)
display(df_morph)

### **Juntando tudo**
Vamos ver como fica a frase processada com todas as técnicas que vimos até aqui.

In [None]:
exemplo = "Vamos colocar uma frase legal aqui."

doc = nlp(exemplo)

morph = []
for token in doc:
    morph.append({
        "token": token,
        "lema": token.lemma_,
        "pos": token.pos_,
        "morfologia": token.morph.to_dict()
    })

df_morph = pd.DataFrame(morph)
pd.set_option('display.max_colwidth', None)
display(df_morph)

## **Sintaxe: a ordem e função das palavras**
Ao olharmos para a **forma como as palavras ficam ordenadas em uma determinada frase e as funções que elas assumem nessas posições**, estamos estudando a **sintaxe**. É através da sintaxe que reconhecemos as regras que ditam quais agrupamentos de palavras fazem sentido ou não.

Na análise sintática, estamos trabalhando no nível das orações, ou seja, um conjunto de palavras que tratam de algum evento do mundo. Geralmente, as palavras de uma oração conseguem responder às perguntas: **"quem?", faz "o quê?", "para quem?", "como?", "quando?",** entre outras.

É importante lembrarmos que **em uma sentença** (que começa com letra maiúscula e termina com um sinal de pontuação) **pode haver mais de uma oração**.

### ***Parsing e parsers***

O processo de analisar essa estruturação de orações em PLN é o *parsing*. Essa tarefa consiste em, dada uma entrada (uma sentença), um modelo vai prever a estrutura sintática dessa entrada, identificando as unidades na sentença e estabelecendo suas relações gramaticais.

As ferramentas que realizam essa tarefa de *parsing* são chamadas de *parsers*.

In [None]:
doc = nlp("Hoje estamos apresentando o dia um do minicurso de PLN e amanhã apresentaremos o dia dois")

print("Testando o parser do spaCy\n")
displacy.render(doc, style='dep', jupyter=True)


### **Corpora**
Um dos recursos mais importantes para o processamento linguístico é um *corpus* anotado, também chamado de *treebank*, isto é, textos anotados com suas etiquetas de classes de palavras e relações sináticas.

> ***Corpus*** é o nome dado à um conjunto de dados linguísticos composto por textos escritos ou transcrições de fala. *Corpora* é o plural de *corpus*.

Um *corpus* em português muito utilizado no treinamento de modelos de análise sintáticas é o [Bosque](https://www.linguateca.pt/Floresta/corpus.html). O Bosque faz parte de um *corpus* ainda maior, chamado [Floresta Sintá(c)tica
](https://www.linguateca.pt/Floresta/principal.html), que é composto por outros *subcorpora*.

### **Outros recursos de PLN para português**

* [**Enelvo**](https://thalesbertaglia.com/enelvo/o): biblioteca Python para normalização de textos que permite a correção de abreviações, gírias, erros ortográficos, entre outras funcinoalidades;
* [**Stanza**](https://stanfordnlp.github.io/stanza/): biblioteca Python criada pelo Stanford NLP Group que oferece uma pipeline neural completa para várias tarefas de processamento de linguagem, como tokenização, etiquetagem morfossintática, lematização e análise de dependências;
* [**Porttagger**](https://huggingface.co/spaces/Emanuel/porttagger): etiquetador morfossintático para PT-BR. Utiliza as etiquetas do modelo gramatical [Universal Dependencies](https://universaldependencies.org) e realiza a classificação com base no BERTimbau, modelo de linguagem baseado em transformers. Atualmente é o estado da arte de PoS Tagging para o português;
* [**Portparser**](https://github.com/LuceleneL/Portparser): modelo de parsing para PT-BR. Faz anotação de Part-of-Speech (PoS), identificação de lemas, extração de características morfológicas e
anotação de relações de dependência.


#### **Referências**
* **[Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português (3ª Ed.)](https://brasileiraspln.com/livro-pln/3a-edicao/)**  
* [![spaCy](https://img.shields.io/badge/spaCy-Documentation-09a3d5?style=flat&logo=spacy)](https://spacy.io/) — Documentação oficial do spaCy.  
* [![NLTK](https://img.shields.io/badge/NLTK-Documentation-blue?style=flat)](https://www.nltk.org/) — Documentação oficial do NLTK (Natural Language Toolkit).


---

#### **Acompanhe a LADATA**  
[![Instagram](https://img.shields.io/badge/Instagram-%40ladata.ufs-E4405F?style=for-the-badge&logo=instagram&logoColor=white)](https://www.instagram.com/ladata.ufs/)  
[![GitHub](https://img.shields.io/badge/GitHub-ladata--ufs-100000?style=for-the-badge&logo=github&logoColor=white)](https://github.com/ladata-ufs)  
[![LinkedIn](https://img.shields.io/badge/LinkedIn-LADATA_UFS-0077B5?style=for-the-badge&logo=linkedin&logoColor=white)](https://br.linkedin.com/company/ladata-ufs)  




<small>
Processamento de Linguagem Natural: das abordagens clássicas aos LLMs | XI SEMAC - 2025 <br>
<strong>Liga Acadêmica de Ciência de Dados | LADATA</strong>
</small>