# Processamento de Linguagem Natural (PLN)

## **1. O que é Processamento de Linguagem Natural (PLN)?**

### **Definição:**
O **Processamento de Linguagem Natural (Natural Language Processing – NLP)** é um ramo da **Inteligência Artificial** e da **Ciência da Computação** que se dedica a permitir que os **computadores entendam, interpretem, gerem e respondam a linguagem humana**, seja escrita ou falada.

Em outras palavras, o PLN tenta "ensinar" aos computadores como interpretar textos ou fala como humanos fazem, reconhecendo significados, intenções e emoções.

## **2. Por que o PLN é Importante?**

A linguagem natural é a forma principal de comunicação dos seres humanos. Com o avanço das tecnologias digitais, a quantidade de dados em formato textual (como emails, redes sociais, livros, artigos científicos) cresce exponencialmente. 

O PLN permite:

- Automatizar tarefas manuais com texto.
- Extrair informações úteis de grandes volumes de dados textuais.
- Criar interfaces mais naturais entre humanos e máquinas (ex: assistentes virtuais).
- Facilitar traduções automáticas.
- Analisar sentimentos, opiniões e tendências.

## **3. Aplicações do PLN no Cotidiano**

Vamos ver algumas aplicações reais do PLN que você provavelmente já utilizou:

| Aplicação | Descrição |
|----------|-----------|
| **Assistentes Virtuais** (ex: Siri, Alexa, Google Assistant) | Entendem perguntas em linguagem natural e respondem. |
| **Tradutores Automáticos** (ex: Google Translate) | Traduz textos entre idiomas diferentes. |
| **Análise de Sentimento** | Avalia se uma frase é positiva, negativa ou neutra. |
| **Chatbots** | Responde automaticamente a usuários em sites e apps. |
| **Classificação de Textos** | Separa textos por categorias (ex: notícias esportivas vs. políticas). |
| **Sumarização Automática** | Gera resumos de longos textos. |
| **Detecção de Plágio** | Identifica cópias de textos. |
| **Correção Ortográfica e Gramatical** | Corrige erros em textos. |

## **4. Fundamentos do PLN**

Para que um computador entenda a linguagem natural, ele precisa passar por diversos estágios de processamento. Vamos entender cada um desses estágios:

### **4.1 Tokenização**

**Tokenização** é o processo de dividir um texto em unidades menores chamadas *tokens*. Cada token pode ser uma palavra, número, pontuação, etc.

#### 🐍 Código
- Carga das bibliotecas
- Download de arquivos de apoio

In [1]:
import re
import regex
import unicodedata
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

# Baixa o modelo de tokenização para português e outros compomentes do NLTK
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('omw-1.4')  # Suporte multilíngue
nltk.download('wordnet')   # WordNet principal
nltk.download('rslp')

#def download_nltk_resource(resource):
#    try:
#        nltk.data.find(resource)
#    except LookupError:
#        nltk.download(resource.split('/')[-1])
#
# Baixa os recursos necessários
# download_nltk_resource('tokenizers/punkt')

[nltk_data] Downloading package punkt to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package omw-1.4 to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package wordnet to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package rslp to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

#### 🔖 Explicações

- Importa a biblioteca `NLTK` (**Natural Language Toolkit**), usada para processamento de linguagem natural em Python.
- Importa a função `word_tokenize`, que divide um texto em palavras ou tokens.
- Ao rodar esse código, ele garante que o recurso punkt esteja instalado, mesmo que ele ainda não tenha sido baixado antes.
nltk.download('punkt')

1. **`nltk.download('punkt')`**  
   - Baixa o **tokenizador "Punkt"**, usado para dividir textos em frases e palavras.

2. **`nltk.download('punkt_tab')`**  
   - Baixa tabelas auxiliares para o tokenizador, melhorando sua eficiência.

3. **`nltk.download('stopwords')`**  
   - Baixa listas de **palavras irrelevantes (stopwords)** como "de", "e", "o", que são filtradas em pré-processamento.

4. **`nltk.download('omw-1.4')`**  
   - Baixa suporte multilíngue para o **Open Multilingual WordNet**, útil para tarefas como léxico e semântica.

5. **`nltk.download('wordnet')`**  
   - Baixa o **WordNet** (em inglês), um banco de dados léxico usado para sinônimos e análise de significado.

6. **`nltk.download('rslp')`**  
   - Baixa o **Removedor de Sufixos da Língua Portuguesa (RSLP)**, usado para **stemming** (reduzir palavras à raiz, como "correndo" → "corr").


#### 🐍 Código - Carregando e processando texto

In [2]:
##
# Lista de textos de exemplo
##
#texto = "Bom dia! Como você está?"
#texto = "Olá, tudo bem? Meu nome é Zé das Coves. Gosto de programação!"
texto = [
    "Olá, tudo bem? Este é um texto de Exemplo!",
    "Eu amo programação em Python e Machine Learning.",
    "Texto com MUITAS PONTUAÇÕES... e alguns STOP WORDS!",
    "Outro exemplo: A corrida de dados é essencial em ML!!!"
]


# 1) Definir stopwords (ex.: português, mas ajuste conforme sua necessidade)
# "de", "a", "o", "e", ...
stopwords_pt = set(stopwords.words('portuguese'))  

# 2) Função de limpeza e tokenização
def preprocess_text(text):
    # a) Colocar tudo em minúsculo
    text = text.lower()
    
    # b) Remover pontuações e caracteres especiais (regex)
    #text = re.sub(r'[^a-z0-9\s]', '', text)
    #text = re.sub(r'[.,!?;:()\[\]{}\'"\-_]', '', text)
    text = regex.sub(r'\p{P}+', '', text)

    # c) Tokenizar de forma simples (split por espaço)
    #tokens = text.split()
    tokens = word_tokenize(text, language='portuguese')    
    
    # d) Remover stopwords
    tokens = [t for t in tokens if t not in stopwords_pt]
    
    # e) Reunir tokens novamente, se quisermos gerar um "texto limpo"
    return " ".join(tokens)

# 3) Limpar cada texto na lista
texto_limpo = [preprocess_text(txt) for txt in texto]


print (f"Texto original: \n\t{texto}\n")
print (f"Texto limpo   : \n\t{texto_limpo}\n")


Texto original: 
	['Olá, tudo bem? Este é um texto de Exemplo!', 'Eu amo programação em Python e Machine Learning.', 'Texto com MUITAS PONTUAÇÕES... e alguns STOP WORDS!', 'Outro exemplo: A corrida de dados é essencial em ML!!!']

Texto limpo   : 
	['olá tudo bem texto exemplo', 'amo programação python machine learning', 'texto muitas pontuações alguns stop words', 'outro exemplo corrida dados essencial ml']



#### 🔖 Explicações

...

### **4.2 Lemmatização e Stemming**

Esses processos transformam palavras em suas formas base ou raiz.

- **Stemming**: Reduz palavras à sua raiz, sem garantir que seja uma palavra real.
  - Ex: "running" → "run"
    
- **Lemmatization**: Reduz palavras à sua forma canônica (lemma), considerando o contexto gramatical.
  - Ex: "running" → "running"
    
Este código importa bibliotecas e ferramentas essenciais para **pré-processamento de texto** em PLN (Processamento de Linguagem Natural), com foco em **redução de palavras às suas formas base** (stemming e lematização).  

**1. Stemmers (Redução Radical)**  
- **`PorterStemmer`** (NLTK):  
  - Algoritmo para **stemming em inglês** (ex: "running" → "run").  
- **`RSLPStemmer`** (NLTK):  
  - Algoritmo para **stemming em português** (ex: "correndo" → "corr").  

**2. Lematização (Redução à Forma Canônica)**  
- **`WordNetLemmatizer`** (NLTK):  
  - Usa o **WordNet** para lematização em inglês (ex: "better" → "good").  
  - *Requer `nltk.download('wordnet')`*.  

**3. spaCy (Processamento Avançado)**  
- **`spacy`**:  
  - Biblioteca poderosa para PLN, com suporte a **lematização, POS tagging (análise gramatical) e NER (reconhecimento de entidades)**.  
  - *Para português, normalmente carrega-se o modelo `pt_core_news_sm`*.  

#### 🐍 Código - para inglês
⭐️ **O código possui suporte a inglês, mas que não funciona muito bem para português**

In [6]:
from nltk.stem import PorterStemmer, WordNetLemmatizer, RSLPStemmer
import spacy

##
# Inglês
##
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

print("\nStemming    :", stemmer.stem("running"))
print("Lematização :", lemmatizer.lemmatize("running"))

print("\nStemming    :", stemmer.stem("correndo"))
print("Lematização :", lemmatizer.lemmatize("correndo"))
   


Stemming    : run
Lematização : running

Stemming    : correndo
Lematização : correndo


#### 🐍 Código - para português

In [7]:
##
# Portugues - Stemming
##
stemmer_pt = RSLPStemmer()

palavras = ["correr", "correndo", "corrida", "cão", "cães"]
print(f"\nPalavras    : {palavras}")

palavras_stemmed = [stemmer_pt.stem(p) for p in palavras]
print(f"Stemming PT : {palavras_stemmed} \n")


##
# Portugues - Lematização 
##

# Carrega o modelo em português
nlp = spacy.load("pt_core_news_sm")  

frase = "Eu estava correndo com meus cães na praia"
doc = nlp(frase)
for token in doc:
    print(f"Palavra: {token.text} \t → Lemma: {token.lemma_}")   



Palavras    : ['correr', 'correndo', 'corrida', 'cão', 'cães']
Stemming PT : ['corr', 'corr', 'corr', 'cão', 'cão'] 

Palavra: Eu 	 → Lemma: eu
Palavra: estava 	 → Lemma: estar
Palavra: correndo 	 → Lemma: correr
Palavra: com 	 → Lemma: com
Palavra: meus 	 → Lemma: meu
Palavra: cães 	 → Lemma: cão
Palavra: na 	 → Lemma: em o
Palavra: praia 	 → Lemma: praia


#### 🔖 Explicações

Por que o `WordNetLemmatizer` não funciona para português?
- O WordNetLemmatizer depende do WordNet, que só existe para inglês.
- Não há um equivalente oficial do WordNet para português no NLTK.
- Tentar usá-lo resultará em erros ou lemmatização incorreta.

Alternativa com NLTK (Stemming, mas não Lemmatização)
- Se você precisa usar o NLTK e não pode instalar spaCy/Stanza, pode usar o RSLPStemmer para stemming (mas lembre-se: stemming ≠ lemmatização)
- Limitação: O stemming corta sufixos sem garantir que a palavra resultante exista no dicionário (ex: "cães" → "cã").

**Conclusão**
- ✅ **Para lemmatização em português, use spaCy ou Stanza** (eles têm modelos pré-treinados para PT).
- ❌ **Não use `WordNetLemmatizer` para português** (não funciona).
- ⚠️ **Se precisar apenas de stemming, use `RSLPStemmer` do NLTK**, mas lembre-se que os resultados são menos precisos.

#### 🐍 Código

In [None]:
##
# Portugues
##

# Carrega o modelo em português
nlp = spacy.load("pt_core_news_sm")  

def lemmatizar_frases(lista_frases):
    frases_lematizadas = []
    
    for frase in lista_frases:
        doc = nlp(frase)
        # Lematiza cada token e junta novamente em uma string
        frase_lematizada = " ".join([token.lemma_ for token in doc])
        frases_lematizadas.append(frase_lematizada)
    
    return frases_lematizadas

def remover_acentos(texto):
    # Normaliza o texto (decompõe os caracteres acentuados em caracteres simples + acento)
    texto_normalizado = unicodedata.normalize('NFKD', texto)

    # Remove os caracteres de acentuação (como ~, ´, `, ^, etc.)
    texto_sem_acentos = ''.join(c for c in texto_normalizado if not unicodedata.combining(c))
    
    return texto_sem_acentos


# Aplica a lematização
texto_lematizado = lemmatizar_frases(texto_limpo)

# Removendo os acentos
texto_lematizado_sem_acento=[]
for linha in texto_lematizado:
    linha_sem_acento=remover_acentos(linha)
    texto_lematizado_sem_acento.append(linha_sem_acento)

# Mostra o resultado
for original, lematizada, lematizada_sem_acento in zip(texto_limpo, texto_lematizado,  texto_lematizado_sem_acento):
    print(f"Original             : {original}")
    print(f"Lematizada           : {lematizada}")
    print(f"Lematizada s/acento  : {lematizada_sem_acento}\n")

Original             : olá tudo bem texto exemplo
Lematizada           : olá tudo bem texto exemplo
Lematizada s/acento  : ola tudo bem texto exemplo

Original             : amo programação python machine learning
Lematizada           : amo programação python Machine learning
Lematizada s/acento  : amo programacao python Machine learning

Original             : texto muitas pontuações alguns stop words
Lematizada           : texto muito pontuação algum stop word
Lematizada s/acento  : texto muito pontuacao algum stop word

Original             : outro exemplo corrida dados essencial ml
Lematizada           : outro exemplo corrida dar essencial ml
Lematizada s/acento  : outro exemplo corrida dar essencial ml



#### 🔖 Explicações

...

### **4.3 Vetorização do texto**

Computadores trabalham com números, então precisamos representar palavras como vetores numéricos.

**Técnicas Comuns:**
- **Bag of Words (BoW)**: Conta a frequência de cada palavra.
- **TF-IDF**: Considera a importância relativa de uma palavra em um documento.
- **Word Embeddings**: Representações densas de palavras aprendidas com redes neurais (ex: Word2Vec, GloVe, FastText).

#### 🐍 Código 
- Vetorizar com CountVectorizer (Bag-of-Words)

In [17]:
# 4) Vetorizar com CountVectorizer (Bag-of-Words)
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(texto_lematizado_sem_acento)

print(f"\n\nVocabulário: \n\n{vectorizer.get_feature_names_out()}\n")
print(f"\nMatriz BOW:\n\n {bow_matrix.toarray()}")



Vocabulário: 

['algum' 'amo' 'bem' 'corrida' 'dar' 'essencial' 'exemplo' 'learning'
 'machine' 'ml' 'muito' 'ola' 'outro' 'pontuacao' 'programacao' 'python'
 'stop' 'texto' 'tudo' 'word']


Matriz BOW:

 [[0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 1 0]
 [0 1 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 1]
 [0 0 0 1 1 1 1 0 0 1 0 0 1 0 0 0 0 0 0 0]]


#### 🔖 Explicações

...

#### 🐍 Código - Converter para DataFrame, apenas para visualização

In [19]:
# 5) Converter para DataFrame, apenas para visualização
bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out())

bow_df.head(5)

Unnamed: 0,algum,amo,bem,corrida,dar,essencial,exemplo,learning,machine,ml,muito,ola,outro,pontuacao,programacao,python,stop,texto,tudo,word
0,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,1,0
1,0,1,0,0,0,0,0,1,1,0,0,0,0,0,1,1,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,1,1,0,1
3,0,0,0,1,1,1,1,0,0,1,0,0,1,0,0,0,0,0,0,0


#### 🐍 Código  - Salvando o dataset

In [21]:
bow_df.to_csv('./dataset/dataset_bow_matrizx-2025.06.30.csv', index=False)
bow_df.to_csv('./dataset/dataset_bow_matrizx-2025.06.30.csv.gzip', compression='gzip', index=False)

#### 🐍 Código - Visualizando o resultado

In [22]:
#print (f"Texto original: \n\t{texto}\n")
print("Textos originais:")
for i, t in enumerate(texto):
    print(f"\t{i+1}: {t}")



print("\nTextos pós-limpeza:")
for i, ct in enumerate(texto_lematizado_sem_acento):
    print(f"\t{i+1}: {ct}")

print("\nMatriz Bag-of-Words:")
bow_df.head()


Textos originais:
	1: Olá, tudo bem? Este é um texto de Exemplo!
	2: Eu amo programação em Python e Machine Learning.
	3: Texto com MUITAS PONTUAÇÕES... e alguns STOP WORDS!
	4: Outro exemplo: A corrida de dados é essencial em ML!!!

Textos pós-limpeza:
	1: ola tudo bem texto exemplo
	2: amo programacao python Machine learning
	3: texto muito pontuacao algum stop word
	4: outro exemplo corrida dar essencial ml

Matriz Bag-of-Words:


Unnamed: 0,algum,amo,bem,corrida,dar,essencial,exemplo,learning,machine,ml,muito,ola,outro,pontuacao,programacao,python,stop,texto,tudo,word
0,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,1,0
1,0,1,0,0,0,0,0,1,1,0,0,0,0,0,1,1,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,1,1,0,1
3,0,0,0,1,1,1,1,0,0,1,0,0,1,0,0,0,0,0,0,0


#### 🔖 Explicações

...

### **4.4 Análise Sintática (Parsing)**

É o processo de analisar a estrutura gramatical de uma frase para entender a relação entre as palavras.

#### 🐍 Código - Inglês
- O código funciona bem para inglês mas nem sempre funciona muito bem para português

In [4]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('averaged_perceptron_tagger_eng')

##
# Inglês
##
frase = "O gato dorme no sofá."

# Separa a frase em tokens
tokens = word_tokenize(frase)

# Realiza a análise sintática 
tags = pos_tag(tokens)
print(f"\n\nTAGS: \n\t {tags} \n\n")



TAGS: 
	 [('O', 'NNP'), ('gato', 'NN'), ('dorme', 'NN'), ('no', 'DT'), ('sofá', 'NN'), ('.', '.')] 




[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\Luis Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


#### 🔖 Explicações

Cada par mostra a palavra e seu **`part-of-speech` (POS)** (tag sintática):
- `DT`: Determinante
- `NN`: Substantivo
- `VBZ`: Verbo (presente)
- `IN`: Preposição

**OBS**:
- O `averaged_perceptron_tagger` do NLTK é um modelo pré-treinado **exclusivamente para inglês** e não funciona para português.
- Se você precisa de `POS tagging` (etiquetagem gramatical) em português, terá que usar outras ferramentas, como `spaCy`, `Stanza` ou treinar um modelo próprio no NLTK.

#### 🐍 Código - Português

In [109]:
import spacy

##
# Português
##

# Modelo para português
nlp = spacy.load("pt_core_news_sm")  

#texto = "Eu gosto de programar em Python."
texto = "O gato dorme no sofá."

doc = nlp(texto)

for token in doc:
    print(f"{token.text} → {token.pos_}")  # POS tag (universal)
    #print(f"{token.text} → {token.tag_}")  # Tag detalhada (p.ex., 'VERB' vs. 'VERB__Mood=Ind')

O → DET
gato → NOUN
dorme → VERB
no → ADP
sofá → NOUN
. → PUNCT


#### 🔖 Explicações

...

### [DUP] **4.5 Representação Vetorial de Palavras**

Computadores trabalham com números, então precisamos representar palavras como vetores numéricos.

**Técnicas Comuns:**
- **Bag of Words (BoW)**: Conta a frequência de cada palavra.
- **TF-IDF**: Considera a importância relativa de uma palavra em um documento.
- **Word Embeddings**: Representações densas de palavras aprendidas com redes neurais (ex: Word2Vec, GloVe, FastText).

#### 🐍 Código

In [110]:
from sklearn.feature_extraction.text import CountVectorizer

docs = [
    "Gosto de programar em Python.",
    "Python é uma linguagem poderosa."
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)

print(vectorizer.get_feature_names_out())

print(X.toarray())

['de' 'em' 'gosto' 'linguagem' 'poderosa' 'programar' 'python' 'uma']
[[1 1 1 0 0 1 1 0]
 [0 0 0 1 1 0 1 1]]


#### 🔖 Explicações

...