# Processamento de Linguagem Natural (PLN)

## **1. O que √© Processamento de Linguagem Natural (PLN)?**

### **Defini√ß√£o:**
O **Processamento de Linguagem Natural (Natural Language Processing ‚Äì NLP)** √© um ramo da **Intelig√™ncia Artificial** e da **Ci√™ncia da Computa√ß√£o** que se dedica a permitir que os **computadores entendam, interpretem, gerem e respondam a linguagem humana**, seja escrita ou falada.

Em outras palavras, o PLN tenta "ensinar" aos computadores como interpretar textos ou fala como humanos fazem, reconhecendo significados, inten√ß√µes e emo√ß√µes.

## **2. Por que o PLN √© Importante?**

A linguagem natural √© a forma principal de comunica√ß√£o dos seres humanos. Com o avan√ßo das tecnologias digitais, a quantidade de dados em formato textual (como emails, redes sociais, livros, artigos cient√≠ficos) cresce exponencialmente. 

O PLN permite:

- Automatizar tarefas manuais com texto.
- Extrair informa√ß√µes √∫teis de grandes volumes de dados textuais.
- Criar interfaces mais naturais entre humanos e m√°quinas (ex: assistentes virtuais).
- Facilitar tradu√ß√µes autom√°ticas.
- Analisar sentimentos, opini√µes e tend√™ncias.

## **3. Aplica√ß√µes do PLN no Cotidiano**

Vamos ver algumas aplica√ß√µes reais do PLN que voc√™ provavelmente j√° utilizou:

| Aplica√ß√£o | Descri√ß√£o |
|----------|-----------|
| **Assistentes Virtuais** (ex: Siri, Alexa, Google Assistant) | Entendem perguntas em linguagem natural e respondem. |
| **Tradutores Autom√°ticos** (ex: Google Translate) | Traduz textos entre idiomas diferentes. |
| **An√°lise de Sentimento** | Avalia se uma frase √© positiva, negativa ou neutra. |
| **Chatbots** | Responde automaticamente a usu√°rios em sites e apps. |
| **Classifica√ß√£o de Textos** | Separa textos por categorias (ex: not√≠cias esportivas vs. pol√≠ticas). |
| **Sumariza√ß√£o Autom√°tica** | Gera resumos de longos textos. |
| **Detec√ß√£o de Pl√°gio** | Identifica c√≥pias de textos. |
| **Corre√ß√£o Ortogr√°fica e Gramatical** | Corrige erros em textos. |

## **4. Fundamentos do PLN**

Para que um computador entenda a linguagem natural, ele precisa passar por diversos est√°gios de processamento. Vamos entender cada um desses est√°gios:

### **4.1 Tokeniza√ß√£o**

**Tokeniza√ß√£o** √© o processo de dividir um texto em unidades menores chamadas *tokens*. Cada token pode ser uma palavra, n√∫mero, pontua√ß√£o, etc.

#### üêç C√≥digo
- Carga das bibliotecas
- Download de arquivos de apoio

In [1]:
import re
import regex
import unicodedata
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

# Baixa o modelo de tokeniza√ß√£o para portugu√™s e outros compomentes do NLTK
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('omw-1.4')  # Suporte multil√≠ngue
nltk.download('wordnet')   # WordNet principal
nltk.download('rslp')

#def download_nltk_resource(resource):
#    try:
#        nltk.data.find(resource)
#    except LookupError:
#        nltk.download(resource.split('/')[-1])
#
# Baixa os recursos necess√°rios
# download_nltk_resource('tokenizers/punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

#### üîñ Explica√ß√µes

- Importa a biblioteca `NLTK` (**Natural Language Toolkit**), usada para processamento de linguagem natural em Python.
- Importa a fun√ß√£o `word_tokenize`, que divide um texto em palavras ou tokens.
- Ao rodar esse c√≥digo, ele garante que o recurso punkt esteja instalado, mesmo que ele ainda n√£o tenha sido baixado antes.
nltk.download('punkt')

1. **`nltk.download('punkt')`**  
   - Baixa o **tokenizador "Punkt"**, usado para dividir textos em frases e palavras.

2. **`nltk.download('punkt_tab')`**  
   - Baixa tabelas auxiliares para o tokenizador, melhorando sua efici√™ncia.

3. **`nltk.download('stopwords')`**  
   - Baixa listas de **palavras irrelevantes (stopwords)** como "de", "e", "o", que s√£o filtradas em pr√©-processamento.

4. **`nltk.download('omw-1.4')`**  
   - Baixa suporte multil√≠ngue para o **Open Multilingual WordNet**, √∫til para tarefas como l√©xico e sem√¢ntica.

5. **`nltk.download('wordnet')`**  
   - Baixa o **WordNet** (em ingl√™s), um banco de dados l√©xico usado para sin√¥nimos e an√°lise de significado.

6. **`nltk.download('rslp')`**  
   - Baixa o **Removedor de Sufixos da L√≠ngua Portuguesa (RSLP)**, usado para **stemming** (reduzir palavras √† raiz, como "correndo" ‚Üí "corr").


#### üêç C√≥digo - Carregando e processando texto

In [2]:
##
# Lista de textos de exemplo
##
#texto = "Bom dia! Como voc√™ est√°?"
#texto = "Ol√°, tudo bem? Meu nome √© Z√© das Coves. Gosto de programa√ß√£o!"
texto = [
    "Ol√°, tudo bem? Este √© um texto de Exemplo!",
    "Eu amo programa√ß√£o em Python e Machine Learning.",
    "Texto com MUITAS PONTUA√á√ïES... e alguns STOP WORDS!",
    "Outro exemplo: A corrida de dados √© essencial em ML!!!"
]


# 1) Definir stopwords (ex.: portugu√™s, mas ajuste conforme sua necessidade)
# "de", "a", "o", "e", ...
stopwords_pt = set(stopwords.words('portuguese'))  

# 2) Fun√ß√£o de limpeza e tokeniza√ß√£o
def preprocess_text(text):
    # a) Colocar tudo em min√∫sculo
    text = text.lower()
    
    # b) Remover pontua√ß√µes e caracteres especiais (regex)
    #text = re.sub(r'[^a-z0-9\s]', '', text)
    #text = re.sub(r'[.,!?;:()\[\]{}\'"\-_]', '', text)
    text = regex.sub(r'\p{P}+', '', text)

    # c) Tokenizar de forma simples (split por espa√ßo)
    #tokens = text.split()
    tokens = word_tokenize(text, language='portuguese')    
    
    # d) Remover stopwords
    tokens = [t for t in tokens if t not in stopwords_pt]
    
    # e) Reunir tokens novamente, se quisermos gerar um "texto limpo"
    return " ".join(tokens)

# 3) Limpar cada texto na lista
texto_limpo = [preprocess_text(txt) for txt in texto]


print (f"Texto original: \n\t{texto}\n")
print (f"Texto limpo   : \n\t{texto_limpo}\n")


Texto original: 
	['Ol√°, tudo bem? Este √© um texto de Exemplo!', 'Eu amo programa√ß√£o em Python e Machine Learning.', 'Texto com MUITAS PONTUA√á√ïES... e alguns STOP WORDS!', 'Outro exemplo: A corrida de dados √© essencial em ML!!!']

Texto limpo   : 
	['ol√° tudo bem texto exemplo', 'amo programa√ß√£o python machine learning', 'texto muitas pontua√ß√µes alguns stop words', 'outro exemplo corrida dados essencial ml']



#### üîñ Explica√ß√µes

...

### **4.2 Lemmatiza√ß√£o e Stemming**

Esses processos transformam palavras em suas formas base ou raiz.

- **Stemming**: Reduz palavras √† sua raiz, sem garantir que seja uma palavra real.
  - Ex: "running" ‚Üí "run"
    
- **Lemmatization**: Reduz palavras √† sua forma can√¥nica (lemma), considerando o contexto gramatical.
  - Ex: "running" ‚Üí "running"
    
Este c√≥digo importa bibliotecas e ferramentas essenciais para **pr√©-processamento de texto** em PLN (Processamento de Linguagem Natural), com foco em **redu√ß√£o de palavras √†s suas formas base** (stemming e lematiza√ß√£o).  

**1. Stemmers (Redu√ß√£o Radical)**  
- **`PorterStemmer`** (NLTK):  
  - Algoritmo para **stemming em ingl√™s** (ex: "running" ‚Üí "run").  
- **`RSLPStemmer`** (NLTK):  
  - Algoritmo para **stemming em portugu√™s** (ex: "correndo" ‚Üí "corr").  

**2. Lematiza√ß√£o (Redu√ß√£o √† Forma Can√¥nica)**  
- **`WordNetLemmatizer`** (NLTK):  
  - Usa o **WordNet** para lematiza√ß√£o em ingl√™s (ex: "better" ‚Üí "good").  
  - *Requer `nltk.download('wordnet')`*.  

**3. spaCy (Processamento Avan√ßado)**  
- **`spacy`**:  
  - Biblioteca poderosa para PLN, com suporte a **lematiza√ß√£o, POS tagging (an√°lise gramatical) e NER (reconhecimento de entidades)**.  
  - *Para portugu√™s, normalmente carrega-se o modelo `pt_core_news_sm`*.  

#### üêç C√≥digo - para ingl√™s
‚≠êÔ∏è **O c√≥digo possui suporte a ingl√™s, mas que n√£o funciona muito bem para portugu√™s**

In [3]:
from nltk.stem import PorterStemmer, WordNetLemmatizer, RSLPStemmer
import spacy

##
# Ingl√™s
##
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

print("\nStemming    :", stemmer.stem("running"))
print("Lematiza√ß√£o :", lemmatizer.lemmatize("running"))

print("\nStemming    :", stemmer.stem("correndo"))
print("Lematiza√ß√£o :", lemmatizer.lemmatize("correndo"))
   


Stemming    : run
Lematiza√ß√£o : running

Stemming    : correndo
Lematiza√ß√£o : correndo


#### üêç C√≥digo - para portugu√™s

In [4]:
##
# Portugues - Stemming
##
stemmer_pt = RSLPStemmer()

palavras = ["correr", "correndo", "corrida", "c√£o", "c√£es"]
print(f"\nPalavras    : {palavras}")

palavras_stemmed = [stemmer_pt.stem(p) for p in palavras]
print(f"Stemming PT : {palavras_stemmed} \n")


##
# Portugues - Lematiza√ß√£o 
##

# Carrega o modelo em portugu√™s
nlp = spacy.load("pt_core_news_sm")  

frase = "Eu estava correndo com meus c√£es na praia"
doc = nlp(frase)
for token in doc:
    print(f"Palavra: {token.text} \t ‚Üí Lemma: {token.lemma_}")   



Palavras    : ['correr', 'correndo', 'corrida', 'c√£o', 'c√£es']
Stemming PT : ['corr', 'corr', 'corr', 'c√£o', 'c√£o'] 



OSError: [E050] Can't find model 'pt_core_news_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

#### üîñ Explica√ß√µes

Por que o `WordNetLemmatizer` n√£o funciona para portugu√™s?
- O WordNetLemmatizer depende do WordNet, que s√≥ existe para ingl√™s.
- N√£o h√° um equivalente oficial do WordNet para portugu√™s no NLTK.
- Tentar us√°-lo resultar√° em erros ou lemmatiza√ß√£o incorreta.

Alternativa com NLTK (Stemming, mas n√£o Lemmatiza√ß√£o)
- Se voc√™ precisa usar o NLTK e n√£o pode instalar spaCy/Stanza, pode usar o RSLPStemmer para stemming (mas lembre-se: stemming ‚â† lemmatiza√ß√£o)
- Limita√ß√£o: O stemming corta sufixos sem garantir que a palavra resultante exista no dicion√°rio (ex: "c√£es" ‚Üí "c√£").

**Conclus√£o**
- ‚úÖ **Para lemmatiza√ß√£o em portugu√™s, use spaCy ou Stanza** (eles t√™m modelos pr√©-treinados para PT).
- ‚ùå **N√£o use `WordNetLemmatizer` para portugu√™s** (n√£o funciona).
- ‚ö†Ô∏è **Se precisar apenas de stemming, use `RSLPStemmer` do NLTK**, mas lembre-se que os resultados s√£o menos precisos.

#### üêç C√≥digo

In [None]:
##
# Portugues
##

# Carrega o modelo em portugu√™s
nlp = spacy.load("pt_core_news_sm")  

def lemmatizar_frases(lista_frases):
    frases_lematizadas = []
    
    for frase in lista_frases:
        doc = nlp(frase)
        # Lematiza cada token e junta novamente em uma string
        frase_lematizada = " ".join([token.lemma_ for token in doc])
        frases_lematizadas.append(frase_lematizada)
    
    return frases_lematizadas

def remover_acentos(texto):
    # Normaliza o texto (decomp√µe os caracteres acentuados em caracteres simples + acento)
    texto_normalizado = unicodedata.normalize('NFKD', texto)

    # Remove os caracteres de acentua√ß√£o (como ~, ¬¥, `, ^, etc.)
    texto_sem_acentos = ''.join(c for c in texto_normalizado if not unicodedata.combining(c))
    
    return texto_sem_acentos


# Aplica a lematiza√ß√£o
texto_lematizado = lemmatizar_frases(texto_limpo)

# Removendo os acentos
texto_lematizado_sem_acento=[]
for linha in texto_lematizado:
    linha_sem_acento=remover_acentos(linha)
    texto_lematizado_sem_acento.append(linha_sem_acento)

# Mostra o resultado
for original, lematizada, lematizada_sem_acento in zip(texto_limpo, texto_lematizado,  texto_lematizado_sem_acento):
    print(f"Original             : {original}")
    print(f"Lematizada           : {lematizada}")
    print(f"Lematizada s/acento  : {lematizada_sem_acento}\n")

#### üîñ Explica√ß√µes

...

### **4.3 Vetoriza√ß√£o do texto**

Computadores trabalham com n√∫meros, ent√£o precisamos representar palavras como vetores num√©ricos.

**T√©cnicas Comuns:**
- **Bag of Words (BoW)**: Conta a frequ√™ncia de cada palavra.
- **TF-IDF**: Considera a import√¢ncia relativa de uma palavra em um documento.
- **Word Embeddings**: Representa√ß√µes densas de palavras aprendidas com redes neurais (ex: Word2Vec, GloVe, FastText).

#### üêç C√≥digo 
- Vetorizar com CountVectorizer (Bag-of-Words)

In [None]:
# 4) Vetorizar com CountVectorizer (Bag-of-Words)
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(texto_lematizado_sem_acento)

print(f"\n\nVocabul√°rio: \n\n{vectorizer.get_feature_names_out()}\n")
print(f"\nMatriz BOW:\n\n {bow_matrix.toarray()}")

#### üîñ Explica√ß√µes

...

#### üêç C√≥digo - Converter para DataFrame, apenas para visualiza√ß√£o

In [None]:
# 5) Converter para DataFrame, apenas para visualiza√ß√£o
bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out())

bow_df.head(5)

#### üêç C√≥digo  - Salvando o dataset

In [None]:
bow_df.to_csv('./dataset/dataset_bow_matrizx-2025.06.30.csv', index=False)
bow_df.to_csv('./dataset/dataset_bow_matrizx-2025.06.30.csv.gzip', compression='gzip', index=False)

#### üêç C√≥digo - Visualizando o resultado

In [None]:
#print (f"Texto original: \n\t{texto}\n")
print("Textos originais:")
for i, t in enumerate(texto):
    print(f"\t{i+1}: {t}")



print("\nTextos p√≥s-limpeza:")
for i, ct in enumerate(texto_lematizado_sem_acento):
    print(f"\t{i+1}: {ct}")

print("\nMatriz Bag-of-Words:")
bow_df.head()


#### üîñ Explica√ß√µes

...

### **4.4 An√°lise Sint√°tica (Parsing)**

√â o processo de analisar a estrutura gramatical de uma frase para entender a rela√ß√£o entre as palavras.

#### üêç C√≥digo - Ingl√™s
- O c√≥digo funciona bem para ingl√™s mas nem sempre funciona muito bem para portugu√™s

In [None]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('averaged_perceptron_tagger_eng')

##
# Ingl√™s
##
frase = "O gato dorme no sof√°."

# Separa a frase em tokens
tokens = word_tokenize(frase)

# Realiza a an√°lise sint√°tica 
tags = pos_tag(tokens)
print(f"\n\nTAGS: \n\t {tags} \n\n")

#### üîñ Explica√ß√µes

Cada par mostra a palavra e seu **`part-of-speech` (POS)** (tag sint√°tica):
- `DT`: Determinante
- `NN`: Substantivo
- `VBZ`: Verbo (presente)
- `IN`: Preposi√ß√£o

**OBS**:
- O `averaged_perceptron_tagger` do NLTK √© um modelo pr√©-treinado **exclusivamente para ingl√™s** e n√£o funciona para portugu√™s.
- Se voc√™ precisa de `POS tagging` (etiquetagem gramatical) em portugu√™s, ter√° que usar outras ferramentas, como `spaCy`, `Stanza` ou treinar um modelo pr√≥prio no NLTK.

#### üêç C√≥digo - Portugu√™s

In [None]:
import spacy

##
# Portugu√™s
##

# Modelo para portugu√™s
nlp = spacy.load("pt_core_news_sm")  

#texto = "Eu gosto de programar em Python."
texto = "O gato dorme no sof√°."

doc = nlp(texto)

for token in doc:
    print(f"{token.text} ‚Üí {token.pos_}")  # POS tag (universal)
    #print(f"{token.text} ‚Üí {token.tag_}")  # Tag detalhada (p.ex., 'VERB' vs. 'VERB__Mood=Ind')

#### üîñ Explica√ß√µes

...

### [DUP] **4.5 Representa√ß√£o Vetorial de Palavras**

Computadores trabalham com n√∫meros, ent√£o precisamos representar palavras como vetores num√©ricos.

**T√©cnicas Comuns:**
- **Bag of Words (BoW)**: Conta a frequ√™ncia de cada palavra.
- **TF-IDF**: Considera a import√¢ncia relativa de uma palavra em um documento.
- **Word Embeddings**: Representa√ß√µes densas de palavras aprendidas com redes neurais (ex: Word2Vec, GloVe, FastText).

#### üêç C√≥digo

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

docs = [
    "Gosto de programar em Python.",
    "Python √© uma linguagem poderosa."
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)

print(vectorizer.get_feature_names_out())

print(X.toarray())

#### üîñ Explica√ß√µes

...