<a href="https://colab.research.google.com/github/tsc86/Processamento-de-Linguagem-Natural---PLN/blob/main/Aula_03_Processamento_de_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1 - Normalização do texto e remoção de ruído


In [None]:
# Importa biblioteca para expressões regulares (limpeza de texto)
import re

# Texto original com ruídos (pontuações, símbolos, variação de caixa)
original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

# Remove caracteres especiais (mantém apenas letras e espaços)
texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '', original)

# Padroniza texto em minúsculas
texto_normalizado = texto_limpo.lower()

# Exibe resultados do processamento
print('Texto original:', original)
print('Texto limpo:', texto_limpo)
print('Texto normalizado:', texto_normalizado)

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.
Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas
Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


2 - Tokenização


In [None]:
# Importa biblioteca NLP e tokenizador
import nltk
from nltk.tokenize import word_tokenize

# Baixa modelo de tokenização para português
nltk.download('punkt_tab')

# Exibe textos processados (original, limpo e normalizado)
print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

# Tokeniza texto normalizado (divide em palavras individuais)
tokens = word_tokenize(texto_normalizado, language='portuguese')
print(f'\nTokens extraídos: {tokens}\n')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas

Tokens extraídos: ['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']



3 - Remoção de Stepwords


In [None]:
# Importa lista de stopwords (palavras sem significado contextual)
from nltk.corpus import stopwords

# Baixa lista de stopwords para português
nltk.download('stopwords')

# Carrega stopwords em conjunto para busca eficiente
stopwords_pt = set(stopwords.words('portuguese'))
print("Stopwords em português:", stopwords_pt)

# Filtra tokens removendo stopwords (palavras muito comuns)
tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

# Exibe resultados comparativos
print('\nTokens originais:', tokens, '\nQuantidade:', len(tokens))
print('\nTokens sem stopwords:', tokens_sem_stopwords, '\nQuantidade:', len(tokens_sem_stopwords))

Stopwords em português: {'hajam', 'seus', 'só', 'num', 'nem', 'nós', 'esta', 'da', 'nas', 'houvéssemos', 'mesmo', 'tínhamos', 'dele', 'seria', 'ao', 'forem', 'serei', 'por', 'for', 'eles', 'seu', 'às', 'houverem', 'tivéssemos', 'houvesse', 'fomos', 'estas', 'é', 'das', 'houver', 'fui', 'haver', 'mais', 'quem', 'essa', 'nossa', 'estiveram', 'formos', 'quando', 'depois', 'não', 'estiver', 'sua', 'sejam', 'estivesse', 'seriam', 'se', 'seja', 'sejamos', 'entre', 'de', 'estamos', 'estiverem', 'pelas', 'terei', 'este', 'haja', 'já', 'aos', 'eram', 'suas', 'sem', 'tenham', 'teve', 'houveríamos', 'tivessem', 'nossos', 'tua', 'tenho', 'era', 'houvessem', 'tivesse', 'vos', 'estávamos', 'tu', 'foi', 'estivéramos', 'houveram', 'no', 'o', 'eu', 'esses', 'ela', 'estava', 'dela', 'te', 'as', 'estes', 'mas', 'qual', 'tive', 'houve', 'hão', 'estejamos', 'até', 'nos', 'teria', 'tivera', 'meus', 'houvera', 'aquilo', 'foram', 'houverei', 'tém', 'havemos', 'houveremos', 'meu', 'ser', 'tiverem', 'houvéramos

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


4 - Stemming e Lemalização

In [None]:

# Importa stemmer para redução de palavras ao radical
from nltk.stem import RSLPStemmer

# Baixa recursos para stemmer em português
nltk.download('rslp')

# Cria instância do stemmer RSLP (específico para português)
stemmer = RSLPStemmer()

# Aplica stemming em cada palavra (reduz à forma radical)
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]

# Exibe comparação entre tokens originais e seus radicais
print('Tokens originais:', tokens_sem_stopwords)
print('Tokens após stemming:', stemming)

Tokens originais: ['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']
Tokens após stemming: ['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!



Exemplo 01 - Pré processamento completo


In [None]:
# Importa bibliotecas para processamento de linguagem natural
import nltk
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer  # Stemmer específico para português
import re

# Baixa recursos necessários (executar apenas na primeira vez)
nltk.download('stopwords')
nltk.download('rslp')

# Recebe texto do usuário
texto = input("Digite seu texto (pode conter símbolos): ")

# 1. LIMPEZA DO TEXTO
# Remove caracteres não alfabéticos e normaliza espaços
texto_limpo = re.sub(r'[^a-zA-Zá-úÁ-Ú]', ' ', texto)
texto_limpo = ' '.join(texto_limpo.split())  # Remove espaços extras

# 2. NORMALIZAÇÃO
# Converte para minúsculas
texto_normalizado = texto_limpo.lower()

# 3. TOKENIZAÇÃO
# Divide o texto em palavras individuais
tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

# 4. REMOÇÃO DE STOPWORDS
# Filtra palavras sem significado contextual
stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [p for p in tokens if p not in stopwords_pt]

# 5. STEMMING (REDUÇÃO AO RADICAL)
# Aplica stemmer específico para português
stemmer = RSLPStemmer()
radicais = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]

# RESULTADOS
print("\nProcessamento completo:")
print(f"Texto original: {texto}")
print(f"Texto limpo: {texto_limpo}")
print(f"Tokens: {tokens}")
print(f"Sem stopwords: {tokens_sem_stopwords}")
print(f"Radicais: {radicais}")
print(f"\nQuantidade de palavras: {len(radicais)}")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Digite seu texto (pode conter símbolos): oi

Processamento completo:
Texto original: oi
Texto limpo: oi
Tokens: ['oi']
Sem stopwords: ['oi']
Radicais: ['oi']

Quantidade de palavras: 1


Exemplo 02 - Estrutura e pré processamento de texto

In [None]:
# Importações otimizadas para PLN
import re
import spacy
import nltk
from nltk.corpus import stopwords

# Verificação e download de recursos necessários
try:
    nlp = spacy.load("pt_core_news_sm")
except OSError:
    print("Baixando modelo do spaCy...")
    !python -m spacy download pt_core_news_sm
    nlp = spacy.load("pt_core_news_sm")

nltk.download(['stopwords', 'punkt_tab', 'rslp'], quiet=True)

# Texto de exemplo para análise
texto = """
O Processamento de Linguagem Natural (PLN) revoluciona como interagimos com tecnologia.
Análise de sentimentos, chatbots e tradutores automáticos são aplicações comuns.
Veja exemplos em: https://exemplo-pln.com.br! 😊
"""

# Pipeline de processamento
def processar_texto(texto):
    # 1. Normalização
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)  # Remove URLs
    texto = re.sub(r'[^\w\sá-úÁ-Ú]', '', texto.lower())  # Padronização

    # 2. Tokenização
    tokens = nltk.word_tokenize(texto, language='portuguese')

    # 3. Filtragem
    stopwords_pt = set(stopwords.words('portuguese'))
    tokens_filtrados = [t for t in tokens if t not in stopwords_pt and len(t) > 2]

    # 4. Stemming
    stemmer = nltk.RSLPStemmer()
    stems = [stemmer.stem(t) for t in tokens_filtrados]

    # 5. Lematização
    lemas = [t.lemma_ for t in nlp(" ".join(tokens_filtrados))]

    return {
        'original': texto,
        'tokens': tokens,
        'filtrados': tokens_filtrados,
        'stems': stems,
        'lemas': lemas
    }

# Processamento e exibição
resultado = processar_texto(texto)
print(f"\nTexto original:\n{texto}")
print(f"\nTokens ({len(resultado['tokens'])}):\n{resultado['tokens']}")
print(f"\nSem stopwords ({len(resultado['filtrados'])}):\n{resultado['filtrados']}")
print(f"\nStems ({len(resultado['stems'])}):\n{resultado['stems']}")
print(f"\nLematização ({len(resultado['lemas'])}):\n{resultado['lemas']}")

# Análise comparativa
diferencas = sum(1 for s,l in zip(resultado['stems'], resultado['lemas']) if s != l)
print(f"\nDiferenças entre stemming/lematização: {diferencas}")

Baixando modelo do spaCy...
Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m61.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.

Texto original:

O Processamento de Linguagem Natural (PLN) revoluciona como interagimos com tecnologia.
Análise de sentimentos, chatbots e tradutores automáticos são aplicações comuns. 
Veja exemplos em: https

Exemplo 03 - Modelo pré treinado


In [None]:

# Importa a biblioteca spaCy para processamento de linguagem natural
import spacy
from spacy import displacy  # Para visualização de dependências

# Carrega o modelo pré-treinado para português
# (Certifique-se de ter executado antes: !python -m spacy download pt_core_news_sm)
nlp = spacy.load("pt_core_news_sm")

# Recebe texto do usuário para análise
texto = input("Digite um texto para análise linguística: ")

# Processa o texto com o pipeline do spaCy
doc = nlp(texto)

# 1. ANÁLISE MORFOSSINTÁTICA (Part-of-Speech Tagging)
print('\n🔠 ANÁLISE GRAMATICAL:')
for token in doc:
    print(f"Palavra: {token.text:<15} | Classe gramatical: {token.pos_:<10} | Tag detalhada: {token.tag_}")

# 2. ANÁLISE DE DEPENDÊNCIAS
print("\n🔗 ANÁLISE DE DEPENDÊNCIAS:")
for token in doc:
    print(f"Palavra: {token.text:<15} | Relação: {token.dep_:<10} | Governante: {token.head.text}")

# 3. VISUALIZAÇÃO GRÁFICA (opcional - funciona no Jupyter/Colab)
print("\n🌳 VISUALIZAÇÃO DA ÁRVORE DE DEPENDÊNCIAS:")
displacy.render(doc, style="dep", jupyter=True, options={'distance': 90})

# 4. INFORMAÇÕES ADICIONAIS
print("\n📊 ESTATÍSTICAS DO TEXTO:")
print(f"Número de tokens: {len(doc)}")
print(f"Número de frases: {len(list(doc.sents))}")
print(f"Palavras únicas: {len(set(token.text for token in doc))}")

Digite um texto para análise linguística: ola! tudo bem?

🔠 ANÁLISE GRAMATICAL:
Palavra: ola             | Classe gramatical: INTJ       | Tag detalhada: INTJ
Palavra: !               | Classe gramatical: PUNCT      | Tag detalhada: PUNCT
Palavra: tudo            | Classe gramatical: PRON       | Tag detalhada: PRON
Palavra: bem             | Classe gramatical: ADV        | Tag detalhada: ADV
Palavra: ?               | Classe gramatical: PUNCT      | Tag detalhada: PUNCT

🔗 ANÁLISE DE DEPENDÊNCIAS:
Palavra: ola             | Relação: ROOT       | Governante: ola
Palavra: !               | Relação: punct      | Governante: ola
Palavra: tudo            | Relação: ROOT       | Governante: tudo
Palavra: bem             | Relação: advmod     | Governante: tudo
Palavra: ?               | Relação: punct      | Governante: tudo

🌳 VISUALIZAÇÃO DA ÁRVORE DE DEPENDÊNCIAS:



📊 ESTATÍSTICAS DO TEXTO:
Número de tokens: 5
Número de frases: 2
Palavras únicas: 5
