<a href="https://colab.research.google.com/github/tsc86/Processamento-de-Linguagem-Natural---PLN/blob/main/Aula_03_Processamento_de_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1 - Normaliza√ß√£o do texto e remo√ß√£o de ru√≠do


In [None]:
# Importa biblioteca para express√µes regulares (limpeza de texto)
import re

# Texto original com ru√≠dos (pontua√ß√µes, s√≠mbolos, varia√ß√£o de caixa)
original = "Ol√°!!! Este √© um exemplo de texto, com v√°rias PONTUA√á√ïES, s√≠mbolos #especiais, e LETRAS mai√∫sculas."

# Remove caracteres especiais (mant√©m apenas letras e espa√ßos)
texto_limpo = re.sub(r'[^A-Za-z√Ä-√ø\s]', '', original)

# Padroniza texto em min√∫sculas
texto_normalizado = texto_limpo.lower()

# Exibe resultados do processamento
print('Texto original:', original)
print('Texto limpo:', texto_limpo)
print('Texto normalizado:', texto_normalizado)

Texto original: Ol√°!!! Este √© um exemplo de texto, com v√°rias PONTUA√á√ïES, s√≠mbolos #especiais, e LETRAS mai√∫sculas.
Texto limpo: Ol√° Este √© um exemplo de texto com v√°rias PONTUA√á√ïES s√≠mbolos especiais e LETRAS mai√∫sculas
Texto normalizado: ol√° este √© um exemplo de texto com v√°rias pontua√ß√µes s√≠mbolos especiais e letras mai√∫sculas


2 - Tokeniza√ß√£o


In [None]:
# Importa biblioteca NLP e tokenizador
import nltk
from nltk.tokenize import word_tokenize

# Baixa modelo de tokeniza√ß√£o para portugu√™s
nltk.download('punkt_tab')

# Exibe textos processados (original, limpo e normalizado)
print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

# Tokeniza texto normalizado (divide em palavras individuais)
tokens = word_tokenize(texto_normalizado, language='portuguese')
print(f'\nTokens extra√≠dos: {tokens}\n')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Texto original: Ol√°!!! Este √© um exemplo de texto, com v√°rias PONTUA√á√ïES, s√≠mbolos #especiais, e LETRAS mai√∫sculas.

Texto limpo: Ol√° Este √© um exemplo de texto com v√°rias PONTUA√á√ïES s√≠mbolos especiais e LETRAS mai√∫sculas

Texto normalizado: ol√° este √© um exemplo de texto com v√°rias pontua√ß√µes s√≠mbolos especiais e letras mai√∫sculas

Tokens extra√≠dos: ['ol√°', 'este', '√©', 'um', 'exemplo', 'de', 'texto', 'com', 'v√°rias', 'pontua√ß√µes', 's√≠mbolos', 'especiais', 'e', 'letras', 'mai√∫sculas']



3 - Remo√ß√£o de Stepwords


In [None]:
# Importa lista de stopwords (palavras sem significado contextual)
from nltk.corpus import stopwords

# Baixa lista de stopwords para portugu√™s
nltk.download('stopwords')

# Carrega stopwords em conjunto para busca eficiente
stopwords_pt = set(stopwords.words('portuguese'))
print("Stopwords em portugu√™s:", stopwords_pt)

# Filtra tokens removendo stopwords (palavras muito comuns)
tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

# Exibe resultados comparativos
print('\nTokens originais:', tokens, '\nQuantidade:', len(tokens))
print('\nTokens sem stopwords:', tokens_sem_stopwords, '\nQuantidade:', len(tokens_sem_stopwords))

Stopwords em portugu√™s: {'hajam', 'seus', 's√≥', 'num', 'nem', 'n√≥s', 'esta', 'da', 'nas', 'houv√©ssemos', 'mesmo', 't√≠nhamos', 'dele', 'seria', 'ao', 'forem', 'serei', 'por', 'for', 'eles', 'seu', '√†s', 'houverem', 'tiv√©ssemos', 'houvesse', 'fomos', 'estas', '√©', 'das', 'houver', 'fui', 'haver', 'mais', 'quem', 'essa', 'nossa', 'estiveram', 'formos', 'quando', 'depois', 'n√£o', 'estiver', 'sua', 'sejam', 'estivesse', 'seriam', 'se', 'seja', 'sejamos', 'entre', 'de', 'estamos', 'estiverem', 'pelas', 'terei', 'este', 'haja', 'j√°', 'aos', 'eram', 'suas', 'sem', 'tenham', 'teve', 'houver√≠amos', 'tivessem', 'nossos', 'tua', 'tenho', 'era', 'houvessem', 'tivesse', 'vos', 'est√°vamos', 'tu', 'foi', 'estiv√©ramos', 'houveram', 'no', 'o', 'eu', 'esses', 'ela', 'estava', 'dela', 'te', 'as', 'estes', 'mas', 'qual', 'tive', 'houve', 'h√£o', 'estejamos', 'at√©', 'nos', 'teria', 'tivera', 'meus', 'houvera', 'aquilo', 'foram', 'houverei', 't√©m', 'havemos', 'houveremos', 'meu', 'ser', 'tiver

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


4 - Stemming e Lemaliza√ß√£o

In [None]:

# Importa stemmer para redu√ß√£o de palavras ao radical
from nltk.stem import RSLPStemmer

# Baixa recursos para stemmer em portugu√™s
nltk.download('rslp')

# Cria inst√¢ncia do stemmer RSLP (espec√≠fico para portugu√™s)
stemmer = RSLPStemmer()

# Aplica stemming em cada palavra (reduz √† forma radical)
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]

# Exibe compara√ß√£o entre tokens originais e seus radicais
print('Tokens originais:', tokens_sem_stopwords)
print('Tokens ap√≥s stemming:', stemming)

Tokens originais: ['ol√°', 'exemplo', 'texto', 'v√°rias', 'pontua√ß√µes', 's√≠mbolos', 'especiais', 'letras', 'mai√∫sculas']
Tokens ap√≥s stemming: ['ol√°', 'exempl', 'text', 'v√°r', 'pontu', 's√≠mbol', 'espec', 'letr', 'mai√∫scul']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!



Exemplo 01 - Pr√© processamento completo


In [None]:
# Importa bibliotecas para processamento de linguagem natural
import nltk
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer  # Stemmer espec√≠fico para portugu√™s
import re

# Baixa recursos necess√°rios (executar apenas na primeira vez)
nltk.download('stopwords')
nltk.download('rslp')

# Recebe texto do usu√°rio
texto = input("Digite seu texto (pode conter s√≠mbolos): ")

# 1. LIMPEZA DO TEXTO
# Remove caracteres n√£o alfab√©ticos e normaliza espa√ßos
texto_limpo = re.sub(r'[^a-zA-Z√°-√∫√Å-√ö]', ' ', texto)
texto_limpo = ' '.join(texto_limpo.split())  # Remove espa√ßos extras

# 2. NORMALIZA√á√ÉO
# Converte para min√∫sculas
texto_normalizado = texto_limpo.lower()

# 3. TOKENIZA√á√ÉO
# Divide o texto em palavras individuais
tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

# 4. REMO√á√ÉO DE STOPWORDS
# Filtra palavras sem significado contextual
stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [p for p in tokens if p not in stopwords_pt]

# 5. STEMMING (REDU√á√ÉO AO RADICAL)
# Aplica stemmer espec√≠fico para portugu√™s
stemmer = RSLPStemmer()
radicais = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]

# RESULTADOS
print("\nProcessamento completo:")
print(f"Texto original: {texto}")
print(f"Texto limpo: {texto_limpo}")
print(f"Tokens: {tokens}")
print(f"Sem stopwords: {tokens_sem_stopwords}")
print(f"Radicais: {radicais}")
print(f"\nQuantidade de palavras: {len(radicais)}")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Digite seu texto (pode conter s√≠mbolos): oi

Processamento completo:
Texto original: oi
Texto limpo: oi
Tokens: ['oi']
Sem stopwords: ['oi']
Radicais: ['oi']

Quantidade de palavras: 1


Exemplo 02 - Estrutura e pr√© processamento de texto

In [None]:
# Importa√ß√µes otimizadas para PLN
import re
import spacy
import nltk
from nltk.corpus import stopwords

# Verifica√ß√£o e download de recursos necess√°rios
try:
    nlp = spacy.load("pt_core_news_sm")
except OSError:
    print("Baixando modelo do spaCy...")
    !python -m spacy download pt_core_news_sm
    nlp = spacy.load("pt_core_news_sm")

nltk.download(['stopwords', 'punkt_tab', 'rslp'], quiet=True)

# Texto de exemplo para an√°lise
texto = """
O Processamento de Linguagem Natural (PLN) revoluciona como interagimos com tecnologia.
An√°lise de sentimentos, chatbots e tradutores autom√°ticos s√£o aplica√ß√µes comuns.
Veja exemplos em: https://exemplo-pln.com.br! üòä
"""

# Pipeline de processamento
def processar_texto(texto):
    # 1. Normaliza√ß√£o
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)  # Remove URLs
    texto = re.sub(r'[^\w\s√°-√∫√Å-√ö]', '', texto.lower())  # Padroniza√ß√£o

    # 2. Tokeniza√ß√£o
    tokens = nltk.word_tokenize(texto, language='portuguese')

    # 3. Filtragem
    stopwords_pt = set(stopwords.words('portuguese'))
    tokens_filtrados = [t for t in tokens if t not in stopwords_pt and len(t) > 2]

    # 4. Stemming
    stemmer = nltk.RSLPStemmer()
    stems = [stemmer.stem(t) for t in tokens_filtrados]

    # 5. Lematiza√ß√£o
    lemas = [t.lemma_ for t in nlp(" ".join(tokens_filtrados))]

    return {
        'original': texto,
        'tokens': tokens,
        'filtrados': tokens_filtrados,
        'stems': stems,
        'lemas': lemas
    }

# Processamento e exibi√ß√£o
resultado = processar_texto(texto)
print(f"\nTexto original:\n{texto}")
print(f"\nTokens ({len(resultado['tokens'])}):\n{resultado['tokens']}")
print(f"\nSem stopwords ({len(resultado['filtrados'])}):\n{resultado['filtrados']}")
print(f"\nStems ({len(resultado['stems'])}):\n{resultado['stems']}")
print(f"\nLematiza√ß√£o ({len(resultado['lemas'])}):\n{resultado['lemas']}")

# An√°lise comparativa
diferencas = sum(1 for s,l in zip(resultado['stems'], resultado['lemas']) if s != l)
print(f"\nDiferen√ßas entre stemming/lematiza√ß√£o: {diferencas}")

Baixando modelo do spaCy...
Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m13.0/13.0 MB[0m [31m61.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.

Texto original:

O Processamento de Linguagem Natural (PLN) revoluciona como interagimos com tecnologia.
An√°lise de sentiment

Exemplo 03 - Modelo pr√© treinado


In [None]:

# Importa a biblioteca spaCy para processamento de linguagem natural
import spacy
from spacy import displacy  # Para visualiza√ß√£o de depend√™ncias

# Carrega o modelo pr√©-treinado para portugu√™s
# (Certifique-se de ter executado antes: !python -m spacy download pt_core_news_sm)
nlp = spacy.load("pt_core_news_sm")

# Recebe texto do usu√°rio para an√°lise
texto = input("Digite um texto para an√°lise lingu√≠stica: ")

# Processa o texto com o pipeline do spaCy
doc = nlp(texto)

# 1. AN√ÅLISE MORFOSSINT√ÅTICA (Part-of-Speech Tagging)
print('\nüî† AN√ÅLISE GRAMATICAL:')
for token in doc:
    print(f"Palavra: {token.text:<15} | Classe gramatical: {token.pos_:<10} | Tag detalhada: {token.tag_}")

# 2. AN√ÅLISE DE DEPEND√äNCIAS
print("\nüîó AN√ÅLISE DE DEPEND√äNCIAS:")
for token in doc:
    print(f"Palavra: {token.text:<15} | Rela√ß√£o: {token.dep_:<10} | Governante: {token.head.text}")

# 3. VISUALIZA√á√ÉO GR√ÅFICA (opcional - funciona no Jupyter/Colab)
print("\nüå≥ VISUALIZA√á√ÉO DA √ÅRVORE DE DEPEND√äNCIAS:")
displacy.render(doc, style="dep", jupyter=True, options={'distance': 90})

# 4. INFORMA√á√ïES ADICIONAIS
print("\nüìä ESTAT√çSTICAS DO TEXTO:")
print(f"N√∫mero de tokens: {len(doc)}")
print(f"N√∫mero de frases: {len(list(doc.sents))}")
print(f"Palavras √∫nicas: {len(set(token.text for token in doc))}")

Digite um texto para an√°lise lingu√≠stica: ola! tudo bem?

üî† AN√ÅLISE GRAMATICAL:
Palavra: ola             | Classe gramatical: INTJ       | Tag detalhada: INTJ
Palavra: !               | Classe gramatical: PUNCT      | Tag detalhada: PUNCT
Palavra: tudo            | Classe gramatical: PRON       | Tag detalhada: PRON
Palavra: bem             | Classe gramatical: ADV        | Tag detalhada: ADV
Palavra: ?               | Classe gramatical: PUNCT      | Tag detalhada: PUNCT

üîó AN√ÅLISE DE DEPEND√äNCIAS:
Palavra: ola             | Rela√ß√£o: ROOT       | Governante: ola
Palavra: !               | Rela√ß√£o: punct      | Governante: ola
Palavra: tudo            | Rela√ß√£o: ROOT       | Governante: tudo
Palavra: bem             | Rela√ß√£o: advmod     | Governante: tudo
Palavra: ?               | Rela√ß√£o: punct      | Governante: tudo

üå≥ VISUALIZA√á√ÉO DA √ÅRVORE DE DEPEND√äNCIAS:



üìä ESTAT√çSTICAS DO TEXTO:
N√∫mero de tokens: 5
N√∫mero de frases: 2
Palavras √∫nicas: 5
