# Aula 03 - Processamento de Texto e Pré-processamento de Dados

## 1. Normalização do texto e remoção de ruído

In [None]:
 # importa a biblioteca para trabalhar com expressões regulares
import re

original = "Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas."

texto_limpo = re.sub(r'[^A-Za-zÀ-ÿ\s]', '',original)

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.

Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas

Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


## 2. Tokenização

In [None]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')



print(f'Texto original: {original}')
print(f'\n\nTexto limpo: {texto_limpo}')
print(f'\n\nTexto normalizado: {texto_normalizado}')

tokens = word_tokenize(texto_normalizado)
print(f'\n\nTokens extraidos: {tokens}\n')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...


Texto original: Olá!!! Este é um exemplo de texto, com várias PONTUAÇÕES, símbolos #especiais, e LETRAS maiúsculas.


Texto limpo: Olá Este é um exemplo de texto com várias PONTUAÇÕES símbolos especiais e LETRAS maiúsculas


Texto normalizado: olá este é um exemplo de texto com várias pontuações símbolos especiais e letras maiúsculas


Tokens extraidos: ['olá', 'este', 'é', 'um', 'exemplo', 'de', 'texto', 'com', 'várias', 'pontuações', 'símbolos', 'especiais', 'e', 'letras', 'maiúsculas']



[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


## 3. Remoção de Stepwords

In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

print(stopwords_pt)

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(f'\n\nTokens extraidos: {tokens} + \n quantidade de tokens: {len(tokens)}')
print(f'\n\nTokens extraidos: {tokens_sem_stopwords} + \n quantidade de tokens: {len(tokens_sem_stopwords)}\n')

[nltk_data] Downloading package stopwords to /root/nltk_data...


{'houverem', 'tenhamos', 'tenha', 'vocês', 'houvéramos', 'lhe', 'depois', 'estivesse', 'nos', 'dos', 'éramos', 'muito', 'de', 'houveria', 'dele', 'nossas', 'tua', 'nós', 'nem', 'sejamos', 'minha', 'essas', 'estar', 'quem', 'aquelas', 'fossem', 'estavam', 'não', 'pelos', 'com', 'somos', 'está', 'estão', 'mesmo', 'entre', 'aquilo', 'te', 'nossos', 'estivéssemos', 'às', 'mas', 'houveríamos', 'me', 'estes', 'tivermos', 'estas', 'houvermos', 'fomos', 'tivéssemos', 'em', 'meus', 'só', 'tuas', 'estivemos', 'houverão', 'um', 'hajamos', 'há', 'tivéramos', 'mais', 'da', 'das', 'houvessem', 'sejam', 'estou', 'estivessem', 'tivemos', 'uma', 'aos', 'houve', 'seu', 'foram', 'esteja', 'delas', 'ela', 'formos', 'houvesse', 'nosso', 'esses', 'qual', 'para', 'teve', 'forem', 'tu', 'até', 'havemos', 'as', 'os', 'sua', 'tiveram', 'estamos', 'fosse', 'tenho', 'na', 'serão', 'foi', 'eram', 'seremos', 'teria', 'meu', 'estiveram', 'tive', 'serei', 'estivéramos', 'o', 'tinham', 'a', 'aquele', 'já', 'tivessem',

[nltk_data]   Unzipping corpora/stopwords.zip.


## 4. Stemming e Lemalização

In [None]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(f'\n\nTokens extraidos: {tokens_sem_stopwords}')
print(f'\n\nTokens radicais: {stemming}\n\n\n')

[nltk_data] Downloading package rslp to /root/nltk_data...




Tokens extraidos: ['olá', 'exemplo', 'texto', 'várias', 'pontuações', 'símbolos', 'especiais', 'letras', 'maiúsculas']


Tokens radicais: ['olá', 'exempl', 'text', 'vár', 'pontu', 'símbol', 'espec', 'letr', 'maiúscul']





[nltk_data]   Unzipping stemmers/rslp.zip.


## 5. Exemplo  01 - Pré processamento completo

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necessário)
#nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = input("Insira um texto que seja coerente, podendo ter símbolos: ")

# Limpeza de ruídos e normalização
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)  # Remove tudo que não for letra e substitui por espaço
texto_lower = texto_limpo.lower()  # Converte para minúsculas

# Tokenização
tokens = nltk.word_tokenize(texto_lower)

# Remoção de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impressão do resultado final
print(palavras_stemizadas)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Insira um texto que seja coerente, podendo ter símbolos: text coerente com símbolos
['text', 'coerent', 's', 'mbolo']


## Exemplo 02 - Estrutura e pré processamento de texto

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m25.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import re
import spacy
import nltk
from nltk.corpus import stopwords
import string


# Baixar stopwords do NLTK (se necessário)
nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('rslp')

# Carregar modelo do spaCy (português como exemplo, pode trocar para 'en_core_web_sm' se for inglês)
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo (pode ser uma review ou trecho de notícia)
texto = "O Processamento de Linguagem Natural (PLN) é uma área essencial da inteligência artificial! 😊 Confira mais em: https://exemplo.com"

# 1. Normalização (remover acentos, transformar em minúsculas, etc.)
def normalizar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)  # Remover URLs
    texto = re.sub(r'[^a-zA-Zá-úÁ-ÚçÇ ]', '', texto)     # Remover caracteres especiais (ajuste para outros idiomas)
    return texto

texto_normalizado = normalizar_texto(texto)

# 2. Tokenização (nltk)
tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

# 3. Remoção de stopwords (nltk)
stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [token for token in tokens if token not in stopwords_pt]

# 4. Stemming (nltk)
stemmer = nltk.RSLPStemmer()
tokens_stem = [stemmer.stem(token) for token in tokens_sem_stopwords]

# 5. Lematização (spaCy)
def lematizar_com_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

tokens_lematizados = lematizar_com_spacy(tokens_sem_stopwords)

# 6. Comparação
print("Texto Original:\n", texto)
print("\nTexto Normalizado:\n", texto_normalizado)
print("\nTokens:\n", tokens)
print("\nTokens Sem Stopwords:\n", tokens_sem_stopwords)
print("\nStemming:\n", tokens_stem)
print("\nLematização:\n", tokens_lematizados)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Texto Original:
 O Processamento de Linguagem Natural (PLN) é uma área essencial da inteligência artificial! 😊 Confira mais em: https://exemplo.com

Texto Normalizado:
 o processamento de linguagem natural pln é uma área essencial da inteligência artificial  confira mais em 

Tokens:
 ['o', 'processamento', 'de', 'linguagem', 'natural', 'pln', 'é', 'uma', 'área', 'essencial', 'da', 'inteligência', 'artificial', 'confira', 'mais', 'em']

Tokens Sem Stopwords:
 ['processamento', 'linguagem', 'natural', 'pln', 'área', 'essencial', 'inteligência', 'artificial', 'confira']

Stemming:
 ['process', 'lingu', 'natur', 'pln', 'áre', 'essenc', 'intelig', 'artific', 'conf']

Lematização:
 ['processamento', 'linguagem', 'natural', 'pln', 'área', 'essencial', 'inteligência', 'artificial', 'confira']


## Exemplo  03 - Modelo pré treinado

In [None]:
import spacy

# Carregar o modelo para português
nlp = spacy.load("pt_core_news_sm")

# Processar um texto em português
textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print('\nAnálise gramatical das palavras:')
for token in doc:
    print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnalise de Dependências:")
for token in doc:
  print(f"Palavra: {token.text}, Depende de: {token.head.text}")

# Visualizar a árvore graficamente (opcional)
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite um texto para ser analisado: Provisoriamente não cantaremos o amor, que se refugiou mais abaixo dos subterrâneos.

Análise gramatical das palavras:
Palavra: Provisoriamente, Classe: ADV
Palavra: não, Classe: ADV
Palavra: cantaremos, Classe: VERB
Palavra: o, Classe: DET
Palavra: amor, Classe: NOUN
Palavra: ,, Classe: PUNCT
Palavra: que, Classe: PRON
Palavra: se, Classe: PRON
Palavra: refugiou, Classe: VERB
Palavra: mais, Classe: ADV
Palavra: abaixo, Classe: ADV
Palavra: dos, Classe: ADP
Palavra: subterrâneos, Classe: NOUN
Palavra: ., Classe: PUNCT

Analise de Dependências:
Palavra: Provisoriamente, Depende de: cantaremos
Palavra: não, Depende de: cantaremos
Palavra: cantaremos, Depende de: cantaremos
Palavra: o, Depende de: amor
Palavra: amor, Depende de: cantaremos
Palavra: ,, Depende de: refugiou
Palavra: que, Depende de: refugiou
Palavra: se, Depende de: refugiou
Palavra: refugiou, Depende de: cantaremos
Palavra: mais, Depende de: abaixo
Palavra: abaixo, Depende de: refugiou
P