# **Aula 03** - Processamento de Texto e Pr√©-processamento de Dados

O pr√©-processamento limpa e transforma esse texto para facilitar o trabalho do algoritmo, deixando s√≥ as informa√ß√µes relevantes. T√©cnicas de Pr√©-processamento de Texto:

1. **Normaliza√ß√£o de Texto** - Ajuste do texto para ter uma grafia padronizada;
2. **Remo√ß√£o de Ruido** - Retirar elementos do texto que n√£o agregam valor √† an√°lise e podem atrapalhar;
3. **Tokeniza√ß√£o** - Tokenizar √© dividir o texto em pequenas unidade;
4. **Remo√ß√£o de Stopwords** - Remover palavras que n√£o carregam muito significado para an√°lise;
5. **Stemming** - T√©cnica para reduzir palavras √†s suas raizes ou radicais, cortando sufixos e prefixos;
6. **Lematiza√ß√£o** - Redu√ß√£o da palavra para a sua forma de dicion√°rio (forma can√¥nica).

## 1. Normaliza√ß√£o de texto e Remo√ß√£o de Ruido

*  Remover caracteres especiais, pontua√ß√µes, e normalizar o uso de letras mai√∫sculas e min√∫sculas

In [1]:
# importa a biblioteca para trabalhar com express√µes regulares
import re

original = "Ol√°!!! Este √© um exemplo de texto, com v√°rias PONTUA√á√ïES, s√≠mbolos #especiais, e LETRAS mai√∫sculas."

texto_limpo = re.sub(r'[^A-Za-z√Ä-√ø\s]', '',original)
  # re.sub() fun√ß√£o que realiza substitui√ß√£o
  # r'[^A-Za-z√Ä-√ø\s]'>>> express√£o regular que define um conjunto de caracteres a serem removidos
    # [A-Za-z√Ä-√ø\s] >>> define um conjunto de caracteres de A at√© Z, a at√© z e acentos e espa√ßos
    # ^faz a nega√ß√£o de uma express√£o regular
  # '' substitui a express√£o regular por uma string vazia

texto_normalizado = texto_limpo.lower()

print(f'Texto original: {original}')
print(f'\nTexto limpo: {texto_limpo}')
print(f'\nTexto normalizado: {texto_normalizado}')

Texto original: Ol√°!!! Este √© um exemplo de texto, com v√°rias PONTUA√á√ïES, s√≠mbolos #especiais, e LETRAS mai√∫sculas.

Texto limpo: Ol√° Este √© um exemplo de texto com v√°rias PONTUA√á√ïES s√≠mbolos especiais e LETRAS mai√∫sculas

Texto normalizado: ol√° este √© um exemplo de texto com v√°rias pontua√ß√µes s√≠mbolos especiais e letras mai√∫sculas


## 2. Tokeniza√ß√£o

*  Tokeniza√ß√£o √© dividir o texto em unidades menores (tokens), que geralmente s√£o palavras

In [3]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

tokens = word_tokenize(texto_normalizado)

print(f'Texto original: {original}')
print(f'\n\nTexto limpo: {texto_limpo}')
print(f'\n\nTexto normalizado: {texto_normalizado}')
print(f'\n\nTokens extraidos: {tokens}\n')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Texto original: Ol√°!!! Este √© um exemplo de texto, com v√°rias PONTUA√á√ïES, s√≠mbolos #especiais, e LETRAS mai√∫sculas.


Texto limpo: Ol√° Este √© um exemplo de texto com v√°rias PONTUA√á√ïES s√≠mbolos especiais e LETRAS mai√∫sculas


Texto normalizado: ol√° este √© um exemplo de texto com v√°rias pontua√ß√µes s√≠mbolos especiais e letras mai√∫sculas


Tokens extraidos: ['ol√°', 'este', '√©', 'um', 'exemplo', 'de', 'texto', 'com', 'v√°rias', 'pontua√ß√µes', 's√≠mbolos', 'especiais', 'e', 'letras', 'mai√∫sculas']



## 3. Remo√ß√£o de Stopwords

* Stopwords s√£o palavras de pouco valor sem√¢ntico (como "de", "a", "o") que podem ser removidas para simplificar o texto

In [4]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stopwords_pt = set(stopwords.words('portuguese'))

print(stopwords_pt)

tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

print(f'\n\nTokens extraidos: {tokens} + \n quantidade de tokens: {len(tokens)}')
print(f'\n\nTokens extraidos: {tokens_sem_stopwords} + \n quantidade de tokens: {len(tokens_sem_stopwords)}\n')

{'mais', 'teremos', 'dos', 'houve', 'esta', 'tivesse', 'e', 'tinham', 'aqueles', 'f√¥ssemos', 'era', 'por', 'tivermos', 'me', 'lhe', 'nem', 'entre', 'seus', 'tenham', 'numa', 'tem', 'uma', 'houveriam', 'teu', 'minhas', 'havemos', 'ser√°', 'fomos', 'sejamos', 'estou', 'teriam', 'estava', 'haver', 'ela', 'que', 'seu', 'estiver', 'tivessem', 'estejam', 'est√°', 'somos', 'quando', 'nossas', 'f√¥ramos', 'tuas', 'fossem', 'estes', 'houveremos', 'tinha', 'serei', 'aquilo', 'houvesse', 'um', 'vos', 'est√°vamos', 'se', 'pela', 'da', '√©ramos', 'estiv√©ramos', 'as', 'seria', 't√©m', 'deles', 'nossa', 'houver√≠amos', 'de', 'pelas', 'estamos', 'meu', 's√£o', 'ter√£o', 'aos', 'do', 'esteve', 'h√£o', 'haja', 'estive', 'voc√™', 'estivesse', 'a', 'esses', 'dele', 'essas', 's√≥', 'foram', 'eu', 'para', 'tiv√©ramos', 'sem', 'estar', 'tua', '√†', 'ter√≠amos', 'pelo', 'este', 'for', 'houveria', 'estiv√©ssemos', 'tenhamos', 'fui', 'num', 'voc√™s', 'houvermos', 'ou', 'tiv√©ssemos', 'houveram', 'mesmo', 'ela

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## 4. Stemming e Lemaliza√ß√£o

*   Stemming reduz as palavras √†s suas ra√≠zes (ou radicais);
*   Lematiza√ß√£o normaliza as palavras para suas formas base, levando em conta contexto e gram√°tica.

In [5]:
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print(f'\n\nTokens extraidos: {tokens_sem_stopwords}')
print(f'\n\nTokens radicais: {stemming}\n\n\n')



Tokens extraidos: ['ol√°', 'exemplo', 'texto', 'v√°rias', 'pontua√ß√µes', 's√≠mbolos', 'especiais', 'letras', 'mai√∫sculas']


Tokens radicais: ['ol√°', 'exempl', 'text', 'v√°r', 'pontu', 's√≠mbol', 'espec', 'letr', 'mai√∫scul']





[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## 5. Exemplo 01 - Pr√© Processamento completo

In [6]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re

# Download dos recursos do NLTK (se necess√°rio)
#nltk.download('punkt')
nltk.download('stopwords')

# Texto de exemplo
texto = input("Insira um texto que seja coerente, podendo ter s√≠mbolos: ")

# Limpeza de ru√≠dos e normaliza√ß√£o
texto_limpo = re.sub(r'[^a-zA-Z]', ' ', texto)  # Remove tudo que n√£o for letra e substitui por espa√ßo
texto_lower = texto_limpo.lower()  # Converte para min√∫sculas

# Tokeniza√ß√£o
tokens = nltk.word_tokenize(texto_lower)

# Remo√ß√£o de stopwords
stop_words = set(stopwords.words('portuguese'))
palavras_filtradas = [palavra for palavra in tokens if palavra not in stop_words]

# Stemming
stemmer = PorterStemmer()
palavras_stemizadas = [stemmer.stem(palavra) for palavra in palavras_filtradas]

# Impress√£o do resultado final
print(palavras_stemizadas)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Insira um texto que seja coerente, podendo ter s√≠mbolos: A vida √© uma li√ß√£o e temos que aprender. Para nos ensinar, Deus usa a vida e a vida usa tudo.
['vida', 'li', 'aprend', 'ensinar', 'deu', 'usa', 'vida', 'vida', 'usa', 'tudo']


## Exemplo 02 - Estrutura de Pr√©-processamento de texto

In [7]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m13.0/13.0 MB[0m [31m80.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [8]:
import re
import spacy
import nltk
from nltk.corpus import stopwords
import string


# Baixar stopwords do NLTK (se necess√°rio)
nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('rslp')

# Carregar modelo do spaCy (portugu√™s como exemplo, pode trocar para 'en_core_web_sm' se for ingl√™s)
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo (pode ser uma review ou trecho de not√≠cia)
texto = "O Processamento de Linguagem Natural (PLN) √© uma √°rea essencial da intelig√™ncia artificial! üòä Confira mais em: https://exemplo.com"

# 1. Normaliza√ß√£o (remover acentos, transformar em min√∫sculas, etc.)
def normalizar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)  # Remover URLs
    texto = re.sub(r'[^a-zA-Z√°-√∫√Å-√ö√ß√á ]', '', texto)     # Remover caracteres especiais (ajuste para outros idiomas)
    return texto

texto_normalizado = normalizar_texto(texto)

# 2. Tokeniza√ß√£o (nltk)
tokens = nltk.word_tokenize(texto_normalizado, language='portuguese')

# 3. Remo√ß√£o de stopwords (nltk)
stopwords_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [token for token in tokens if token not in stopwords_pt]

# 4. Stemming (nltk)
stemmer = nltk.RSLPStemmer()
tokens_stem = [stemmer.stem(token) for token in tokens_sem_stopwords]

# 5. Lematiza√ß√£o (spaCy)
def lematizar_com_spacy(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

tokens_lematizados = lematizar_com_spacy(tokens_sem_stopwords)

# 6. Compara√ß√£o
print("Texto Original:\n", texto)
print("\nTexto Normalizado:\n", texto_normalizado)
print("\nTokens:\n", tokens)
print("\nTokens Sem Stopwords:\n", tokens_sem_stopwords)
print("\nStemming:\n", tokens_stem)
print("\nLematiza√ß√£o:\n", tokens_lematizados)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Texto Original:
 O Processamento de Linguagem Natural (PLN) √© uma √°rea essencial da intelig√™ncia artificial! üòä Confira mais em: https://exemplo.com

Texto Normalizado:
 o processamento de linguagem natural pln √© uma √°rea essencial da intelig√™ncia artificial  confira mais em 

Tokens:
 ['o', 'processamento', 'de', 'linguagem', 'natural', 'pln', '√©', 'uma', '√°rea', 'essencial', 'da', 'intelig√™ncia', 'artificial', 'confira', 'mais', 'em']

Tokens Sem Stopwords:
 ['processamento', 'linguagem', 'natural', 'pln', '√°rea', 'essencial', 'intelig√™ncia', 'artificial', 'confira']

Stemming:
 ['process', 'lingu', 'natur', 'pln', '√°re', 'essenc', 'intelig', 'artific', 'conf']

Lematiza√ß√£o:
 ['processamento', 'linguagem', 'natural', 'pln', '√°rea', 'essencial', 'intelig√™ncia', 'artificial', 'confira']


## Exemplo 03 - O modelo pre treinado

In [9]:
import spacy

# Carregar o modelo para portugu√™s
nlp = spacy.load("pt_core_news_sm")

# Processar um texto em portugu√™s
textoRecebido = input("Digite um texto para ser analisado: ")
doc = nlp(textoRecebido)

print('\nAn√°lise gramatical das palavras:')
for token in doc:
    print(f"Palavra: {token.text}, Classe: {token.pos_}")

print("\nAnalise de Depend√™ncias:")
for token in doc:
  print(f"Palavra: {token.text}, Depende de: {token.head.text}")

# Visualizar a √°rvore graficamente (opcional)
from spacy import displacy
displacy.render(doc, style="dep", jupyter=True)

Digite um texto para ser analisado: A vida √© uma li√ß√£o e temos que aprender. Para nos ensinar, Deus usa a vida e a vida usa tudo.

An√°lise gramatical das palavras:
Palavra: A, Classe: DET
Palavra: vida, Classe: NOUN
Palavra: √©, Classe: AUX
Palavra: uma, Classe: DET
Palavra: li√ß√£o, Classe: NOUN
Palavra: e, Classe: CCONJ
Palavra: temos, Classe: VERB
Palavra: que, Classe: SCONJ
Palavra: aprender, Classe: VERB
Palavra: ., Classe: PUNCT
Palavra: Para, Classe: SCONJ
Palavra: nos, Classe: PRON
Palavra: ensinar, Classe: VERB
Palavra: ,, Classe: PUNCT
Palavra: Deus, Classe: PROPN
Palavra: usa, Classe: VERB
Palavra: a, Classe: DET
Palavra: vida, Classe: NOUN
Palavra: e, Classe: CCONJ
Palavra: a, Classe: DET
Palavra: vida, Classe: NOUN
Palavra: usa, Classe: VERB
Palavra: tudo, Classe: PRON
Palavra: ., Classe: PUNCT

Analise de Depend√™ncias:
Palavra: A, Depende de: vida
Palavra: vida, Depende de: li√ß√£o
Palavra: √©, Depende de: li√ß√£o
Palavra: uma, Depende de: li√ß√£o
Palavra: li√ß√£o, D

* O que s√£o: Conjuntos de dados estat√≠sticos e regras, Treinados com milh√µes de textos, Especializados em tarefas espec√≠ficas de linguagem, Resultado de aprendizado de m√°quina
* Como s√£o treinados: Alimentados com grande volume de textos, Aprendem padr√µes do idioma, Reconhecem estruturas gramaticais, Identificam rela√ß√µes entre palavras, S√£o testados e refinados
* Tipos de modelos por tamanho:
  * Pequeno (sm): Mais r√°pido, menor precis√£o, Usa menos mem√≥ria, Bom para testes
  * M√©dio (md): Equil√≠brio entre velocidade e precis√£o, Precis√£o moderada
Bom para uso geral
  * Grande (lg): Mais preciso, Mais lento, Usa mais mem√≥ria, Melhor para an√°lises detalhadas
* Alguns modelos pr√©-treinados:
  * Portugu√™s - nlp_pt = spacy.load('pt_core_news_sm')
  * Ingl√™s - nlp_en = spacy.load('en_core_web_sm')
  * Espanhol - nlp_es = spacy.load('es_core_news_sm')
  * Franc√™s - nlp_fr = spacy.load('fr_core_news_sm')
  * Alem√£o - nlp_de = spacy.load('de_core_news_sm')