<a href="https://colab.research.google.com/github/Mustasheep/pipeline_pre_processamento_texto/blob/main/Pr%C3%A9_processamento_de_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução

Durante minhas aulas de processamento de linguagem natural com a IA (sim, a IA é minha professora), alcançamos a primeira atividade prática e irei construir um pipeline para meus futuros trabalhos de PLN.

Eu estou ainda no Nível 1 do curso de PLN e estamos encerrando a primeira semana de estudos. Este nível tem duração de 30 dias (definido pela professora) e está sendo um aprendizado enriquecedor.

Meu objetivo inicial é criar as Funções de pré-processamento:

- `remover_ruido(texto)`
- `tokenizar_palavras(texto)`
- `tokenizar_sentencas(texto)`
- `remover_stop_words(tokens)`
- `aplicar_stemming(tokens)`
- `aplicar_lematizacao(tokens)`

## Carregando bibliotecas

Irei carregarregar as bibliotecas `re` para fazer a remoção de ruídos, alguns pacotes do `nltk` que possui grande utilidade para pré-processamento e para o PLN em geral. E por fim, o `spacy` e o `unidecode` por terem suporte para palavras da língua portuguesa para concluir algumas etapas.

In [1]:
!pip install unidecode

import nltk
import re
from unidecode import unidecode
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
import spacy

# Baixando dependências
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('rslp')

Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/235.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

## Criando função para cada etapa de pré-processamento

In [16]:
def remover_ruido(texto):
  texto = re.sub(r'<.*?>', '', texto) # Remove tags HTML
  texto = unidecode(texto)
  texto = re.sub(r'[^a-zA-Z0-9\s]', '', texto) # Remove caracteres especiais
  texto = re.sub(r'http\S+', '', texto) # Remove URLs
  texto = re.sub(r'\s+', ' ', texto) # Remove espaços em branco extras
  texto = texto.strip() # Remove espaços em branco no início e no final
  texto = texto.lower() # Converte para minúsculas
  texto = re.sub(r'\d+', '', texto) # Remove números
  return texto

def tokeniza_palavras(texto):
  tokens = word_tokenize(texto)
  return tokens

def tokeniza_sentencas(texto):
  sentencas = sent_tokenize(texto)
  return sentencas

def remove_stop_words(tokens):
  stop_words = set(stopwords.words('portuguese'))
  tokens_s_sw = [token for token in tokens if token not in stop_words]
  return tokens_s_sw

def aplica_stemming(tokens_s_sw):
  stemmer = RSLPStemmer()
  tokens_stemmed = [stemmer.stem(token) for token in tokens_s_sw]
  return tokens_stemmed

def aplica_lematizacao(tokens_s_sw):
  nlp = spacy.load('pt_core_news_sm')
  tokens_lematizados = [token.lemma_ for token in nlp(' '.join(tokens_s_sw))]
  return tokens

In [7]:
# Texto a ser trabalhado
textos = [
    "<p>Este é um exemplo de texto <strong>com HTML</strong> e caracteres especiais! https://www.exemplo.com</p>",
    "O GATO preto CORREU rapidamente e pulou a cerca.",
    "A menina estava feliz, cantando e dançando no jardim.",
    "O filme foi incrível, mas achei um pouco longo. Será que vale a pena assistir de novo?",
    "A tecnologia está avançando a cada dia e transformando nossas vidas.",
    "Existem muitos desafios no mundo da ciência de dados, mas também muitas oportunidades.",
    "É importante estudar com dedicação para atingir nossos objetivos.",
    "O processo de aprendizado de PLN pode ser desafiador, porém gratificante.",
    "As redes sociais são uma ferramenta poderosa para comunicação e informação.",
    "Eu adoro pizza de pepperoni, mas também amo lasanha à bolonhesa."
]

In [9]:
textos_limpos = [remover_ruido(texto) for texto in textos]
textos_limpos

['este e um exemplo de texto com html e caracteres especiais',
 'o gato preto correu rapidamente e pulou a cerca',
 'a menina estava feliz cantando e dancando no jardim',
 'o filme foi incrivel mas achei um pouco longo sera que vale a pena assistir de novo',
 'a tecnologia esta avancando a cada dia e transformando nossas vidas',
 'existem muitos desafios no mundo da ciencia de dados mas tambem muitas oportunidades',
 'e importante estudar com dedicacao para atingir nossos objetivos',
 'o processo de aprendizado de pln pode ser desafiador porem gratificante',
 'as redes sociais sao uma ferramenta poderosa para comunicacao e informacao',
 'eu adoro pizza de pepperoni mas tambem amo lasanha a bolonhesa']

In [11]:
textos_tokenizados_palavra = [tokeniza_palavras(texto) for texto in textos_limpos]

for lista in textos_tokenizados_palavra:
  print(lista)

['este', 'e', 'um', 'exemplo', 'de', 'texto', 'com', 'html', 'e', 'caracteres', 'especiais']
['o', 'gato', 'preto', 'correu', 'rapidamente', 'e', 'pulou', 'a', 'cerca']
['a', 'menina', 'estava', 'feliz', 'cantando', 'e', 'dancando', 'no', 'jardim']
['o', 'filme', 'foi', 'incrivel', 'mas', 'achei', 'um', 'pouco', 'longo', 'sera', 'que', 'vale', 'a', 'pena', 'assistir', 'de', 'novo']
['a', 'tecnologia', 'esta', 'avancando', 'a', 'cada', 'dia', 'e', 'transformando', 'nossas', 'vidas']
['existem', 'muitos', 'desafios', 'no', 'mundo', 'da', 'ciencia', 'de', 'dados', 'mas', 'tambem', 'muitas', 'oportunidades']
['e', 'importante', 'estudar', 'com', 'dedicacao', 'para', 'atingir', 'nossos', 'objetivos']
['o', 'processo', 'de', 'aprendizado', 'de', 'pln', 'pode', 'ser', 'desafiador', 'porem', 'gratificante']
['as', 'redes', 'sociais', 'sao', 'uma', 'ferramenta', 'poderosa', 'para', 'comunicacao', 'e', 'informacao']
['eu', 'adoro', 'pizza', 'de', 'pepperoni', 'mas', 'tambem', 'amo', 'lasanha', '

In [12]:
textos_tokenizados_sentencas = [tokeniza_sentencas(texto) for texto in textos_limpos]

for lista in textos_tokenizados_sentencas:
  print(lista)

['este e um exemplo de texto com html e caracteres especiais']
['o gato preto correu rapidamente e pulou a cerca']
['a menina estava feliz cantando e dancando no jardim']
['o filme foi incrivel mas achei um pouco longo sera que vale a pena assistir de novo']
['a tecnologia esta avancando a cada dia e transformando nossas vidas']
['existem muitos desafios no mundo da ciencia de dados mas tambem muitas oportunidades']
['e importante estudar com dedicacao para atingir nossos objetivos']
['o processo de aprendizado de pln pode ser desafiador porem gratificante']
['as redes sociais sao uma ferramenta poderosa para comunicacao e informacao']
['eu adoro pizza de pepperoni mas tambem amo lasanha a bolonhesa']


In [17]:
textos_sem_stop_words = []
for tokens_list in textos_tokenizados_palavra: # Iterate through each list of tokens
  tokens_sem_sw = remove_stop_words(tokens_list) # Call the function for each list
  textos_sem_stop_words.append(tokens_sem_sw) # Append the result to the main list

for lista in textos_sem_stop_words:
  print(lista)

['exemplo', 'texto', 'html', 'caracteres', 'especiais']
['gato', 'preto', 'correu', 'rapidamente', 'pulou', 'cerca']
['menina', 'feliz', 'cantando', 'dancando', 'jardim']
['filme', 'incrivel', 'achei', 'pouco', 'longo', 'sera', 'vale', 'pena', 'assistir', 'novo']
['tecnologia', 'avancando', 'cada', 'dia', 'transformando', 'vidas']
['existem', 'muitos', 'desafios', 'mundo', 'ciencia', 'dados', 'tambem', 'muitas', 'oportunidades']
['importante', 'estudar', 'dedicacao', 'atingir', 'objetivos']
['processo', 'aprendizado', 'pln', 'pode', 'desafiador', 'porem', 'gratificante']
['redes', 'sociais', 'sao', 'ferramenta', 'poderosa', 'comunicacao', 'informacao']
['adoro', 'pizza', 'pepperoni', 'tambem', 'amo', 'lasanha', 'bolonhesa']
