# Introdução

Durante minhas aulas de processamento de linguagem natural com a IA (sim, a IA é minha professora), alcançamos a primeira atividade prática e irei construir um pipeline para meus futuros trabalhos de PLN.

Eu estou ainda no Nível 1 do curso de PLN e estamos encerrando a primeira semana de estudos. Este nível tem duração de 30 dias (definido pela professora) e está sendo um aprendizado enriquecedor.

Meu objetivo inicial é criar as Funções de pré-processamento:

- `remover_ruido(texto)`
- `tokenizar_palavras(texto)`
- `tokenizar_sentencas(texto)`
- `remover_stop_words(tokens)`
- `aplicar_stemming(tokens)`
- `aplicar_lematizacao(tokens)`

## Carregando bibliotecas

Irei carregarregar as bibliotecas `re` para fazer a remoção de ruídos, alguns pacotes do `nltk` que possui grande utilidade para pré-processamento e para o PLN em geral. E por fim, o `spacy` e o `unidecode` por terem suporte para palavras da língua portuguesa para concluir algumas etapas.

In [None]:
!python -m spacy download pt_core_news_sm
!pip install unidecode

Collecting pt-core-news-sm==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import nltk
import re
from unidecode import unidecode
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
import spacy

# Baixando dependências
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('rslp')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

## Criando função para cada etapa de pré-processamento
As funções a seguir serão para remover o ruído (caracteres especiais, URLs, espaços em branco, números, tags HTML, acentuação e padronizar em letras minúsculas). Faremos também a tokenização das palavras e sentenças, remoção dos stop words (preposições, artigos, conjunções, etc), stemming e lematização.

In [None]:
def remover_ruido(texto):
  texto = re.sub(r'<.*?>', '', texto) # Remove tags HTML
  texto = unidecode(texto) # Remove acentuação preservando a letra
  texto = re.sub(r'[^a-zA-Z0-9\s]', '', texto) # Remove caracteres especiais
  texto = re.sub(r'http\S+', '', texto) # Remove URLs
  texto = re.sub(r'\s+', ' ', texto) # Remove espaços em branco extras
  texto = texto.strip() # Remove espaços em branco no início e no final
  texto = texto.lower() # Converte para minúsculas
  texto = re.sub(r'\d+', '', texto) # Remove números
  return texto

def tokeniza_palavras(texto):
  tokens = word_tokenize(texto)
  return tokens

def tokeniza_sentencas(texto):
  sentencas = sent_tokenize(texto)
  return sentencas

def remove_stop_words(tokens):
  stop_words = set(stopwords.words('portuguese'))
  tokens_s_sw = [token for token in tokens if token not in stop_words]
  return tokens_s_sw

def aplica_stemming(tokens_s_sw):
  stemmer = RSLPStemmer()
  tokens_stemmed = [stemmer.stem(token) for token in tokens_s_sw]
  return tokens_stemmed

def aplica_lematizacao(tokens_s_sw):
  nlp = spacy.load('pt_core_news_sm')
  tokens_lematizados = [token.lemma_ for token in nlp(' '.join(tokens_s_sw))]
  return tokens_lematizados

## Aplicando as funções em uma lista de textos

In [None]:
# Textos a serem trabalhados

textos = [
    "<p>Este é um exemplo de texto <strong>com HTML</strong> e caracteres especiais! https://www.exemplo.com</p>",
    "O GATO preto CORREU rapidamente e pulou a cerca.",
    "A menina estava feliz, cantando e dançando no jardim.",
    "O filme foi incrível, mas achei um pouco longo. Será que vale a pena assistir de novo?",
    "A tecnologia está avançando a cada dia e transformando nossas vidas.",
    "Existem muitos desafios no mundo da ciência de dados, mas também muitas oportunidades.",
    "É importante estudar com dedicação para atingir nossos objetivos.",
    "O processo de aprendizado de PLN pode ser desafiador, porém gratificante.",
    "As redes sociais são uma ferramenta poderosa para comunicação e informação.",
    "Eu adoro pizza de pepperoni, mas também amo lasanha à bolonhesa."
]

In [None]:
# Removendo ruídos e padronizando com letras minúsculas

textos_limpos = [remover_ruido(texto) for texto in textos]
textos_limpos

['este e um exemplo de texto com html e caracteres especiais',
 'o gato preto correu rapidamente e pulou a cerca',
 'a menina estava feliz cantando e dancando no jardim',
 'o filme foi incrivel mas achei um pouco longo sera que vale a pena assistir de novo',
 'a tecnologia esta avancando a cada dia e transformando nossas vidas',
 'existem muitos desafios no mundo da ciencia de dados mas tambem muitas oportunidades',
 'e importante estudar com dedicacao para atingir nossos objetivos',
 'o processo de aprendizado de pln pode ser desafiador porem gratificante',
 'as redes sociais sao uma ferramenta poderosa para comunicacao e informacao',
 'eu adoro pizza de pepperoni mas tambem amo lasanha a bolonhesa']

In [None]:
# Tokens de palavras

textos_tokenizados_palavra = [tokeniza_palavras(texto) for texto in textos_limpos]

for lista in textos_tokenizados_palavra:
  print(lista)

['este', 'e', 'um', 'exemplo', 'de', 'texto', 'com', 'html', 'e', 'caracteres', 'especiais']
['o', 'gato', 'preto', 'correu', 'rapidamente', 'e', 'pulou', 'a', 'cerca']
['a', 'menina', 'estava', 'feliz', 'cantando', 'e', 'dancando', 'no', 'jardim']
['o', 'filme', 'foi', 'incrivel', 'mas', 'achei', 'um', 'pouco', 'longo', 'sera', 'que', 'vale', 'a', 'pena', 'assistir', 'de', 'novo']
['a', 'tecnologia', 'esta', 'avancando', 'a', 'cada', 'dia', 'e', 'transformando', 'nossas', 'vidas']
['existem', 'muitos', 'desafios', 'no', 'mundo', 'da', 'ciencia', 'de', 'dados', 'mas', 'tambem', 'muitas', 'oportunidades']
['e', 'importante', 'estudar', 'com', 'dedicacao', 'para', 'atingir', 'nossos', 'objetivos']
['o', 'processo', 'de', 'aprendizado', 'de', 'pln', 'pode', 'ser', 'desafiador', 'porem', 'gratificante']
['as', 'redes', 'sociais', 'sao', 'uma', 'ferramenta', 'poderosa', 'para', 'comunicacao', 'e', 'informacao']
['eu', 'adoro', 'pizza', 'de', 'pepperoni', 'mas', 'tambem', 'amo', 'lasanha', '

In [None]:
# Tokens de sentenças

textos_tokenizados_sentencas = [tokeniza_sentencas(texto) for texto in textos_limpos]

for lista in textos_tokenizados_sentencas:
  print(lista)

['este e um exemplo de texto com html e caracteres especiais']
['o gato preto correu rapidamente e pulou a cerca']
['a menina estava feliz cantando e dancando no jardim']
['o filme foi incrivel mas achei um pouco longo sera que vale a pena assistir de novo']
['a tecnologia esta avancando a cada dia e transformando nossas vidas']
['existem muitos desafios no mundo da ciencia de dados mas tambem muitas oportunidades']
['e importante estudar com dedicacao para atingir nossos objetivos']
['o processo de aprendizado de pln pode ser desafiador porem gratificante']
['as redes sociais sao uma ferramenta poderosa para comunicacao e informacao']
['eu adoro pizza de pepperoni mas tambem amo lasanha a bolonhesa']


In [None]:
# Removendo Stop Words

textos_sem_stop_words = []
for tokens_list in textos_tokenizados_palavra: # Iterate through each list of tokens
  tokens_sem_sw = remove_stop_words(tokens_list) # Call the function for each list
  textos_sem_stop_words.append(tokens_sem_sw) # Append the result to the main list

for lista in textos_sem_stop_words:
  print(lista)

['exemplo', 'texto', 'html', 'caracteres', 'especiais']
['gato', 'preto', 'correu', 'rapidamente', 'pulou', 'cerca']
['menina', 'feliz', 'cantando', 'dancando', 'jardim']
['filme', 'incrivel', 'achei', 'pouco', 'longo', 'sera', 'vale', 'pena', 'assistir', 'novo']
['tecnologia', 'avancando', 'cada', 'dia', 'transformando', 'vidas']
['existem', 'muitos', 'desafios', 'mundo', 'ciencia', 'dados', 'tambem', 'muitas', 'oportunidades']
['importante', 'estudar', 'dedicacao', 'atingir', 'objetivos']
['processo', 'aprendizado', 'pln', 'pode', 'desafiador', 'porem', 'gratificante']
['redes', 'sociais', 'sao', 'ferramenta', 'poderosa', 'comunicacao', 'informacao']
['adoro', 'pizza', 'pepperoni', 'tambem', 'amo', 'lasanha', 'bolonhesa']


In [None]:
# Aplicando derivação aos tokens

stemmed_textos = []
for tokens_list in textos_sem_stop_words:
    tokens_stemmed = aplica_stemming(tokens_list)
    stemmed_textos.append(tokens_stemmed)

for texto in stemmed_textos:
  print(texto)

['exempl', 'text', 'html', 'caract', 'espec']
['gat', 'pret', 'corr', 'rapid', 'pul', 'cerc']
['menin', 'feliz', 'cant', 'danc', 'jardim']
['film', 'incri', 'ach', 'pouc', 'long', 'ser', 'val', 'pen', 'assist', 'nov']
['tecnolog', 'avanc', 'cad', 'dia', 'transform', 'vid']
['exist', 'muit', 'desafi', 'mund', 'cienc', 'dad', 'tamb', 'muit', 'oportun']
['import', 'estud', 'dedicaca', 'ating', 'obje']
['process', 'aprend', 'pln', 'pod', 'desafi', 'por', 'gratific']
['red', 'soc', 'sao', 'ferrament', 'poder', 'comunicaca', 'informaca']
['ador', 'pizz', 'pepperon', 'tamb', 'amo', 'lasanh', 'bolonh']


In [None]:
# Aplicando lematização aos tokens

lemm_textos = []
for tokens_list in textos_sem_stop_words:
    tokens_lematizados = aplica_lematizacao(tokens_list)
    lemm_textos.append(tokens_lematizados)

for texto in lemm_textos:
  print(texto)

['exemplo', 'texto', 'html', 'caracter', 'especial']
['gato', 'preto', 'correr', 'rapidamente', 'pular', 'cerca']
['menina', 'feliz', 'cantar', 'dancar', 'Jardim']
['filme', 'incrivel', 'achar', 'pouco', 'longo', 'sera', 'valer', 'pena', 'assistir', 'novo']
['tecnologia', 'avancar', 'cada', 'dia', 'transformar', 'vida']
['existir', 'muito', 'desafio', 'mundo', 'ciencia', 'dar', 'tambem', 'muito', 'oportunidade']
['importante', 'estudar', 'dedicacao', 'atingir', 'objetivo']
['processo', 'aprendizar', 'pln', 'poder', 'desafiador', 'por', 'gratificante']
['rede', 'social', 'sao', 'ferramentar', 'poderoso', 'comunicacao', 'informacao']
['adoro', 'pizza', 'pepperoni', 'tambem', 'amo', 'lasanhar', 'bolonhesa']


## Conclusão

Com este projeto, podemos fazer o pré-processamento de textos e esse é um passo crucial para meus futuros projetos com PLN