# Técnicas de Pré-processamento de Texto para NLP

Este notebook demonstra várias técnicas de pré-processamento de texto utilizando Python, aplicadas a uma base de dados de um projeto de NLP para a Uber. O objetivo é aplicar três técnicas diferentes de pré-processamento em 10 frases da base de dados, mostrando os resultados de cada técnica e construindo um pipeline completo de pré-processamento.

O projeto faz parte de um estudo maior disponível no repositório [Projeto - Uber NLP](https://github.com/2024M6T4-Inteli/Projeto3).

In [None]:
# Importando bibliotecas necessárias
import pandas as pd
import numpy as np
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer

In [None]:
# Carregando os dados
# Aqui você adicionaria o código para carregar a base de dados específica

# Exemplo de carregamento de dados:
data = ["Frase 1", "Frase 2", "Frase 3", "Frase 4", "Frase 5",
        "Frase 6", "Frase 7", "Frase 8", "Frase 9", "Frase 10"]

# Exibindo as frases
for i, frase in enumerate(data):
    print(f"{i}: {frase}")

### 1. Remoção de Stopwords

**Descrição:** A remoção de stopwords elimina palavras comuns que não adicionam significado relevante ao texto.

In [None]:
# Removendo stopwords
stop_words = set(stopwords.words('english'))
filtered_sentences = []

for sentence in data:
    words = word_tokenize(sentence)
    filtered_sentence = [w for w in words if not w.lower() in stop_words]
    filtered_sentences.append(' '.join(filtered_sentence))

filtered_sentences

### 2. Tokenização

**Descrição:** Tokenização é o processo de dividir o texto em palavras ou frases menores.

In [None]:
# Tokenizando frases
tokenized_sentences = [word_tokenize(sentence) for sentence in data]
tokenized_sentences

### 3. Stemming

**Descrição:** Stemming reduz as palavras às suas raízes ou formas base.

In [None]:
# Aplicando Stemming
stemmer = PorterStemmer()
stemmed_sentences = []

for sentence in tokenized_sentences:
    stemmed_sentence = [stemmer.stem(word) for word in sentence]
    stemmed_sentences.append(' '.join(stemmed_sentence))

stemmed_sentences

### Implementação "From Scratch": Normalização de Texto

**Descrição:** Implementação da normalização de texto sem o uso de bibliotecas externas.


In [None]:
# Normalização de texto "from scratch"
def normalize_text(text):
    text = text.lower()
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

normalized_sentences = [normalize_text(sentence) for sentence in data]
normalized_sentences


## Construção do Pipeline de Pré-processamento


In [None]:
# Construindo o pipeline de pré-processamento
def preprocess_pipeline(sentences):
    processed_sentences = []
    
    for sentence in sentences:
        # Normalização
        sentence = normalize_text(sentence)
        
        # Tokenização
        words = word_tokenize(sentence)
        
        # Remoção de Stopwords
        words = [word for word in words if word not in stop_words]
        
        # Stemming
        stemmed_sentence = [stemmer.stem(word) for word in words]
        
        processed_sentences.append(' '.join(stemmed_sentence))
    
    return processed_sentences

# Aplicando o pipeline
final_sentences = preprocess_pipeline(data)
final_sentences


## Resultados e Conclusão

Os resultados mostram as diferentes transformações aplicadas aos textos de exemplo, demonstrando as técnicas de pré-processamento de NLP e suas utilidades na preparação de dados para modelos de aprendizado de máquina.
