# Pré-processamento de Texto

Neste notebook, aprenderemos técnicas essenciais para preparar dados de texto para modelos de NLP.

In [None]:
import re
import string
import numpy as np
import pandas as pd
from collections import Counter

## Etapas do Pré-processamento de Texto

1. **Limpeza**: Remover caracteres especiais, HTML, etc.
2. **Tokenização**: Dividir texto em palavras/tokens
3. **Normalização**: Converter para minúsculas
4. **Remoção de Stopwords**: Remover palavras comuns
5. **Stemming/Lemmatização**: Reduzir palavras à raiz
6. **Vetorização**: Converter texto em números

## 1. Limpeza de Texto

In [None]:
def limpar_texto(texto):
    """Remove caracteres especiais e normaliza o texto."""
    # Converter para minúsculas
    texto = texto.lower()
    
    # Remover URLs
    texto = re.sub(r'http\S+|www\S+', '', texto)
    
    # Remover menções e hashtags
    texto = re.sub(r'@\w+|#\w+', '', texto)
    
    # Remover pontuação
    texto = texto.translate(str.maketrans('', '', string.punctuation))
    
    # Remover números
    texto = re.sub(r'\d+', '', texto)
    
    # Remover espaços extras
    texto = ' '.join(texto.split())
    
    return texto

# Exemplo
texto_original = "Olá! Visite nosso site: https://exemplo.com #IA @usuario123 :-)"
texto_limpo = limpar_texto(texto_original)

print("Original:", texto_original)
print("Limpo:", texto_limpo)

## 2. Tokenização

In [None]:
def tokenizar(texto):
    """Divide o texto em tokens (palavras)."""
    return texto.split()

texto = "processamento de linguagem natural é fascinante"
tokens = tokenizar(texto)

print("Texto:", texto)
print("Tokens:", tokens)
print("Número de tokens:", len(tokens))

## 3. Remoção de Stopwords

In [None]:
# Stopwords comuns em português
STOPWORDS_PT = set([
    'o', 'a', 'os', 'as', 'um', 'uma', 'de', 'do', 'da', 'dos', 'das',
    'em', 'no', 'na', 'nos', 'nas', 'por', 'para', 'com', 'sem',
    'e', 'ou', 'mas', 'que', 'qual', 'quando', 'onde', 'como',
    'é', 'são', 'foi', 'ser', 'estar', 'ter', 'fazer',
    'este', 'esse', 'aquele', 'isso', 'isto', 'aquilo'
])

def remover_stopwords(tokens, stopwords=STOPWORDS_PT):
    """Remove stopwords da lista de tokens."""
    return [token for token in tokens if token not in stopwords]

# Exemplo
texto = "o processamento de linguagem natural é uma área importante da inteligência artificial"
tokens = tokenizar(limpar_texto(texto))
tokens_sem_stop = remover_stopwords(tokens)

print("Tokens originais:", tokens)
print("Tokens sem stopwords:", tokens_sem_stop)

## 4. Bag of Words (BoW)

In [None]:
def criar_bow(documentos):
    """Cria uma representação Bag of Words."""
    # Criar vocabulário
    vocabulario = set()
    for doc in documentos:
        vocabulario.update(tokenizar(limpar_texto(doc)))
    
    vocabulario = sorted(list(vocabulario))
    
    # Criar vetores
    vetores = []
    for doc in documentos:
        tokens = tokenizar(limpar_texto(doc))
        vetor = [tokens.count(palavra) for palavra in vocabulario]
        vetores.append(vetor)
    
    return vocabulario, np.array(vetores)

# Exemplo
documentos = [
    "Eu gosto de inteligência artificial",
    "Machine learning é parte da inteligência artificial",
    "Deep learning é fascinante"
]

vocab, bow_matrix = criar_bow(documentos)

print("Vocabulário:", vocab)
print("\nMatriz BoW:")
print(bow_matrix)

# Visualizar como DataFrame
df_bow = pd.DataFrame(bow_matrix, columns=vocab)
print("\nBoW DataFrame:")
print(df_bow)

## 5. TF-IDF (Term Frequency - Inverse Document Frequency)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Criando o vetorizador TF-IDF
tfidf = TfidfVectorizer()

# Transformando os documentos
tfidf_matrix = tfidf.fit_transform(documentos)

# Visualizando
feature_names = tfidf.get_feature_names_out()
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

print("TF-IDF Matrix:")
print(df_tfidf)

## 6. Análise de Frequência de Palavras

In [None]:
import matplotlib.pyplot as plt

def analisar_frequencia(texto, top_n=10):
    """Analisa as palavras mais frequentes."""
    tokens = tokenizar(limpar_texto(texto))
    tokens = remover_stopwords(tokens)
    
    frequencias = Counter(tokens)
    mais_comuns = frequencias.most_common(top_n)
    
    # Plotar
    palavras = [palavra for palavra, freq in mais_comuns]
    contagens = [freq for palavra, freq in mais_comuns]
    
    plt.figure(figsize=(12, 6))
    plt.bar(palavras, contagens)
    plt.xlabel('Palavras')
    plt.ylabel('Frequência')
    plt.title(f'Top {top_n} Palavras Mais Frequentes')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
    
    return mais_comuns

# Exemplo com texto maior
texto_exemplo = """
Inteligência artificial está transformando o mundo. 
Machine learning e deep learning são áreas importantes da inteligência artificial.
Processamento de linguagem natural permite que computadores entendam texto.
Redes neurais profundas são a base do deep learning moderno.
"""

palavras_comuns = analisar_frequencia(texto_exemplo, top_n=8)
print("\nPalavras mais frequentes:", palavras_comuns)

## Exercícios

1. Implemente uma função para realizar stemming em português
2. Crie um pipeline completo de pré-processamento que combine todas as etapas
3. Compare a representação BoW com TF-IDF em um conjunto de textos
4. Analise a frequência de palavras em um artigo ou notícia real

In [None]:
# Seu código aqui
