Pipe line de limpeza de dados

In [2]:
import spacy
import re
from collections import Counter

# 1. Configura√ß√£o Inicial
try:
    nlp = spacy.load("pt_core_news_sm")
except:
    print("Modelo n√£o encontrado. Baixe com: python -m spacy download pt_core_news_sm")

# 2. Dados Brutos
reviews_sujos = [
    "<div>O produto √© P√âSSIMO!!! Chegou quebrado... üò°</div>",
    "<p>Amei a entrega, muito r√°pida. O celular √© bom.</p>",
    "N√£o comprem! A bateria dura pouco (menos de 2h).",
    "Excelente custo-benef√≠cio. O PRODUTO chegou antes do prazo.",
    "O suporte da loja √© horrivel, n√£o respondem e-mail."
]

def pipeline_limpeza(texto):
    # ETAPA 1: Remo√ß√£o de HTML (Regex)
    texto = re.sub(r'<.*?>', '', texto)
    
    # ETAPA 2: Normaliza√ß√£o de Caixa (Lowercasing)
    texto = texto.lower()
    
    # ETAPA 3: Remo√ß√£o de Pontua√ß√£o/Caracteres Especiais (Regex)
    # Mant√©m apenas letras (\w) e espa√ßos (\s)
    # O ^ dentro do colchete significa "Tudo que N√ÉO for"
    texto = re.sub(r'[^\w\s]', ' ', texto)
    
    # ETAPA 4: Processamento Inteligente (SpaCy)
    doc = nlp(texto)
    tokens_limpos = []
    
    for token in doc:
        # ETAPA 5: Filtro de Stop Words e Lematiza√ß√£o 
        # Se N√ÉO for stop word E n√£o for vazio...
        if not token.is_stop and token.text.strip() != "":
            # Adiciona o LEMA (a raiz da palavra)
            tokens_limpos.append(token.lemma_)
            
    return tokens_limpos

# --- Execu√ß√£o da Pipeline ---
todos_tokens = []

print(f"{'REVIEW ORIGINAL':<50} | {'TOKENS LIMPOS (LEMAS)'}")
print("-" * 100)

for review in reviews_sujos:
    resultado = pipeline_limpeza(review)
    todos_tokens.extend(resultado)
    # CORRE√á√ÉO AQUI: adicionei as aspas nos tr√™s pontinhos
    print(f"{review[:45] + '...':<50} | {resultado}")

# An√°lise de Frequ√™ncia
print("\n--- O que os clientes mais est√£o falando? ---")
contagem = Counter(todos_tokens)
# Mostra as 5 palavras mais comuns
print(contagem.most_common(10))

REVIEW ORIGINAL                                    | TOKENS LIMPOS (LEMAS)
----------------------------------------------------------------------------------------------------
<div>O produto √© P√âSSIMO!!! Chegou quebrado.....   | ['produto', 'p√©ssimo', 'chegar', 'quebrar']
<p>Amei a entrega, muito r√°pida. O celular √© ...   | ['ameir', 'entrega', 'r√°pido', 'celular']
N√£o comprem! A bateria dura pouco (menos de 2...   | ['compr', 'bateria', 'durar', '2h']
Excelente custo-benef√≠cio. O PRODUTO chegou a...   | ['excelente', 'custo', 'benef√≠cio', 'produto', 'chegar', 'prazo']
O suporte da loja √© horrivel, n√£o respondem e...   | ['suporte', 'loja', 'horrivel', 'responder', 'Mail']

--- O que os clientes mais est√£o falando? ---
[('produto', 2), ('chegar', 2)]
