# 2. Pr√©-processamento e Limpeza (Avan√ßado) - Dataset 2

Este notebook realiza a limpeza e prepara√ß√£o dos dados para modelagem, incluindo tratamento de emojis, g√≠rias e nega√ß√£o.

## Objetivos
- Limpeza de texto (preservando pontua√ß√£o relevante).
- Tratamento de Emojis (demojize).
- Normaliza√ß√£o de G√≠rias.
- Marca√ß√£o de Nega√ß√£o.
- Tokeniza√ß√£o e remo√ß√£o de stopwords.
- Cria√ß√£o do alvo `sentiment` (bin√°rio).
- Exporta√ß√£o do dataset processado para `datasets/processed/reviews_dataset2_advanced.csv`.

In [6]:
import pandas as pd
import numpy as np
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import emoji
import os

# Configura√ß√£o inicial
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
stop_words = set(stopwords.words('portuguese'))
# Remover palavras de nega√ß√£o das stopwords para n√£o atrapalhar a marca√ß√£o de nega√ß√£o
negation_terms = {'n√£o', 'nao', 'nem', 'nunca', 'jamais', 'nada', 'ningu√©m', 'ninguem'}
stop_words = stop_words - negation_terms

## Carregamento dos Dados

In [7]:
file_path = '../datasets/reviews_mercadolivre_com_br_2.json'
df = pd.read_json(file_path)
df.head()

Unnamed: 0,date,rating,content,product_url
0,01 fev. 2025,5,Muito bom gostei.,https://produto.mercadolivre.com.br/MLB-357687...
1,22 jan. 2025,5,"Perfeito. Eu simplesmente amei , ele e maravil...",https://produto.mercadolivre.com.br/MLB-357687...
2,12 jan. 2025,5,Muito cheiroso e a consist√™ncia e maravilhosa.,https://produto.mercadolivre.com.br/MLB-357687...
3,29 nov. 2024,4,,https://produto.mercadolivre.com.br/MLB-404730...
4,12 fev. 2025,5,Produto maravilhoso.,https://produto.mercadolivre.com.br/MLB-404730...


## Dicion√°rio de G√≠rias

In [8]:
slang_map = {
    'vc': 'voc√™',
    'vcs': 'voc√™s',
    'tb': 'tamb√©m',
    'tbm': 'tamb√©m',
    'pq': 'porque',
    'q': 'que',
    'k': '', 'kk': '', 'kkk': '', 'kkkk': '', 'rs': '',
    'mto': 'muito',
    'mt': 'muito',
    'ta': 'est√°',
    'eh': '√©',
    'hj': 'hoje',
    'td': 'tudo',
    'blz': 'beleza',
    'flw': 'falou',
    'abs': 'abra√ßos',
    'tmj': 'tamo junto',
    'n': 'n√£o',
    's': 'sim',
    'obg': 'obrigado',
    'top': '√≥timo',
    'show': '√≥timo'
}

def normalize_slang(text, slang_map):
    words = text.split()
    normalized_words = [slang_map.get(word, word) for word in words]
    return " ".join(normalized_words)

## Limpeza e Tratamento Avan√ßado

In [None]:
def clean_text_advanced(text):
    if not isinstance(text, str):
        return ""
    
    # Tratar Emojis (Demojize): üëç -> :thumbs_up:
    # Usamos language='pt' se dispon√≠vel na vers√£o, sen√£o padr√£o en
    text = emoji.demojize(text, language='pt') 
    
    # Converter para min√∫sculas
    text = text.lower()
    
    # Substituir hifens por espa√ßo
    text = text.replace('-', ' ')
    
    # Normalizar G√≠rias
    text = normalize_slang(text, slang_map)
    
    # Remover caracteres especiais MAS manter pontua√ß√£o relevante (! ?)
    # Regex: Mant√©m letras, n√∫meros, espa√ßos, acentos, !, ?, :, _ (para emojis)
    text = re.sub(r'[^a-zA-Z0-9\u00C0-\u00FF\s!\?:_]', '', text)
    
    # Espa√ßar pontua√ß√£o para ser tokenizada separadamente "Bom!" -> "Bom !"
    text = re.sub(r'([!\?])', r' \1 ', text)
    
    # Remover espa√ßos extras
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

def mark_negation_func(text_tokens):
    """
    Marca nega√ß√£o em tokens at√© a pr√≥xima pontua√ß√£o.
    Ex: ['n√£o', 'gostei', 'do', 'produto', '.'] -> ['n√£o', 'gostei_NEG', 'do_NEG', 'produto_NEG', '.']
    """
    negations = negation_terms
    punctuation = {'!', '?', '.', ',', ':', ';', '...'}
    
    result = []
    neg_state = False
    
    for word in text_tokens:
        # Se for pontua√ß√£o, reseta nega√ß√£o
        if word in punctuation:
            neg_state = False
            result.append(word)
            continue
            
        # Se palavra atual √© termo de nega√ß√£o, ativa estado (e mant√©m a palavra original)
        if word in negations:
            neg_state = True
            result.append(word)
            continue
            
        # Se estado ativo, adiciona sufixo _NEG
        if neg_state:
            result.append(word + '_NEG')
        else:
            result.append(word)
            
    return result

def process_text_pipeline(text):
    # Limpeza b√°sica
    cleaned = clean_text_advanced(text)
    
    # Tokeniza√ß√£o
    tokens = word_tokenize(cleaned, language='portuguese')
    
    # Remover stopwords (lembrando que tiramos as de nega√ß√£o da lista)
    tokens = [t for t in tokens if t not in stop_words]
    
    # Marca√ß√£o de Nega√ß√£o
    tokens = mark_negation_func(tokens)
    
    # Filtrar tokens muito curtos (opcional, cuidado com emojis :a:)
    # Vamos manter tokens > 1 ou emojis
    final_tokens = [t for t in tokens if len(t) > 1 or t in ['!', '?']]
    
    return " ".join(final_tokens)

# Aplica√ß√£o
df['processed_text'] = df['content'].apply(process_text_pipeline)
df[['content', 'processed_text']].head(10)

Unnamed: 0,content,processed_text
0,Muito bom gostei.,bom gostei
1,"Perfeito. Eu simplesmente amei , ele e maravil...",perfeito simplesmente amei maravilhoso super h...
2,Muito cheiroso e a consist√™ncia e maravilhosa.,cheiroso consist√™ncia maravilhosa
3,,
4,Produto maravilhoso.,produto maravilhoso
5,Muito bom. Veio certinho. Agora √© usar pra sab...,bom veio certinho agora usar pra saber resulta...
6,Gosto muito.,gosto
7,Amei!!! para meu cabelo foi √≥timo.,amei ! ! ! cabelo √≥timo
8,Muito bom bem consistente custo benef√≠cio √≥timo.,bom bem consistente custo benef√≠cio √≥timo
9,"Hidrata muito,amei.",hidrata muitoamei


## Cria√ß√£o do Target e Exporta√ß√£o

In [10]:
df['sentiment'] = df['rating'].apply(lambda x: 1 if x >= 4 else 0)
df = df.rename(columns={'content': 'review_text'})

# Salvar com novo nome para manter vers√£o anterior
output_dir = '../datasets/processed'
output_file = os.path.join(output_dir, 'reviews_dataset2_advanced.csv')
os.makedirs(output_dir, exist_ok=True)

df[['review_text', 'rating', 'sentiment', 'processed_text']].to_csv(output_file, index=False)

print(f"Dados avan√ßados salvos em: {output_file}")

Dados avan√ßados salvos em: ../datasets/processed/reviews_dataset2_advanced.csv
