In [7]:
#pip install datasets pandas spacy textblob nltk
#python -m spacy download pt_core_news_sm

import spacy
import unicodedata
import re
from nltk.corpus import stopwords
import pandas as pd
from datasets import load_dataset

# Carregar o modelo de NLP do spaCy e stopwords
nlp = spacy.load('pt_core_news_sm', disable=['parser', 'ner'])  # Desabilitar componentes desnecessários
stop_words = set(stopwords.words('portuguese'))

# Carregar o dataset
dataset = load_dataset("ruanchaves/b2w-reviews01")
df = dataset['train'].to_pandas()

# Definir as colunas a serem limpas
columns_to_clean = ['review_title', 'review_text']


In [8]:
# Função para limpar e processar texto
def process_text(text):
    doc = nlp(text)
    cleaned_tokens = []
    for token in doc:
        if not token.is_punct and not token.is_space:  # Remover pontuação e espaços
            token_text = unicodedata.normalize('NFD', token.text)
            token_text = re.sub(r'[\u0300-\u036f]', '', token_text)  # Remover acentos
            cleaned_tokens.append(token_text.lower())
    return ' '.join([token for token in cleaned_tokens if token not in stop_words])

In [9]:
# Processar apenas as 15 primeiras linhas de cada coluna que precisa ser limpa
for column in columns_to_clean:
    df[column] = df[column].astype(str)  # Garantir que todos os valores são strings
    df.loc[:14, column] = df.loc[:14, column].apply(process_text)  # Usar .loc para a atribuição correta

# Verificar o resultado das 15 primeiras linhas processadas
print(df[columns_to_clean].head(15))


                       review_title  \
0                               bom   
1   preco imbativel otima qualidade   
2          atende todas expectativa   
3                 presente desejado   
4                 duvidas excelente   
5                produto imperdivel   
6                             otimo   
7           gostei bastante produto   
8                    gostei produto   
9                nao recebi produto   
10                       fantastico   
11                      maravilhoso   
12                     amei produto   
13                        revoltado   
14                       satisfeito   

                                          review_text  
0   contente compra entrega rapida unico problema ...  
1   apenas r$ 1994.20,eu consegui comprar lindo co...  
2   supera agilidade praticidade outras panelas el...  
3           filho amou parece verdade tantos detalhes  
4   entrega prazo americanas estao parabens smart ...  
5   excelente produto material acrilico