In [17]:
import pandas as pd
from pathlib import Path


In [18]:
def clean_text(text):
    if not isinstance(text, str):
        return ""
    # Normaliza quebras de linha e remove espaços extras
    return ' '.join(text.replace('\r\n', ' ').replace('\n', ' ').split())


In [19]:
# Cria diretórios necessários
data_dir = Path('../../data')
data_dir.mkdir(exist_ok=True)


In [20]:
input_file = data_dir / 'olist_order_reviews_dataset.csv'
df = pd.read_csv(input_file)

In [21]:
# Seleciona apenas as colunas necessárias
df = df[['review_score', 'review_comment_title', 'review_comment_message']]


In [22]:

# Limpa os textos
df['review_comment_title'] = df['review_comment_title'].apply(clean_text)
df['review_comment_message'] = df['review_comment_message'].apply(clean_text)

In [23]:

# Combina título e mensagem da review
df['review_text'] = df['review_comment_title'].fillna('') + ' ' + df['review_comment_message'].fillna('')

# Remove linhas com texto vazio
df = df[df['review_text'].str.strip() != '']

# Salva o dataset processado
output_path = data_dir / 'processed_reviews.csv'
df.to_csv(output_path, index=False)

In [24]:
df.head(10)

Unnamed: 0,review_score,review_comment_title,review_comment_message,review_text
3,5,,Recebi bem antes do prazo estipulado.,Recebi bem antes do prazo estipulado.
4,5,,Parabéns lojas lannister adorei comprar pela I...,Parabéns lojas lannister adorei comprar pela ...
9,4,recomendo,aparelho eficiente. no site a marca do aparelh...,recomendo aparelho eficiente. no site a marca ...
12,4,,"Mas um pouco ,travando...pelo valor ta Boa.","Mas um pouco ,travando...pelo valor ta Boa."
15,5,Super recomendo,"Vendedor confiável, produto ok e entrega antes...","Super recomendo Vendedor confiável, produto ok..."
16,2,,"GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E...","GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI ..."
19,1,Não chegou meu produto,Péssimo,Não chegou meu produto Péssimo
22,5,Ótimo,Loja nota 10,Ótimo Loja nota 10
24,5,,obrigado pela atençao amim dispensada,obrigado pela atençao amim dispensada
27,5,,A compra foi realizada facilmente. A entrega f...,A compra foi realizada facilmente. A entrega ...
