In [81]:
import pandas as pd

### Carregar dataset

In [82]:
# Carregar dataset
df = pd.read_csv('../datasets/dataset-case_study.csv')

# Informações sobre o conjunto de dados
print('Dataset antes da limpeza:')
print(df.shape)
print(df.columns)

# Contar quantas linhas tem para cada plataforma
platform_counts = df['platform'].value_counts()
print("\nDistribuição por plataforma:", platform_counts)

Dataset antes da limpeza:
(5933, 9)
Index(['restaurante_name', 'user_name', 'review_date', 'stars', 'comment_text',
       'year', 'platform', 'language', 'comment_text_translated'],
      dtype='object')

Distribuição por plataforma: platform
Google             3917
Facebook            847
Foursquare          834
Yelp                310
Zomato               24
Restaurant Guru       1
Name: count, dtype: int64


### Limpeza dos dados

In [83]:
def remove_empty_text_rows(df):
    empty_sentenca_rows = df['comment_text_translated'].isnull() | (df['comment_text_translated'] == '')
    # Imprimir o número de sentenças vazias
    num_empty_sentences = empty_sentenca_rows.sum()
    print(f"Total de comentários vazios: {num_empty_sentences}")
    print('Removendo comentários vazios...\n')
    # Remover sentenças vazias
    df = df[~empty_sentenca_rows]
    df.reset_index(drop=True, inplace=True)
    return df

In [84]:
# Substituir espaços múltiplos por um único espaço e realizar strip
df['comment_text_translated'] = df['comment_text_translated'].astype(str).apply(lambda x: ' '.join(x.split()))

# Remover ocorrências de erros
replacements = {
    'Comida': 'comida',
    'Serviço': 'serviço',
    'Atmosfera': 'atmosfera',
    'Food': 'food',
    'Service': 'service',
    'Atmosphere': 'atmosphere'
}

for uppercase, lowercase in replacements.items():
    df['comment_text_translated'] = df['comment_text_translated'].str.replace(uppercase, lowercase, regex=False)

replacements = [
    'comida: 5', 'food: 5', 'comida: 4', 'food: 4', 'comida: 3', 'food: 3', 'comida: 2', 'food: 2', 'comida: 1', 'food: 1',
    'serviço: 5', 'service: 5', 'serviço: 4', 'service: 4', 'serviço: 3', 'service: 3', 'serviço: 2', 'service: 2', 'serviço: 1', 'service: 1',
    'atmosfera: 5', 'atmosphere: 5', 'atmosfera: 4', 'atmosphere: 4', 'atmosfera: 3', 'atmosphere: 3', 'atmosfera: 2', 'atmosphere: 2', 'atmosfera: 1', 'atmosphere: 1',
    ': 5', ': 4', ': 3', ': 2', ': 1'
]

for r in replacements:
    df['comment_text_translated'] = df['comment_text_translated'].str.replace(r, '')

# Substituir espaços múltiplos por um único espaço e realizar strip
df['comment_text_translated'] = df['comment_text_translated'].astype(str).apply(lambda x: ' '.join(x.split()))

# Remover sentenças nulas
df = remove_empty_text_rows(df)

# Remover sentenças duplicadas
comentarios_duplicados = df.duplicated(subset="comment_text_translated").sum()
print("Total de comentários duplicados:", comentarios_duplicados)
print('Removendo comentários duplicados...\n')
df = df.drop_duplicates(subset="comment_text_translated", keep='first').reset_index(drop=True)

Total de comentários vazios: 379
Removendo comentários vazios...

Total de comentários duplicados: 583
Removendo comentários duplicados...



### Dataset Final

In [85]:
# Informações sobre o conjunto de dados
print('Dataset após limpeza:')
print(df.shape)

# Contar quantas linhas tem para cada plataforma
platform_counts = df['platform'].value_counts()
print("\nDistribuição por plataforma:", platform_counts)

Dataset após limpeza:
(4971, 9)

Distribuição por plataforma: platform
Google             3222
Foursquare          731
Facebook            710
Yelp                285
Zomato               22
Restaurant Guru       1
Name: count, dtype: int64


In [86]:
df.to_csv(f'../datasets/dataset-case_study-tratado.csv', index=False)