<a href="https://colab.research.google.com/github/wesleycoutinhodev/pln-b2w-reviews/blob/main/notebooks/Operacoes_1_2_3_Tratamento_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [11]:
# Notebook: Operacoes_1_2_3_Tratamento_Dados.ipynb
# Se√ß√µes:
# 1. Setup e Imports
# 2. Carregamento do Dataset
# 3. Opera√ß√£o 1: An√°lise Explorat√≥ria e Tratamento
# 4. Opera√ß√£o 2: Sele√ß√£o de Colunas Samsung
# 5. Opera√ß√£o 3: An√°lise de Inconsist√™ncias
# 6. Salvamento dos Dados Processados
# 7. Relat√≥rio de Execu√ß√£o

In [12]:
# Notebook: Operacoes_1_2_3_Tratamento_Dados.ipynb
# ==================================================

# 1. SETUP INICIAL
from google.colab import drive
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Mount Drive
drive.mount('/content/drive')
BASE_PATH = '/content/drive/MyDrive/PLN_B2W_Reviews'

# Criar estrutura se n√£o existir
import os
for folder in ['data/raw', 'data/processed', 'results/analysis']:
    os.makedirs(f"{BASE_PATH}/{folder}", exist_ok=True)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [13]:
# 2. DOWNLOAD DO DATASET
!wget -O /content/drive/MyDrive/PLN/PLN_B2W_Reviews/data/raw/B2W-Reviews01.csv
BASE_PATH = "/content/drive/MyDrive/PLN/PLN_B2W_Reviews"
# 3. CARREGAMENTO E PRIMEIRA AN√ÅLISE
df = pd.read_csv(f'{BASE_PATH}/data/raw/B2W-Reviews01.csv')
print(f"üìä Dataset carregado: {df.shape[0]:,} linhas x {df.shape[1]} colunas")
print(f"üìã Colunas: {list(df.columns)}")


df.info()

wget: missing URL
Usage: wget [OPTION]... [URL]...

Try `wget --help' for more options.
üìä Dataset carregado: 132,373 linhas x 14 colunas
üìã Colunas: ['submission_date', 'reviewer_id', 'product_id', 'product_name', 'product_brand', 'site_category_lv1', 'site_category_lv2', 'review_title', 'overall_rating', 'recommend_to_a_friend', 'review_text', 'reviewer_birth_year', 'reviewer_gender', 'reviewer_state']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132373 entries, 0 to 132372
Data columns (total 14 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   submission_date        132373 non-null  object 
 1   reviewer_id            132373 non-null  object 
 2   product_id             132373 non-null  object 
 3   product_name           132289 non-null  object 
 4   product_brand          40982 non-null   object 
 5   site_category_lv1      132367 non-null  object 
 6   site_category_lv2      128360 non-null  object 


In [14]:
# --- An√°lise e Tratamento do Dataset ---
print("\n--- 3. Opera√ß√£o 1: An√°lise e Tratamento dos Campos ---")

# Verifica√ß√£o de valores ausentes (NaN) em cada coluna
print("\nüìä Valores Ausentes (NaN) por Coluna:")
nan_counts = df.isnull().sum()
nan_counts_df = pd.DataFrame(nan_counts, columns=['NaN Count'])
nan_counts_df['Percentage (%)'] = (nan_counts / len(df)) * 100
print(nan_counts_df)

# Remover a coluna 'review_text_translated' por possuir muitos valores NaN e n√£o ser relevante para a tarefa.
if 'review_text_translated' in df.columns:
    df = df.drop(columns=['review_text_translated'])
    print("\n‚úÖ Coluna 'review_text_translated' removida.")

# An√°lise de valores inv√°lidos ou inconsistentes em colunas espec√≠ficas
print("\nüîç Verifica√ß√£o de Valores Inv√°lidos ou Inconsistentes por Coluna:")

# 1. review_id: Verificar se h√° IDs duplicados, pois cada ID deve ser √∫nico.
if df['reviewer_id'].nunique() < len(df['reviewer_id']):
    print(f"‚ö†Ô∏è Aten√ß√£o: A coluna 'reviewer_id' cont√©m {len(df['reviewer_id']) - df['reviewer_id'].nunique()} IDs duplicados. Isso pode indicar inconsist√™ncia nos dados.")
    # Dependendo da an√°lise, voc√™ pode querer remover duplicatas ou investigar mais a fundo.

# 2. product_id: Verificar se h√° valores ausentes.
if df['product_id'].isnull().sum() > 0:
    print(f"‚ö†Ô∏è Aten√ß√£o: A coluna 'product_id' cont√©m valores ausentes. N√∫mero de NaN: {df['product_id'].isnull().sum()}")

# 3. overall_rating: Verificar se os valores est√£o no intervalo de 1 a 5.
invalid_ratings = df[~df['overall_rating'].isin(range(1, 6))]
if not invalid_ratings.empty:
    print(f"‚ö†Ô∏è Aten√ß√£o: A coluna 'overall_rating' cont√©m {len(invalid_ratings)} valores fora do intervalo 1-5. Primeiros 5 valores inv√°lidos:")
    print(invalid_ratings['overall_rating'].head())

# 4. recommend_to_a_friend: Verificar se os valores s√£o apenas 'Yes' ou 'No'.
unique_recommend = df['recommend_to_a_friend'].unique()
if not set(unique_recommend).issubset({'Yes', 'No', np.nan}):
    print(f"‚ö†Ô∏è Aten√ß√£o: A coluna 'recommend_to_a_friend' cont√©m valores diferentes de 'Yes', 'No' ou NaN. Valores encontrados: {unique_recommend}")

# 5. reviewer_gender: Verificar se os valores s√£o apenas 'M' ou 'F'.
unique_genders = df['reviewer_gender'].unique()
if not set(unique_genders).issubset({'M', 'F', np.nan}):
    print(f"‚ö†Ô∏è Aten√ß√£o: A coluna 'reviewer_gender' cont√©m valores diferentes de 'M', 'F' ou NaN. Valores encontrados: {unique_genders}")
    # Preencher valores ausentes para garantir consist√™ncia
    df['reviewer_gender'] = df['reviewer_gender'].fillna('N√£o Informado')
    print("Valores ausentes em 'reviewer_gender' preenchidos com 'N√£o Informado'.")
    print(f"Novos valores √∫nicos na coluna 'reviewer_gender': {df['reviewer_gender'].unique()}")

# 6. reviewer_birth_year: Verificar se h√° anos de nascimento inv√°lidos (no futuro ou muito no passado).
current_year = 2025
invalid_years = df[(df['reviewer_birth_year'] < 1925) | (df['reviewer_birth_year'] > current_year)]
if not invalid_years.empty:
    print(f"‚ö†Ô∏è Aten√ß√£o: A coluna 'reviewer_birth_year' cont√©m {len(invalid_years)} anos de nascimento inconsistentes (menores que 1925 ou maiores que {current_year}).")
    # Dependendo da pol√≠tica de tratamento, voc√™ pode remover ou preencher esses valores.

print("\n‚úÖ Etapa 1: An√°lise e Tratamento de Dados conclu√≠da. Inconsist√™ncias identificadas e colunas n√£o relevantes removidas.")

print("\n--- Informa√ß√µes do DataFrame Ap√≥s o Tratamento ---")
df.info()


--- 3. Opera√ß√£o 1: An√°lise e Tratamento dos Campos ---

üìä Valores Ausentes (NaN) por Coluna:
                       NaN Count  Percentage (%)
submission_date                0        0.000000
reviewer_id                    0        0.000000
product_id                     0        0.000000
product_name                  84        0.063457
product_brand              91391       69.040514
site_category_lv1              6        0.004533
site_category_lv2           4013        3.031585
review_title                 302        0.228143
overall_rating                 0        0.000000
recommend_to_a_friend         18        0.013598
review_text                 3275        2.474069
reviewer_birth_year         5984        4.520559
reviewer_gender             4136        3.124504
reviewer_state              3991        3.014965

üîç Verifica√ß√£o de Valores Inv√°lidos ou Inconsistentes por Coluna:
‚ö†Ô∏è Aten√ß√£o: A coluna 'reviewer_id' cont√©m 19380 IDs duplicados. Isso pode indicar inco

In [15]:
# --- Continua√ß√£o do Tratamento de Dados ---
print("\n--- 3. Opera√ß√£o 1: Refinamento do Tratamento ---")

# 1. Tratamento de IDs de revisores duplicados
# Embora a duplica√ß√£o de 'reviewer_id' seja normal (um usu√°rio pode fazer v√°rios reviews),
# a duplica√ß√£o completa de linhas pode ser um erro. Vamos remover duplicatas exatas.
df_no_duplicates = df.drop_duplicates().copy()
print(f"\n‚úÖ Foram removidas {len(df) - len(df_no_duplicates)} linhas duplicadas exatas do dataset.")
df = df_no_duplicates

# 2. Tratamento de anos de nascimento inconsistentes
df['reviewer_birth_year'] = df['reviewer_birth_year'].apply(
    lambda x: x if 1900 <= x <= 2025 else pd.NA
)
print(f"‚úÖ Anos de nascimento inconsistentes substitu√≠dos por NaN.")

# 3. Tratamento de valores ausentes (NaN) nas colunas essenciais
df.dropna(subset=['review_text', 'overall_rating', 'recommend_to_a_friend'], inplace=True)
print(f"\n‚úÖ Linhas com valores ausentes nas colunas 'review_text', 'overall_rating' e 'recommend_to_a_friend' foram removidas.")

print("\n‚úÖ Refinamento do tratamento conclu√≠do.")

print("\n--- Informa√ß√µes do DataFrame Ap√≥s o Refinamento do Tratamento ---")
df.info()


--- 3. Opera√ß√£o 1: Refinamento do Tratamento ---

‚úÖ Foram removidas 955 linhas duplicadas exatas do dataset.
‚úÖ Anos de nascimento inconsistentes substitu√≠dos por NaN.

‚úÖ Linhas com valores ausentes nas colunas 'review_text', 'overall_rating' e 'recommend_to_a_friend' foram removidas.

‚úÖ Refinamento do tratamento conclu√≠do.

--- Informa√ß√µes do DataFrame Ap√≥s o Refinamento do Tratamento ---
<class 'pandas.core.frame.DataFrame'>
Index: 128208 entries, 0 to 132372
Data columns (total 14 columns):
 #   Column                 Non-Null Count   Dtype 
---  ------                 --------------   ----- 
 0   submission_date        128208 non-null  object
 1   reviewer_id            128208 non-null  object
 2   product_id             128208 non-null  object
 3   product_name           128148 non-null  object
 4   product_brand          40040 non-null   object
 5   site_category_lv1      128202 non-null  object
 6   site_category_lv2      124361 non-null  object
 7   review_title 

In [16]:
# --- Sele√ß√£o de Colunas e Filtragem ---
print("\n--- 4. Opera√ß√£o 2: Sele√ß√£o de Colunas Samsung ---")

# Lista de colunas relevantes, conforme a instru√ß√£o.
colunas_relevantes = ["review_text", "overall_rating", "recommend_to_a_friend", "product_brand"]

# Filtra o DataFrame para manter apenas as colunas relevantes e a marca 'Samsung'
df_samsung = df[df['product_brand'].str.contains('Samsung', case=False, na=False)][colunas_relevantes].copy()

# Remove a coluna 'product_brand' ap√≥s a filtragem, pois n√£o √© mais necess√°ria
df_samsung = df_samsung.drop(columns=['product_brand'])

print(f"\nüìä DataFrame com reviews da marca 'Samsung' criado: {df_samsung.shape[0]:,} linhas x {df_samsung.shape[1]} colunas")
print(f"üìã Novas colunas: {list(df_samsung.columns)}")

# Exibe as primeiras 5 linhas para ver o resultado do filtro
print("\nPrimeiras 5 linhas do novo DataFrame (Samsung):")
print(df_samsung.head())


--- 4. Opera√ß√£o 2: Sele√ß√£o de Colunas Samsung ---

üìä DataFrame com reviews da marca 'Samsung' criado: 5,896 linhas x 3 colunas
üìã Novas colunas: ['review_text', 'overall_rating', 'recommend_to_a_friend']

Primeiras 5 linhas do novo DataFrame (Samsung):
                                          review_text  overall_rating  \
29  Uma tela impec√°vel. Se sua prioridade √© tela e...               4   
37  Melhor custo benef√≠cio. Exatamente  como anunc...               5   
56  Muito √∫til, para pesquisas e baixar publica√ß√µe...               5   
75  A entrega sempre no prazo e muitas vezes at√© a...               4   
98  Recomendo tanto o produto quanto a loja, produ...               4   

   recommend_to_a_friend  
29                   Yes  
37                   Yes  
56                   Yes  
75                   Yes  
98                   Yes  


In [17]:
# --- An√°lise de Inconsist√™ncias ---
print("\n--- 5. Opera√ß√£o 3: An√°lise de Inconsist√™ncias ---")

# An√°lise de inconsist√™ncias: notas 1 e 2 com recomenda√ß√£o 'Yes'
inconsistencias_ruins = df_samsung[(df_samsung['overall_rating'].isin([1, 2])) & (df_samsung['recommend_to_a_friend'] == 'Yes')]
print(f"\nInconsist√™ncias (nota 1 ou 2, mas recomendou 'Yes'): {inconsistencias_ruins.shape[0]} registros")
print(inconsistencias_ruins.head())

# An√°lise de inconsist√™ncias: notas 4 e 5 com recomenda√ß√£o 'No'
inconsistencias_boas = df_samsung[(df_samsung['overall_rating'].isin([4, 5])) & (df_samsung['recommend_to_a_friend'] == 'No')]
print(f"Inconsist√™ncias (nota 4 ou 5, mas n√£o recomendou 'No'): {inconsistencias_boas.shape[0]} registros")
print(inconsistencias_boas.head())

# Remo√ß√£o das inconsist√™ncias para garantir a coer√™ncia dos dados
# Combina as condi√ß√µes para remover ambos os tipos de inconsist√™ncias em uma √∫nica opera√ß√£o
df_samsung_clean = df_samsung[~((df_samsung['overall_rating'].isin([1, 2]) & (df_samsung['recommend_to_a_friend'] == 'Yes')) |
                                ((df_samsung['overall_rating'].isin([4, 5]) & (df_samsung['recommend_to_a_friend'] == 'No'))))].copy()

# A coluna 'recommend_to_a_friend' deve ser removida antes de come√ßar a modelagem
# pois a coluna 'overall_rating' j√° capta a inten√ß√£o do usu√°rio
# o mesmo review n√£o pode ser representado por duas classes diferentes
# ou seja, se a 'overall_rating' for 4, 'recommend_to_a_friend' deveria ser 'Yes' (o que j√° foi tratado)

print(f"\n‚úÖ DataFrame ap√≥s a remo√ß√£o de inconsist√™ncias: {df_samsung_clean.shape[0]:,} linhas")
print("As inconsist√™ncias foram removidas para coer√™ncia entre a nota e a recomenda√ß√£o.")
print("\n--- Informa√ß√µes do DataFrame Ap√≥s a Limpeza ---")
df_samsung_clean.info()


--- 5. Opera√ß√£o 3: An√°lise de Inconsist√™ncias ---

Inconsist√™ncias (nota 1 ou 2, mas recomendou 'Yes'): 79 registros
                                             review_text  overall_rating  \
873    O celular √© bom, por√©m tem muita interfer√™ncia...               2   
5358   Produto bem embalado e chegou antes do prazo, ...               1   
6601   Este √© o terceiro Samsung Galaxy que eu compro...               2   
11405  Bom dia! A bateria descarrega r√°pida e o tecla...               2   
13942  Efetuei a compra desse oculos pekosite da Amer...               1   

      recommend_to_a_friend  
873                     Yes  
5358                    Yes  
6601                    Yes  
11405                   Yes  
13942                   Yes  
Inconsist√™ncias (nota 4 ou 5, mas n√£o recomendou 'No'): 64 registros
                                            review_text  overall_rating  \
432   O produto √© excelente por√©m o aparelho que rec...               5   
1772  Maravi

In [18]:
# 6. Salvamento dos Dados Processados
# ==================================================
import sys
import os

# Define o caminho base
BASE_PATH = '/content/drive/MyDrive/PLN/PLN_B2W_Reviews'

# Adiciona a pasta 'utils' ao caminho do sistema para poder importar
sys.path.append(os.path.join(BASE_PATH, 'utils'))

# Importa a fun√ß√£o do seu m√≥dulo
from utils import save_dataframe_to_csv

# Chama a fun√ß√£o de salvamento para o DataFrame limpo
print("\n--- 6. Salvamento dos Dados Processados ---")
save_dataframe_to_csv(
    df=df_samsung_clean,
    folder='data/processed',
    file_name='b2w_reviews_samsung_cleaned.csv',
    base_path=BASE_PATH
)

# 7. Relat√≥rio de Execu√ß√£o
# ==================================================
print("\n--- 7. Relat√≥rio de Execu√ß√£o ---")
print("‚úÖ Todas as opera√ß√µes de tratamento, sele√ß√£o e limpeza de dados foram conclu√≠das e o DataFrame final foi salvo.")
print(f"O arquivo final est√° localizado em: {os.path.join(BASE_PATH, 'data/processed', 'b2w_reviews_samsung_cleaned.csv')}")


--- 6. Salvamento dos Dados Processados ---
‚úÖ DataFrame salvo com sucesso em: /content/drive/MyDrive/PLN/PLN_B2W_Reviews/data/processed/b2w_reviews_samsung_cleaned.csv

--- 7. Relat√≥rio de Execu√ß√£o ---
‚úÖ Todas as opera√ß√µes de tratamento, sele√ß√£o e limpeza de dados foram conclu√≠das e o DataFrame final foi salvo.
O arquivo final est√° localizado em: /content/drive/MyDrive/PLN/PLN_B2W_Reviews/data/processed/b2w_reviews_samsung_cleaned.csv
