<a href="https://colab.research.google.com/github/wesleycoutinhodev/pln-b2w-reviews/blob/main/notebooks/Operacoes_4_5_Conversao_Split.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [21]:
# Header padrão para todos os notebooks
"""
# PLN - B2W Reviews Analysis
# Operação X: [Nome da Operação]
# Equipe: Wesley, Averinaldo, Carlos Daniel, Paulo Henrique
# UFPI - 2024.2
"""

# Imports padrão
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import drive
import warnings
warnings.filterwarnings('ignore')

# Configurações
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

# Mount Drive e Setup
drive.mount('/content/drive')
BASE_PATH = '/content/drive/MyDrive/PLN_B2W_Reviews'

print("🚀 Notebook configurado com sucesso!")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
🚀 Notebook configurado com sucesso!


In [22]:
# Caminho para o dataset limpo
DATASET_PATH = f'{BASE_PATH}/data/processed/b2w_reviews_samsung_cleaned.csv'

# Carregamento do dataset
try:
    df_cleaned = pd.read_csv(DATASET_PATH)
    print(f"📊 Dataset carregado com sucesso: {df_cleaned.shape[0]:,} linhas x {df_cleaned.shape[1]} colunas")
    print(f"📋 Colunas: {list(df_cleaned.columns)}")
    print("\n📋 Informações do dataset:")
    df_cleaned.info()
except FileNotFoundError:
    print(f"❌ Erro: O arquivo não foi encontrado no caminho especificado: {DATASET_PATH}")
except Exception as e:
    print(f"❌ Ocorreu um erro ao carregar o dataset: {e}")

📊 Dataset carregado com sucesso: 5,753 linhas x 3 colunas
📋 Colunas: ['review_text', 'overall_rating', 'recommend_to_a_friend']

📋 Informações do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5753 entries, 0 to 5752
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   review_text            5753 non-null   object
 1   overall_rating         5753 non-null   int64 
 2   recommend_to_a_friend  5753 non-null   object
dtypes: int64(1), object(2)
memory usage: 135.0+ KB


In [23]:
# Convertendo a coluna 'recommend_to_a_friend' para int
df_cleaned['recommend_to_a_friend'] = df_cleaned['recommend_to_a_friend'].map({'Yes': 1, 'No': 0})

print("✅ Coluna 'recommend_to_a_friend' convertida para int.")
print("\n📋 Informações atualizadas do dataset:")
df_cleaned.info()

✅ Coluna 'recommend_to_a_friend' convertida para int.

📋 Informações atualizadas do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5753 entries, 0 to 5752
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   review_text            5753 non-null   object
 1   overall_rating         5753 non-null   int64 
 2   recommend_to_a_friend  5753 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 135.0+ KB


In [24]:
# Caminho para salvar o dataset modificado
OUTPUT_DATASET_PATH = f'{BASE_PATH}/data/processed/b2w_reviews_samsung_modified.csv'

# Salvando o dataset modificado
try:
    df_cleaned.to_csv(OUTPUT_DATASET_PATH, index=False)
    print(f"✅ Dataset modificado salvo com sucesso em: {OUTPUT_DATASET_PATH}")
except Exception as e:
    print(f"❌ Ocorreu um erro ao salvar o dataset: {e}")

✅ Dataset modificado salvo com sucesso em: /content/drive/MyDrive/PLN_B2W_Reviews/data/processed/b2w_reviews_samsung_modified.csv


In [25]:
from sklearn.model_selection import train_test_split

# Separando features (X) e target (y) - exemplo: usando review_text para prever recommendation
# Você pode ajustar X e y dependendo do seu objetivo de modelagem
X = df_cleaned['review_text']
y = df_cleaned['recommend_to_a_friend'] # Ou 'overall_rating' dependendo do objetivo

# Separando o dataset em treino e teste (80/20 split)
# random_state para reprodutibilidade
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"✅ Dataset separado em treino e teste com sucesso!")
print(f"Shape do conjunto de treino (X_train): {X_train.shape}")
print(f"Shape do conjunto de teste (X_test): {X_test.shape}")
print(f"Shape do target de treino (y_train): {y_train.shape}")
print(f"Shape do target de teste (y_test): {y_test.shape}")

✅ Dataset separado em treino e teste com sucesso!
Shape do conjunto de treino (X_train): (4602,)
Shape do conjunto de teste (X_test): (1151,)
Shape do target de treino (y_train): (4602,)
Shape do target de teste (y_test): (1151,)


In [26]:
# Caminhos para salvar os conjuntos de treino e teste
X_train_path = f'{BASE_PATH}/data/processed/X_train.csv'
X_test_path = f'{BASE_PATH}/data/processed/X_test.csv'
y_train_path = f'{BASE_PATH}/data/processed/y_train.csv'
y_test_path = f'{BASE_PATH}/data/processed/y_test.csv'

# Salvando os conjuntos
try:
    X_train.to_csv(X_train_path, index=False, header=True)
    X_test.to_csv(X_test_path, index=False, header=True)
    y_train.to_csv(y_train_path, index=False, header=True)
    y_test.to_csv(y_test_path, index=False, header=True)
    print("✅ Conjuntos de treino e teste salvos com sucesso!")
except Exception as e:
    print(f"❌ Ocorreu um erro ao salvar os conjuntos: {e}")

✅ Conjuntos de treino e teste salvos com sucesso!
