In [None]:
# ================================================================
# ETAPA 02: COLETA DE DADOS - CONFIGURAÇÃO DO AMBIENTE
# ================================================================

# Monta o Google Drive para acesso aos dados
# Permite salvar e carregar arquivos persistentes entre sessões do Colab
from google.colab import drive
drive.mount('/content/drive')

# Define o caminho base onde os dados serão armazenados no Drive
# Esta pasta será criada automaticamente se não existir
base_path = "/content/drive/MyDrive/Eixo_05/dados/"

Mounted at /content/drive


In [None]:
# ================================================================
# CARREGAMENTO E PROCESSAMENTO DO DATASET STANFORD IMDB
# ================================================================

# Importações necessárias
from datasets import load_dataset  # Para carregar datasets da Hugging Face
import pandas as pd               # Para manipulação de dados
import os                        # Para operações de sistema/arquivos

# Carrega o dataset Stanford IMDB da Hugging Face
# Este dataset contém 50.000 avaliações de filmes (25k train + 25k test)
# Cada avaliação tem um texto e um label (0=negativo, 1=positivo)
print("Carregando dataset Stanford IMDB...")
ds = load_dataset("stanfordnlp/imdb")

# Converte os splits do dataset para DataFrames do Pandas
# Train: 25.000 avaliações para treinamento
# Test: 25.000 avaliações para teste
df_train = ds["train"].to_pandas()
df_test  = ds["test"].to_pandas()

# Mapeia os labels numéricos para nomes descritivos
# 0 → "negative" (avaliação negativa)
# 1 → "positive" (avaliação positiva)
label_map = {0: "negative", 1: "positive"}
df_train["sentiment"] = df_train["label"].map(label_map)
df_test["sentiment"]  = df_test["label"].map(label_map)

# Renomeia a coluna 'text' para 'review' para padronizar nomenclatura
# Seleciona apenas as colunas necessárias: review (texto) e sentiment (classe)
df_train = df_train.rename(columns={"text": "review"})[["review", "sentiment"]]
df_test  = df_test.rename(columns={"text": "review"})[["review", "sentiment"]]

# Concatena os datasets de treino e teste em um único DataFrame
# Isso permite que o algoritmo de ML faça seu próprio split posteriormente
df_all = pd.concat([df_train, df_test], ignore_index=True)

# Cria o diretório de destino no Google Drive se ele não existir
os.makedirs(base_path, exist_ok=True)

# Salva o dataset completo em formato CSV
# CSV é escolhido por ser amplamente compatível e fácil de inspecionar
csv_path = os.path.join(base_path, "dataset.csv")
df_all.to_csv(csv_path, index=False)

# Exibe informações sobre o dataset processado
print("\n=== DATASET PROCESSADO ===")
print("Primeiras 5 linhas:")
print(df_all.head())
print(f"\nArquivo salvo em: {csv_path}")
print(f"Total de avaliações: {len(df_all):,}")
print(f"Distribuição de sentimentos:")
print(df_all['sentiment'].value_counts())

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md: 0.00B [00:00, ?B/s]

plain_text/train-00000-of-00001.parquet:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

plain_text/test-00000-of-00001.parquet:   0%|          | 0.00/20.5M [00:00<?, ?B/s]

plain_text/unsupervised-00000-of-00001.p(…):   0%|          | 0.00/42.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating unsupervised split:   0%|          | 0/50000 [00:00<?, ? examples/s]

                                              review sentiment
0  I rented I AM CURIOUS-YELLOW from my video sto...  negative
1  "I Am Curious: Yellow" is a risible and preten...  negative
2  If only to avoid making this type of film in t...  negative
3  This film was probably inspired by Godard's Ma...  negative
4  Oh, brother...after hearing about this ridicul...  negative
Dataset salvo em: /content/drive/MyDrive/Eixo_05/dados/dataset.csv
Total de linhas: 50000
