In [17]:
# Importação das bibliotecas necessárias para pré-processamento
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

print("✓ Bibliotecas carregadas.")


✓ Bibliotecas carregadas.


In [18]:
# Exibe quantos valores faltantes ainda existem
print("Missing antes do tratamento:", df.isnull().sum().sum())

# Preenche valores NUMÉRICOS com a mediana (robusta para outliers)
df = df.fillna(df.median(numeric_only=True))

# Preenche valores CATEGÓRICOS com a moda (valor mais frequente)
df = df.fillna(df.mode().iloc[0])

# Exibe se ainda restou algum missing
print("Missing depois do tratamento:", df.isnull().sum().sum())


Missing antes do tratamento: 280
Missing depois do tratamento: 0


In [19]:
# Define qual é a coluna alvo que queremos prever
TARGET_COLUMN = "total_views"

# Colunas que não podem fazer parte de X
COLUNAS_REMOVER = [
    "total_views",       # alvo
    "total_views_log"    # coluna derivada (evita vazamento de dados)
]

# X = atributos / y = rótulo
X = df.drop(columns=COLUNAS_REMOVER, errors="ignore")
y = df[TARGET_COLUMN]

print("✓ Separação concluída.")
print("X shape:", X.shape)
print("y shape:", y.shape)


✓ Separação concluída.
X shape: (2520, 23)
y shape: (2520,)


In [10]:
# 4️⃣ One-Hot Encoding das variáveis categóricas
from sklearn.preprocessing import OneHotEncoder

categorical_cols = X.select_dtypes(include="object").columns
numeric_cols = X.select_dtypes(include="number").columns

# Aplicando One-Hot
X_encoded = pd.get_dummies(X, columns=categorical_cols, drop_first=True)

print("Formato após One-Hot:", X_encoded.shape)


Formato após One-Hot: (2520, 2565)


In [20]:
# Identifica colunas categóricas (object)
cat_cols = X.select_dtypes(include=["object"]).columns.tolist()

# Identifica colunas numéricas
num_cols = X.select_dtypes(exclude=["object"]).columns.tolist()

print("Colunas categóricas encontradas:", cat_cols)
print("Colunas numéricas encontradas:", num_cols)


Colunas categóricas encontradas: ['video_id', 'has_thumbnail_custom', 'video_quality', 'category', 'language', 'has_subtitles', 'promoted', 'upload_time', 'upload_day']
Colunas numéricas encontradas: ['duration_minutes', 'title_length', 'description_length', 'tags_count', 'channel_subscribers', 'channel_age_months', 'previous_videos_count', 'avg_upload_frequency_days', 'comments_count', 'likes_count', 'shares_count', 'playlist_adds', 'engagement_rate', 'views_per_tag']


In [21]:
# Transformação de variáveis categóricas em variáveis binárias
# drop_first=True evita multicolinearidade
X = pd.get_dummies(X, columns=cat_cols, drop_first=True)

print("✓ One-Hot Encoding aplicado.")
print("Novo formato de X:", X.shape)


✓ One-Hot Encoding aplicado.
Novo formato de X: (2520, 2564)


In [22]:
# Instancia o StandardScaler (transforma dados para média=0 e desvio=1)
scaler = StandardScaler()

# Aplica somente nas colunas numéricas
X[num_cols] = scaler.fit_transform(X[num_cols])

print("✓ Escalonamento aplicado nas variáveis numéricas.")


✓ Escalonamento aplicado nas variáveis numéricas.


In [23]:
# Divide o dataset em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("✓ Divisão concluída.")
print("Treino:", X_train.shape)
print("Teste:", X_test.shape)


✓ Divisão concluída.
Treino: (2016, 2564)
Teste: (504, 2564)


In [24]:
# Divide o dataset em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("✓ Divisão concluída.")
print("Treino:", X_train.shape)
print("Teste:", X_test.shape)


✓ Divisão concluída.
Treino: (2016, 2564)
Teste: (504, 2564)
