# 1. Preparação e Engenharia de Features

**Objetivo:** Este notebook é a primeira etapa do nosso projeto de classificação. O objetivo é carregar o dataset bruto (`advertising.csv`), realizar a limpeza de dados e a engenharia de features (extraindo informações úteis da coluna de data/hora) e, ao final, salvar um novo arquivo (`advertising_cleaned.csv`) que será consumido pela etapa de modelagem.

In [17]:
# Importação das bibliotecas essenciais para manipulação de dados
import pandas as pd
import numpy as np

## Carregamento dos Dados Brutos

Carregamos o dataset inicial a partir da pasta `data/raw/` e verificamos as primeiras linhas para garantir que foi lido corretamente.

In [18]:
# Carrega o dataset bruto
ad_data = pd.read_csv('../data/raw/advertising.csv')

# Exibe as 5 primeiras linhas para uma inspeção inicial
ad_data.head()

Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,Ad Topic Line,City,Male,Country,Timestamp,Clicked on Ad
0,68.95,35,61833.9,256.09,Cloned 5thgeneration orchestration,Wrightburgh,0,Tunisia,2016-03-27 00:53:11,0
1,80.23,31,68441.85,193.77,Monitored national standardization,West Jodi,1,Nauru,2016-04-04 01:39:02,0
2,69.47,26,59785.94,236.5,Organic bottom-line service-desk,Davidton,0,San Marino,2016-03-13 20:35:42,0
3,74.15,29,54806.18,245.89,Triple-buffered reciprocal time-frame,West Terrifurt,1,Italy,2016-01-10 02:31:19,0
4,68.37,35,73889.99,225.58,Robust logistical utilization,South Manuel,0,Iceland,2016-06-03 03:36:18,0


## Limpeza e Engenharia de Features

Nesta etapa, realizamos duas ações principais:
1.  **Engenharia de Features:** Convertemos a coluna `Timestamp` para o formato datetime e extraímos features relevantes como `Hour`, `DayOfWeek`, e `Month`. Isso permite que o modelo aprenda padrões temporais.
2.  **Limpeza de Colunas:** Removemos colunas que não serão utilizadas no modelo. `Ad Topic Line` e `City` são removidas por possuírem alta cardinalidade (muitos valores únicos), o que poderia prejudicar o modelo. `Country` também é removida pela mesma razão. `Timestamp` é removida pois sua informação útil já foi extraída para as novas colunas.

In [19]:
# --- Engenharia de Features ---

# Converte a coluna para o formato datetime para permitir manipulações temporais
ad_data['Timestamp'] = pd.to_datetime(ad_data['Timestamp'])

# Extrai novas features a partir do Timestamp
ad_data['Hour'] = ad_data['Timestamp'].dt.hour
ad_data['DayOfWeek'] = ad_data['Timestamp'].dt.dayofweek  # Segunda-feira=0, Domingo=6
ad_data['Month'] = ad_data['Timestamp'].dt.month

# --- Limpeza de Colunas ---

# Define as colunas a serem removidas e a justificativa
columns_to_drop = ['Ad Topic Line', 'City', 'Country', 'Timestamp']
ad_data_cleaned = ad_data.drop(columns=columns_to_drop)

# Exibe as primeiras linhas do dataframe transformado para verificação
print("Visualização do DataFrame após limpeza e engenharia de features:")
ad_data_cleaned.head()

Visualização do DataFrame após limpeza e engenharia de features:


Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,Male,Clicked on Ad,Hour,DayOfWeek,Month
0,68.95,35,61833.9,256.09,0,0,0,6,3
1,80.23,31,68441.85,193.77,1,0,1,0,4
2,69.47,26,59785.94,236.5,0,0,20,6,3
3,74.15,29,54806.18,245.89,1,0,2,6,1
4,68.37,35,73889.99,225.58,0,0,3,4,6


## Validação e Salvamento

Verificamos a estrutura final do nosso dataframe (tipos de dados e valores nulos) e o salvamos na pasta `data/processed/`. Este arquivo será o input para o próximo notebook de análise e modelagem.

In [20]:
# Exibe um resumo técnico do dataframe final
print("Estrutura final do DataFrame:")
ad_data_cleaned.info()

# Salva o dataframe processado, sem o índice do pandas
ad_data_cleaned.to_csv('../data/processed/advertising_cleaned.csv', index=False)

print("\nArquivo 'advertising_cleaned.csv' salvo com sucesso em 'data/processed/'")

Estrutura final do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Daily Time Spent on Site  1000 non-null   float64
 1   Age                       1000 non-null   int64  
 2   Area Income               1000 non-null   float64
 3   Daily Internet Usage      1000 non-null   float64
 4   Male                      1000 non-null   int64  
 5   Clicked on Ad             1000 non-null   int64  
 6   Hour                      1000 non-null   int32  
 7   DayOfWeek                 1000 non-null   int32  
 8   Month                     1000 non-null   int32  
dtypes: float64(3), int32(3), int64(3)
memory usage: 58.7 KB

Arquivo 'advertising_cleaned.csv' salvo com sucesso em 'data/processed/'
