# Feature Engineering

Neste notebook são criadas e selecionadas as variáveis que serão utilizadas
na etapa de modelagem preditiva para identificar pedidos com risco de atraso.

In [12]:
import pandas as pd
import numpy as np


In [13]:
#ler dados
orders = pd.read_csv('../data/raw/olist_orders_dataset.csv')
customers = pd.read_csv('../data/raw/olist_customers_dataset.csv')


In [14]:
#converter datas
date_columns = [
    'order_purchase_timestamp',
    'order_approved_at',
    'order_delivered_carrier_date',
    'order_delivered_customer_date',
    'order_estimated_delivery_date'
]

for col in date_columns:
    orders[col] = pd.to_datetime(orders[col])


In [15]:
#validar as entregas atrasadas e não atrasadas
orders['entrega_atrasada'] = (
    orders['order_delivered_customer_date'] >
    orders['order_estimated_delivery_date']
)


In [16]:
#deixar somente os pedidos que realmente foram entregues
orders = orders.dropna(
    subset=['order_delivered_customer_date']
)


In [17]:
#cria e ja atribui as variaveis tempo_estimado_entrega e tempo_real_entrega
orders['tempo_estimado_entrega'] = (
    orders['order_estimated_delivery_date'] -
    orders['order_purchase_timestamp']
).dt.days

orders['tempo_real_entrega'] = (
    orders['order_delivered_customer_date'] -
    orders['order_purchase_timestamp']
).dt.days

In [18]:
#extrair dia de semana e do mes
orders['dia_semana_compra'] = orders['order_purchase_timestamp'].dt.weekday
orders['mes_compra'] = orders['order_purchase_timestamp'].dt.month


In [19]:
#juntar dataframe orders e customers
df = orders.merge(
    customers[['customer_id', 'customer_state']],
    on='customer_id',
    how='left'
)


In [20]:
#criando dataframe feature
features = df[[
    'tempo_estimado_entrega',
    'tempo_real_entrega',
    'dia_semana_compra',
    'mes_compra',
    'customer_state',
    'entrega_atrasada'
]]


In [21]:
#convertento a coluna customer_state em variaveis dummies
features = pd.get_dummies(
    features,
    columns=['customer_state'],
    drop_first=True
)


In [22]:
#salvando dataset modelagem
features.to_csv(
    '../data/processed/dataset_modelagem.csv',
    index=False
)
