# Modelagem Preditiva

Neste notebook são treinados e avaliados modelos de machine learning
com o objetivo de prever o risco de atraso na entrega de pedidos.


In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score


In [2]:
#ler dados
df = pd.read_csv('../data/processed/dataset_modelagem.csv')

In [4]:
#separando a coluna
X = df.drop('entrega_atrasada', axis=1)
y = df['entrega_atrasada']

In [5]:
#dividindo treine e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)


In [7]:
#treino com modelo de regressao
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

y_pred_lr = lr.predict(X_test)
y_prob_lr = lr.predict_proba(X_test)[:, 1]


In [9]:
#avaliação do desempenho
print(classification_report(y_test, y_pred_lr))
print('ROC-AUC:', roc_auc_score(y_test, y_prob_lr))


              precision    recall  f1-score   support

       False       0.99      1.00      1.00     17731
        True       1.00      0.94      0.97      1565

    accuracy                           0.99     19296
   macro avg       1.00      0.97      0.98     19296
weighted avg       0.99      0.99      0.99     19296

ROC-AUC: 0.9996928359439065


In [10]:
#treina modelo de randomforest para prever se entrega sera atrasada e faz previsões
rf = RandomForestClassifier(
    n_estimators=100,
    random_state=42,
    n_jobs=-1
)

rf.fit(X_train, y_train)

y_pred_rf = rf.predict(X_test)
y_prob_rf = rf.predict_proba(X_test)[:, 1]


In [12]:
#avalia o desempenho
print(classification_report(y_test, y_pred_rf))
print('ROC-AUC:', roc_auc_score(y_test, y_prob_rf))


              precision    recall  f1-score   support

       False       0.99      1.00      1.00     17731
        True       0.97      0.94      0.96      1565

    accuracy                           0.99     19296
   macro avg       0.98      0.97      0.98     19296
weighted avg       0.99      0.99      0.99     19296

ROC-AUC: 0.9988938706473004


In [14]:
#mostra a importancia de cada variavel
importances = pd.Series(
    rf.feature_importances_,
    index=X.columns
).sort_values(ascending=False)

importances.head(10)


tempo_real_entrega        0.672305
tempo_estimado_entrega    0.236953
mes_compra                0.034853
dia_semana_compra         0.021209
customer_state_SP         0.006594
customer_state_RJ         0.004584
customer_state_MG         0.002120
customer_state_RS         0.001787
customer_state_PA         0.001787
customer_state_BA         0.001617
dtype: float64

## Interpretação dos Resultados

- O modelo Random Forest apresentou melhor desempenho em relação ao baseline.
- As variáveis relacionadas ao tempo de entrega foram as mais importantes.
- O modelo pode ser utilizado para identificar pedidos com maior risco de atraso.
