In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from google.colab import files
import joblib
import os
import glob

üöÄ Iniciando Pipeline de Machine Learning no Colab...


In [None]:
path = "/content/"
try:
    print("Lendo CSVs...")
    orders = pd.read_csv(path + 'olist_orders_dataset.csv')
    items = pd.read_csv(path + 'olist_order_items_dataset.csv')
    customers = pd.read_csv(path + 'olist_customers_dataset.csv')
    sellers = pd.read_csv(path + 'olist_sellers_dataset.csv')
    products = pd.read_csv(path + 'olist_products_dataset.csv')
    geolocation = pd.read_csv(path + 'olist_geolocation_dataset.csv')
    print("‚úÖ Datasets carregados!")
except FileNotFoundError as e:
    print(f"‚ùå Erro: Arquivos n√£o encontrados. Verifique se fez o upload na aba esquerda.")
    print(f"Detalhe: {e}")
    # Interrompe a execu√ß√£o se n√£o achar os arquivos
    raise

üìÇ Lendo CSVs...
‚úÖ Datasets carregados!


In [None]:
print("‚öôÔ∏è Processando Geolocaliza√ß√£o e Joins...")

# 3.1. Agrupar Geo (Centr√≥ide do CEP)
geo_ref = geolocation.groupby('geolocation_zip_code_prefix')[['geolocation_lat', 'geolocation_lng']].mean().reset_index()

# 3.2. Unificar Tabelas
items_first = items.drop_duplicates('order_id', keep='first')
df = orders.merge(items_first, on='order_id', how='left')
df = df.merge(customers[['customer_id', 'customer_zip_code_prefix']], on='customer_id', how='left')
df = df.merge(sellers[['seller_id', 'seller_zip_code_prefix']], on='seller_id', how='left')
df = df.merge(products[['product_id', 'product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']], on='product_id', how='left')

# 3.3. Merge das Coordenadas
# Destino (Cliente)
df = df.merge(geo_ref, left_on='customer_zip_code_prefix', right_on='geolocation_zip_code_prefix', how='left')
df.rename(columns={'geolocation_lat': 'lat_cust', 'geolocation_lng': 'lng_cust'}, inplace=True)
df.drop('geolocation_zip_code_prefix', axis=1, inplace=True)

# Origem (Vendedor)
df = df.merge(geo_ref, left_on='seller_zip_code_prefix', right_on='geolocation_zip_code_prefix', how='left')
df.rename(columns={'geolocation_lat': 'lat_sell', 'geolocation_lng': 'lng_sell'}, inplace=True)
df.drop('geolocation_zip_code_prefix', axis=1, inplace=True)

print("üß† Calculando Dist√¢ncia e Features...")

# 3.4. Limpeza e Target
df = df[df['order_status'] == 'delivered'].dropna(subset=['order_delivered_customer_date', 'lat_cust', 'lat_sell', 'product_weight_g'])
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])
df['order_delivered_customer_date'] = pd.to_datetime(df['order_delivered_customer_date'])

# Target: Dias Reais
df['dias_reais'] = (df['order_delivered_customer_date'] - df['order_purchase_timestamp']).dt.days
df = df[(df['dias_reais'] > 0) & (df['dias_reais'] < 60)]

# 3.5. Feature: Dist√¢ncia (Haversine)
def haversine_vec(lat1, lon1, lat2, lon2):
    R = 6371
    phi1, phi2 = np.radians(lat1), np.radians(lat2)
    dphi = np.radians(lat2 - lat1)
    dlambda = np.radians(lon2 - lon1)
    a = np.sin(dphi/2)**2 + np.cos(phi1)*np.cos(phi2)*np.sin(dlambda/2)**2
    return 2*R*np.arcsin(np.sqrt(a))

df['distancia_km'] = haversine_vec(df['lat_sell'], df['lng_sell'], df['lat_cust'], df['lng_cust'])
df['volume_cm3'] = df['product_length_cm'] * df['product_height_cm'] * df['product_width_cm']

features = ['distancia_km', 'product_weight_g', 'volume_cm3', 'freight_value', 'price']
X = df[features]
y = df['dias_reais']

‚öôÔ∏è Processando Geolocaliza√ß√£o e Joins...
üß† Calculando Dist√¢ncia e Features...


In [None]:
print(f"üöÄ Treinando modelo com {len(df)} registros...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestRegressor(n_estimators=100, max_depth=20, n_jobs=-1, random_state=42)
model.fit(X_train, y_train)

# Avalia√ß√£o R√°pida
mae = mean_absolute_error(y_test, model.predict(X_test))
print(f"üìä Sucesso! O modelo erra em m√©dia apenas {mae:.2f} dias.")

üöÄ Treinando modelo com 95660 registros...
üìä Sucesso! O modelo erra em m√©dia apenas 5.00 dias.


In [None]:
df_final = df[['dias_reais', 'dias_estimados_antigo', 'dias_previstos_ia']].sample(5000) # Amostra de 5k para ficar leve
df_final.to_csv('comparativo_modelo.csv', index=False)

print("‚úÖ Arquivo 'comparativo_modelo.csv' gerado com sucesso!")

KeyError: "['dias_estimados_antigo', 'dias_previstos_ia'] not in index"

In [None]:
print("üíæ Salvando arquivos...")

# Salvar no disco do Colab
joblib.dump(model, 'modelo_entregas.joblib')
geo_ref.to_csv('referencia_geo.csv', index=False)

print("‚¨áÔ∏è Iniciando download para sua m√°quina local...")
try:
    files.download('modelo_entregas.joblib')
    files.download('referencia_geo.csv')
    print("‚úÖ Download iniciado! Verifique sua pasta de Downloads.")
except Exception as e:
    print("‚ö†Ô∏è O download autom√°tico falhou (comum em alguns navegadores).")
    print("üëâ Por favor, v√° na aba 'Arquivos' na esquerda, clique com bot√£o direito nos arquivos gerados e escolha 'Baixar'.")

üíæ Salvando arquivos...
‚¨áÔ∏è Iniciando download para sua m√°quina local...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

‚úÖ Download iniciado! Verifique sua pasta de Downloads.


In [None]:
# 1. INSTALA√á√ÉO E IMPORTA√á√ÉO
!pip install joblib scikit-learn pandas numpy

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from google.colab import files
import joblib
import os

# --- CARREGAMENTO (Assumindo que voc√™ j√° subiu os arquivos) ---
path = "/content/"
orders = pd.read_csv(path + 'olist_orders_dataset.csv')
items = pd.read_csv(path + 'olist_order_items_dataset.csv')
customers = pd.read_csv(path + 'olist_customers_dataset.csv')
sellers = pd.read_csv(path + 'olist_sellers_dataset.csv')
products = pd.read_csv(path + 'olist_products_dataset.csv')
geolocation = pd.read_csv(path + 'olist_geolocation_dataset.csv')

print("‚öôÔ∏è Processando Geolocaliza√ß√£o e Joins...")

# 3.1. Agrupar Geo (Centr√≥ide do CEP)
geo_ref = geolocation.groupby('geolocation_zip_code_prefix')[['geolocation_lat', 'geolocation_lng']].mean().reset_index()

# 3.2. Unificar Tabelas
items_first = items.drop_duplicates('order_id', keep='first')
df = orders.merge(items_first, on='order_id', how='left')
df = df.merge(customers[['customer_id', 'customer_zip_code_prefix']], on='customer_id', how='left')
df = df.merge(sellers[['seller_id', 'seller_zip_code_prefix']], on='seller_id', how='left')
df = df.merge(products[['product_id', 'product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']], on='product_id', how='left')

# 3.3. Merge das Coordenadas
# Destino (Cliente)
df = df.merge(geo_ref, left_on='customer_zip_code_prefix', right_on='geolocation_zip_code_prefix', how='left')
df.rename(columns={'geolocation_lat': 'lat_cust', 'geolocation_lng': 'lng_cust'}, inplace=True)
df.drop('geolocation_zip_code_prefix', axis=1, inplace=True)

# Origem (Vendedor)
df = df.merge(geo_ref, left_on='seller_zip_code_prefix', right_on='geolocation_zip_code_prefix', how='left')
df.rename(columns={'geolocation_lat': 'lat_sell', 'geolocation_lng': 'lng_sell'}, inplace=True)
df.drop('geolocation_zip_code_prefix', axis=1, inplace=True)

print("üß† Calculando Dist√¢ncia e Features...")

# 3.4. Limpeza e Target
df = df[df['order_status'] == 'delivered'].dropna(subset=['order_delivered_customer_date', 'lat_cust', 'lat_sell', 'product_weight_g'])
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])
df['order_delivered_customer_date'] = pd.to_datetime(df['order_delivered_customer_date'])

# --- ADI√á√ÉO: Calcular a Estimativa Antiga (Necess√°rio para o gr√°fico) ---
df['order_estimated_delivery_date'] = pd.to_datetime(df['order_estimated_delivery_date'])
df['dias_estimados_antigo'] = (df['order_estimated_delivery_date'] - df['order_purchase_timestamp']).dt.days
# -----------------------------------------------------------------------

# Target: Dias Reais
df['dias_reais'] = (df['order_delivered_customer_date'] - df['order_purchase_timestamp']).dt.days
df = df[(df['dias_reais'] > 0) & (df['dias_reais'] < 60)]

# 3.5. Feature: Dist√¢ncia (Haversine)
def haversine_vec(lat1, lon1, lat2, lon2):
    R = 6371
    phi1, phi2 = np.radians(lat1), np.radians(lat2)
    dphi = np.radians(lat2 - lat1)
    dlambda = np.radians(lon2 - lon1)
    a = np.sin(dphi/2)**2 + np.cos(phi1)*np.cos(phi2)*np.sin(dlambda/2)**2
    return 2*R*np.arcsin(np.sqrt(a))

df['distancia_km'] = haversine_vec(df['lat_sell'], df['lng_sell'], df['lat_cust'], df['lng_cust'])
df['volume_cm3'] = df['product_length_cm'] * df['product_height_cm'] * df['product_width_cm']

features = ['distancia_km', 'product_weight_g', 'volume_cm3', 'freight_value', 'price']
X = df[features]
y = df['dias_reais']

print(f"üöÄ Treinando modelo com {len(df)} registros...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestRegressor(n_estimators=100, max_depth=20, n_jobs=-1, random_state=42)
model.fit(X_train, y_train)

# Avalia√ß√£o R√°pida
mae = mean_absolute_error(y_test, model.predict(X_test))
print(f"üìä Sucesso! O modelo erra em m√©dia apenas {mae:.2f} dias.")

# --- ADI√á√ÉO: Gerar Dados para o Gr√°fico ---
print("üìä Gerando arquivo de compara√ß√£o para o gr√°fico...")
# Usamos o modelo para prever todos os dados e comparar com a estimativa antiga
df['dias_previstos_ia'] = model.predict(X)
# Salvamos uma amostra de 5000 linhas para o arquivo n√£o ficar gigante
df_final = df[['dias_reais', 'dias_estimados_antigo', 'dias_previstos_ia']].sample(min(5000, len(df)))
df_final.to_csv('comparativo_modelo.csv', index=False)
# ------------------------------------------

print("üíæ Salvando arquivos...")

# Salvar no disco do Colab
joblib.dump(model, 'modelo_entregas.joblib')
geo_ref.to_csv('referencia_geo.csv', index=False)

print("‚¨áÔ∏è Iniciando download para sua m√°quina local...")
try:
    files.download('modelo_entregas.joblib')
    files.download('referencia_geo.csv')
    files.download('comparativo_modelo.csv') # Baixa o novo arquivo tamb√©m!
    print("‚úÖ Download iniciado! Verifique sua pasta de Downloads.")
except Exception as e:
    print("‚ö†Ô∏è O download autom√°tico falhou (comum em alguns navegadores).")
    print("üëâ Por favor, v√° na aba 'Arquivos' na esquerda, clique com bot√£o direito nos arquivos gerados e escolha 'Baixar'.")

‚öôÔ∏è Processando Geolocaliza√ß√£o e Joins...
üß† Calculando Dist√¢ncia e Features...
üöÄ Treinando modelo com 95660 registros...
üìä Sucesso! O modelo erra em m√©dia apenas 5.00 dias.
üìä Gerando arquivo de compara√ß√£o para o gr√°fico...
üíæ Salvando arquivos...
‚¨áÔ∏è Iniciando download para sua m√°quina local...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

‚úÖ Download iniciado! Verifique sua pasta de Downloads.


In [None]:
print("üîÑ Retreinando com filtro de 'Mundo Eficiente'...")

# 1. Carrega os dados (Assumindo que df j√° existe na mem√≥ria do passo anterior)
# Se n√£o estiver, recarregue os CSVs e fa√ßa os merges iniciais do script anterior.
# Vou assumir que 'df' j√° tem as colunas 'dias_reais', 'distancia_km', etc.

# --- O PULO DO GATO: LIMPEZA DE OUTLIERS ---
# Vamos manter apenas entregas que levaram at√© 20 dias (cortando a cauda longa de problemas)
# E vamos remover dados da √©poca da Greve dos Caminhoneiros (Maio/2018)
df_clean = df.copy()

# 1. Filtro de Data (Remove Greve de Maio/2018)
df_clean = df_clean[~((df_clean['order_purchase_timestamp'].dt.year == 2018) & (df_clean['order_purchase_timestamp'].dt.month == 5))]

# 2. Filtro Estat√≠stico (Mant√©m apenas 90% dos dados mais r√°pidos)
limite_aceitavel = df_clean['dias_reais'].quantile(0.90) # Pega o percentil 90
df_clean = df_clean[df_clean['dias_reais'] <= limite_aceitavel]

print(f"üìâ Removidos {len(df) - len(df_clean)} pedidos problem√°ticos (Greves/Extravios).")
print(f"üöÄ Novo teto de prazo considerado: {limite_aceitavel} dias.")

# --- TREINAMENTO ---
features = ['distancia_km', 'product_weight_g', 'volume_cm3', 'freight_value', 'price']
X = df_clean[features]
y = df_clean['dias_reais']

# Usando par√¢metros mais robustos para evitar overfitting
model_opt = RandomForestRegressor(n_estimators=150, max_depth=15, min_samples_split=5, random_state=42, n_jobs=-1)
model_opt.fit(X, y)

# Salva o novo modelo por cima do antigo
joblib.dump(model_opt, 'modelo_entregas.joblib')

print("‚úÖ Modelo Otimizado Salvo! Pode rodar o Streamlit novamente.")

üîÑ Retreinando com filtro de 'Mundo Eficiente'...
üìâ Removidos 14629 pedidos problem√°ticos (Greves/Extravios).
üöÄ Novo teto de prazo considerado: 23.0 dias.
‚úÖ Modelo Otimizado Salvo! Pode rodar o Streamlit novamente.
