In [1]:
# Importando os pacotes que serão utilizados

# Para manipulação e tratamento dos dados
import numpy as np
import pandas as pd 
import time #utilizada para funções de tempo
import matplotlib.pyplot as plt #Utilizada para gráficos
import seaborn as sns #Utilizada para gráficos

# Bibliotecas do Skit Learn
from sklearn.model_selection import train_test_split #Utilizada para separar dados pra treino e teste
from sklearn.preprocessing import StandardScaler #Utilizada para fazer a padronização dos dados
from sklearn.preprocessing import LabelEncoder #Utilizada para fazer o OneHotEncoding
from sklearn.metrics import accuracy_score #Utilizada para avaliar a acurácia do modelo preditivo
from sklearn.neighbors import KNeighborsClassifier #Nosso Algoritmo para criação do modelo
from imblearn import under_sampling, over_sampling #Utilizada para fazer o balanceamento de dados
from imblearn.over_sampling import SMOTE #Utilizada para fazer o balanceamento de dados


# Para remover avisos de alerta
import warnings #Utilizada para avisos de alertas
warnings.filterwarnings("ignore") #Ignorar avisos de alertas. Obs.: Alertas NÃO são erros, são apenas mensagens informativas

# Para não limitar a exibição do DataFrame
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [2]:
df_pedido = pd.read_csv('data/03013604.csv', encoding='latin1', sep=';')
df_clientes = pd.read_csv('data/0105070402.csv', encoding='latin1', sep=';')
df_devolvidos = pd.read_csv('data/030237.csv', encoding='latin1', sep=';')

In [3]:
df_pedido.columns = df_pedido.columns.str.strip()
df_devolvidos.columns = df_devolvidos.columns.str.strip()
df_clientes.columns = df_clientes.columns.str.strip()

In [4]:
df_pedido_val = df_pedido.drop(columns=[
  'UNB', 
  'UNB Origem', 
  'Nome PDV', 
  'Alcada Anterior 1',
  'Alcada Anterior 2',
  'Alcada Anterior 3',
  'Alcada Atual 1',
  'Alcada Atual 2',
  'Alcada Atual 3',
  'Aprovador 1',
  'Decisao Alcada 1',
  'Aprovador 2',
  'Decisao Alcada 2',
  'Aprovador 3',
  'Decisao Alcada 3',
  'Critica 1',
  'Critica 2',
  'Critica 3',
  'Critica 4',
  'Critica 5',
  'Critica 6',
  'Alcada Rejeicao',
  'Critica Rejeicao',
  'Preco S/ ADF',
  'Minimo Politica',
  'TTV Planejado',
  'Valor Sugerido',
  'Tabela Escalonada',
  'M1',
  'M2',
  'M3',
  'M2/M3',
  'Segmentada',
  'Telemarketing',
  'Empresa Destino',
  'Filial Destino',
  'Justificativa Alcada 1',
  'Justificativa Alcada 2',
  'Justificativa Alcada 3',
  'Embalagem',
  'Unid. Venda Produto',
  'Fator Conversão Pedido',
  'Unid. Venda PGV',
  'Fator Conversão PGV',
  'Embalagem SIV',
  'Crítica LC Vendas',
  'St. Fat. Automático',
  'Vendedor GCAD',
  'Cod. Setor Atendimento',
  'Tipo Setor Atendimento',
  'Situação',
  'Idade',
  'Pedido Quebra Original',
  'GUID Entrega Hércules',
  'GUID Item Hércules',
  'Desc Disponível Padrão',
  'Desc Disponível Ação',
  'Desconto Algoritmo Aut',
  ''
  ])

In [5]:
df_pedido_val['Status Pedido'] = df_pedido_val['Status Pedido'].astype(str)
df_pedido_val['Unid. Venda'] = df_pedido_val['Unid. Venda'].astype(str)
df_pedido_val['Ocorrencia'] = df_pedido_val['Ocorrencia'].astype(str)
df_pedido_val['Origem Pedido'] = df_pedido_val['Origem Pedido'].astype(str)
df_pedido_val['Fora de Rota'] = df_pedido_val['Fora de Rota'].astype(str)
df_pedido_val['Desconto na Rota'] = df_pedido_val['Desconto na Rota'].astype(str)
df_pedido_val['Desconto Fora de Rota'] = df_pedido_val['Desconto Fora de Rota'].astype(str)
df_pedido_val['Pedido Exceção'] = df_pedido_val['Pedido Exceção'].astype(str)


In [6]:
def tratar_float(valor):
    if isinstance(valor, str):
      valor = valor.strip()
    
      if valor == '':
          return np.nan
      valor = valor.replace('.', '').replace(',', '.')
    
    return valor

for i in df_pedido_val.columns.to_list():
  df_pedido_val[i] = df_pedido_val[i].apply(tratar_float)

In [7]:
df_pedido_val['Total Pedido'] = df_pedido_val['Total Pedido'].astype(float)
df_pedido_val['Total Cliente'] = df_pedido_val['Total Cliente'].astype(float)
df_pedido_val['Preco Unitario'] = df_pedido_val['Preco Unitario'].astype(float)
df_pedido_val['Compra Media'] = df_pedido_val['Compra Media'].astype(float)
df_pedido_val['Compra Media Ajustada'] = df_pedido_val['Compra Media Ajustada'].astype(float)
df_pedido_val['Volume Pedido'] = df_pedido_val['Volume Pedido'].astype(float)
df_pedido_val['Volume Total'] = df_pedido_val['Volume Total'].astype(float)


In [8]:
df_clientes_var = df_clientes.drop(columns=[
    'Empresa',
    'Filial',
    'Documento',
    'Nome Fantasia',
    'Razão Social',
    'Endereço',
    'Complemento',
    'UF',
    'Telefone(s)',
    'Cód Rede',
    'Nome Rede',
    'Modelo Score',
    'Segmento Score',
    'Limite de Crédito',
    'Limite de Crédito Usado',
    'Limite de Crédito Disponível',
    'Prazo Máximo Matriz',
    'Maior Prazo por Título',
    'Perc Pgto em Atraso',
    'Situação Documentação',
    'Data de Cadastro',
    'Data da Última Compra',
    'Compra Média',
    'Maior Compra',
    'Acumulado de Vendas',
    'Títulos Pendentes',
    'Títulos à Vencer',
    'Perc CR à Vencer (M-1)',
    'Data de Envio Serasa',
    'Data de Retorno Serasa',
    'Cód EG',
    'Cliente em Inativação',
    'Motivo Lista de Restrições',
    'Tipo de Pessoa',
    'Setor VDE',
    'Área VDE',
    'GV VDE',
    'Data Início da Visita VDE',
    'Dia de Visita do VDE',
    'Data da Prox Visita VDE',
    'Perc Positivação VDE(Mês)',
    'Perc Positivação VDE(TRI)',
    'Perc GPS VDE(Mês)',
    'Setor VDI',
    'Área VDI',
    'GV VDI',
    'Data Início da Visita VDI',
    'Dia de Visita do VDI',
    'Data da Prox Visita VDI',
    'Perc Positivação VDI(Mês)',
    'Perc Positivação VDI(TRI)',
    'Perc Contatos VDI(Mês)',
    'Prazo Médio Ponderado à Prazo (M-1)',
    'Prazo Médio Ponderado (M-1)',
    'Faturamento à Prazo (M-1)',
    'Faturamento DH (M-1)',
    'Faturamento Total (M-1)',
    'CR a Vencer (M-1)',
    'Prazo Médio Ponderado à Prazo (Mês)',
    'Prazo Médio Ponderado (Mês)',
    'Faturamento à Prazo (Mês)',
    'Faturamento DH (Mês)',
    'Faturamento Total (Mês)',
    'CR a Vencer (Mês)',
    'Perc CR a Vencer (Mês)',
    'Perc Atraso(6 meses)',
    'Maior Atraso(6 meses)',
    'Média Faturamento(3 meses)',
    'Segmento NGE',
    'Unnamed: 81',
    'Cond Pag Atual',
    'ADF',
    'Saldo em Aberto',
    'Maior Prazo Histórico',
    'Vlr Total Protestos',
    'Qtde Ações Judiciais',
    'Vlr Total Ações Judiciais',
    'Qtde Falências/Concordatas/Rec Judicial',
    'Qtde Pend Bancárias',
    'Vlr Total Pend Bancárias',
    'Qtde Part. Insucesso Empresarial',
    'Qtde Cheques Sem Fundos/Reapresentados',
    'Vlr Total Cheques Sem Fundos/Reapresentados',
    'Qtde Pend Comerciais',
    'Vlr Total Pend Comerciais',
    'Qtde Dívidas Vencidas',
    'Vlr Total Dívidas Vencidas',
    'Elegível à Extensão de Prazo',
    'Data Última Alteração Elegível',
    'Hora Última Alteração Elegível',
    'Origem Alteração Elegível',
    'Prazo Máximo Elegível',
    'Taxa Extensão de Prazo Elegível',
    'Enviar FIDC Elegível',
    'Novo Prazo Mínimo Elegível',
    'Lucro Real',
    'Presumido',
    'Simples Nacional',
    'Pessoa Física',
    'Consumidor Final',
    'Não Aplica Diferimento',
    'Não Aplica Redução ICMS',
    'Usuário Alteração Elegível',
    'Títulos Abertos FIDC',
    'Limite Crédito Total (Lim Cliente + Títulos Abertos FIDC)',
    'Limite Total Usado (Títulos Abertos + Títulos Abertos FIDC)',
    'Limite Total Disponível (Lim Total - Lim Total Usado)',
    'Perc Atraso FIDC(6 meses)',
    'Perc Atraso FIDC + AMBEV(6 meses)',
    'Unnamed: 123',
    'Situação na RF',
    'CEP'
])

In [9]:
df_clientes_var.rename(columns={'Cód PDV': 'Cod. PDV'}, inplace=True)

In [10]:
df_devolvidos['Nr. Pedido'] = df_devolvidos['Nr. Pedido'].str.strip()
df_devolvidos_notnull = df_devolvidos[df_devolvidos['Nr. Pedido'] != '']

In [11]:
columns = [
    'Nr. Pedido',
    'Status'
]

df_devolvidos_var = df_devolvidos_notnull[columns]

In [12]:
df_devolvidos_var.rename(columns={'Nr. Pedido': 'Pedido'}, inplace=True)

In [13]:
df_devolvidos_var.isna().sum()

Pedido    0
Status    0
dtype: int64

In [14]:
df_devolvidos_var.head()

Unnamed: 0,Pedido,Status
5,946962,A
6,946919,A
7,946925,A
8,946934,A
9,946716,A


In [15]:
df_pedido_cliente = pd.merge(df_pedido_val, df_clientes_var, on='Cod. PDV', how='left') 

In [16]:
df_pedido_cliente.head()

Unnamed: 0,Pedido,Data Pedido,Operacao,Cod. PDV,Setor,Status Pedido,Total Pedido,Total Cliente,Produto,Quantidade,Unid. Venda,Preco Unitario,Ocorrencia,Compra Media,Compra Media Ajustada,Volume Pedido,Volume Total,Data Liberacao,Hora Liberacao,Codigo GV,Codigo PGV,Tipo Movimento,Origem Pedido,Desconto Algoritmo,Meta Algoritmo,Código Ação Desconto Alg Fix,Fora de Rota,Desconto na Rota,Desconto Fora de Rota,Pedido Exceção,Bairro,Cidade,Categoria,Classe Risco Atual,Pontuação Score,Prazo Atual,Atraso Médio,Possui Comodato,Status do PDV,Qtde Protestos,Negativado
0,970056,01/10/2024,1,12941,112,Rejeitado,2006.02,0.0,988,20,Dz,73.25,,,,13.4,13.4,01/10/2024,18:01,1,988,51,DER,0,Não,,S,S,N,N,CONJUNTO MIRAGE ...,ANAPOLIS,REST./PIZZARIA/CHURR,3,87,0,0.0,Sim,Ativo,0,N
1,970056,01/10/2024,1,12941,112,Rejeitado,2006.02,0.0,2546,6,Dz,84.95,,,,13.4,13.4,01/10/2024,18:01,1,2546,51,DER,0,Não,,S,S,N,N,CONJUNTO MIRAGE ...,ANAPOLIS,REST./PIZZARIA/CHURR,3,87,0,0.0,Sim,Ativo,0,N
2,970056,01/10/2024,1,12941,112,Rejeitado,2006.02,0.0,503,1,cx,31.32,,,,13.4,13.4,01/10/2024,18:01,1,503,51,DER,0,Não,,S,S,N,N,CONJUNTO MIRAGE ...,ANAPOLIS,REST./PIZZARIA/CHURR,3,87,0,0.0,Sim,Ativo,0,N
3,970118,01/10/2024,1,17969,351,Rejeitado,11592.52,0.0,9071,20,cx,47.92,-->Falta,,,95.9,95.9,01/10/2024,18:01,3,7733,51,DER,0,Não,,S,S,N,N,VILA SANTA MARIA DE NAZARETH ...,ANAPOLIS,ATACADISTA,2,91,10,0.0,Nao,Ativo,0,N
4,970118,01/10/2024,1,17969,351,Rejeitado,11592.52,0.0,504,20,cx,34.65,,,,95.9,95.9,01/10/2024,18:01,3,504,51,DER,0,Não,,S,S,N,N,VILA SANTA MARIA DE NAZARETH ...,ANAPOLIS,ATACADISTA,2,91,10,0.0,Nao,Ativo,0,N


In [17]:
df_pedido_cliente['Pedido'] = df_pedido_cliente['Pedido'].astype(str)
df_devolvidos_var['Pedido'] = df_devolvidos_var['Pedido'].astype(str)
data = pd.merge(df_pedido_cliente, df_devolvidos_var, on='Pedido', how='left')

In [18]:
data.shape

(255992, 42)

In [19]:
data.isna().sum()
data_v2 = data[data['Status'].notna()]

In [20]:
data_v2.shape

(239060, 42)

In [21]:
data_v3 = data_v2.drop(columns=[
 'Ocorrencia',
 'Compra Media',
 'Compra Media Ajustada',
 'Volume Pedido',
 'Volume Total',
 'Código Ação Desconto Alg Fix',
 'Data Pedido',
 'Pedido',
 'Status Pedido',
 'Data Liberacao',
 'Hora Liberacao',
 'Total Cliente',
 'Desconto Algoritmo',
 'Meta Algoritmo',
 'Cod. PDV',
 'Quantidade',
 'Unid. Venda',
 'Bairro'
 ])

In [22]:
data_v3.head()

Unnamed: 0,Operacao,Setor,Total Pedido,Produto,Preco Unitario,Codigo GV,Codigo PGV,Tipo Movimento,Origem Pedido,Fora de Rota,Desconto na Rota,Desconto Fora de Rota,Pedido Exceção,Cidade,Categoria,Classe Risco Atual,Pontuação Score,Prazo Atual,Atraso Médio,Possui Comodato,Status do PDV,Qtde Protestos,Negativado,Status
23,1,206,722.6,1898,36.13,2,1898,51,B2BG,N,N,N,N,ABADIANIA,DEPOSITO DE BEBIDAS,5,61,0,6.0,Nao,Ativo,0,N,A
51,1,108,875.6,9092,36.24,3,2293,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A
52,1,108,875.6,13065,32.67,3,13065,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A
53,1,108,875.6,19231,27.77,3,19231,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A
54,1,108,875.6,29580,123.38,3,29580,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A


In [23]:
bins = [-100, 50, 100, 500, 1200, 5000, 10000, 50000, 100000, 1000000]
labels = ['nulo', 'baixissimo', 'baixo', 'medio', 'mediano', 'alto', 'altissimo', 'gigante', 'raro']
data_v3['grau_valor'] = pd.cut(data_v3['Total Pedido'], bins=bins, labels=labels)
pd.value_counts(data_v3.grau_valor)

grau_valor
mediano       92405
medio         57907
baixo         48976
alto          20273
altissimo      9436
nulo           5772
baixissimo     4207
gigante          84
raro              0
Name: count, dtype: int64

In [24]:
data_v3.head()

Unnamed: 0,Operacao,Setor,Total Pedido,Produto,Preco Unitario,Codigo GV,Codigo PGV,Tipo Movimento,Origem Pedido,Fora de Rota,Desconto na Rota,Desconto Fora de Rota,Pedido Exceção,Cidade,Categoria,Classe Risco Atual,Pontuação Score,Prazo Atual,Atraso Médio,Possui Comodato,Status do PDV,Qtde Protestos,Negativado,Status,grau_valor
23,1,206,722.6,1898,36.13,2,1898,51,B2BG,N,N,N,N,ABADIANIA,DEPOSITO DE BEBIDAS,5,61,0,6.0,Nao,Ativo,0,N,A,medio
51,1,108,875.6,9092,36.24,3,2293,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A,medio
52,1,108,875.6,13065,32.67,3,13065,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A,medio
53,1,108,875.6,19231,27.77,3,19231,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A,medio
54,1,108,875.6,29580,123.38,3,29580,51,B2BGA,N,N,N,N,ANAPOLIS,MINIMERCADO,3,86,13,0.0,Sim,Ativo,0,N,A,medio
