# Descrição Dataframe

## Amostra
Segue uma pequena amostra do dataframe já tratado

In [14]:
import pandas as pd

df = pd.read_csv("dados/amostra.csv")

df["dt_despacho_pedido"] = pd.to_datetime(
    df["dt_despacho_pedido"] + " " + df["hr_despacho_pedido"],
    format="%Y-%m-%d %H:%M:%S",
)

df["dt_entrega_pedido"] = pd.to_datetime(df["dt_entrega_pedido"])

df["dt_previsao_entrega_cliente"] = pd.to_datetime(df["dt_previsao_entrega_cliente"])

df["dt_criacao"] = pd.to_datetime(df["dt_criacao"])

df["dt_pagamento_pedido"] = pd.to_datetime(df["dt_pagamento_pedido"])

df["flg_existem_ocorrencias"] = df["flg_existem_ocorrencias"].str.lower() == "sim"

df["entregue_no_prazo"] = df["tp_performance_entrega"] == "Entregue no Prazo"

df["qtde_dias_prazo_entrega"] = (
    df["dt_previsao_entrega_cliente"] - df["dt_despacho_pedido"]
)

df["qtde_dias_efet_entrega"] = df["dt_entrega_pedido"] - df["dt_despacho_pedido"]

df["pct_atraso"] = (
    df["qtde_dias_efet_entrega"].dt.total_seconds()
    / df["qtde_dias_prazo_entrega"].dt.total_seconds()
)
df["pct_atraso"] = df["pct_atraso"].clip(lower=0)

df = df.query(
    "not dt_despacho_pedido.isnull() and not dt_entrega_pedido.isnull() and not dt_pagamento_pedido.isnull()"
)

df.drop(
    columns=[
        "Unnamed: 0",
        "hr_despacho_pedido",
        "hr_entrega_pedido",
        "tp_performance_entrega",
        "cod_pedido",
    ],
    inplace=True,
)

df

Unnamed: 0,cidade_destinatario,uf,grp_transportadora,dt_despacho_pedido,dt_entrega_pedido,dt_previsao_entrega_cliente,dt_criacao,dt_pagamento_pedido,flg_existem_ocorrencias,tp_praca,des_unidade_negocio,des_cd_origem,qtd_dias_tat,entregue_no_prazo,qtde_dias_prazo_entrega,qtde_dias_efet_entrega,pct_atraso
0,CURITIBA,PR,Transportadora 4,2023-12-04 05:56:39,2023-12-07,2023-12-07,2023-11-30,2023-11-30,False,Capital,Multi,PR-Campina G. Sul,5.0,True,2 days 18:03:21,2 days 18:03:21,1.000000
1,PARAUAPEBAS,PA,Transportadora 2,2023-11-21 12:39:55,2023-12-01,2023-12-11,2023-11-15,2023-11-17,False,Interior,Mono,PR-Campina G. Sul,10.0,True,19 days 11:20:05,9 days 11:20:05,0.486449
2,JACAREZINHO,PR,Transportadora 4,2023-10-28 10:12:24,2023-10-31,2023-11-06,2023-10-26,2023-10-27,False,Interior,Mono,PR-Campina G. Sul,2.0,True,8 days 13:47:36,2 days 13:47:36,0.300269
3,SÃO PAULO,SP,Transportadora 5,2023-08-23 17:52:06,2023-08-24,2023-08-24,2023-08-22,2023-08-22,False,Capital,Multi,PR-Campina G. Sul,2.0,True,0 days 06:07:54,0 days 06:07:54,1.000000
4,SAO LUIS,MA,Transportadora 3,2023-08-14 08:41:00,2023-08-23,2023-08-24,2023-08-13,2023-08-12,False,Capital,Multi,PR-Campina G. Sul,8.0,True,9 days 15:19:00,8 days 15:19:00,0.896246
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
503523,BELO HORIZONTE,MG,Transportadora 3,2023-09-04 15:43:43,2023-09-07,2023-09-06,2023-09-03,2023-09-03,True,Capital,Multi,PR-Campina G. Sul,3.0,False,1 days 08:16:17,2 days 08:16:17,1.743693
503525,SÃO PAULO,SP,Transportadora 5,2023-08-23 17:39:03,2023-08-26,2023-08-24,2023-08-22,2023-08-22,True,Capital,Multi,PR-Campina G. Sul,3.0,False,0 days 06:20:57,2 days 06:20:57,8.560047
503526,São Paulo,SP,Transportadora 1,2023-09-19 15:09:15,2023-09-25,2023-09-20,2023-09-18,2023-09-16,True,Capital,Multi,SP-Jaguaré,6.0,False,0 days 08:50:45,5 days 08:50:45,14.565709
503527,NITERÓI,RJ,Transportadora 3,2023-10-16 14:59:28,2023-10-19,2023-10-18,2023-10-14,2023-10-14,False,Reg. Metropolitana,Mono,SP-Registro,4.0,False,1 days 09:00:32,2 days 09:00:32,1.727077


## Tratamentos
Segue tratamentos efetuados em cima do dataset:

- Foi retirado do dataframe os registros cuja **data despacho** esteja vazia.
- Foi retirado do dataframe os registros cuja **data entrega** esteja vazia.
- Foi retirado do dataframe os registros cuja **data pagamento** esteja vazia.
- Os campos contendo **horas** foram aglutinados nos seus respectivos campos de data.
  
## Descrição das colunas

- `cidade_destinatario`: Cidade de destino do pedido.
- `uf`: Estado da cidade destino.
- `grp_transportadora`: (Grupo) transportado que está realizando a entrega.
- `dt_despacho_pedido`: data e hora em que o pedido foi despachado.
- `dt_entrega_pedido`: data e hora em que o pedido foi entregue.
- `dt_previsao_entrega_cliente`: data prevista para a entrega do pedido.
- `dt_criacao`: data de cria o do pedido.
- `dt_pagamento_pedido`: data do pagamento do pedido.
- `flg_existem_ocorrencias`: booleano que indica se houve ocorrencias durante a entrega do pedido (problema no andamento da entrega).
- `tp_praca`: Tipo de praça de entrega (Capital, Interior, Região Metropolitana).
- `des_unidade_negocio`: Classificação da unidade de negócio.
- `des_cd_origem`: Centro de distribuição de origem.
- `entregue_no_prazo`: booleano que indica se o pedido foi entregue no prazo.
- `qtde_dias_prazo_entrega`: quantidade de dias entre a **data de despacho** e a **data de entrega prevista**.
- `qtde_dias_efet_entrega`: quantidade de dias entre a **data de despacho** e a **data de entrega efetiva**.

# Informações gerais

In [15]:
import locale
from IPython.display import Markdown

# Cálculo do percentual de entregas fora do prazo

locale.setlocale(locale.LC_ALL, 'pt_BR.UTF-8')
percentual = (len(df.query('entregue_no_prazo == False')) / len(df)) * 100

display(Markdown(f"Percentual de entregas fora do prazo: {locale.format_string('%.2f %%', percentual, grouping=True)}"))

# Lista de Centro de distribuição (origem da entrega)
display(Markdown(f"Centros de distribuições disponíveis: {', '.join(df['des_cd_origem'].unique())}"))

# Transportadoras de cada centro de distribuição
display(Markdown("Transportadoras de cada centro de distribuição:"))
for centros_dist in df["des_cd_origem"].unique():
    lista_transportadoras = df.query("des_cd_origem == @centros_dist")["grp_transportadora"].unique()
    lista_transportadoras.sort()

    display(
        Markdown(
            f"- {centros_dist}:"
        )
    )

    for transportadora in lista_transportadoras:
        display(
            Markdown(
                f"              - {transportadora}"
            )
        )

Percentual de entregas fora do prazo: 3,82 %

Centros de distribuições disponíveis: PR-Campina G. Sul, SP-Registro, SP-Jaguaré, SP-Cajamar

Transportadoras de cada centro de distribuição:

- PR-Campina G. Sul:

              - Transportadora 1

              - Transportadora 2

              - Transportadora 3

              - Transportadora 4

              - Transportadora 5

              - Transportadora 6

              - Transportadora 7

- SP-Registro:

              - Transportadora 1

              - Transportadora 2

              - Transportadora 3

              - Transportadora 4

- SP-Jaguaré:

              - Transportadora 1

              - Transportadora 3

              - Transportadora 5

              - Transportadora 7

              - Transportadora 8

- SP-Cajamar:

              - Transportadora 1

              - Transportadora 2

              - Transportadora 3

              - Transportadora 5

# Análise Exploratória

## Entendimento entregas atrasadas sobre espaço temporal 

In [16]:
import hvplot.pandas
from bokeh.models.formatters import NumeralTickFormatter

df[["entregue_no_prazo", "dt_entrega_pedido"]].set_index("dt_entrega_pedido").groupby(

    [pd.Grouper(freq="ME"), "entregue_no_prazo"]

).size().hvplot.bar(
    title="Ocorrências Mensais Entregas no Prazo vs Fora do Prazo",
    xlabel="Mês",
    ylabel="Quantidade de Entregas",
    legend="top",
    width=1200,
    height=600,
).opts(
    xrotation=45, yformatter=NumeralTickFormatter(language="pt-br")
)

In [17]:
df.query("entregue_no_prazo == False")[["dt_entrega_pedido"]].set_index(
    "dt_entrega_pedido"
).groupby(pd.Grouper(freq="ME")).size().hvplot.bar(
    title="Ocorrências Mensais Entregas Fora do Prazo",
    xlabel="Data",
    ylabel="Quantidade de Eventos",
    width=1200,
    height=600,
)

## Entendimento quantitativo das entregas

In [18]:
from turtle import title
import hvplot.pandas
import holoviews as hv

df_total_grupo = df.groupby("des_cd_origem").size()
df_fora_prazo = df.query("entregue_no_prazo == False").groupby("des_cd_origem").size()

percentual_fora_prazo = pd.DataFrame(df_fora_prazo / df_total_grupo)
percentual_fora_prazo.sort_values(0, ascending=False, inplace=True)

percentual_fora_prazo.hvplot.bar(
    title="Percentual de Entregas Fora do Prazo de cada Centro de Distribuição",
    xlabel="Centro de Distribuição",
    ylabel="% Entregas Fora do Prazo",
    width=1200,
    height=600,
).opts(yformatter=NumeralTickFormatter(format="0%"))

In [19]:
df.groupby("des_cd_origem").size().sort_values(ascending=False).hvplot.bar(
    title="Quantidade de Entregas por Centro de Distribuição",
    xlabel="Centro de Distribuição",
    ylabel="Quantidade de Entregas",
    width=1200,
    height=600,
).opts(yformatter=NumeralTickFormatter(language="pt-br"))

In [20]:
df_total_grupo = df.groupby("grp_transportadora").size()
df_fora_prazo = (
    df.query("entregue_no_prazo == False").groupby("grp_transportadora").size()
)

percentual_fora_prazo = pd.DataFrame(df_fora_prazo / df_total_grupo)
percentual_fora_prazo.sort_values(0, ascending=False, inplace=True)

percentual_fora_prazo.hvplot.bar(
    title="Percentual de Entregas Fora do Prazo de cada Grupo de Transportadora",
    xlabel="Grupo de Transportadora",
    ylabel="% Entregas Fora do Prazo",
    width=1200,
    height=600,
).opts(yformatter=NumeralTickFormatter(format="0%"))

In [21]:
import panel as pn

combo = pn.widgets.Select(
    name="Centro de Distribuição", options=sorted(df["des_cd_origem"].unique())
)


@pn.depends(combo)
def grafico_barras_transportadoras_centro_origem(centro_dist):
    return (
        df.query("des_cd_origem == @centro_dist")
        .groupby("grp_transportadora")
        .size()
        .sort_values(ascending=False)
    ).hvplot.bar(
        title=f"Quantidade de Entregas por Grupo de Transportadora - {centro_dist}",
        xlabel="Grupo de Transportadora",
        ylabel="Quantidade de Entregas",
        width=1200,
        height=600,
    ).opts(yformatter=NumeralTickFormatter(language="pt-br"))

pn.Column(combo, grafico_barras_transportadoras_centro_origem)

BokehModel(combine_events=True, render_bundle={'docs_json': {'0cea9c97-c603-48c0-b42e-c0eacc6f7f37': {'version…

In [22]:
import panel as pn

combo = pn.widgets.Select(
    name="Centro de Distribuição", options=sorted(df["des_cd_origem"].unique())
)


@pn.depends(combo)
def grafico_barras_percent_atraso_transportadora(centro_dist):
    df_filtrado = df.query("des_cd_origem == @centro_dist")

    df_total_grupo = df_filtrado.groupby("grp_transportadora").size()
    df_fora_prazo = (

        df_filtrado.query("entregue_no_prazo == False")
        .groupby("grp_transportadora")
        .size()
    )

    percentual_fora_prazo = pd.DataFrame(df_fora_prazo / df_total_grupo)
    percentual_fora_prazo.sort_values(0, ascending=False, inplace=True)

    return percentual_fora_prazo.hvplot.bar(
        title=f"Percentual de Entregas Fora do Prazo por transportadora centro de distribuição {centro_dist}",
        xlabel="Centro de Distribuição",
        ylabel="% Entregas Fora do Prazo",
        width=1200,
        height=600,
    ).opts(yformatter=NumeralTickFormatter(format="0%"))


pn.Column(combo, grafico_barras_percent_atraso_transportadora)

BokehModel(combine_events=True, render_bundle={'docs_json': {'71692b7c-d6c5-446a-85a3-c0dab0cd8d15': {'version…