##Importando Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

##Leitura dos arquivos

In [2]:
xls = pd.ExcelFile('/content/planilha.xlsx')
print(xls.sheet_names)

['CONTRATOS DE FRETE', 'CTE']


In [3]:
df_frete = pd.read_excel(xls, sheet_name='CONTRATOS DE FRETE')
df_cte = pd.read_excel(xls, sheet_name='CTE')

In [4]:
df_frete.head()

Unnamed: 0,Data,Número Contrato,Cidade Origem,Cidade Destino,Cliente,Motorista,NUMERO CTE,Valor Contrato,PESO,VENDEDOR,STATUS
0,2024-12-14,C10000,SÃ£o Paulo,Rio de Janeiro,Cliente C,JoÃ£o Silva,CTE100000,997.86,14177,Vendedor 2,ATIVO
1,2024-02-28,C10001,Porto Alegre,Belo Horizonte,Cliente B,JoÃ£o Silva,CTE100002,3916.88,8900,Vendedor 1,ATIVO
2,2024-02-10,C10002,Campinas,Rio de Janeiro,Cliente B,Carlos Souza,CTE100003,4937.53,15853,Vendedor 1,ATIVO
3,2024-04-11,C10003,Curitiba,Curitiba,Cliente C,Maria Oliveira,CTE100005,4458-01-01 00:00:00,17464,Vendedor 2,ATIVO
4,2024-03-07,C10004,Belo Horizonte,Belo Horizonte,Cliente A,Carlos Souza,CTE100008,704.11,11961,Vendedor 3,ATIVO


In [5]:
df_cte.head()

Unnamed: 0,Data,NUMERO CTE,Cidade Origem,Cidade Destino,Cliente,Valor do CTE,Numero de Contrato,PESO,STATUS
0,2024-09-15,CTE100000,Porto Alegre,Curitiba,Cliente B,3687.55,C10000,4033,ATIVO
1,2024-03-09,CTE100001,Rio de Janeiro,Campinas,Cliente D,2062.49,C10001,16985,ATIVO
2,2024-09-18,CTE100002,Curitiba,Belo Horizonte,Cliente B,2073.79,C10002,2483,ATIVO
3,2024-12-08,CTE100003,Rio de Janeiro,Campinas,Cliente A,2833.74,C10002,19373,ATIVO
4,2024-05-03,CTE100004,SÃ£o Paulo,Belo Horizonte,Cliente B,1859.27,C10003,13743,ATIVO


##Patronizando colunas

###Colunas antes de patronizar

In [6]:
df_frete.columns

Index(['Data', 'Número Contrato', 'Cidade Origem', 'Cidade Destino', 'Cliente',
       'Motorista', 'NUMERO CTE', 'Valor Contrato', 'PESO', 'VENDEDOR',
       'STATUS'],
      dtype='object')

In [7]:
df_cte.columns

Index(['Data', 'NUMERO CTE', 'Cidade Origem', 'Cidade Destino', 'Cliente',
       'Valor do CTE', 'Numero de Contrato', 'PESO', 'STATUS'],
      dtype='object')

###Colunas depois de patronizar

In [8]:
def padronizar_colunas(df):
    df.columns = (
        df.columns
        .str.strip()
        .str.lower()
        .str.normalize('NFKD')
        .str.encode('ascii', 'ignore')
        .str.decode('utf-8')
        .str.replace(r'[^\w\s]', '', regex=True)
        .str.replace(' ', '_')
    )
    return df

df_frete = padronizar_colunas(df_frete)
df_cte = padronizar_colunas(df_cte)

print("Colunas do df_1 (Frete):", df_frete.columns)
print("Colunas do df_2 (CTE):", df_cte.columns)

Colunas do df_1 (Frete): Index(['data', 'numero_contrato', 'cidade_origem', 'cidade_destino', 'cliente',
       'motorista', 'numero_cte', 'valor_contrato', 'peso', 'vendedor',
       'status'],
      dtype='object')
Colunas do df_2 (CTE): Index(['data', 'numero_cte', 'cidade_origem', 'cidade_destino', 'cliente',
       'valor_do_cte', 'numero_de_contrato', 'peso', 'status'],
      dtype='object')


##Corrigindo coluna valor_contrato (Contrato frete)




In [9]:
df_frete['valor_contrato'] = df_frete['valor_contrato'].astype(str)


def corrigir_valor(valor):
    if '00:00:00' in valor and '-' in valor:
        try:
            partes = valor.split('-')
            return float(partes[0] + '.' + partes[1])
        except:
            return np.nan
    else:
        try:
            valor = valor.replace(',', '.').strip()
            return float(valor)
        except:
            return np.nan

df_frete['valor_contrato'] = df_frete['valor_contrato'].apply(corrigir_valor)

In [10]:
df_frete.head(10)

Unnamed: 0,data,numero_contrato,cidade_origem,cidade_destino,cliente,motorista,numero_cte,valor_contrato,peso,vendedor,status
0,2024-12-14,C10000,SÃ£o Paulo,Rio de Janeiro,Cliente C,JoÃ£o Silva,CTE100000,997.86,14177,Vendedor 2,ATIVO
1,2024-02-28,C10001,Porto Alegre,Belo Horizonte,Cliente B,JoÃ£o Silva,CTE100002,3916.88,8900,Vendedor 1,ATIVO
2,2024-02-10,C10002,Campinas,Rio de Janeiro,Cliente B,Carlos Souza,CTE100003,4937.53,15853,Vendedor 1,ATIVO
3,2024-04-11,C10003,Curitiba,Curitiba,Cliente C,Maria Oliveira,CTE100005,4458.01,17464,Vendedor 2,ATIVO
4,2024-03-07,C10004,Belo Horizonte,Belo Horizonte,Cliente A,Carlos Souza,CTE100008,704.11,11961,Vendedor 3,ATIVO
5,2024-01-12,C10005,Rio de Janeiro,SÃ£o Paulo,Cliente A,JoÃ£o Silva,CTE100009,2714.47,18397,Vendedor 3,ATIVO
6,2024-09-01,C10006,Campinas,Rio de Janeiro,Cliente C,Maria Oliveira,CTE100010,3605.93,27381,Vendedor 1,ATIVO
7,2024-12-22,C10007,Rio de Janeiro,Rio de Janeiro,Cliente C,JoÃ£o Silva,CTE100012,3485.64,13858,Vendedor 1,ATIVO
8,2024-10-25,C10008,Belo Horizonte,SÃ£o Paulo,Cliente B,Fernanda Lima,CTE100014,3401.16,7760,Vendedor 1,ATIVO
9,2024-01-24,C10009,Belo Horizonte,Campinas,Cliente C,Fernanda Lima,CTE100015,1652.2,21822,Vendedor 3,ATIVO


In [11]:
df_frete.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 497 entries, 0 to 496
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   data             497 non-null    datetime64[ns]
 1   numero_contrato  497 non-null    object        
 2   cidade_origem    497 non-null    object        
 3   cidade_destino   497 non-null    object        
 4   cliente          497 non-null    object        
 5   motorista        497 non-null    object        
 6   numero_cte       497 non-null    object        
 7   valor_contrato   497 non-null    float64       
 8   peso             497 non-null    int64         
 9   vendedor         497 non-null    object        
 10  status           497 non-null    object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(8)
memory usage: 42.8+ KB


##Corrigindo coluna valor_do_cte (CTE)


In [12]:
df_cte.head(10)

Unnamed: 0,data,numero_cte,cidade_origem,cidade_destino,cliente,valor_do_cte,numero_de_contrato,peso,status
0,2024-09-15,CTE100000,Porto Alegre,Curitiba,Cliente B,3687.55,C10000,4033,ATIVO
1,2024-03-09,CTE100001,Rio de Janeiro,Campinas,Cliente D,2062.49,C10001,16985,ATIVO
2,2024-09-18,CTE100002,Curitiba,Belo Horizonte,Cliente B,2073.79,C10002,2483,ATIVO
3,2024-12-08,CTE100003,Rio de Janeiro,Campinas,Cliente A,2833.74,C10002,19373,ATIVO
4,2024-05-03,CTE100004,SÃ£o Paulo,Belo Horizonte,Cliente B,1859.27,C10003,13743,ATIVO
5,2024-12-07,CTE100005,SÃ£o Paulo,Campinas,Cliente D,5237.98,C10003,12346,CANCELADO
6,2024-02-14,CTE100006,Belo Horizonte,Curitiba,Cliente A,3655.45,C10003,2646,ATIVO
7,2024-11-06,CTE100007,SÃ£o Paulo,Porto Alegre,Cliente C,2523.39,C10004,29523,ATIVO
8,2024-04-05,CTE100008,Porto Alegre,Porto Alegre,Cliente C,975.04,C10004,26543,ATIVO
9,2024-11-15,CTE100009,Rio de Janeiro,SÃ£o Paulo,Cliente B,3791-07-01 00:00:00,C10004,23964,ATIVO


In [13]:
df_cte['valor_do_cte'] = df_cte['valor_do_cte'].astype(str)


def corrigir_valor(valor):
    if '00:00:00' in valor and '-' in valor:
        try:
            partes = valor.split('-')
            return float(partes[0] + '.' + partes[1])
        except:
            return np.nan
    else:
        try:
            valor = valor.replace(',', '.').strip()
            return float(valor)
        except:
            return np.nan

df_cte['valor_do_cte'] = df_cte['valor_do_cte'].apply(corrigir_valor)

In [14]:
df_cte.head(10)

Unnamed: 0,data,numero_cte,cidade_origem,cidade_destino,cliente,valor_do_cte,numero_de_contrato,peso,status
0,2024-09-15,CTE100000,Porto Alegre,Curitiba,Cliente B,3687.55,C10000,4033,ATIVO
1,2024-03-09,CTE100001,Rio de Janeiro,Campinas,Cliente D,2062.49,C10001,16985,ATIVO
2,2024-09-18,CTE100002,Curitiba,Belo Horizonte,Cliente B,2073.79,C10002,2483,ATIVO
3,2024-12-08,CTE100003,Rio de Janeiro,Campinas,Cliente A,2833.74,C10002,19373,ATIVO
4,2024-05-03,CTE100004,SÃ£o Paulo,Belo Horizonte,Cliente B,1859.27,C10003,13743,ATIVO
5,2024-12-07,CTE100005,SÃ£o Paulo,Campinas,Cliente D,5237.98,C10003,12346,CANCELADO
6,2024-02-14,CTE100006,Belo Horizonte,Curitiba,Cliente A,3655.45,C10003,2646,ATIVO
7,2024-11-06,CTE100007,SÃ£o Paulo,Porto Alegre,Cliente C,2523.39,C10004,29523,ATIVO
8,2024-04-05,CTE100008,Porto Alegre,Porto Alegre,Cliente C,975.04,C10004,26543,ATIVO
9,2024-11-15,CTE100009,Rio de Janeiro,SÃ£o Paulo,Cliente B,3791.07,C10004,23964,ATIVO


In [15]:
df_cte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   data                1000 non-null   datetime64[ns]
 1   numero_cte          1000 non-null   object        
 2   cidade_origem       1000 non-null   object        
 3   cidade_destino      1000 non-null   object        
 4   cliente             1000 non-null   object        
 5   valor_do_cte        1000 non-null   float64       
 6   numero_de_contrato  1000 non-null   object        
 7   peso                1000 non-null   int64         
 8   status              1000 non-null   object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(6)
memory usage: 70.4+ KB


##Total valores cancelados

In [16]:
df_frete['status'].value_counts()

Unnamed: 0_level_0,count
status,Unnamed: 1_level_1
ATIVO,486
CANCELADO,11


##Removendo registros cancelados

In [17]:
print("Quantidade antes:", df_frete.shape)
print("Quantidade antes:", df_cte.shape)

Quantidade antes: (497, 11)
Quantidade antes: (1000, 9)


In [18]:
df_frete = df_frete[~df_frete['status'].str.upper().str.contains('CANCELADO')]
df_cte = df_cte[~df_cte['status'].str.upper().str.contains('CANCELADO')]

In [19]:
print("Quantidade depois:", df_frete.shape)
print("Quantidade depois:", df_cte.shape)

Quantidade depois: (486, 11)
Quantidade depois: (910, 9)


##Removendo registros nulos

In [20]:
df_cte.isnull().sum()

Unnamed: 0,0
data,0
numero_cte,0
cidade_origem,0
cidade_destino,0
cliente,0
valor_do_cte,0
numero_de_contrato,0
peso,0
status,0


In [21]:
df_frete.isnull().sum()

Unnamed: 0,0
data,0
numero_contrato,0
cidade_origem,0
cidade_destino,0
cliente,0
motorista,0
numero_cte,0
valor_contrato,0
peso,0
vendedor,0


##Removendo registros duplicados

In [22]:
df_frete.duplicated().sum()

np.int64(0)

In [23]:
df_cte.duplicated().sum()

np.int64(0)

In [24]:
df_frete.head()

Unnamed: 0,data,numero_contrato,cidade_origem,cidade_destino,cliente,motorista,numero_cte,valor_contrato,peso,vendedor,status
0,2024-12-14,C10000,SÃ£o Paulo,Rio de Janeiro,Cliente C,JoÃ£o Silva,CTE100000,997.86,14177,Vendedor 2,ATIVO
1,2024-02-28,C10001,Porto Alegre,Belo Horizonte,Cliente B,JoÃ£o Silva,CTE100002,3916.88,8900,Vendedor 1,ATIVO
2,2024-02-10,C10002,Campinas,Rio de Janeiro,Cliente B,Carlos Souza,CTE100003,4937.53,15853,Vendedor 1,ATIVO
3,2024-04-11,C10003,Curitiba,Curitiba,Cliente C,Maria Oliveira,CTE100005,4458.01,17464,Vendedor 2,ATIVO
4,2024-03-07,C10004,Belo Horizonte,Belo Horizonte,Cliente A,Carlos Souza,CTE100008,704.11,11961,Vendedor 3,ATIVO


In [25]:
df_cte.head(6)

Unnamed: 0,data,numero_cte,cidade_origem,cidade_destino,cliente,valor_do_cte,numero_de_contrato,peso,status
0,2024-09-15,CTE100000,Porto Alegre,Curitiba,Cliente B,3687.55,C10000,4033,ATIVO
1,2024-03-09,CTE100001,Rio de Janeiro,Campinas,Cliente D,2062.49,C10001,16985,ATIVO
2,2024-09-18,CTE100002,Curitiba,Belo Horizonte,Cliente B,2073.79,C10002,2483,ATIVO
3,2024-12-08,CTE100003,Rio de Janeiro,Campinas,Cliente A,2833.74,C10002,19373,ATIVO
4,2024-05-03,CTE100004,SÃ£o Paulo,Belo Horizonte,Cliente B,1859.27,C10003,13743,ATIVO
6,2024-02-14,CTE100006,Belo Horizonte,Curitiba,Cliente A,3655.45,C10003,2646,ATIVO


##Receita x Despesas de cada cliente

In [26]:
receitas_clientes = df_cte.groupby('cliente')['valor_do_cte'].sum()
despesas_clientes = df_frete.groupby('cliente')['valor_contrato'].sum()


In [27]:
print(receitas_clientes)

cliente
Cliente A    713170.65
Cliente B    693937.98
Cliente C    717100.61
Cliente D    738680.81
Name: valor_do_cte, dtype: float64


In [28]:
print(despesas_clientes)

cliente
Cliente A    350302.72
Cliente B    350024.93
Cliente C    294040.17
Cliente D    313806.16
Name: valor_contrato, dtype: float64


##Exportando os dados

In [29]:
df_frete.to_csv('df_frete.csv', index=False)


In [30]:
from google.colab import files
files.download('df_frete.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [31]:
df_frete.to_excel('df_frete.xlsx', index=False)

In [32]:
from google.colab import files
files.download('df_frete.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [33]:
df_cte.to_csv('df_cte.csv', index=False)

In [34]:
from google.colab import files
files.download('df_cte.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [35]:
df_cte.to_excel('df_cte.xlsx', index=False)

In [36]:
from google.colab import files
files.download('df_cte.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

##EBITDA (vendedor)

In [37]:
df_receita = df_cte.groupby('cliente')['valor_do_cte'].sum().reset_index()
print(df_receita)

     cliente  valor_do_cte
0  Cliente A     713170.65
1  Cliente B     693937.98
2  Cliente C     717100.61
3  Cliente D     738680.81


In [38]:
df_despesa = df_frete.groupby('cliente')['valor_contrato'].sum().reset_index()
print(df_despesa)

     cliente  valor_contrato
0  Cliente A       350302.72
1  Cliente B       350024.93
2  Cliente C       294040.17
3  Cliente D       313806.16


In [39]:
df_ebitda = pd.merge(df_receita, df_despesa, on='cliente')
df_ebitda['EBITDA'] = df_ebitda['valor_do_cte'] - df_ebitda['valor_contrato']

In [40]:
df_merged = pd.merge(df_cte, df_frete, on='numero_cte', suffixes=('_cte', '_frete'))


df_merged['EBITDA'] = df_merged['valor_do_cte'] - df_merged['valor_contrato']


df_ebitda = df_merged.groupby('vendedor')[['valor_do_cte', 'valor_contrato', 'EBITDA']].sum().reset_index()

print(df_ebitda)

     vendedor  valor_do_cte  valor_contrato    EBITDA
0  Vendedor 1     402231.44       390476.50  11754.94
1  Vendedor 2     519221.23       432170.95  87050.28
2  Vendedor 3     462621.75       374018.49  88603.26


In [41]:
df_ebitda.to_excel('df_ebitda.xlsx', index=False)
from google.colab import files
files.download('df_ebitda.xlsx')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

##Exportando para o Big Query

In [42]:
!pip install pandas-gbq --quiet
!pip install --upgrade google-cloud-bigquery --quiet

In [43]:
from google.colab import auth
auth.authenticate_user()

In [46]:
from pandas_gbq import to_gbq


project_id = 'projeto-rodoprima'


to_gbq(df_cte, 'desafio.cte', project_id=project_id, if_exists='replace')


to_gbq(df_frete, 'desafio.frete', project_id=project_id, if_exists='replace')

to_gbq(df_ebitda, 'desafio.ebitda', project_id=project_id, if_exists='replace')

100%|██████████| 1/1 [00:00<00:00, 3054.85it/s]
100%|██████████| 1/1 [00:00<00:00, 8665.92it/s]
100%|██████████| 1/1 [00:00<00:00, 6543.38it/s]
