In [1]:
import pandas as pd
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração da biblioteca SQLAlchemy
from sqlalchemy import create_engine,text
from sqlalchemy.orm import sessionmaker
from sqlalchemy_utils import database_exists, create_database
from local_settings import postgresql as settings

from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression

# Configuração de visibilidade do notebook
np.set_printoptions(threshold=None, precision=2)
pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 500)
pd.set_option('display.float_format', '{:.2f}'.format)

In [7]:
def get_engine (user, passwd, host, port, db):
    url = f'postgresql://{user}:{passwd}@{host}:{port}/{db}'
    if not database_exists (url) :
        create_database(url)
    engine = create_engine(url, pool_size=50,echo=False)
    return engine


def get_engine_from_settings():
    keys = ['pguser','pgpasswd','pghost','pgport','pgdb']
    if not all(key in keys for key in settings.keys()):
        raise Exception('Bad config file')
    return get_engine(settings['pguser'],
                    settings['pgpasswd'],
                    settings['pghost'],
                    settings['pgport'],
                    settings['pgdb'])
                    

In [4]:
%%time
# # Consulta SQL para obter o dados do banco de dados
# query = """
# SELECT *
# FROM notas_fiscais_compras.notas_fiscais_item

# """
#Consulta SQL para filtrar dados de 2023
query = """
SELECT *
FROM notas_fiscais_compras.notas_fiscais_item
WHERE ano_mes LIKE '2023%'
"""


engine = get_engine_from_settings()
# Executa a consulta e carrega o resultado em um DataFrame
df = pd.read_sql(text(query), con=engine)

print("\nDimensões de NF 2023:\n{0}\n".format(df.shape))
print("\nCampos de NF 2023:\n{0}\n".format(list(df.keys())))
print("\nTipos dos dados:\n{0}\n".format(df.dtypes))


Dimensões de NF 2023:
(6247872, 28)


Campos de NF 2023:
['chave_de_acesso', 'modelo', 'serie', 'numero', 'natureza_da_operacao', 'data_emissao', 'cpf_cnpj_emitente', 'razao_social_emitente', 'inscricao_estadual_emitente', 'uf_emitente', 'municipio_emitente', 'cnpj_destinatario', 'nome_destinatario', 'uf_destinatario', 'indicador_ie_destinatario', 'destino_da_operacao', 'consumidor_final', 'presenca_do_comprador', 'numero_produto', 'descricao_do_produto_servico', 'codigo_ncm_sh', 'ncm_sh_tipo_de_produto', 'cfop', 'quantidade', 'unidade', 'valor_unitario', 'valor_total', 'ano_mes']


Tipos dos dados:
chave_de_acesso                         object
modelo                                  object
serie                                    int64
numero                                   int64
natureza_da_operacao                    object
data_emissao                    datetime64[ns]
cpf_cnpj_emitente                       object
razao_social_emitente                   object
inscricao_estadu

In [7]:
%%time

#Consulta SQL para filtrar dados de 2024
query = """
SELECT *
FROM notas_fiscais_compras.notas_fiscais_item
WHERE ano_mes LIKE '2024%'
"""


engine = get_engine_from_settings()
# Executa a consulta e carrega o resultado em um DataFrame
df = pd.read_sql(text(query), con=engine)

print("\nDimensões de NF 2024:\n{0}\n".format(df.shape))
print("\nCampos de NF 2024:\n{0}\n".format(list(df.keys())))
print("\nTipos dos dados:\n{0}\n".format(df.dtypes))


Dimensões de NF 2024:
(5762016, 28)


Campos de NF 2024:
['chave_de_acesso', 'modelo', 'serie', 'numero', 'natureza_da_operacao', 'data_emissao', 'cpf_cnpj_emitente', 'razao_social_emitente', 'inscricao_estadual_emitente', 'uf_emitente', 'municipio_emitente', 'cnpj_destinatario', 'nome_destinatario', 'uf_destinatario', 'indicador_ie_destinatario', 'destino_da_operacao', 'consumidor_final', 'presenca_do_comprador', 'numero_produto', 'descricao_do_produto_servico', 'codigo_ncm_sh', 'ncm_sh_tipo_de_produto', 'cfop', 'quantidade', 'unidade', 'valor_unitario', 'valor_total', 'ano_mes']


Tipos dos dados:
chave_de_acesso                         object
modelo                                  object
serie                                    int64
numero                                   int64
natureza_da_operacao                    object
data_emissao                    datetime64[ns]
cpf_cnpj_emitente                       object
razao_social_emitente                   object
inscricao_estadu

In [8]:
#df.to_csv('docs/nf2024.csv', index=False)


## Estatística descritiva dos dados

In [2]:
%%time
import pandas as pd

df = pd.read_csv('docs/nf2023.csv')

# Exibe apenas os campos numméricos:

print("\nDescrição dos Campos Numéricos:\n{0}\n".format(df.describe()))

# Para se ter uma visão dos atributos categóricos, os atributos não numéricos 
# são descartados. 

categ = df.dtypes[df.dtypes == "object"].index

print("\nDescrição dos Campos Categóricos:\n{0}\n".format(df[categ].describe()))


Descrição dos Campos Numéricos:
           serie       numero  inscricao_estadual_emitente  cnpj_destinatario  \
count 6247872.00   6247872.00                   6247872.00         6247872.00   
mean       60.13   8954462.57              179551017659.91  10081555134608.23   
std       215.04  65444307.67              550976801654.23  14875931487830.37   
min         0.00         1.00                        -1.00     38166000105.00   
25%         1.00      3607.00                  83782958.00    394502005456.00   
50%         1.00     22792.00                 930126572.00   7565863000155.00   
75%         1.00    198982.50              112388853119.00  10651417000259.00   
max       930.00 988575036.00             8646368810189.00  95591764001420.00   

       numero_produto  codigo_ncm_sh       cfop   quantidade  valor_unitario  \
count      6247872.00     6247872.00 6247872.00   6247872.00      6247872.00   
mean            13.11    49461696.39    5537.68       859.68         3804.99 

In [3]:
atributos_valores_unicos = df.loc[:, df.nunique() == 1]
print(f"\nColunas com Valores Iguais:\n{atributos_valores_unicos}\n")



Colunas com Valores Iguais:
                                                    modelo
0        55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
1        55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
2        55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
3        55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
4        55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
...                                                    ...
6247867  55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
6247868  55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
6247869  55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
6247870  55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...
6247871  55 - NF-E EMITIDA EM SUBSTITUIÇÃO AO MODELO 1 ...

[6247872 rows x 1 columns]



In [4]:
#Remoção de atributos irrelevantes para análise
df_filtrado = df.drop(columns=['modelo'])


In [19]:
df_filtrado.isnull().sum()

chave_de_acesso                      0
serie                                0
numero                               0
natureza_da_operacao                 1
data_emissao                         0
cpf_cnpj_emitente                    0
razao_social_emitente                0
inscricao_estadual_emitente          0
uf_emitente                          0
municipio_emitente                   0
cnpj_destinatario                    0
nome_destinatario                    0
uf_destinatario                      0
indicador_ie_destinatario            0
destino_da_operacao                  0
consumidor_final                     0
presenca_do_comprador                0
numero_produto                       0
descricao_do_produto_servico         0
codigo_ncm_sh                        0
ncm_sh_tipo_de_produto          261519
cfop                                 0
quantidade                           0
unidade                           6188
valor_unitario                       0
valor_total              

In [21]:
linhas_com_nulos = df_filtrado[df_filtrado.isnull().any(axis=1)]
linhas_com_nulos


Unnamed: 0,chave_de_acesso,serie,numero,natureza_da_operacao,data_emissao,cpf_cnpj_emitente,razao_social_emitente,inscricao_estadual_emitente,uf_emitente,municipio_emitente,cnpj_destinatario,nome_destinatario,uf_destinatario,indicador_ie_destinatario,destino_da_operacao,consumidor_final,presenca_do_comprador,numero_produto,descricao_do_produto_servico,codigo_ncm_sh,ncm_sh_tipo_de_produto,cfop,quantidade,unidade,valor_unitario,valor_total,ano_mes
9,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",3,DETERGENTE LAVA LOUCA NEUTRO CLEAN HELP 5L,34025000,,6923,2.00,GALAO,10.45,20.90,202309
17,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",11,MULTI USO AUDAX FACILITA LAVANDA 500ML,34025000,,6923,2.00,UNI,3.70,7.40,202309
25,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",19,PASTILHA ADESIVA LAVANDA SANI PLUS C/3 UN,34025000,,6923,8.00,DISPLA,3.67,29.36,202309
27,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",21,SAPONACEO CREMOSO LIMAO PERFECT CLEAN 300ML,34025000,,6923,4.00,UNIDAD,4.22,16.88,202309
36,41230904247793000107550010009038171782537130,1,903817,SIMPLES REMESSA F/ES,2023-09-12 13:57:18,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",4,DETERGENTE LAVA LOUCA NEUTRO CLEAN HELP 5L,34025000,,6923,1.00,GALAO,99.00,99.00,202309
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6247707,25230908761132000148558939001203561473845862,893,900120356,VENDA,2023-09-12 13:53:44,26816208000258,COAFAB COOPERATIVA DA AGRICULTURA FAMILIAR DO ...,-1,PB,SAO SEBASTIAO DE LAGOA DE ROCA,9649390000108,BATALHAO DE INFANTARIA MOTORIZADO,PB,NÃO CONTRIBUINTE,1 - OPERAÇÃO INTERNA,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,1,repolho,-1,,5102,44.00,KG,7.95,349.80,202309
6247732,23230901490595000173550010001244421095940964,1,124442,DOACAO,2023-09-12 13:54:54,01490595000173,DIAGNOCEL COMERCIO E REPRESENTACOES LTDA,69782687,CE,FORTALEZA,9601850000209,HOSPITAL MILITAR DE AREA DE MANAUS,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"9 - OPERAÇÃO NÃO PRESENCIAL, OUTROS",1,ARCHITECT SOLUTION TRIGGER PACK. MARCA: ABBOTT,38221990,,6910,4.00,UNIDAD,98.75,395.00,202309
6247733,23230901490595000173550010001244421095940964,1,124442,DOACAO,2023-09-12 13:54:54,01490595000173,DIAGNOCEL COMERCIO E REPRESENTACOES LTDA,69782687,CE,FORTALEZA,9601850000209,HOSPITAL MILITAR DE AREA DE MANAUS,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"9 - OPERAÇÃO NÃO PRESENCIAL, OUTROS",1,ARCHITECT SOLUTION TRIGGER PACK. MARCA: ABBOTT,38221990,,6910,4.00,UNIDAD,98.75,395.00,202309
6247859,23230901490595000173550010001244431096204428,1,124443,DOACAO,2023-09-12 13:56:20,01490595000173,DIAGNOCEL COMERCIO E REPRESENTACOES LTDA,69782687,CE,FORTALEZA,9601850000209,HOSPITAL MILITAR DE AREA DE MANAUS,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"9 - OPERAÇÃO NÃO PRESENCIAL, OUTROS",1,ARCHITECT SOLUCAO TAMPAO DE LAVAGEM CONCENTRAD...,38221990,,6910,10.00,CX,99.10,991.00,202309


In [22]:
df_filtrado[df_filtrado['chave_de_acesso'] == '41230904247793000107550010009038191316147857']

Unnamed: 0,chave_de_acesso,serie,numero,natureza_da_operacao,data_emissao,cpf_cnpj_emitente,razao_social_emitente,inscricao_estadual_emitente,uf_emitente,municipio_emitente,cnpj_destinatario,nome_destinatario,uf_destinatario,indicador_ie_destinatario,destino_da_operacao,consumidor_final,presenca_do_comprador,numero_produto,descricao_do_produto_servico,codigo_ncm_sh,ncm_sh_tipo_de_produto,cfop,quantidade,unidade,valor_unitario,valor_total,ano_mes
7,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",1,AGUA SANITARIA CLEAN HELP 5L,28289011,Hipocloritos de sódio,6923,2.0,GALAO,95.0,190.0,202309
8,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",2,ALCOOL 70 LIQUIDO SUPERVALE 5L,38089919,Outros rodenticidas apresentados em formas ou ...,6923,2.0,UNIDAD,99.0,198.0,202309
9,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",3,DETERGENTE LAVA LOUCA NEUTRO CLEAN HELP 5L,34025000,,6923,2.0,GALAO,10.45,20.9,202309
10,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",4,1333ESPONJA D.FACE UNITARIA 3M/TININDO MULTI-USO,68053090,Outros abrasivos naturais/artificiais em pó/gr...,6923,5.0,UNIDAD,0.74,3.7,202309
11,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",5,FLANELA BRANCA 28X38CM UNIAO,63071000,"Rodilhas, esfregões, panos de prato ou de cozi...",6923,8.0,UNIDAD,1.4,11.2,202309
12,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",6,INSETICIDA MULTI PRO INSET 350ML,38089119,Outros inseticidas apresentados em formas ou e...,6923,2.0,UNIDAD,10.68,21.36,202309
13,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",7,LUVA AMARELA MEDIA MULTI USO VOLK,40151900,"Outras luvas de borracha vulcanizada, não endu...",6923,2.0,PAR,5.18,10.36,202309
14,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",8,LUVA AMARELA PEQUENA MULTI USO VOLK,40151900,"Outras luvas de borracha vulcanizada, não endu...",6923,4.0,PAR,5.18,20.72,202309
15,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",9,MOP AGUA CRU P.CORTADA ROSCA NOBRE 190G 28787,63071000,"Rodilhas, esfregões, panos de prato ou de cozi...",6923,4.0,UNIDAD,14.93,59.72,202309
16,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,4247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",10,MULTI USO QUIMICPAR 5L,34029031,"Preparações para lavagem (detergentes), à base...",6923,1.0,GALAO,12.13,12.13,202309


In [23]:
df_filtrado[df_filtrado['descricao_do_produto_servico'].str.contains('detergente', case=False, na=False)]

Unnamed: 0,chave_de_acesso,serie,numero,natureza_da_operacao,data_emissao,cpf_cnpj_emitente,razao_social_emitente,inscricao_estadual_emitente,uf_emitente,municipio_emitente,cnpj_destinatario,nome_destinatario,uf_destinatario,indicador_ie_destinatario,destino_da_operacao,consumidor_final,presenca_do_comprador,numero_produto,descricao_do_produto_servico,codigo_ncm_sh,ncm_sh_tipo_de_produto,cfop,quantidade,unidade,valor_unitario,valor_total,ano_mes
9,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",3,DETERGENTE LAVA LOUCA NEUTRO CLEAN HELP 5L,34025000,,6923,2.00,GALAO,10.45,20.90,202309
36,41230904247793000107550010009038171782537130,1,903817,SIMPLES REMESSA F/ES,2023-09-12 13:57:18,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",4,DETERGENTE LAVA LOUCA NEUTRO CLEAN HELP 5L,34025000,,6923,1.00,GALAO,99.00,99.00,202309
37,41230904247793000107550010009038171782537130,1,903817,SIMPLES REMESSA F/ES,2023-09-12 13:57:18,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",5,3DETERGENTE LAVA LOUCA VIDA NEUTRO 500ML,34029039,Outras preparações para lavagem (detergentes),6923,4.00,UNIDAD,1.96,7.84,202309
68,41230904247793000107550010009038111192206433,1,903811,SIMPLES REMESSA F/ES,2023-09-12 13:57:28,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",4,3DETERGENTE LAVA LOUCA VIDA NEUTRO 500ML,34029039,Outras preparações para lavagem (detergentes),6923,2.00,UNIDAD,1.96,3.92,202309
162,41230904247793000107550010009038121260834713,1,903812,SIMPLES REMESSA F/ES,2023-09-12 13:58:39,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",4,3DETERGENTE LAVA LOUCA VIDA NEUTRO 500ML,34029039,Outras preparações para lavagem (detergentes),6923,3.00,UNIDAD,0.60,1.80,202309
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6246999,31230916907746000113558900406088871940716343,890,40608887,OUTRAS SAIDAS,2023-09-12 13:41:14,18720938000141,FUNDACAO DE DESENVOLVIMENTO DA PESQUISA,-1,MG,BELO HORIZONTE,1263896002108,"MINISTERIO DA CIENCIA, TECNOLOGIA E INOVACAO",PE,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,2,OUTROS/OL KITCH CARE DETERGENTE MAQ. LOUCAS 5L,34023100,,6949,3.00,G,98.78,296.34,202309
6247263,15230902589131000181550010000010441483310269,1,1044,Outra Saida de Merc.ou Prestacao de Servico na...,2023-09-12 13:45:00,02589131000181,PARAISO COMERCIO E SERVICOS EIRELI,152037934,PA,ANANINDEUA,34621748000123,UNIVERSIDADE FEDERAL DO PARA,PA,NÃO CONTRIBUINTE,1 - OPERAÇÃO INTERNA,1 - CONSUMIDOR FINAL,"9 - OPERAÇÃO NÃO PRESENCIAL, OUTROS",8,DETERGENTE CONCENTRADO N20 BB C/05LT,34029039,Outras preparações para lavagem (detergentes),5949,4.00,UNIDAD,20.02,80.08,202309
6247264,15230902589131000181550010000010441483310269,1,1044,Outra Saida de Merc.ou Prestacao de Servico na...,2023-09-12 13:45:00,02589131000181,PARAISO COMERCIO E SERVICOS EIRELI,152037934,PA,ANANINDEUA,34621748000123,UNIVERSIDADE FEDERAL DO PARA,PA,NÃO CONTRIBUINTE,1 - OPERAÇÃO INTERNA,1 - CONSUMIDOR FINAL,"9 - OPERAÇÃO NÃO PRESENCIAL, OUTROS",8,DETERGENTE CONCENTRADO N20 BB C/05LT,34029039,Outras preparações para lavagem (detergentes),5949,4.00,UNIDAD,20.02,80.08,202309
6247265,15230902589131000181550010000010441483310269,1,1044,Outra Saida de Merc.ou Prestacao de Servico na...,2023-09-12 13:45:00,02589131000181,PARAISO COMERCIO E SERVICOS EIRELI,152037934,PA,ANANINDEUA,34621748000123,UNIVERSIDADE FEDERAL DO PARA,PA,NÃO CONTRIBUINTE,1 - OPERAÇÃO INTERNA,1 - CONSUMIDOR FINAL,"9 - OPERAÇÃO NÃO PRESENCIAL, OUTROS",9,DETERGENTE NEUTRO LIQ. 500 ML,34029039,Outras preparações para lavagem (detergentes),5949,24.00,UNIDAD,1.58,37.92,202309


In [25]:
df_ncm= df_filtrado[df_filtrado.drop(columns=['codigo_ncm_sh']).isnull().any(axis=1)]
df_ncm['codigo_ncm_sh'].value_counts()

codigo_ncm_sh
-1           44303
 38221990    35646
 90219012    21502
 38229000    18627
 34025000    14089
             ...  
 84198190        1
 90031100        1
 94021000        1
 90857454        1
 19051000        1
Name: count, Length: 1550, dtype: int64

In [29]:
df_filtrado['descricao_do_produto_servico'][df_filtrado['codigo_ncm_sh'] == 38229000].value_counts()

descricao_do_produto_servico
KIT REA TR DPP HIV 1/2 SSP 10 RE                                                                                            285
Cartucho de soluções SP90 para ABL90                                                                                        116
VITEK 2 - ID GN (IDENTIFICACAO GRAM NEGATIVO)                                                                               114
REAGENTE PARA DIAGNOSTICO CLINICO 6, TIPO CONJUNTO COMPLETO PARA AUTOMACAO, TIPO DE ANALISE QUANTITATIVO DE BILIRRUBINA      94
VITEK 2 - AST N408 (ANTIBIOGRAMA GRAM NEG URINARIOS)                                                                         76
                                                                                                                           ... 
Integra Ise Sol Eletrol Referencia. Lote: 64426201 Validade: 30/09/2024                                                       1
FRASCO KITAZATO C/ SAIDA SUPERIOR VIDRO CAP. 2000ML 9120163 LABORGLAS      

In [None]:
df_filtrado['nome_destinatario'][df_filtrado['codigo_ncm_sh'] == 90219012].value_counts()

In [None]:
linhas_com_nulos['descricao_do_produto_servico'].value_counts()

## Criação de um relatório do Power BI
Tutorial disponível em: https://learn.microsoft.com/pt-br/power-bi/create-reports/jupyter-quick-report

In [3]:
from powerbiclient import QuickVisualize, get_dataset_config, Report, models
from powerbiclient.authentication import DeviceCodeLoginAuthentication

device_auth = DeviceCodeLoginAuthentication()
print("Autenticação concluída!")

Performing device flow authentication. Please follow the instructions below.
To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code B5MQNBNBN to authenticate.

Device flow authentication successfully completed.
You are now logged in .

The result should be passed only to trusted code in your notebook.
Autenticação concluída!


In [6]:
df_teste = df_filtrado.iloc[:500]

In [16]:
df_teste


Unnamed: 0,chave_de_acesso,serie,numero,natureza_da_operacao,data_emissao,cpf_cnpj_emitente,razao_social_emitente,inscricao_estadual_emitente,uf_emitente,municipio_emitente,cnpj_destinatario,nome_destinatario,uf_destinatario,indicador_ie_destinatario,destino_da_operacao,consumidor_final,presenca_do_comprador,numero_produto,descricao_do_produto_servico,codigo_ncm_sh,ncm_sh_tipo_de_produto,cfop,quantidade,unidade,valor_unitario,valor_total,ano_mes
0,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,3,FILTRO DE OLEO,84212300,Aparelhos para filtrar óleos minerais nos moto...,6108,9.0,UNIDAD,33.49,301.41,202309
1,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,4,FILTRO AR CONDICIONADO,84213990,Outros aparelhos para filtrar ou depurar gases,6108,6.0,UNIDAD,44.96,269.76,202309
2,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,4,FILTRO AR CONDICIONADO,84213990,Outros aparelhos para filtrar ou depurar gases,6108,6.0,UNIDAD,44.96,269.76,202309
3,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,5,PAR DE PASTILHA DE FREIO,87083090,"Outros freios e partes, para tratores/veículos...",6108,8.0,UNIDAD,207.38,1659.04,202309
4,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,5,PAR DE PASTILHA DE FREIO,87083090,"Outros freios e partes, para tratores/veículos...",6108,8.0,UNIDAD,207.38,1659.04,202309
5,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,6,LAMPADA,85391090,Outros artigos denominados 'faróis e projetore...,6108,7.0,UNIDAD,6.67,46.69,202309
6,35230902729859000161550010000120181834015362,1,12018,VENDA INTERESTADUAL,2023-09-12 13:56:50,02729859000161,CYLINDER COMERCIO E SERVICOS LTDA,115233568116,SP,SAO PAULO,9573215000176,COMANDO DA 2 BRIGADA DE INFANTARIA DE SELVA,AM,NÃO CONTRIBUINTE,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,0 - NÃO SE APLICA,6,LAMPADA,85391090,Outros artigos denominados 'faróis e projetore...,6108,7.0,UNIDAD,6.67,46.69,202309
7,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",1,AGUA SANITARIA CLEAN HELP 5L,28289011,Hipocloritos de sódio,6923,2.0,GALAO,95.0,190.0,202309
8,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",2,ALCOOL 70 LIQUIDO SUPERVALE 5L,38089919,Outros rodenticidas apresentados em formas ou ...,6923,2.0,UNIDAD,99.0,198.0,202309
9,41230904247793000107550010009038191316147857,1,903819,SIMPLES REMESSA F/ES,2023-09-12 13:57:08,04247793000107,CONCORDE LOGISTICA E DISTRIBUICAO LTDA,9022642305,PR,CURITIBA,29979036026450,GERENCIA EXECUTIVA PELOTAS,RS,CONTRIBUINTE ISENTO,2 - OPERAÇÃO INTERESTADUAL,1 - CONSUMIDOR FINAL,"3 - OPERAÇÃO NÃO PRESENCIAL, TELEATENDIMENTO",3,DETERGENTE LAVA LOUCA NEUTRO CLEAN HELP 5L,34025000,,6923,2.0,GALAO,10.45,20.9,202309


In [7]:
# Criar um relatório do Power BI a partir do Dataframe
PBI_visualize = QuickVisualize(get_dataset_config(df_teste), auth=device_auth)

# Carregar novo relatório
PBI_visualize

QuickVisualize()

In [None]:
# Função para consultar o banco de dados sem construir df pandas
# def get_session() :
#     engine = get_engine_from_settings()
#     session = sessionmaker(bind=engine) ()
#     return session

# session = get_session()

# query = """
# SELECT 
#     column_name, 
#     data_type
# FROM 
#     information_schema.columns
# WHERE 
#     table_schema = 'notas_fiscais_compras'
#     AND table_name = 'notas_fiscais_item';
# """

# result = session.execute(text(query))
# rows = result.fetchall()
# for row in rows:
#     print(f"Coluna: {row.column_name}, Tipo: {row.data_type}")
