# Análise dos Resultados

O processo de análise dos resultados foi feito utilizando a lista de anomalias encontradas por cada modelo e então realizando uma comparação dos dados com registros similares a procura de valores acima ou abaixo da média.

In [1]:
# Bibliotecas de manipulação de dados
import pandas as pd
import numpy as np

# Biblioteca para emitir os avisos do Python
import warnings

warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None)

In [2]:
# Carrega a base de dados original (apenas os registros com o NCM mais comum)
original = pd.read_csv(r'..\..\datasets\nfs_cleaned_most_common_ncm.csv', encoding='latin-1')

# Carrega os resultados encontrados pelo iForest (apenas os índices)
iforest = pd.read_csv(r'..\iforest\output\outliers.csv', encoding='latin-1')
iforest = iforest['idx']

# Carrega os resultados encontrados pelo SOM (apenas os índices)
som = pd.read_csv(r'..\som\output\outliers.csv', encoding='latin-1')
som = som['idx']

# Carrega os resultados encontrados pelo LOF (apenas os índices)
lof = pd.read_csv(r'..\lof\output\outliers.csv', encoding='latin-1')
lof = lof['idx']

# Carrega os resultados encontrados pela intersecção SOM iForest (apenas os índices)
intersec1 = pd.read_csv(r'output\som_iforest_intersec.csv', encoding='latin-1')
intersec1 = intersec1['idx']

# Carrega os resultados encontrados pela intersecção SOM LOF (apenas os índices)
intersec2 = pd.read_csv(r'output\som_lof_intersec.csv', encoding='latin-1')
intersec2 = intersec2['idx']

# Carrega os resultados encontrados pela intersecção LOF iForest (apenas os índices)
intersec3 = pd.read_csv(r'output\lof_iforest_intersec.csv', encoding='latin-1')
intersec3 = intersec3['idx']

# Carrega os resultados encontrados pela intersecção SOM iForest e LOF (apenas os índices)
intersec4 = pd.read_csv(r'output\all_intersec.csv', encoding='latin-1')
intersec4 = intersec4['idx']

## Criação da lista de anomalias contendo seus dados

A partir dos índices, encontra-se os dados sobre registros anômalos
Os dados são salvos em um arquivo permitindo abri-los no Excel para a análise manual

In [3]:
# Encontra os dados de um registro a partir da lista de índices e da base original
iforest_rows = original.loc[iforest]
iforest_rows['idx'] = iforest_rows.index

# Salva os dados em um CSV
iforest_rows.to_csv(r'output\iforest_real_values.csv', encoding='utf-8', index=False)
iforest_rows.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 764 entries, 71964 to 55970
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         764 non-null    int64  
 1   nf_item           764 non-null    int64  
 2   nf_datahora       764 non-null    object 
 3   nf_timestamp      764 non-null    int64  
 4   nf_valor_total    764 non-null    float64
 5   emit_nome         764 non-null    object 
 6   emit_cnpj         764 non-null    int64  
 7   emit_bairro       764 non-null    object 
 8   emit_municipio    764 non-null    object 
 9   emit_cep          764 non-null    int64  
 10  emit_lat          764 non-null    float64
 11  emit_long         764 non-null    float64
 12  prod_desc         764 non-null    object 
 13  prod_ncm          764 non-null    int64  
 14  prod_cfop         764 non-null    int64  
 15  prod_quant        764 non-null    float64
 16  prod_unid         764 non-null    obje

In [4]:
som_rows = original.loc[som]
som_rows['idx'] = som_rows.index
som_rows.to_csv(r'output\som_real_values.csv', encoding='utf-8', index=False)
som_rows.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 765 entries, 70971 to 55230
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         765 non-null    int64  
 1   nf_item           765 non-null    int64  
 2   nf_datahora       765 non-null    object 
 3   nf_timestamp      765 non-null    int64  
 4   nf_valor_total    765 non-null    float64
 5   emit_nome         765 non-null    object 
 6   emit_cnpj         765 non-null    int64  
 7   emit_bairro       765 non-null    object 
 8   emit_municipio    765 non-null    object 
 9   emit_cep          765 non-null    int64  
 10  emit_lat          765 non-null    float64
 11  emit_long         765 non-null    float64
 12  prod_desc         765 non-null    object 
 13  prod_ncm          765 non-null    int64  
 14  prod_cfop         765 non-null    int64  
 15  prod_quant        765 non-null    float64
 16  prod_unid         765 non-null    obje

In [5]:
lof_rows = original.loc[lof]
lof_rows['idx'] = lof_rows.index
lof_rows.to_csv(r'output\lof_real_values.csv', encoding='utf-8', index=False)
lof_rows.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 765 entries, 72126 to 40329
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         765 non-null    int64  
 1   nf_item           765 non-null    int64  
 2   nf_datahora       765 non-null    object 
 3   nf_timestamp      765 non-null    int64  
 4   nf_valor_total    765 non-null    float64
 5   emit_nome         765 non-null    object 
 6   emit_cnpj         765 non-null    int64  
 7   emit_bairro       765 non-null    object 
 8   emit_municipio    765 non-null    object 
 9   emit_cep          765 non-null    int64  
 10  emit_lat          765 non-null    float64
 11  emit_long         765 non-null    float64
 12  prod_desc         765 non-null    object 
 13  prod_ncm          765 non-null    int64  
 14  prod_cfop         765 non-null    int64  
 15  prod_quant        765 non-null    float64
 16  prod_unid         765 non-null    obje

In [6]:
intersec1 = original.loc[intersec1]
intersec1['idx'] = intersec1.index
intersec1.to_csv(r'output\som_iforest_real_values.csv', encoding='utf-8', index=False)
intersec1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 218 entries, 46592 to 46591
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         218 non-null    int64  
 1   nf_item           218 non-null    int64  
 2   nf_datahora       218 non-null    object 
 3   nf_timestamp      218 non-null    int64  
 4   nf_valor_total    218 non-null    float64
 5   emit_nome         218 non-null    object 
 6   emit_cnpj         218 non-null    int64  
 7   emit_bairro       218 non-null    object 
 8   emit_municipio    218 non-null    object 
 9   emit_cep          218 non-null    int64  
 10  emit_lat          218 non-null    float64
 11  emit_long         218 non-null    float64
 12  prod_desc         218 non-null    object 
 13  prod_ncm          218 non-null    int64  
 14  prod_cfop         218 non-null    int64  
 15  prod_quant        218 non-null    float64
 16  prod_unid         218 non-null    obje

In [7]:
intersec2 = original.loc[intersec2]
intersec2['idx'] = intersec2.index
intersec2.to_csv(r'output\som_lof_real_values.csv', encoding='utf-8', index=False)
intersec2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 49 entries, 72320 to 74235
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         49 non-null     int64  
 1   nf_item           49 non-null     int64  
 2   nf_datahora       49 non-null     object 
 3   nf_timestamp      49 non-null     int64  
 4   nf_valor_total    49 non-null     float64
 5   emit_nome         49 non-null     object 
 6   emit_cnpj         49 non-null     int64  
 7   emit_bairro       49 non-null     object 
 8   emit_municipio    49 non-null     object 
 9   emit_cep          49 non-null     int64  
 10  emit_lat          49 non-null     float64
 11  emit_long         49 non-null     float64
 12  prod_desc         49 non-null     object 
 13  prod_ncm          49 non-null     int64  
 14  prod_cfop         49 non-null     int64  
 15  prod_quant        49 non-null     float64
 16  prod_unid         49 non-null     objec

In [8]:
intersec3 = original.loc[intersec3]
intersec3['idx'] = intersec3.index
intersec3.to_csv(r'output\lof_iforest_real_values.csv', encoding='utf-8', index=False)
intersec3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 33 entries, 72194 to 72191
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         33 non-null     int64  
 1   nf_item           33 non-null     int64  
 2   nf_datahora       33 non-null     object 
 3   nf_timestamp      33 non-null     int64  
 4   nf_valor_total    33 non-null     float64
 5   emit_nome         33 non-null     object 
 6   emit_cnpj         33 non-null     int64  
 7   emit_bairro       33 non-null     object 
 8   emit_municipio    33 non-null     object 
 9   emit_cep          33 non-null     int64  
 10  emit_lat          33 non-null     float64
 11  emit_long         33 non-null     float64
 12  prod_desc         33 non-null     object 
 13  prod_ncm          33 non-null     int64  
 14  prod_cfop         33 non-null     int64  
 15  prod_quant        33 non-null     float64
 16  prod_unid         33 non-null     objec

In [9]:
intersec4 = original.loc[intersec4]
intersec4['idx'] = intersec4.index
intersec4.to_csv(r'output\all_intersec_real_values.csv', encoding='utf-8', index=False)
intersec4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8 entries, 62178 to 70971
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   nf_numero         8 non-null      int64  
 1   nf_item           8 non-null      int64  
 2   nf_datahora       8 non-null      object 
 3   nf_timestamp      8 non-null      int64  
 4   nf_valor_total    8 non-null      float64
 5   emit_nome         8 non-null      object 
 6   emit_cnpj         8 non-null      int64  
 7   emit_bairro       8 non-null      object 
 8   emit_municipio    8 non-null      object 
 9   emit_cep          8 non-null      int64  
 10  emit_lat          8 non-null      float64
 11  emit_long         8 non-null      float64
 12  prod_desc         8 non-null      object 
 13  prod_ncm          8 non-null      int64  
 14  prod_cfop         8 non-null      int64  
 15  prod_quant        8 non-null      float64
 16  prod_unid         8 non-null      object

## Análise manual dos dados

Com os arquivos CVS abertos no Excel, o desenvolvedor realizou a análise manual dos 10 primeiros resultados (os que apresentam maior anomaly score) comparando-os com itens similares da base original utilizando a descrição do produto e sua unidade.

In [23]:
# Cria queries utilizando quantidades de termos diferentes
# Aqui se faz necessário utilizar diferentes templates de queries pois inicialmente o desenvolvedor encontra 
# a coluna de descrição do produto e encontra palavras-chave que serão relevantes para a busca
# Múltiplas palavras-chave e padrões são encontrados na base original
# Retirar o comentário das linhas de código ao utilizar um template

# Template de query com 3 palvaras-chave de descrição e 2 de unidade
query = original[original['prod_desc'].str.contains('sinvastatina', case=False) & original['prod_desc'].str.contains('40', case=False) & original['prod_desc'].str.contains('comprimido', case=False) & ((original['prod_unid'] == 'cpr') | (original['prod_unid'] == 'cp'))]

# Template de query com 2 palvaras-chave de descrição e 1 de unidade
#query = original[original['prod_desc'].str.contains('sinvastatina', case=False) & original['prod_desc'].str.contains('40', case=False) & (original['prod_unid'] == 'cpr')]

# Template de query com 1 palvara-chave de descrição e 2 de unidade
#query = original[original['prod_desc'].str.contains('fluconazol', case=False) & ((original['prod_unid'] == 'cpr') | (original['prod_unid'] == 'cp'))]

# Template de query com 1 palvara-chave de descrição e 1 de unidade
#query = original[original['prod_desc'].str.contains('diosmina', case=False) & (original['prod_unid'] == 'cp')]

# Template de query com 1 palvara-chave de descrição apenas
#query = original[original['prod_desc'].str.contains('anestesico topico', case=False)]

# Mostra as estatísticas da query
query.describe()

Unnamed: 0,nf_numero,nf_item,nf_timestamp,nf_valor_total,emit_cnpj,emit_cep,emit_lat,emit_long,prod_ncm,prod_cfop,prod_quant,prod_valor_unit,prod_valor_total
count,17.0,17.0,17.0,17.0,17.0,17.0,17.0,17.0,17.0,17.0,17.0,17.0,17.0
mean,27966.058824,9.764706,1469777000.0,28806.880588,9831378000000.0,63274060.0,-9.624297,-37.818235,30049099.0,5250.647059,13422.0,0.294118,1818.247059
std,35772.610188,3.849179,6150846.0,70293.483716,2751591000000.0,13725280.0,6.77389,5.479544,0.0,1018.560746,37968.956734,0.093545,4545.992062
min,15010.0,5.0,1463500000.0,2204.5,2520829000000.0,58407680.0,-27.621469,-52.376532,30049099.0,1403.0,394.0,0.12,157.6
25%,15071.0,8.0,1464603000.0,3275.25,10806120000000.0,58407680.0,-7.224674,-35.877129,30049099.0,5403.0,510.0,0.21,188.7
50%,15385.0,9.0,1467717000.0,4378.8,10806120000000.0,58407680.0,-7.224674,-35.877129,30049099.0,5403.0,1020.0,0.35,377.4
75%,15561.0,11.0,1472488000.0,6385.5,10806120000000.0,58420450.0,-7.224674,-35.877129,30049099.0,5403.0,2100.0,0.37,441.0
max,127948.0,18.0,1482169000.0,250438.0,10806120000000.0,99740000.0,-7.224674,-35.877129,30049099.0,6108.0,150000.0,0.4,18000.0


In [25]:
# Apresenta todas as colunas e linhas para facilitar a visualização dos resultados
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

# Aplica a query e apresenta os resultados da seleção.
# A análise de comparação é realizada manualmente pelo desenvolvedor
selected_columns = query[['prod_ncm', 'prod_desc', 'prod_quant', 'prod_valor_unit', 'prod_valor_total']]
selected_columns

Unnamed: 0,prod_ncm,prod_desc,prod_quant,prod_valor_unit,prod_valor_total
5907,30049099,sinvastatina 40mg comprimidos,2100.0,0.21,441.0
7751,30049099,sinvastatina 40mg comprimidos,1500.0,0.26,390.0
9287,30049099,sinvastatina 40mg comprimidos,850.0,0.35,297.5
10353,30049099,sinvastatina 40mg comprimidos,1000.0,0.37,370.0
12781,30049099,sinvastatina 40mg comprimidos,510.0,0.37,188.7
15122,30049099,sinvastatina 40mg comprimidos,500.0,0.37,185.0
16674,30049099,sinvastatina 40mg comprimidos,1000.0,0.35,350.0
18362,30049099,sinvastatina 40mg comprimidos,2000.0,0.33,660.0
20331,30049099,sinvastatina 40mg comprimidos,500.0,0.37,185.0
20336,30049099,sinvastatina 40mg comprimidos,1020.0,0.37,377.4
