# Geração do campo Anomalia para os 15 materiais com maior número de registros

Importação das bibliotecas necessárias

In [1]:
# Usando Python 3.11
#Importa a biblioteca pandas
import pandas as pd 

#Importa a biblioteca os 
import os 

#Importa as blibliotecas do Sklearn
#from sklearn.compose import ColumnTransformer 
#from sklearn.pipeline import Pipeline 
#from sklearn.preprocessing import StandardScaler,PolynomialFeatures,OneHotEncoder,OrdinalEncoder 

#Importa a biblioteca Numpy
import numpy as np 

#importa bibliotecas snorkel 
import snorkel 
from snorkel.labeling import labeling_function 
from snorkel.labeling import PandasLFApplier
from snorkel.labeling.apply.dask import DaskLFApplier
from snorkel.labeling.apply.dask import PandasParallelLFApplier

Define funções de busca dos dados no MySQL e de criação de csv com os dados selecionados

In [2]:
from sqlalchemy import create_engine
from sqlalchemy import text

def busca_dados_mysql(id_material):
    if os.path.exists('itens.csv'):
        os.remove('itens.csv')
    sqlEngine       = create_engine('mysql+pymysql://siasg:siasg@192.168.2.135/siasg', pool_recycle=3600)
    dbConnection    = sqlEngine.connect()
    meusql="SELECT * FROM siasg.itens where catmat_id="+str(id_material)
    df = pd.read_sql(text(meusql), dbConnection);
    filtro  = df['valor_unitario'] > 0
    df = df[filtro]
    df.to_csv('itens.csv',index=False)
    
def load_itens(path):
    csv_path = os.path.join(path,"itens.csv")
    return pd.read_csv(csv_path)



Busca os dados do material MICROCOMPUTADOR - Catmat = 469793

In [3]:
from sqlalchemy import create_engine
from urllib.request import urlopen
from urllib.error import URLError, HTTPError
import pymysql
import datetime
import json
from sqlalchemy.dialects.mysql import insert
import pandas as pd
sqlEngine       = create_engine('mysql+pymysql://siasg:siasg@192.168.2.135/siasg', pool_recycle=3600)
dbConnection    = sqlEngine.connect()
itens = pd.read_sql("SELECT * from siasg.itens", dbConnection);

maioresitens = pd.read_sql("SELECT catmat_id, count(*) from siasg.itens where valor_unitario>0 and catmat_id!=0 group by catmat_id order by count(*) desc", dbConnection);

Definição das Funções de rotulagem

In [4]:
##Carrega os dados do item
for index, row in maioresitens.iterrows():
    catmat = row['catmat_id']
    busca_dados_mysql(catmat)
    df=load_itens(".")  
    
    ## Valores estatísticos de referência
    preco_mediana = df['valor_unitario'].median()
    preco_media = df['valor_unitario'].mean()
    preco_maior = df['valor_unitario'].quantile(0.975)
    preco_menor = df['valor_unitario'].min()
    
    quantidade_mediana = df['quantidade'].median()
    quantidade_maior = df['quantidade'].quantile(0.975)
    quantidade_menor = df['quantidade'].min()
    
    distancia_mediana = df['distancia_uasg_fornecedor'].median()
    distancia_maior = df['distancia_uasg_fornecedor'].quantile(0.975)
    distancia_menor = df['distancia_uasg_fornecedor'].min()
    
    #For clarity, we define constants to represent the class labels for normal, anomaly, and abstaining. 
    ABSTAIN=-1 
    NORMAL=0 
    ANOMALY=1 
    
    # Funções de rotulagem
    
    # O preço é considerado anômalo quando ele é maior que o preco_maior ou quando ele é menor que o preço_menor sem ter sido adquirido em quantidade 
    # que a maior quantidade.
    @labeling_function() 
    def preco_anomalo(v_df): 
        preco=v_df['valor_unitario'] 
        quantidade=v_df['quantidade'] 
        return ANOMALY if ((preco > preco_maior) or ((preco < preco_menor) and ((quantidade<quantidade_maior)))) else ABSTAIN 
    
    # A quantidade é considerada alta, quando é maior que 97,5% das quantidades adquiridas
    @labeling_function() 
    def quantidade_alta(v_df): 
        quantidade=v_df['quantidade'] 
        #Retorna um label de anomalia se o valor é maior que 97,5% dos valores se não se ABSTAIN 
        return ANOMALY if quantidade > quantidade_maior else ABSTAIN
    
    # A distância entre o fornecedor e o comprador é considerada alta quando ela é maior que 97,5% das distâncias apuradas
    @labeling_function() 
    def distancia_alta(v_df): 
        distancia=v_df['distancia_uasg_fornecedor'] 
        #Retorna um label de anomalia se o valor é maior que 97,5% dos valores se não se ABSTAIN 
        return ANOMALY if distancia > distancia_maior else ABSTAIN
    
    # O preço é considerado normal quando ele é menor ou igual a mediana e maior que o preco_menor ou quando o preço é maior que a mediana mas menor
    # que o preco_maior
    @labeling_function() 
    def normal(v_df): 
        preco=v_df['valor_unitario'] 
        quantidade=v_df['quantidade'] 
        distancia=v_df['distancia_uasg_fornecedor']
        return NORMAL if (((preco<=preco_mediana) and (preco>preco_menor)) or ((preco>preco_mediana) and (preco<preco_maior))) else ABSTAIN                 
 
        
    # A função de rotulagem é criada com a junção das funções definidas acima.                     
    lfs=[preco_anomalo,quantidade_alta,distancia_alta,normal] 
                           
    ##Aplica as LFs ao dataset de teste obtem as rotulacoes candidatas 
    applier=PandasLFApplier(lfs=lfs) 
                           
    dadosrotulados =applier.apply(df=df) 
    ##Salva em arquivo 
    dadosrotulados_pd=pd.DataFrame(dadosrotulados)                   
    dadosrotulados_pd.to_csv('dadosavaliados.csv', index=False) 
    dadosrotulados=np.array(dadosrotulados_pd) 
    
    ##Aplica o LabelModel para obter o modelo de rotulação final 
    from snorkel.labeling.model import LabelModel 
    
    label_model=LabelModel(cardinality=2,verbose=True) 
    label_model.fit(dadosrotulados,n_epochs=500,log_freq=100,seed=123) 
    
    ###Obtém rotulação final a partir do modelo construído 
    labels_g=label_model.predict(dadosrotulados) 
     
    ##Salva em arquivo 
    dadosrotulados_pd=pd.DataFrame(labels_g) 
    labels_g=np.array(dadosrotulados_pd)
    
    df.insert(11,"anomalia",labels_g)
    df.loc[df['anomalia'] == -1] = 0
    filtro  = df['valor_unitario'] > 0
    df = df[filtro]
    df.to_csv(str(catmat)+'.csv', index=False)

    os.remove('itens.csv')
    os.remove('dadosavaliados.csv')
    if index==17: break

100%|██████████| 47391/47391 [00:00<00:00, 77137.84it/s]
INFO:root:Computing O...
INFO:root:Estimating \mu...
  0%|          | 0/500 [00:00<?, ?epoch/s]INFO:root:[0 epochs]: TRAIN:[loss=0.393]
INFO:root:[100 epochs]: TRAIN:[loss=0.000]
 36%|███▌      | 180/500 [00:00<00:00, 1794.45epoch/s]INFO:root:[200 epochs]: TRAIN:[loss=0.000]
INFO:root:[300 epochs]: TRAIN:[loss=0.000]
 75%|███████▌  | 375/500 [00:00<00:00, 1885.57epoch/s]INFO:root:[400 epochs]: TRAIN:[loss=0.000]
100%|██████████| 500/500 [00:00<00:00, 1904.94epoch/s]
INFO:root:Finished Training
100%|██████████| 17409/17409 [00:00<00:00, 71438.98it/s]
INFO:root:Computing O...
INFO:root:Estimating \mu...
  0%|          | 0/500 [00:00<?, ?epoch/s]INFO:root:[0 epochs]: TRAIN:[loss=0.394]
INFO:root:[100 epochs]: TRAIN:[loss=0.000]
 40%|████      | 200/500 [00:00<00:00, 1997.27epoch/s]INFO:root:[200 epochs]: TRAIN:[loss=0.000]
INFO:root:[300 epochs]: TRAIN:[loss=0.000]
INFO:root:[400 epochs]: TRAIN:[loss=0.000]
100%|██████████| 500/500 