# Avaliação Final - Tabela 2 e Matriz de confusão

In [None]:
# Define funções a serem utilizadas
import numpy as np
import pandas as pd
import os
import itertools
import time
from sklearn.base import clone
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score,recall_score,f1_score
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import confusion_matrix
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import f1_score,accuracy_score,precision_score,recall_score
import matplotlib.pyplot as plt

# Importa bibliotecas do PyOD com os algoritmos de detecção de anomalias
from pyod.models.copod import COPOD
     
def carrega_material(path,material):
    arquivo = str(material)+".csv"
    csv_path = os.path.join(path,arquivo)
    df = pd.read_csv(csv_path)
    ## Retira os campos que não serão utilizados no treinamento
    df = df.drop(['licitacao_contrato'],axis=1)
    df = df.drop(['id'],axis=1)
    df = df.drop(['data'],axis=1)
    df = df.drop(['catmat_id'],axis=1)
    df = df.drop(['unidade'],axis=1)
    df = df.drop(['valor_total'],axis=1)
    df = df.drop(['municipio_uasg'],axis=1)
    df = df.drop(['municipio_fornecedor'],axis=1)
    return df     


##################################################################################
# Função gera_matriz_de_confusao
# Objetivo: Imprimir a matriz de confusão de uma avaliação feita de um algoritmo
# Parâmetros: Y - label real esperado
#             y_avaliado - Valor determinado pelo algoritmo
#             algoritmo - Nome do algoritmo avaliado
# Retorno: não tem (a matriz é mostrada na saída)
##################################################################################   
def gera_matriz_de_confusao(Y,y_avaliado,algoritmo):
    cm = confusion_matrix(Y,y_avaliado)
    print(cm)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Normal','Anomalia'])
    disp.plot(cmap=plt.cm.Blues)
    disp.ax_.set(title='Matriz de Confusão ('+algoritmo+')',xlabel='Valores preditos', ylabel='Valores reais')
    plt.show()
    

# Recupera os itens que servirão de dados das avaliações

In [2]:
from sqlalchemy import create_engine
import pymysql
from sqlalchemy.dialects.mysql import insert
import pandas as pd
sqlEngine       = create_engine('mysql+pymysql://siasg:siasg@192.168.2.135/siasg', pool_recycle=3600)
dbConnection    = sqlEngine.connect()
itens = pd.read_sql("SELECT * from siasg.itens", dbConnection);

# Recupera os oito materiais com maior número de registros
maioresitens = pd.read_sql("SELECT catmat_id, count(*) from siasg.itens where valor_unitario>0 and catmat_id!=0 group by catmat_id order by count(*) desc LIMIT 13", dbConnection);

# Avalia os modelos

In [None]:
# Define a tabela que irá gravar as avaliações
tabelafinal = pd.DataFrame(columns=['material','tn','fp','fn','tp','recall','acuracia'])

ytotal, ypreditototal= [],[]
for index, row in maioresitens.iterrows():
    print(index)
    catmat = row['catmat_id']
    modelo = COPOD(contamination=0.12)
    
    df=carrega_material(".",catmat)  
    print(catmat)
    
    # Separação do Label dos dados
    X = df.iloc[:, :-1]
    y = df.iloc[:, -1]

    loo = LeaveOneOut()
    
    y_verdadeiro, y_predito = [], []
    
    for treino_index, teste_index in loo.split(X):
        X_treino, X_teste = X.iloc[treino_index], X.iloc[teste_index]
        y_treino, y_teste = y.iloc[treino_index], y.iloc[teste_index]

        modelo_clonado = clone(modelo)
        modelo_clonado.fit(X_treino)
        y_pred = modelo_clonado.predict(X_teste)

        y_verdadeiro.append(y_teste)
        ytotal.append(y_teste)
        y_predito.append(y_pred)
        ypreditototal.append(y_pred)
    matriz_confusao = confusion_matrix(y_verdadeiro, y_predito)
    ac=accuracy_score(Y,y_train_pred)*100
    rc=recall_score(Y,y_train_pred)*100
    tn, fp, fn, tp = confusion_matrix(y_verdadeiro,y_predito).ravel()


    #Columns: 
    # 'material','melhorContaminação','melhoracuracia', 'tp','tn','fn','fp','recallmedio','acuraciamedia','recallmedio'

    # Grava os resultados da avaliação na tabela final
    tabelafinal.loc[len(tabelafinal.index)] = [str(catmat),tn,fp,fn,tp, round(rc,2),round(ac,2)]     
    tabelafinal.to_csv('avaliacaofinalcopod.csv',index=False,sep=';', decimal=',')

matriz_confusao = confusion_matrix(ytotal, ypreditototal)    
ac=accuracy_score(ytotal,ypreditototal)*100
rc=recall_score(ytotal,ypreditototal)*100
tn, fp, fn, tp = confusion_matrix(ytotal,ypreditototal).ravel()    

# Grava os resultados da avaliação na tabela final
tabelafinal.loc[len(tabelafinal.index)] = ['Total',tn,fp,fn,tp, round(rc,2),round(ac,2)]     
tabelafinal.to_csv('avaliacaofinalcopod.csv',index=False,sep=';', decimal=',')

gera_matriz_de_confusao(ytotal,ypreditototal,'13 materiais com mais registros')

0
104671
