# Teste dos 2 melhores modelos nos 8 materiais com maior número de registros

# Define funções a serem utilizadas

In [1]:
import numpy as np
import pandas as pd
import os
import itertools
import time
from sklearn.metrics import accuracy_score,recall_score,f1_score
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import confusion_matrix

# Importa bibliotecas do PyOD com os algoritmos de detecção de anomalias
from pyod.models.copod import COPOD
     
def carrega_material(path,material):
    arquivo = str(material)+".csv"
    csv_path = os.path.join(path,arquivo)
    df = pd.read_csv(csv_path)
    ## Retira os campos que não serão utilizados no treinamento
    df = df.drop(['licitacao_contrato'],axis=1)
    df = df.drop(['id'],axis=1)
    df = df.drop(['data'],axis=1)
    df = df.drop(['catmat_id'],axis=1)
    df = df.drop(['unidade'],axis=1)
    df = df.drop(['valor_total'],axis=1)
    df = df.drop(['municipio_uasg'],axis=1)
    df = df.drop(['municipio_fornecedor'],axis=1)
    return df     

# Recupera os itens que servirão de dados das avaliações

In [2]:
from sqlalchemy import create_engine
import pymysql
from sqlalchemy.dialects.mysql import insert
import pandas as pd
sqlEngine       = create_engine('mysql+pymysql://siasg:siasg@192.168.2.135/siasg', pool_recycle=3600)
dbConnection    = sqlEngine.connect()
itens = pd.read_sql("SELECT * from siasg.itens", dbConnection);

# Recupera os oito materiais com maior número de registros
maioresitens = pd.read_sql("SELECT catmat_id, count(*) from siasg.itens where valor_unitario>0 and catmat_id!=0 group by catmat_id order by count(*) desc LIMIT 13", dbConnection);

# Avalia os modelos

In [3]:
# Define a tabela que irá gravar as avaliações
tabelafinal = pd.DataFrame(columns=['material','melhorContaminação','melhorrecall','melhoracuracia', 'tn','tp','fn','fp','recallmedio','acuraciamedia','piorcontaminacao','piorrecall','pioracuracia'])
print(tabelafinal)

for index, row in maioresitens.iterrows():
    catmat = row['catmat_id']
    df=carrega_material(".",catmat)  
    print(catmat)
    
    # Separação do Label dos dados
    x = df.iloc[:, :-1]
    y = df.iloc[:, -1]
    
    # Contaminação inicial
    contaminacao=0.05
    
    melhoracuracia=0.0
    melhorrecall=0.0
    pioracuracia=1.0
    piorrecall=1.0
    melhorcontaminacao=0.01
    piorcontaminacao=0.01
    acuraciamediamaterial=[]
    recallmediomaterial=[]
    
    # Treinar e avaliar o modelo em cada uma das contaminações
    while contaminacao<0.16:  
        contaminacao=round(contaminacao,2)
        print(contaminacao)
        # Inicializar o modelo 
        model = COPOD(contamination=contaminacao)
        
        n_folds=10
        n_anomalias=sum(y)
        if n_anomalias<10:
            n_folds=n_anomalias

        cv = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=69)

        acuracia=[]
        recall=[]


        # Loop para treinar e testar o modelo
        for train_index, test_index in cv.split(x,y):
            X_train, X_test = x.iloc[train_index], x.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            # Treinar o modelo
            model.fit(X_train)

            # Fazer as previsões
            y_pred = model.predict(X_test)

            # Calcular a acurácia
            acc = accuracy_score(y_test, y_pred)
            acuracia.append(acc)

            # Calcular o Recall
            rec = recall_score(y_test, y_pred)
            recall.append(rec)
            
        acuracia_media = sum(acuracia) / len(acuracia)
        recall_medio = sum(recall) / len(recall)
        acuraciamediamaterial.append(acuracia_media)
        recallmediomaterial.append(recall_medio)
        
        if recall_medio>melhorrecall:
            melhorrecall=recall_medio
            melhorcontaminacao=contaminacao
            melhoracuracia=acuracia_media
        else:
            if recall_medio==melhorrecall:
                if acuracia_media>melhoracuracia:
                    melhorrecall=recall_medio
                    melhorcontaminacao=contaminacao
                    melhoracuracia=acuracia_media  
                    
        if recall_medio<piorrecall:
            piorrecall=recall_medio
            piorcontaminacao=contaminacao
            pioracuracia=acuracia_media
        else:
            if recall_medio==piorrecall:
                if acuracia_media<pioracuracia:
                    piorrecall=recall_medio
                    piorcontaminacao=contaminacao
                    pioracuracia=acuracia_media 
                    
        contaminacao = contaminacao+0.01
    ## Fim dos testes de contaminação de um material              
    # Calcula as métricas médias dos folds para um material específico em uma contaminacao específica
    acuracia_media = sum(acuraciamediamaterial) / len(acuraciamediamaterial)
    recall_medio = sum(recallmediomaterial) / len(recallmediomaterial)
    

    contaminacao=melhorcontaminacao
    model=COPOD(contamination=contaminacao)
    model.fit(x)
    y_pred = model.predict(x)
    tn, fp, fn, tp = confusion_matrix(y,y_pred).ravel()
    recall=recall_score(y, y_pred)
    acuracia=accuracy_score(y, y_pred)


    #Columns: 
    # 'material','melhorContaminação','melhoracuracia', 'tp','tn','fn','fp','recallmedio','acuraciamedia','recallmedio'

    # Grava os resultados da avaliação na tabela final
    tabelafinal.loc[len(tabelafinal.index)] = [catmat,melhorcontaminacao,round(recall,2),round(acuracia,2),tn,tp,fn,fp, round(recall_medio,2),round(acuracia_media,2),piorcontaminacao,round(piorrecall,2),round(pioracuracia,2)]     
    tabelafinal.to_csv('avaliacaocontaminacaocopod.csv',index=False,sep=';', decimal=',')
     


Empty DataFrame
Columns: [material, melhorContaminação, melhorrecall, melhoracuracia, tn, tp, fn, fp, recallmedio, acuraciamedia, piorcontaminacao, piorrecall, pioracuracia]
Index: []
104671
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
150658
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
445485
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
402920
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
150877
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
481567
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
460872
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
469793
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
461652
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
464381
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
461506
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
463795
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
150515
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15


# Imprime a tabela final de avaliação

In [4]:
print(tabelafinal)
tabelafinal.to_csv('avaliacaocontaminacaocopod.csv',index=False,sep=';', decimal=',')

    material  melhorContaminação  melhorrecall  melhoracuracia       tn  \
0   104671.0                0.13          1.00            0.89  41232.0   
1   150658.0                0.11          1.00            0.92  15494.0   
2   445485.0                0.12          1.00            0.91    652.0   
3   402920.0                0.05          1.00            1.00    421.0   
4   150877.0                0.06          1.00            0.96    361.0   
5   481567.0                0.12          1.00            0.91    314.0   
6   460872.0                0.09          1.00            0.97    315.0   
7   469793.0                0.05          1.00            1.00    264.0   
8   461652.0                0.05          1.00            0.97    198.0   
9   464381.0                0.12          1.00            0.91    180.0   
10  461506.0                0.15          0.83            0.89    159.0   
11  463795.0                0.08          1.00            0.94    146.0   
12  150515.0             