In [1]:
import numpy as np 
import pandas as pd                #importando os pacotes necessários
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
import pickle

In [2]:
data = pd.read_csv(r'~\FraudDetection\data\features.csv', sep='\t') #lendo csv com os atributos

'''
Os paremetros do modelo SVM e também os atributos selecionados, foram escolhidos a partir de um
pipe line que eu desenvolvi para o meu projeto de faculdade onde eu eu utilizo uma abordagem exaustiva
que permuta as variaveis e retorna a configuração que obteve a melhor acurácia
'''

#definindo os atributos que serão utilizados na análise
features = ['0_cx_img', '1_cy_img', '2_area_img', '3_perim_img', '4_hulls_img',
            '5_cx_g1', '6_cy_g1', '7_area_g1', '8_perim_g1', '9_hulls_g1',
            '10_cx_g2', '11_cy_g2', '13_perim_g2', '14_hulls_g2', '16_cy_g3',
            '17_area_g3', '18_perim_g3', '21_cy_g4', '22_area_g4',
            '23_perim_g4', '24_hulls_g4', '25_class']

data_new = data.loc[:,features]

#embaralhando a base de dados para evitar enviesamento
data_new = shuffle(data_new, random_state=123)

#Subistituindo as classes de letra por numeros, pois o sklearn só aceita classes numéricas
data_new = data_new.apply(lambda x: x.replace('G', 0), axis=1) #Genuine = 0
data_new = data_new.apply(lambda x: x.replace('F', 1), axis=1) #Forged = 1
data_new = data_new.apply(lambda x: x.replace('D', 2), axis=1) #Disguise = 2

#convertendo os valores em float
data_np = data_new.astype(np.float64).values

#selecionando as colunas de atributos
X_raw = data_np[:,:-1] 

#selecionando a coluna de classe
y = data_np[:,-1]

classes = [0.0,1.0,2.0]


In [3]:
from sklearn import preprocessing as prep 
MinMaxScaler = prep.MinMaxScaler((0,1))

'''
Como normalização foi utilizado o método de MinMax
'''

def rescaling(X_r0):
	X_r1 = MinMaxScaler.fit_transform(X_r0)
	return X_r1

In [4]:
from sklearn.svm import SVC
from sklearn.model_selection import KFold
from sklearn.metrics import confusion_matrix   #importando os pacotes necessários
from sklearn.metrics import auc
from sklearn.metrics import roc_curve
from scipy import interp
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

In [5]:
'''
Função que executa o classificador SVM utilizando toda a base como treino/teste através da abordagem de cross validation.
O número de folds foi fixado em 20

'''
def run():
    
    classifier = SVC(kernel='rbf', C=10, gamma=1, probability=True)
    classifier_name = "SVM"
    
    #normalizando
    X = rescaling(X_raw)
    
    #definindo numero de folds
    kf = KFold(n_splits=20)
    
    #concatenando x e y em um unico array para usar o k-fold
    dataset = np.column_stack([X,y])
    
    #vetores de armazenamento
    y_pred_vec = []
    y_test_vec = []
    
    #loop que repete o processo para cada fold
    for train_indices, test_indices in kf.split(dataset):

        X_train = X[train_indices]  #definindo qual instancia será usada como treino e teste
        y_train = y[train_indices]  #segundo os índices sorteados pelo kfsplit     
        X_test = X[test_indices]       
        y_test = y[test_indices]
            
        classifier.fit(X_train, y_train)       #treinando o modelo              
        y_pred = classifier.predict(X_test)    #calssificando o teste
        
        y_test_vec += list(y_test)  #adicionando as informações de teste e predito aos seus respectivos vetores
        y_pred_vec += list(y_pred)
    
    
    acc = accuracy_score(y_test_vec, y_pred_vec) #calculando a acurácia
    conf_mat = confusion_matrix(y_test_vec, y_pred_vec, labels=classes) #montando a matriz de confusão
    
    #impressão da matriz de confusão
    print('    G  F  D   <---- Predict as')
    print('G',conf_mat[0])
    print('F',conf_mat[1])
    print('D',conf_mat[2])
    print('\n')
    
    #impressão da acurácia
    print('Accuracy: ', acc)
    
    #salvando o modelo
    model = SVC(kernel='rbf', C=10, gamma=1, probability=True)
    model.fit(X_raw, y)
    #salvando o modelo em disco
    filename = 'finalized_model.sav'
    pickle.dump(model, open(filename, 'wb'))
    
    '''
    intruções para carregar o modelo:
    
    filename = 'finalized_model.sav'
    loaded_model = pickle.load(open(filename, 'rb'))
    result = loaded_model.score(X_raw, y)
    '''
    

In [6]:
if __name__ == "__main__":   
    
    run()

    G  F  D   <---- Predict as
G [81  4  0]
F [10 93  1]
D [ 1  0 19]


Accuracy:  0.9234449760765551
