In [1]:
#Importação da biblioteca Pandas para manipulação dos dados
import pandas as pd

In [2]:
#Criando o dataframe
dt = pd.read_csv("fraud_detection_bank_dataset.csv")

#Prévia vizualização do dataframe
dt.head()

Unnamed: 0.1,Unnamed: 0,col_0,col_1,col_2,col_3,col_4,col_5,col_6,col_7,col_8,...,col_103,col_104,col_105,col_106,col_107,col_108,col_109,col_110,col_111,targets
0,0,9,1354,0,18,0,1,7,9,0,...,0,0,0,1,1,0,0,0,49,1
1,1,0,239,0,1,0,1,0,0,0,...,0,1,0,0,0,0,0,0,55,1
2,2,0,260,0,4,0,3,6,0,0,...,0,0,0,1,1,0,0,0,56,1
3,3,17,682,0,1,0,0,8,17,0,...,0,1,0,1,1,0,0,0,65,1
4,4,1,540,0,2,0,1,7,1,0,...,0,0,0,1,1,0,0,0,175,1


In [3]:
#X é um objeto(uma matriz, subconjunto da matriz do dataframe completo) que representa as features independentes, excluindo a variável alvo("target") 
X = dt.drop(["targets"], axis=1).values
#y é um vetor dos valores alvo, sendo os valores que você quer tentar prever.
y= dt["targets"].values

In [4]:
#Primeiro estimador, regressão logística(Aprendizado supervisionado)
#Importação
from sklearn.linear_model import LogisticRegression

In [5]:
#Train/Test procedimento
#Importando método da biblioteca sklearn para a divisão de vetores ou matrizes em subconjuntos aleatórios de treino e teste
from sklearn.model_selection import train_test_split

#O subconjunto de treino é utilizado para ajustar o modelo de ML.
#O subconjunto de dados de teste é utilizado para avaliar o modelo de ML adequado.
X_train, X_test, y_train, y_test = train_test_split(X, y,
    test_size=0.2, shuffle = True, random_state = 0)

#Processo de validação e avaliação dos dados
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, 
    test_size=0.25, random_state= 0)

In [6]:
#Dimesionamento dos dados do modelo de regressão logística
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#Criação e ajuste do modelo
model = LogisticRegression(solver = "liblinear")
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [7]:
#Validação cruzada
from sklearn.model_selection import cross_val_score, KFold

Kfold = KFold(n_splits = 10, shuffle=True, random_state = 0)
scores = cross_val_score(model, X, y, cv = Kfold)

print("%0.2f de precisão com um desvio padrão de %0.2f" % (scores.mean(), scores.std()))



0.90 de precisão com um desvio padrão de 0.01


In [8]:
#Análise de resultados obtidos no processo de validação e teste do modelo de regressão logística

print(model.score(X_val, y_val))

print(model.score(X_test, y_test))

0.7281387396189546
0.9946262823644357


In [9]:
#Exibição das métricas do modelo de regressão logística
from sklearn.metrics import f1_score

#Media harmonica
print('F1 Score: %.3f' % f1_score(y_test, y_pred))

print(model.score(X_test, y_test))
print("O score(conjunto treinamento): ", model.score(X_train, y_train))

F1 Score: 0.990
0.9946262823644357
O score(conjunto treinamento):  0.9977198697068403


In [10]:
#Segundo estimador, K-Nearest Neighbors(Aprendizado supervisionado)
'''Utilizando da definição matemática "Distância Euclediana" para encontrar, a medida que um novo dado chega, seus vizinhos
mais próximos
'''
from sklearn.neighbors import KNeighborsRegressor

In [11]:
#Dividindo(Split data) os dados novamente para os conjuntos de treino/teste(train/test) e validação
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, 
    test_size=0.25, random_state= 0)

In [12]:
#Criando e ajustando o modelo KNN
from sklearn.model_selection import KFold

model = KNeighborsRegressor(n_neighbors=35)
model.fit(X_train, y_train)

#Medindo o hiperparâmetro K(K = n_neighbors) com a validação cruzada
Kfold = KFold(n_splits = 10, shuffle = True, random_state = 0)
scores = cross_val_score(model, X, y, cv=Kfold)

print("%0.2f de precisão com um desvio padrão de %0.2f" % (scores.mean(), scores.std()))

0.95 de precisão com um desvio padrão de 0.01


In [13]:
#Avaliando o ajuste para o conjunto teste
print("O score(conjunto teste): ", model.score(X_test, y_test))

O score(conjunto teste):  0.9418603563815336


In [14]:
#Outra forma de medir o hiperparâmetro K
#from sklearn.model_selection import GridSearchCV

#parameters = {"n_neighbors": range(1, 50)}
#gridsearch = GridSearchCV(KNeighborsRegressor(), parameters)
#gridsearch.fit(X_train, y_train)

In [15]:
'''
Analisando os dois modelos, mesmo o modelo propietário do estimador KNN alcançando uma boa precisão com o train set,
a regressão logística alcança uma precisão excelente com dados desconhecidos. Também, as avaliações dos hiperparâmetros
do KNN model dificultam e variam mais do quê a da regressão logística. Ambos modelos trabalham bem, porém há uma razoável
diferença, como já citado acima.
'''

'\nAnalisando os dois modelos, mesmo o modelo propietário do estimador KNN alcançando uma boa precisão com o train set,\na regressão logística alcança uma precisão excelente com dados desconhecidos. Também, as avaliações dos hiperparâmetros\ndo KNN model dificultam e variam mais do quê a da regressão logística. Ambos modelos trabalham bem, porém há uma razoável\ndiferença, como já citado acima.\n'