# Detector de fraude financeira

## Instalando as Biblitecas

In [None]:
%pip install pandas
%pip install scikit-learn

## Importando as Bibliotecas

In [2]:
import pandas as pd
import pickle
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Modelos
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neural_network import MLPClassifier

## Importando e Tratando a tabela

In [None]:
table = pd.read_csv('./database/database.csv')

table = table.drop(columns=['nameOrig', 'nameDest'])
table['step'] = table['step'] % 24

display(table)
display(table.info())

In [4]:
encoder = LabelEncoder()

table['type'] = encoder.fit_transform(table['type'])

In [5]:
x = table.drop(columns='isFraud')
y = table['isFraud']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

## Criando e Treinando o modelo

In [None]:
models = {
    'KNeighborsClassifier': KNeighborsClassifier(),
    'DecisionTreeClassifier': DecisionTreeClassifier(),
    'GradientBoostingClassifier': GradientBoostingClassifier(),
    'GaussianNB': GaussianNB(),
    'MultinomialNB': MultinomialNB(),
    'BernoulliNB': BernoulliNB(),
    'Perceptron': Perceptron(),
    'SGDClassifier': SGDClassifier(),
    'AdaBoostClassifier': AdaBoostClassifier(),
    'MLPClassifier': MLPClassifier(),
}

In [None]:
# Caso queira treinar todos os modelos
model_tasks = 0

for model in models.keys():
    print(f'{model}... ', end='')
    models[model].fit(x_train, y_train)
    model_tasks += 1
    print(f'complete | {model_tasks}/10')

O código acima levará em média 50 minutos para ser concluído, então caso não queira perder tempo, use a célula abaixo.

In [None]:
# Caso queira treinar apenas 1 modelo
models['DecisionTreeClassifier'].fit(x_train, y_train)

## Testando e escolhendo o melhor modelo

A célula seguinte serve para caso você escolheu a célula que treina todos os modelos, se você escolheu a célula que treina apenas 1 modelo, escolha a célula depois da seguinte

In [None]:
# Caso você tenha treinado todos os modelos
for model in models:
    print(f'{model}: {round(accuracy_score(y_test, models[model].predict(x_test)) * 100, 2)}%')

In [None]:
# Caso você tenha treinado 1 modelo
print(f'DecisionTreeClassifier: {round(accuracy_score(y_test, models['DecisionTreeClassifier'].predict(x_test)) * 100, 2)}%')

O melhor modelo foi o árvore de decisão (DecisionTreeClassifier) com aproximadamente 99,97% de precisão.

## Salvando o modelo

In [13]:
with open('model/model.pkl', 'wb') as file:
    pickle.dump(models['DecisionTreeClassifier'], file)

with open('model/encoder.pkl', 'wb') as file:
    pickle.dump(encoder, file)