# Projeto Detecção de fraude com Aprendizado de Máquina

A fraude é um dos principais problemas que encontramos principalmente em bancos, seguros de vida, seguros de saúde e muitos outros. Essas grandes fraudes dependem da pessoa que está tentando vender o produto ou serviço falso, se você estiver maduro o suficiente para decidir o que está errado, nunca entrará em nenhuma transação fraudulenta. Mas uma dessas fraudes que vem aumentando muito nos dias de hoje é a fraude na realização de pagamentos. Neste artigo, mostrarei uma solução para detecção de fraudes com aprendizado de máquina.

O conjunto de dados que estou usando são dados de transações para compras on-line coletados de um varejista de comércio eletrônico. O conjunto de dados contém mais de 39.000 transações, cada transação contém 5 recursos que descrevem a natureza das transações. 

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Modelo de detecção de fraude de pagamento

Felizmente, o conjunto de dados que estou usando já está muito bem estruturado, sem valores ausentes, e não encontro nenhum escopo de limpeza de dados nele. Então, sem perder tempo, vou mergulhar na construção do nosso modelo de aprendizado de máquina. Então, agora vou começar importando os dados:

In [5]:
df = pd.read_csv('E:/Documentos/payment_fraud.csv')
df.head()

Unnamed: 0,accountAgeDays,numItems,localTime,paymentMethod,paymentMethodAgeDays,label
0,29,1,4.745402,paypal,28.204861,0
1,725,1,4.742303,storecredit,0.0,0
2,845,1,4.921318,creditcard,0.0,0
3,503,1,4.886641,creditcard,0.0,0
4,2000,1,5.040929,creditcard,0.0,0


Agora, vou dividir os dados em conjuntos de treinamento e teste:

In [21]:
X_train, X_test, y_train, y_test = train_test_split(
    df.drop('paymentMethod', axis=1), df['label'],
    test_size=0.33, random_state=17)

Como este é um problema de classificação binária, utilizarei um algoritmo de Regressão Logística , pois é um dos algoritmos mais poderosos para um modelo de classificação binária.
Agora vamos simplesmente treinar o modelo de detecção de fraude usando o algoritmo de regressão logística e dar uma olhada na pontuação de precisão que obteremos usando este algoritmo:

In [22]:
clf = LogisticRegression().fit(X_train, y_train)

# Fazendo previsões no conjunto de testes
y_pred = clf.predict(X_test)
from sklearn.metrics import accuracy_score
print(accuracy_score(y_pred, y_test))

1.0


# Avaliando o Modelo de Detecção de Fraude

Agora, vamos avaliar o desempenho do nosso modelo. Usarei o algoritmo da matriz de confusão para avaliar o desempenho do nosso modelo. Podemos usar o algoritmo da matriz de confusão apenas com um código de uma linha:

In [24]:
# Comparando as previsões do conjunto de testes com rótulos de verdade
print(confusion_matrix(y_test, y_pred))

[[12753     0]
 [    0   190]]


# Conclusão

Portanto, de todas as transações no conjunto de dados, 190 transações são reconhecidas corretamente como fraude e 12.753 transações são reconhecidas como transações não fraudulentas. 