# Modelo de Identificação de Fraudes

In [1]:
# Importando o pandas

import pandas as pd

In [2]:
# Importando a base

transacoes = pd.read_csv('creditcard.csv')

<a id='modelo'></a>
### Criando um modelo de aprendizado de máquinas para identificar fraude
- Vamos criar um modelo para identificar fraude sem fazer nenhum tratamento nessa base

**Podemos ajustar as colunas Time e Amount para que elas fiquem entre 0 e 1**

In [3]:
# Primeiro para a coluna Time

transacoes.Time = transacoes.Time / transacoes.Time.max()

In [4]:
# E então para a coluna Amount

transacoes.Amount = transacoes.Amount / transacoes.Amount.max()

In [5]:
# Separando X e y

X = transacoes.drop('Class',axis=1)
y = transacoes.Class

**Separando em treino e teste**

In [6]:
# Separando em treino e teste

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=0,stratify=y)

### Realizando o random undersampling

In [7]:
# Importando o RandomUnderSampler do imblearn

from imblearn.under_sampling import RandomUnderSampler 

In [8]:
# Definindo o RandomUnderSampler

rus = RandomUnderSampler(random_state=42)

In [9]:
# Definindo a nova amostra

X_resRUS, y_resRUS = rus.fit_resample(X_train, y_train)

**<font color='blue'>Com KNN**

In [10]:
# Fazendo o fit

from sklearn.neighbors import KNeighborsClassifier

clf_KNN = KNeighborsClassifier(n_neighbors=3).fit(X_resRUS, y_resRUS)

In [11]:
# Fazendo a previsão

y_pred_KNN = clf_KNN.predict(X_test)

y_pred_proba_KNN = clf_KNN.predict_proba(X_test)[:,1]

In [12]:
# Visualizando a matriz de confusão

from sklearn.metrics import confusion_matrix

confusion_matrix(y_test,y_pred_KNN)  

array([[91227,  2598],
       [   18,   144]], dtype=int64)

In [13]:
# Traçando a área sobre a curva precisão x recall

from sklearn import metrics

precision_KNN,recall_KNN,thresholds_KNN = metrics.precision_recall_curve(y_test,y_pred_proba_KNN)

print(metrics.auc(recall_KNN, precision_KNN))

0.5534876929920411


**E novamente utilizar o GridSearchCV**

In [14]:
# Importando o GridSearchCV

from sklearn.model_selection import GridSearchCV

In [36]:
# Utilizando os parâmetros do KNN

parametros = {'n_neighbors': [3,5,7,9,11], 'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'], 'weights': ['uniform', 'distance']}

In [37]:
# Selecionando o KNN

KNN_GS = KNeighborsClassifier()

In [38]:
# Criando um novo classificador usando os parâmetros que escolhemos anteriormente

clf_KNN_GS = GridSearchCV(KNN_GS, parametros, scoring='recall')

In [39]:
# Fazendo o fit dos nossos dados

clf_KNN_GS = clf_KNN_GS.fit(X_resRUS, y_resRUS)

In [40]:
# Visualizando os melhores parâmetros definidos pelo GridSearchCV 

clf_KNN_GS.best_params_

{'algorithm': 'auto', 'n_neighbors': 3, 'weights': 'uniform'}

In [41]:
# Usando esse modelo para fazer as previsões

y_pred_KNN_GS = clf_KNN_GS.predict(X_test)

In [42]:
# Analisando a matriz de confusão

confusion_matrix(y_test,y_pred_KNN_GS)  

array([[91227,  2598],
       [   18,   144]], dtype=int64)