# Criando um modelo de identificação de fraudes
- https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
- Informações da base:
    - 'Time' (tempo): contém os segundos decorridos entre cada transação e a primeira transação no conjunto de dados. 
    - 'Amount' (valor): é o valor da transação 
    - 'Class' (classe): é a variável de resposta e assume valor 1 em caso de fraude e 0 caso contrário.
    - "Infelizmente, devido a questões de confidencialidade, não podemos fornecer os recursos originais e mais informações básicas sobre os dados. Características V1, V2, … V28 são os principais componentes obtidos com PCA"

In [None]:
# Importando o pandas
import pandas as pd

In [None]:
# Importando a base
transacoes = pd.read_csv('creditcard.csv')

In [None]:
# Visualizando a base
transacoes.head(3)

In [None]:
# Verificando as informações
transacoes.info()

In [None]:
# E também o resumo estatístico
transacoes.describe()

In [None]:
# Verificando também se existem valores nulos
transacoes.isnull().sum()

**Qual o percentual de transações que são fraudes?**

In [None]:
# Verificando visualmente o % de transações que são fraude
transacoes.Class.value_counts().plot.pie(autopct='%.2f');

### Criando um modelo de aprendizado de máquinas para identificar fraude
- Vamos criar um modelo para identificar fraude sem fazer nenhum tratamento nessa base

In [None]:
# Separando X e y
X = transacoes.drop('Class',axis=1)
y = transacoes.Class

In [None]:
# Separando em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42,stratify=y)

In [None]:
# Verificando a distribuição das duas classes na base de treino e teste
y_train.value_counts()/y_train.shape[0]

In [None]:
# Para a base de teste
y_test.value_counts()/y_test.shape[0]

In [None]:
y_test.value_counts()

In [None]:
# Importando a árvore de decisão
from sklearn import tree

In [None]:
# Definindo o nosso classificador
clf = tree.DecisionTreeClassifier(random_state=42)

In [None]:
# Fazendo o fit para os dados de treino
clf = clf.fit(X_train, y_train)

In [None]:
# Fazendo a previsão
y_pred = clf.predict(X_test)

In [None]:
# Importando a acurácia
from sklearn.metrics import accuracy_score

In [None]:
# Calculando a acurácia
accuracy_score(y_test,y_pred)

**Verificando agora a matriz de confusão, a precisão e o recall**

In [None]:
# Importando a matriz de confusão
from sklearn.metrics import confusion_matrix

In [None]:
# Visualizando a matriz de confusão
confusion_matrix(y_test,y_pred)

In [None]:
# Calculando a precisão
from sklearn.metrics import precision_score
precision_score(y_test,y_pred)

In [None]:
# E o recall
from sklearn.metrics import recall_score
recall_score(y_test,y_pred)

## Selecionando de forma aleatória

#### Realizando o random undersampling

In [None]:
# Importando o RandomUnderSampler do imblearn

In [None]:
# Definindo o RandomUnderSampler

In [None]:
# Definindo a nova amostra

In [None]:
# Verificando a quantidade de valores de y

In [None]:
# Fazendo o fit para os dados de treino já balanceados

In [None]:
# Fazendo a previsão para os dados de teste

In [None]:
# Calculando a acurácia

In [None]:
# Visualizando a matriz de confusão

#### Realizando o random oversampling

In [None]:
# Importando

In [None]:
# Definindo o ros

In [None]:
# Refazendo nossa amostra

In [None]:
# Fazendo o fit para os dados de treino já balanceados

In [None]:
# Fazendo a previsão para os dados de teste

In [None]:
# Calculando a acurácia

In [None]:
# Visualizando a matriz de confusão

## Usando outras formas de undersampling

#### ClusterCentroids

In [None]:
# Importando o ClusterCentroids

In [None]:
# Definindo

In [None]:
# Criando a amostra dos dados

In [None]:
# Fazendo o fit para os dados de treino já balanceados

# Fazendo a previsão para os dados de teste

# Visualizando a matriz de confusão

#### NearMiss

In [None]:
# Fazendo a reamostragem usando o NearMiss

In [None]:
# Fazendo o fit para os dados de treino já balanceados

# Fazendo a previsão para os dados de teste

# Visualizando a matriz de confusão

## E outras formas de oversampling

#### Mudando os parâmetros do random oversampling

In [None]:
# Definindo o ros com shrinkage

# Refazendo nossa amostra

In [None]:
# Fazendo o fit para os dados de treino já balanceados

# Fazendo a previsão para os dados de teste

# Visualizando a matriz de confusão

#### SMOTE

In [None]:
# Utilizando o SMOTE

In [None]:
# Fazendo o fit para os dados de treino já balanceados

# Fazendo a previsão para os dados de teste

# Visualizando a matriz de confusão

#### ADASYN

In [None]:
# Utilizando ADASYN

In [None]:
# Fazendo o fit para os dados de treino já balanceados

# Fazendo a previsão para os dados de teste

# Visualizando a matriz de confusão

## Combinando os métodos

In [None]:
# Utilizando o SMOTEENN

In [None]:
# Fazendo o fit para os dados de treino já balanceados

# Fazendo a previsão para os dados de teste

# Visualizando a matriz de confusão