*Machine Learning voltado a detecção de fraude de cartao de credito*

**Fonte de dados**:https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

#### Passo 1 - Importar bibliotecas necessárias para a utilização

In [1]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score


#### Passo 2 - Carregamento e exploração dos dados

In [2]:
# Carregando conjunto de dados
df = pd.read_csv('C:/Users/André PC/Desktop/Projetos para Github/Machine Learning voltada a detecção de fraude de cartão de credito/creditcard.csv')

# Visualizar as primeiras linhas do dataframe
print(df.head())

# Verificar informações gerais sobre o dataframe
print(df.info())

# Verificar a distribuição das classes (fraude / não fraude)
print(df['Class'].value_counts())


   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

        V26       V27       V28 

### Passo 3 - Pré-Processamento de Dados

In [3]:
# Verificar Valores Faltantes
print(df.isnull().sum())

# Normalização dos dados
# Normalizar colunas que não sao "Class"
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# Normalizando todas as colunas exceto "Class"
df[df.columns[:-1]] = scaler.fit_transform(df[df.columns[:-1]])

Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64


### Passo 4 - Divisão do conjunto de dados

In [4]:
# Separar características  e rótulos
X = df.drop('Class', axis=1)
y = df['Class']

# Dividir em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Passo 5 - Treinamento do Modelo

In [5]:
# Treinamento com RandomForest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

### Passo 6 - Avaliação do Modelo

In [6]:
# Previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o desempenho
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
print('Acurácia:', accuracy_score(y_test, y_pred))


[[85301     6]
 [   27   109]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85307
           1       0.95      0.80      0.87       136

    accuracy                           1.00     85443
   macro avg       0.97      0.90      0.93     85443
weighted avg       1.00      1.00      1.00     85443

Acurácia: 0.9996137776061234


###### Verdadeiro Negativo (VN): 85301
###### Falso Positivo (FP): 6
###### Falso Negativo (FN): 27
###### Verdadeiro Positivo(VP): 109
###### Acurácia: 99.96%
###### RandomForest - Treinamento


#### Bonus - Treinamento com XGBoost 

In [7]:
!pip install xgboost




In [8]:
# Importando biblioteca XGBoost
import xgboost as xgb

In [9]:
# Preparar os dados
X = df.drop('Class', axis=1)
y = df['Class']

In [10]:
# Dividir os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [11]:
# Inicializar o modelo XGBoost
model = xgb.XGBClassifier(
    objective = 'binary:logistic',
    eval_metric = 'logloss',
    use_label_encoder=False,
    scale_pos_weight=578,
    random_state=42
)

In [12]:
# Treinar o modelo
model.fit(X_train, y_train)

Parameters: { "use_label_encoder" } are not used.



In [13]:
# Fazer previsões
y_pred = model.predict(X_test)

In [14]:
# Avaliar o modelo
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[85297    10]
 [   20   116]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85307
           1       0.92      0.85      0.89       136

    accuracy                           1.00     85443
   macro avg       0.96      0.93      0.94     85443
weighted avg       1.00      1.00      1.00     85443



###### Verdadeiros Negativos (VN): 85,300
###### Falsos Positivos (FP): 10
###### Falsos Negativos (FN): 20
###### Verdadeiros Positivos (VP): 116
###### Acurácia: 100%
###### XGBoost - Treinamento