<a href="https://colab.research.google.com/github/JoseRicardo-dev/dados/blob/main/Detec%C3%A7%C3%A3o_de_fraude.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importando as bibliotecas ( Preparando o ambiente)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#Carregando os dados
df = pd.read_csv('/content/creditcard.csv')

In [None]:
#Visualizando os dados e apresentando as 5 primeiras linhas
display(df)
df.head()

In [None]:
df.value_counts()

In [None]:
df.info()

In [None]:
#Lidando com desbalanceamento ( fraudes são casos raros  e isso gera desequilibrio nos dados)
sns.countplot(x='Class', data=df)
plt.title('Distribuição das Classes (0: normal, 1: fraude)')


In [None]:
df.describe()

In [None]:
# Verificando a quantidade de dados faltantes por coluna
missing_values = df.isnull().sum()
print("Quantidade de dados faltantes por coluna:")
print(missing_values)

In [None]:
df_cleaned = df.dropna(subset=['Class'])

In [None]:
from sklearn.model_selection import train_test_split

# Remove rows with missing values in the 'Class' column
df_cleaned = df.dropna(subset=['Class'])

x = df_cleaned.drop('Class', axis=1) # Todos os dados menos a coluna alvo
y = df_cleaned['Class']              # A coluna que queremos prever (alvo)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42, stratify=y)

In [None]:
x.describe()

In [None]:
y.describe()


In [None]:
#Balanceamento dos dados com Smote
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
x_train_bal, y_train_bal = smote.fit_resample(x_train, y_train)

In [None]:
#Treinando um modelo (Randon Forest)
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(x_train_bal, y_train_bal)

y_pred = model.predict(x_test)

In [None]:
#Avaliando o modelo

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

In [None]:
#Conclusões:
#Alta Acurácia Geral: A acurácia geral do modelo é de 1.00 (ou 100%), o que parece excelente à primeira vista. No entanto, em conjuntos de dados desbalanceados como este, a acurácia pode ser enganosa, pois o modelo pode simplesmente prever a classe majoritária (transações normais) na maioria das vezes e ainda assim ter alta acurácia.
#Desempenho para Transações Normais (Classe 0): O modelo tem um desempenho perfeito para a classe 0 (transações normais), com precisão, recall e f1-score de 1.00. A matriz de confusão mostra que todas as 1985 transações normais no conjunto de teste foram classificadas corretamente.
#Desempenho para Fraudes (Classe 1): Para a classe 1 (fraudes), que é a classe minoritária e de maior interesse, o desempenho é o seguinte:
#Precisão (Precision): 1.00. Isso significa que, de todas as vezes que o modelo previu uma fraude, 100% delas eram realmente fraudes. Não houve falsos positivos (transações normais classificadas como fraude).
#Recall: 0.88. Isso significa que o modelo conseguiu detectar 88% das fraudes reais presentes no conjunto de teste. Houve 1 falso negativo (uma fraude real que foi classificada como normal).
#F1-score: 0.93. O F1-score é a média harmônica da precisão e do recall, e é uma métrica útil para dados desbalanceados. Um F1-score de 0.93 para a classe minoritária é muito bom.
#Matriz de Confusão:
#[[1985 0]
#[1 7]] Esta matriz confirma o que as métricas nos dizem:
#1985 transações normais foram corretamente previstas como normais (Verdadeiros Negativos).
#0 transações normais foram incorretamente previstas como fraude (Falsos Positivos).
#1 transação de fraude foi incorretamente prevista como normal (Falso Negativo).
#7 transações de fraude foram corretamente previstas como fraude (Verdadeiros Positivos).
#Conclusão Geral:

#O modelo Random Forest, após o balanceamento dos dados de treino com SMOTE, apresentou um excelente desempenho na detecção de fraudes neste conjunto de dados de teste limitado. Ele conseguiu identificar a maioria das fraudes sem gerar falsos positivos. O único ponto de melhoria seria tentar reduzir o número de falsos negativos, mas o desempenho geral já é muito promissor para este subconjunto dos dados.