<a href="https://colab.research.google.com/github/ithalo-teodosio/pratica_ML/blob/main/ML_fraude_cartao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [29]:
# Instituição: Unifacisa
# Autor: Ithalo Teodósio Nascimento
# Detecção de fraudes em cartões de crédito

In [3]:
import numpy as np # biblioteca que trabalha com dados vetores e matrizes multidimensionais
import pandas as pd # biblioteca que faz tudo o que o excel faz
from sklearn.datasets import make_classification # carregar uma base de dados de classificação de formas

from sklearn.model_selection import train_test_split # separar a base de trein e teste (70% e 30%)
from sklearn.preprocessing import StandardScaler # essa biblioteca é usada para fazer normalização dos dados
from sklearn.ensemble import RandomForestClassifier # algoritmo de classificação
from sklearn.metrics import classification_report # relatório geral com todas as métrcias de classificação

In [19]:
# Parte 1 - Gerando a massa de dados com exemplos de estrutura de cartões de crédito (Dados Sintéticos)

In [4]:
# definindo o número de amostras
total_sample = 10000
fraud_ratio = 0.05 # 5% de fraudes
fraud_samples = int(total_sample * fraud_ratio)
normal_samples = total_sample - fraud_samples

In [5]:
# gerar dados sintéticos com make_classifications
X, y = make_classification(n_samples=total_sample, n_features=5, weights=[0.95 , 0.05], random_state=42)

In [6]:
# criar o dataframe
df = pd.DataFrame(X, columns=['valor_transacao', 'latitude', 'longitude', 'historico_usuario', 'horario_compra'])
df['fraude'] = y

In [9]:
# exibindo as primeiras linhas
df.head(100)

Unnamed: 0,valor_transacao,latitude,longitude,historico_usuario,horario_compra,fraude
0,-2.244569,-1.362328,1.554333,-2.086909,-1.277605,0
1,-0.741786,0.204282,1.681893,-2.608295,1.980196,0
2,-1.817423,-1.437839,0.661023,-0.708437,0.727114,0
3,-1.122643,0.106464,2.183630,-3.353276,-0.719814,0
4,-0.018329,1.014871,1.843978,-3.024641,-0.478505,0
...,...,...,...,...,...,...
95,-0.351436,0.049514,0.712461,-1.097168,1.593106,0
96,-0.075616,0.928005,1.790664,-2.925192,-1.114507,0
97,-2.327344,-1.842930,0.843507,-0.902308,1.761403,0
98,0.322783,0.230613,-0.161582,0.198383,0.533520,0


In [15]:
# método para ajustar os valores
def ajustar_valores(df):
    df['valor_transacao'] = np.abs(df['valor_transacao']) * 1000  # Converter para valores positivos
    df['latitude'] = np.round(np.random.uniform(-90, 90, total_samples), 6)
    df['longitude'] = np.round(np.random.uniform(-180, 180, total_samples), 6)
    df['historico_usuario'] = np.random.randint(1, 50, total_samples)  # Número de transações anteriores
    df['horario_compra'] = np.random.randint(0, 24, total_samples)  # Horário do dia
    return df

In [20]:
# adicionando ele ao data frame

In [17]:
#salvar os dados em csv
# salvar os dados em um arquivo CSV
df.to_csv('fraudes_cartao.csv', index=False)
print('Base de dados gerados com sucesso!')

Base de dados gerados com sucesso!


In [21]:
# Parte 2 - Gerando o modelo de Machine Learning para identificar fraudes em cartões de créditos

In [22]:
# pré-processamento
df.fillna(df.mean(), inplace=True) # serve para lidar com valores nulos

# aplica a normalização entre os dados
scaler = StandardScaler()
df[['valor_transacao', 'historico_usuario', 'horario_compra']] = scaler.fit_transform(df[['valor_transacao', 'historico_usuario', 'horario_compra']])

In [26]:
# separar dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=['fraude']), df['fraude'], test_size=0.2, random_state=42)

In [27]:
# escolher modelo
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

In [28]:
# avaliação
y_pred = modelo.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.99      0.98      1905
           1       0.75      0.58      0.65        95

    accuracy                           0.97      2000
   macro avg       0.87      0.78      0.82      2000
weighted avg       0.97      0.97      0.97      2000

