<a href="https://colab.research.google.com/github/rafaelblink/machine-learning/blob/main/aula-01-fraudes-cartao-credito.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np # gerar matrizes e vetores para grandes volumes
import pandas as pd # manipular dados (excel)
from sklearn.datasets import make_classification # dataset para auxiliar a criacao base de fraudes

from sklearn.model_selection import train_test_split # separar base, 70% de treino e 30% para testes
from sklearn.preprocessing import StandardScaler # preprocessamento dados, normalizar
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

In [9]:
# Definir número de amostras
total_samples = 10000
fraud_ratio = 0.05  # 5% de fraudes
fraud_samples = int(total_samples * fraud_ratio)
normal_samples = total_samples - fraud_samples

In [13]:
# Gerar dados sintéticos com make_classification
X, y = make_classification(n_samples=total_samples, n_features=5, weights=[0.95, fraud_ratio], random_state=42)
print(X)
print(y)

[[-2.24456934 -1.36232827  1.55433334 -2.0869092  -1.27760482]
 [-0.74178572  0.20428203  1.68189287 -2.60829504  1.98019634]
 [-1.81742298 -1.4378391   0.66102308 -0.7084372   0.72711376]
 ...
 [-3.17646599 -2.97878542  0.32401442  0.12710402 -0.63318634]
 [-0.41224819  0.17380558  1.04229889 -1.62625451 -1.24718999]
 [-1.02487223 -0.70828082  0.55578021 -0.70007904 -0.43269446]]
[0 0 0 ... 0 0 0]


In [12]:
# Criar DataFrame
df = pd.DataFrame(X, columns=['valor_transacao', 'latitude', 'longitude', 'historico_usuario', 'horario_compra'])
df['fraude'] = y  # Rótulo de fraude

In [14]:
def ajustar_valores(df):
    df['valor_transacao'] = np.abs(df['valor_transacao']) * 1000  # Converter para valores positivos
    df['latitude'] = np.round(np.random.uniform(-90, 90, total_samples), 6)
    df['longitude'] = np.round(np.random.uniform(-180, 180, total_samples), 6)
    df['historico_usuario'] = np.random.randint(1, 50, total_samples)  # Número de transações anteriores
    df['horario_compra'] = np.random.randint(0, 24, total_samples)  # Horário do dia
    return df

In [15]:
df = ajustar_valores(df)

In [16]:
# Salvar como CSV
df.to_csv('fraudes_cartao.csv', index=False)
print("Base de dados gerada com sucesso!")

Base de dados gerada com sucesso!


In [17]:
# Definir número de amostras
total_samples = 10000
fraud_ratio = 0.05  # 5% de fraudes
fraud_samples = int(total_samples * fraud_ratio)
normal_samples = total_samples - fraud_samples

In [18]:
# Gerar dados sintéticos com make_classification
X, y = make_classification(n_samples=total_samples, n_features=5, weights=[0.95, 0.05], random_state=42)

In [19]:
# Criar DataFrame
df = pd.DataFrame(X, columns=['valor_transacao', 'latitude', 'longitude', 'historico_usuario', 'horario_compra'])
df['fraude'] = y  # Rótulo de fraude

In [20]:
def ajustar_valores(df):
    df['valor_transacao'] = np.abs(df['valor_transacao']) * 1000  # Converter para valores positivos
    df['latitude'] = np.round(np.random.uniform(-90, 90, total_samples), 6)
    df['longitude'] = np.round(np.random.uniform(-180, 180, total_samples), 6)
    df['historico_usuario'] = np.random.randint(1, 50, total_samples)  # Número de transações anteriores
    df['horario_compra'] = np.random.randint(0, 24, total_samples)  # Horário do dia
    return df

In [21]:
df = ajustar_valores(df)

In [22]:
# Pré-processamento
df.fillna(df.mean(), inplace=True)  # Lidar com valores nulos
scaler = StandardScaler()
df[['valor_transacao', 'historico_usuario', 'horario_compra']] = scaler.fit_transform(df[['valor_transacao', 'historico_usuario', 'horario_compra']])

In [23]:
# Separar dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=['fraude']), df['fraude'], test_size=0.3, random_state=42)

In [24]:
# Escolher modelo
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

In [25]:
# Avaliação
y_pred = modelo.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.95      1.00      0.97      2843
           1       0.00      0.00      0.00       157

    accuracy                           0.95      3000
   macro avg       0.47      0.50      0.49      3000
weighted avg       0.90      0.95      0.92      3000



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [26]:
# Salvar como CSV
df.to_csv('fraudes_cartao.csv', index=False)
print("Base de dados gerada e modelo treinado com sucesso!")

Base de dados gerada e modelo treinado com sucesso!


In [None]:
# Sim, o modelo teve um bom desempenho para identificar transações legítimas, com uma precisão de 0,95 para a classe "0"
# (não fraude). Porém, ele teve dificuldades para identificar as fraudes (classe "1"),
# com precisão de 0,00 e recall de 0,00, o que significa que ele não conseguiu identificar nenhuma fraude corretamente.
# Isso é comum quando temos um desequilíbrio de classes, ou seja, a quantidade de fraudes no dataset é muito menor do que as transações legítimas,
# o que faz com que o modelo acabe "ignorando" as fraudes, já que ele tende a se concentrar mais na classe majoritária.

# Isso pode ser melhorado com algumas técnicas, como balancear as classes ou ajustar o limiar de decisão, para que o modelo consiga dar mais
# atenção às fraudes.

In [28]:
import joblib

joblib.dump(modelo, 'modelo_fraudes_cartao.pkl')

['modelo_fraudes_cartao.pkl']