In [None]:
# Detecção de Fraudes de Cartões de Crédito
# https://www.kaggle.com/datasets/kartik2112/fraud-detection/code

# Importar os dados com o pandas
import pandas as pd

transacoes_train_df = pd.read_csv('fraudTrain.csv')
transacoes_test_df = pd.read_csv('fraudTest.csv')

In [None]:
# Resumo da estrutura dos dados
transacoes_train_df.info()

In [None]:
# Contar as ocorrências dos valores "é fraude"
transacoes_test_df['is_fraud'].value_counts()

In [None]:
# Calcular a acurácia
acuracia = (553574) / (553574 + 2145)
acuracia

In [None]:
# Gráfico de distribuição de probabilidade para fraude/não fraude
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

plt.figure(figsize=(10, 6))
sns.kdeplot(data=transacoes_train_df, x='amt', hue='is_fraud', fill=True, common_norm=False)

plt.title('Distribuição de probabilidade para fraude/não-fraude', fontsize=14)
plt.xlabel('Amount (amt)', fontsize=12)
plt.ylabel('Densidade', fontsize=12)
plt.xlim(0, 1500)

# Exibindo o gráfico
plt.show()

In [None]:
# Gerar uma árvore de decisão que classifica fraudes
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier

decision_tree_model = DecisionTreeClassifier(random_state=42)
decision_tree_model.fit(X, Y)

Y_pred = decision_tree_model.predict(X)

report = classification_report(Y, Y_pred)
print(report)

In [None]:
# Profundidade da árvore
decision_tree_model.get_depth()

In [None]:
# Número de folhas da árvore que foi criada
decision_tree_model.get_n_leaves()

In [None]:
# Computar a precisão e cobertura do modelo no conjunto de treino e de teste
X_train = transacoes_train_df[['amt']]
y_train = transacoes_train_df['is_fraud']

X_test = transacoes_test_df[['amt']]
y_test = transacoes_test_df['is_fraud']

y_pred_test = decision_tree_model.predict(X_test)

report = classification_report(y_test, y_pred_test)
print(report)

In [None]:
# Realizar validação cruzada para avaliar o modelo de forma justa afim de maximizar a cobertura
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Definir os parâmetros para o GridSearch
param_grid = {
    'max_depth': [1, 2, 3, 4, 5, 6, 10, 90],
}

dt_classifier = DecisionTreeClassifier(random_state=42)
grid_search = GridSearchCV(estimator=dt_classifier, param_grid=param_grid, cv=3, scoring='recall')

grid_search.fit(X_train, y_train)
best_model = grid_search.best_estimator_

y_pred_test = best_model.predict(X_test)

report_test = classification_report(y_test, y_pred_test)
print(report_test)

In [None]:
# Imprimir profundidade máxima e número de nós para verificar qual profundidade maximiza a cobertura
print(f"Profundidade máxima da árvore: {best_model.tree_.max_depth}")
print(f"Número de nós na árvore: {best_model.tree_.node_count}")