#Modelo de Classificação - Decision Tree - Dataset Fraud Detection

O algoritmo Árvore de Decisão é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para classificação ou regressão. Ele funciona construindo uma árvore de decisão, onde cada nó da árvore representa uma decisão a ser tomada com base em um conjunto de características dos dados, e cada ramo da árvore representa uma possível decisão. O algoritmo então usa a árvore de decisão para fazer previsões sobre novos dados, percorrendo a árvore e tomando decisões em cada nó até chegar a uma folha, que representa a previsão final.

O algoritmo Árvore de Decisão é amplamente utilizado em muitas aplicações, incluindo diagnóstico médico, fraudes em cartões de crédito, marketing e outras. Ele é fácil de usar e interpretar, o que o torna uma escolha popular para muitas tarefas de aprendizado de máquina.

Este dataset é encontrado originalmente na competição do Kaggle
https://www.kaggle.com/datasets/whenamancodes/fraud-detection

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn import tree

from sklearn.metrics import confusion_matrix,ConfusionMatrixDisplay
from sklearn.model_selection import cross_val_score

import time

In [None]:
df = pd.read_csv("https://media.githubusercontent.com/media/diegonogare/MachineLearning/main/creditcard.csv")

In [None]:
df.info()
df.describe()
df.head()

In [None]:
df2 = df[['V3','V4','V7','V10','V11','V12','V14','V16','V17','V18','Class']]

corr = df2.corr()
corr.style.background_gradient()

In [None]:
X = df2.drop(['Class'], axis = 1)
Y = df2[['Class']]

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

In [None]:
inicio = time.time()
modelo_dt = tree.DecisionTreeClassifier(criterion = 'entropy')
modelo_dt.fit(X_train,y_train)
termino = time.time()
print("--- %s segundos para treinar o modelo ---" % (termino - inicio))

In [None]:
inicio = time.time()
predicao = modelo_dt.predict(X_test)
termino = time.time()
print(predicao)
print("--- %s segundos para fazer o scoring do modelo ---" % (termino - inicio))

In [None]:
matriz_confusao = confusion_matrix(y_test, predicao)
print(matriz_confusao)

matriz_confusao_visual = ConfusionMatrixDisplay(confusion_matrix=matriz_confusao,display_labels = np.array([1,2]))
matriz_confusao_visual.plot();

In [None]:
plt.figure(figsize=(50,20))
tree.plot_tree(modelo_dt, class_names=str(df2['Class'].unique()) , filled=True);
plt.savefig('modelo_dt.png', dpi=300)