<a href="https://colab.research.google.com/github/Ell-neto/Arvores_Decisao/blob/main/arvore_decisao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Árvores de Decisão

Análises de dados para identificar possíveis fraudes em cartões de crédito utilizando uma árvore de decisão. E entendendo como funcionam as árvores de decisão (algumas delas).

In [41]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
dados = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/creditcard.csv")
dados.tail()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
284802,172786.0,-11.881118,10.071785,-9.834783,-2.066656,-5.364473,-2.606837,-4.918215,7.305334,1.914428,...,0.213454,0.111864,1.01448,-0.509348,1.436807,0.250034,0.943651,0.823731,0.77,0
284803,172787.0,-0.732789,-0.05508,2.03503,-0.738589,0.868229,1.058415,0.02433,0.294869,0.5848,...,0.214205,0.924384,0.012463,-1.016226,-0.606624,-0.395255,0.068472,-0.053527,24.79,0
284804,172788.0,1.919565,-0.301254,-3.24964,-0.557828,2.630515,3.03126,-0.296827,0.708417,0.432454,...,0.232045,0.578229,-0.037501,0.640134,0.265745,-0.087371,0.004455,-0.026561,67.88,0
284805,172788.0,-0.24044,0.530483,0.70251,0.689799,-0.377961,0.623708,-0.68618,0.679145,0.392087,...,0.265245,0.800049,-0.163298,0.123205,-0.569159,0.546668,0.108821,0.104533,10.0,0
284806,172792.0,-0.533413,-0.189733,0.703337,-0.506271,-0.012546,-0.649617,1.577006,-0.41465,0.48618,...,0.261057,0.643078,0.376777,0.008797,-0.473649,-0.818267,-0.002415,0.013649,217.0,0


In [3]:
print(dados.isna().sum())

Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64


In [4]:
n_transacoes = dados.shape[0]
fraudes = dados['Class'].sum()
nao_fraudes = n_transacoes - fraudes


print(f"Número de transações: {n_transacoes}")
print(f"Número de transações que são fraudes: {fraudes}")
print(f"Número de transações que não são fraudes: {nao_fraudes}")

Número de transações: 284807
Número de transações que são fraudes: 492
Número de transações que não são fraudes: 284315


In [45]:
#Porcentagem

fraudes_porc = round((fraudes/n_transacoes)*100, 3)
nao_fraudes_porc = round((nao_fraudes/n_transacoes)*100, 3)
print("Taxa de fraudes: {fraudes} \nTaxa de não fraudes: {naofr}".format(fraudes = fraudes_porc, naofr = nao_fraudes_porc))

Taxa de fraudes: 0.173 
Taxa de não fraudes: 99.827


In [6]:
from sklearn.model_selection import StratifiedShuffleSplit

def executar_validador(X,y):
  validador = StratifiedShuffleSplit(n_splits=1, test_size=0.1, random_state=0)
  for treino_id, teste_id in validador.split(X, y):
    X_train, X_test = X[treino_id], X[teste_id]
    y_train, y_test = y[treino_id], y[teste_id]
  return X_train, X_test, y_train, y_test

In [7]:
%%time
from sklearn import tree

def executar_classificador(classificador, X_train, X_test, y_train):

  arvore = classificador.fit(X_train, y_train)
  y_pred = arvore.predict(X_test)
  return y_pred

CPU times: user 49.9 ms, sys: 21 ms, total: 70.9 ms
Wall time: 851 ms


In [40]:
def sal_arvore(classificador, nome):
  plt.figure(figsize=(200,100))
  tree.plot_tree(classificador, filled=True, fontsize=14)
  plt.savefig(nome)
  plt.close()

In [32]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score #funciona junto com o recall
from sklearn.metrics import recall_score

def validar_arvore(y_test, y_pred):
  accur = accuracy_score(y_test, y_pred)
  precis = precision_score(y_test, y_pred)
  recall = recall_score(y_test, y_pred)
  confus = confusion_matrix(y_test, y_pred)
  print(f"Acurácia do modelo: {accur}")
  print(f"Precisão do modelo: {precis}")
  print(f"Recall do modelo: {recall}")
  print(f"Matriz de confusão do modelo:\n {confus}")

In [10]:
# execução do validador
X = dados.drop('Class', axis=1).values
y = dados['Class'].values
X_train, X_test, y_train, y_test = executar_validador(X, y)

In [11]:
# execução do classificador DecisionTreeClassifier
classificador_arvore_dec = tree.DecisionTreeClassifier()
y_pred_arvore_dec = executar_classificador(classificador_arvore_dec, X_train, X_test, y_train)

In [12]:
#criaçao da figura da arvore de decisao
sal_arvore(classificador_arvore_dec, "arvore_decisao.png")

In [33]:
#validacao da arvore de decisao
validar_arvore(y_test, y_pred_arvore_dec)

Acurácia do modelo: 0.9993679997191109
Precisão do modelo: 0.8604651162790697
Recall do modelo: 0.7551020408163265
Matriz de confusão do modelo:
 [[28426     6]
 [   12    37]]


In [14]:
print(f"A profundidade da árvore é de: {classificador_arvore_dec.get_depth()}")

A profundidade da árvore é de: 21


In [15]:
# execução do classificador DecisionTreeClassifier
classificador_arvore_dec = tree.DecisionTreeClassifier(max_depth=10, random_state=0)
y_pred_arvore_dec = executar_classificador(classificador_arvore_dec, X_train, X_test, y_train)

In [34]:
validar_arvore(y_test, y_pred_arvore_dec)

Acurácia do modelo: 0.9993679997191109
Precisão do modelo: 0.8604651162790697
Recall do modelo: 0.7551020408163265
Matriz de confusão do modelo:
 [[28426     6]
 [   12    37]]


In [17]:
# execução do classificador DecisionTreeClassifier
classificador_arvore_dec = tree.DecisionTreeClassifier(max_depth=10, random_state=0, min_samples_leaf=10)
y_pred_arvore_dec = executar_classificador(classificador_arvore_dec, X_train, X_test, y_train)

In [35]:
validar_arvore(y_test, y_pred_arvore_dec)

#não foi uma boa escolha colocar o min_samples_leaf, que mexe no mínimo de folhas da árvore

Acurácia do modelo: 0.9993679997191109
Precisão do modelo: 0.8604651162790697
Recall do modelo: 0.7551020408163265
Matriz de confusão do modelo:
 [[28426     6]
 [   12    37]]


In [19]:
classificador_arvore_dec2 = tree.DecisionTreeClassifier(max_depth=5, random_state=0)
y_pred_arvore_dec2 = executar_classificador(classificador_arvore_dec2, X_train, X_test, y_train)

In [36]:
validar_arvore(y_test, y_pred_arvore_dec2)

Acurácia do modelo: 0.999403110845827
Precisão do modelo: 0.9210526315789473
Recall do modelo: 0.7142857142857143
Matriz de confusão do modelo:
 [[28429     3]
 [   14    35]]


In [21]:
%%time
from sklearn.ensemble import RandomForestClassifier

classificador_random = RandomForestClassifier(n_estimators=100, random_state=0)  #n_estimators - num de arvores
y_pred_randomf = executar_classificador(classificador_random, X_train, X_test, y_train)

CPU times: user 5min 37s, sys: 336 ms, total: 5min 38s
Wall time: 5min 38s


In [22]:
sal_arvore(classificador_random.estimators_[0], "random_forest1")
sal_arvore(classificador_random.estimators_[1], "random_forest2")

In [37]:
validar_arvore(y_test, y_pred_randomf)

Acurácia do modelo: 0.9995435553526912
Precisão do modelo: 0.9736842105263158
Recall do modelo: 0.7551020408163265
Matriz de confusão do modelo:
 [[28431     1]
 [   12    37]]


In [24]:
%%time
from sklearn.ensemble import RandomForestClassifier

classificador_random = RandomForestClassifier(n_estimators=50, random_state=0, max_depth=10)  
y_pred_randomf = executar_classificador(classificador_random, X_train, X_test, y_train)

CPU times: user 1min 42s, sys: 128 ms, total: 1min 42s
Wall time: 1min 42s


In [25]:
validar_arvore(y_test, y_pred_randomf)

Acurácia do modelo: 0.9995435553526912
Precisão do modelo: 0.9736842105263158
Recall do modelo: 0.7551020408163265
Matriz de confusão do modelo: [[28431     1]
 [   12    37]]


## AdaBoost


In [26]:
%%time
from sklearn.ensemble import AdaBoostClassifier

classificador_adabos = AdaBoostClassifier(random_state=0)
y_pred_adabos = executar_classificador(classificador_adabos, X_train, X_test, y_train)

CPU times: user 1min 40s, sys: 146 ms, total: 1min 40s
Wall time: 1min 40s


In [27]:
sal_arvore(classificador_adabos.estimators_[0], "random_adabos1")
sal_arvore(classificador_adabos.estimators_[2], "random_adabos2")

In [38]:
validar_arvore(y_test, y_pred_adabos)

Acurácia do modelo: 0.999403110845827
Precisão do modelo: 0.8636363636363636
Recall do modelo: 0.7755102040816326
Matriz de confusão do modelo:
 [[28426     6]
 [   11    38]]


In [29]:
#Tentando melhorar...
%%time
from sklearn.ensemble import AdaBoostClassifier

classificador_adabos = AdaBoostClassifier(random_state=0, n_estimators=100)
y_pred_adabos = executar_classificador(classificador_adabos, X_train, X_test, y_train)

#Se colocarmos o estimators = 200, teremos melhores valores da acuracia e precisao 

CPU times: user 3min 20s, sys: 261 ms, total: 3min 20s
Wall time: 3min 19s


In [39]:
validar_arvore(y_test, y_pred_adabos)

Acurácia do modelo: 0.999403110845827
Precisão do modelo: 0.8636363636363636
Recall do modelo: 0.7755102040816326
Matriz de confusão do modelo:
 [[28426     6]
 [   11    38]]
