In [1]:
from google.colab import drive

drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
import pandas as pd

df = pd.read_csv("/content/drive/MyDrive/Alura/Árvores de Decisão/creditcard.csv")
df.head()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0


In [3]:
df.isna().sum()

Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64

In [4]:
n_transacoes = df.shape[0]
n_fraudes = df["Class"].sum()
n_normais = n_transacoes - n_fraudes
fraudes_porc = n_fraudes/n_transacoes * 100
normais_porc = n_normais/n_transacoes * 100

print(f"Número de Transações: {n_transacoes}")
print(f"Número de Fraudes: {n_fraudes} ({fraudes_porc:.2f}%)")
print(f"Número de Transações Normais: {n_normais} ({normais_porc:.2f}%)")

Número de Transações: 284807
Número de Fraudes: 492 (0.17%)
Número de Transações Normais: 284315 (99.83%)


In [5]:
X = df.drop("Class",axis=1).values
y = df["Class"]

In [6]:
from sklearn.model_selection import StratifiedShuffleSplit
import numpy as np

SEED = 20
np.random.seed(SEED)

def executar_validador(X,y):
  validador =  StratifiedShuffleSplit(n_splits=1,test_size=0.1)
  for treino_id, teste_id in validador.split(X, y):
    X_train, X_test = X[treino_id], X[teste_id]
    y_train, y_test = y[treino_id], y[teste_id]
  return X_train,X_test,y_train,y_test

In [7]:
X_train,X_test,y_train,y_test = executar_validador(X,y)

In [8]:
import matplotlib.pyplot as plt

def salvar_arvore(classificador, nome):
  plt.figure(figsize=(200,100))
  tree.plot_tree(classificador,filled=True,fontsize=14)
  plt.savefig(nome)
  plt.close()

In [9]:
%%time
from sklearn import tree

modelo = tree.DecisionTreeClassifier()
modelo.fit(X_train,y_train)

y_pred = modelo.predict(X_test)

CPU times: user 28.7 s, sys: 46.5 ms, total: 28.7 s
Wall time: 29.4 s


In [10]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

acuracia = accuracy_score(y_test,y_pred)*100
matriz_confusao = confusion_matrix(y_test,y_pred)
precisao = precision_score(y_test,y_pred)*100
recall = recall_score(y_test,y_pred)*100

print(f"Acurácia da Árvore é {acuracia:.2f} %")
print(f"Precisão da Árvore é {precisao:.2f} %")
print(f"Recall Score da Árvore é {recall:.2f} %")
print(f"Matriz de Confusão:\n\n {matriz_confusao}\n")

Acurácia da Árvore é 99.92 %
Precisão da Árvore é 76.60 %
Recall Score da Árvore é 73.47 %
Matriz de Confusão:

 [[28421    11]
 [   13    36]]



In [11]:
print(modelo.get_params())

{'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'random_state': None, 'splitter': 'best'}


In [12]:
# salvar_arvore(modelo,"Árvore de Decisão.png")

In [13]:
%%time
modelo = tree.DecisionTreeClassifier(max_depth=10)
modelo.fit(X_train,y_train)

y_pred = modelo.predict(X_test)

CPU times: user 17.1 s, sys: 26.1 ms, total: 17.2 s
Wall time: 17.2 s


In [14]:
acuracia = accuracy_score(y_test,y_pred)*100
matriz_confusao = confusion_matrix(y_test,y_pred)
precisao = precision_score(y_test,y_pred)*100
recall = recall_score(y_test,y_pred)*100

print(f"Acurácia da Árvore é {acuracia:.2f} %")
print(f"Precisão da Árvore é {precisao:.2f} %")
print(f"Recall Score da Árvore é {recall:.2f} %")
print(f"Matriz de Confusão:\n\n {matriz_confusao}\n")

Acurácia da Árvore é 99.94 %
Precisão da Árvore é 90.00 %
Recall Score da Árvore é 73.47 %
Matriz de Confusão:

 [[28428     4]
 [   13    36]]



In [15]:
%%time
modelo = tree.DecisionTreeClassifier(max_depth=5)
modelo.fit(X_train,y_train)

y_pred = modelo.predict(X_test)

CPU times: user 9.11 s, sys: 10.8 ms, total: 9.12 s
Wall time: 9.16 s


In [16]:
acuracia = accuracy_score(y_test,y_pred)*100
matriz_confusao = confusion_matrix(y_test,y_pred)
precisao = precision_score(y_test,y_pred)*100
recall = recall_score(y_test,y_pred)*100

print(f"Acurácia da Árvore é {acuracia:.2f} %")
print(f"Precisão da Árvore é {precisao:.2f} %")
print(f"Recall Score da Árvore é {recall:.2f} %")
print(f"Matriz de Confusão:\n\n {matriz_confusao}\n")

Acurácia da Árvore é 99.94 %
Precisão da Árvore é 86.36 %
Recall Score da Árvore é 77.55 %
Matriz de Confusão:

 [[28426     6]
 [   11    38]]



In [23]:
%%time
from sklearn.ensemble import RandomForestClassifier

modelo = RandomForestClassifier(n_estimators=50, max_depth=10)
modelo.fit(X_train,y_train)
y_pred = modelo.predict(X_test)

CPU times: user 1min 48s, sys: 109 ms, total: 1min 48s
Wall time: 1min 51s


In [24]:
acuracia = accuracy_score(y_test,y_pred)*100
matriz_confusao = confusion_matrix(y_test,y_pred)
precisao = precision_score(y_test,y_pred)*100
recall = recall_score(y_test,y_pred)*100

print(f"Acurácia da Árvore é {acuracia:.2f} %")
print(f"Precisão da Árvore é {precisao:.2f} %")
print(f"Recall Score da Árvore é {recall:.2f} %")
print(f"Matriz de Confusão:\n\n {matriz_confusao}\n")

Acurácia da Árvore é 99.95 %
Precisão da Árvore é 92.50 %
Recall Score da Árvore é 75.51 %
Matriz de Confusão:

 [[28429     3]
 [   12    37]]



In [19]:
%%time
from sklearn.ensemble import AdaBoostClassifier

modelo = AdaBoostClassifier()
modelo.fit(X_train,y_train)
y_pred = modelo.predict(X_test)

CPU times: user 1min 41s, sys: 89.6 ms, total: 1min 42s
Wall time: 1min 42s


In [20]:
acuracia = accuracy_score(y_test,y_pred)*100
matriz_confusao = confusion_matrix(y_test,y_pred)
precisao = precision_score(y_test,y_pred)*100
recall = recall_score(y_test,y_pred)*100

print(f"Acurácia da Árvore é {acuracia:.2f} %")
print(f"Precisão da Árvore é {precisao:.2f} %")
print(f"Recall Score da Árvore é {recall:.2f} %")
print(f"Matriz de Confusão:\n\n {matriz_confusao}\n")

Acurácia da Árvore é 99.88 %
Precisão da Árvore é 65.96 %
Recall Score da Árvore é 63.27 %
Matriz de Confusão:

 [[28416    16]
 [   18    31]]



In [21]:
%%time
from sklearn.ensemble import AdaBoostClassifier

modelo = AdaBoostClassifier(n_estimators=100)
modelo.fit(X_train,y_train)
y_pred = modelo.predict(X_test)

CPU times: user 3min 24s, sys: 168 ms, total: 3min 24s
Wall time: 3min 25s


In [22]:
acuracia = accuracy_score(y_test,y_pred)*100
matriz_confusao = confusion_matrix(y_test,y_pred)
precisao = precision_score(y_test,y_pred)*100
recall = recall_score(y_test,y_pred)*100

print(f"Acurácia da Árvore é {acuracia:.2f} %")
print(f"Precisão da Árvore é {precisao:.2f} %")
print(f"Recall Score da Árvore é {recall:.2f} %")
print(f"Matriz de Confusão:\n\n {matriz_confusao}\n")

Acurácia da Árvore é 99.92 %
Precisão da Árvore é 81.40 %
Recall Score da Árvore é 71.43 %
Matriz de Confusão:

 [[28424     8]
 [   14    35]]

