<a href="https://colab.research.google.com/github/joaoSouza2121/machine-learning/blob/main/Arvore_de_Decisao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#<font color="blue">Machine Learning</font>

#Árvores de Decisão

In [1]:
# Imports
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
import graphviz
from sklearn.tree import export_graphviz

In [2]:
# Carregando a base de Dados
credito = pd.read_csv("dados/Credit.csv")
credito.shape

(1000, 21)

In [3]:
# Transformando em formato de matriz
previsores = credito.iloc[:, 0:20].values
classe = credito.iloc[:, 20].values

#<font color="red">Label Encoding</font>

In [4]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada coluna categórica
# Precisamos criar um objeto para cada atributo categórico, pois na sequência vamos executar o processo de encoding novamente para o registro de teste
# Obs => Se forem utilizados objetos diferentes, o número atribuído a cada valor poderá ser diferente, o que deixará o teste inconsistente
labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder.fit_transform(previsores[:,6])
previsores[:,8] = labelencoder.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder.fit_transform(previsores[:,9])
previsores[:,11] = labelencoder.fit_transform(previsores[:,11])
previsores[:,13] = labelencoder.fit_transform(previsores[:,13])
previsores[:,14] = labelencoder.fit_transform(previsores[:,14])
previsores[:,16] = labelencoder.fit_transform(previsores[:,16])
previsores[:,18] = labelencoder.fit_transform(previsores[:,18])
previsores[:,19] = labelencoder.fit_transform(previsores[:,19])

In [5]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar)
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)
X_teste

array([[2, 36, 3, ..., 1, 1, 1],
       [0, 9, 3, ..., 2, 0, 0],
       [0, 18, 3, ..., 1, 1, 1],
       ...,
       [0, 24, 1, ..., 1, 0, 1],
       [1, 27, 4, ..., 1, 1, 1],
       [1, 12, 3, ..., 1, 0, 1]], dtype=object)

#Gerando a arvore de decisão

In [7]:
arvore = DecisionTreeClassifier()
arvore.fit(X_treinamento, y_treinamento)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [8]:
# Exportação da arvore de decisão para o formato .dot, para posterior visualização
export_graphviz(arvore, out_file= 'tree.dot')

#Gerando Previsoes nos dados de Treino

In [9]:
previsoes = arvore.predict(X_teste)

Matriz de Confusão

In [10]:
confusao = confusion_matrix(y_teste, previsoes)
confusao 

array([[ 41,  45],
       [ 54, 160]])

#Avaliando a performance do modelo

In [11]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.67

#<font color="orange">Seleção de Atributos</font>

In [12]:
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier

#Algoritmo SVM -> Vector Machina Support

In [14]:
svm = SVC()
svm.fit(X_treinamento, y_treinamento)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

#Previsões

In [15]:
previsao_svm = svm.predict(X_teste)
#previsao_svm

array(['good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'g

Avaliação do modelo

In [16]:
tx_acerto = accuracy_score(y_teste, previsao_svm)
tx_acerto 

0.7166666666666667

#Extraindo as Características mais importantes para o modelo

In [19]:
# Utilização do algoritmo ExtraClassifier para extrair as caracteristicas mais importantes
forest = ExtraTreesClassifier()
forest.fit(X_treinamento, y_treinamento)
importancias = forest.feature_importances_
importancias

array([0.11192335, 0.08156602, 0.06129393, 0.05865121, 0.08339306,
       0.04650807, 0.0522975 , 0.0518239 , 0.04429829, 0.0267668 ,
       0.0500032 , 0.04890805, 0.0665639 , 0.03727366, 0.03653804,
       0.03400917, 0.04219584, 0.02455224, 0.03250749, 0.00892628])

In [26]:
# Criação de uma nova base de dados utilizando somente os atributos mais importantes
X_treinamento2 = X_treinamento[:, [0,1,2,3,4,12]]
X_teste2 = X_teste[:, [0,1,2,3,4,12]]

In [27]:
# Criando um segundo modelo com a nova base de dados
svm2 = SVC()
svm2.fit(X_treinamento2, y_treinamento)
previsao_svm2 = svm2.predict(X_teste2)
tx_acerto2 = accuracy_score(y_teste, previsao_svm2)
tx_acerto2

0.7166666666666667