In [53]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.tree import DecisionTreeClassifier
import graphviz
from sklearn.tree import export_graphviz
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import RandomForestClassifier

In [54]:
credito = pd.read_csv('Credit.csv')
credito.shape

(1000, 21)

In [55]:
credito.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [56]:
previsores = credito.iloc[:,0:20].values
classe = credito.iloc[:,20].values

In [57]:
# Conversão dos atributos categóricos para atributos numéricos, passando o índice de cada atributo categórico
labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

In [58]:
# Divisão da base de dados entre treinamento e teste. Usamos 30% para testar e 70% para treinar. Random_state = 0 para sempre obter a mesma divisão da base quando o código for executado
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

In [9]:
arvore = DecisionTreeClassifier()
arvore.fit(X_treinamento, y_treinamento)

In [10]:
# Exportação da árvore de decisão para o formato .dot, para posterior visualização
# entrar no http://webgraphviz.com/
export_graphviz(arvore, out_file = 'tree.dot')

In [11]:
# Obtenção das previsões
previsoes = arvore.predict(X_teste)
previsoes

array(['bad', 'bad', 'good', 'good', 'good', 'bad', 'good', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'good',
       'good', 'bad', 'bad', 'good', 'bad', 'good', 'good', 'good', 'bad',
       'good', 'bad', 'bad', 'bad', 'good', 'bad', 'bad', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'bad', 'bad', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'bad', 'good', 'bad', 'good', 'bad', 'bad', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'bad', 'bad', 'good', 'good', 'good', 'bad', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'bad',
       '

In [12]:
confusao = confusion_matrix(y_teste, previsoes)
confusao

array([[ 41,  45],
       [ 55, 159]], dtype=int64)

In [14]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.6666666666666666

In [15]:
#taxa erro
taxa_erro = 1 - taxa_acerto
taxa_erro

0.33333333333333337

In [31]:
# COM selção de atributos
# Criação do modelo, treinamento, obtenção das previsões e da taxa de acerto
svm = SVC()
svm.fit(X_treinamento, y_treinamento)

In [19]:
previsoes = svm.predict(X_teste)
previsoes

array(['good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'g

In [32]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.7166666666666667

In [33]:
# Utilização do algoritmo ExtraTreesClassifier para extrair as características mais importantes
forest = ExtraTreesClassifier()
forest.fit(X_treinamento, y_treinamento)
importancias = forest.feature_importances_
importancias

array([0.11188849, 0.08602732, 0.0625105 , 0.05674368, 0.08426018,
       0.04893714, 0.05405777, 0.04919531, 0.04572424, 0.02477552,
       0.05271082, 0.04900904, 0.06054346, 0.0355174 , 0.03798889,
       0.03519676, 0.04193192, 0.02452211, 0.03110794, 0.00735153])

In [34]:
# Criação de nova base de dados utilizando somente os atributos mais importantes
X_treinamento2 = X_treinamento[:,[0,1,2,3]]
X_teste2 = X_teste[:,[0,1,2,3]]

In [35]:
# Criar de outro modelo com a base de dados reduzida, treinamento e obtençaão das previsões e taxa de acerto
svm2 = SVC()
svm2.fit(X_treinamento2, y_treinamento)
previsoes2 = svm2.predict(X_teste2)
taxa_acerto = accuracy_score(y_teste, previsoes2)
taxa_acerto

#modelo muito melhor, maior simplicidade, de 20 atributps de análise passa a ter 4 

0.7133333333333334

In [59]:
#Modelo Radom Forest
floresta = RandomForestClassifier(n_estimators = 100)
floresta.fit(X_treinamento, y_treinamento)

In [60]:
floresta.estimators_#[1]

[DecisionTreeClassifier(max_features='sqrt', random_state=1284278811),
 DecisionTreeClassifier(max_features='sqrt', random_state=200820815),
 DecisionTreeClassifier(max_features='sqrt', random_state=942608994),
 DecisionTreeClassifier(max_features='sqrt', random_state=1276685347),
 DecisionTreeClassifier(max_features='sqrt', random_state=1889168273),
 DecisionTreeClassifier(max_features='sqrt', random_state=1642245871),
 DecisionTreeClassifier(max_features='sqrt', random_state=1453866926),
 DecisionTreeClassifier(max_features='sqrt', random_state=1595094820),
 DecisionTreeClassifier(max_features='sqrt', random_state=117274070),
 DecisionTreeClassifier(max_features='sqrt', random_state=328491637),
 DecisionTreeClassifier(max_features='sqrt', random_state=727479635),
 DecisionTreeClassifier(max_features='sqrt', random_state=837505354),
 DecisionTreeClassifier(max_features='sqrt', random_state=1264157099),
 DecisionTreeClassifier(max_features='sqrt', random_state=1339815043),
 DecisionTre

In [61]:
previsoes = floresta.predict(X_teste)
confusao = confusion_matrix(y_teste, previsoes)
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.7833333333333333