## Seleção de atributos

Fazendo uma analise com créditos pegando apenas os atributos que fazem sentido para nosso dataset

In [3]:
# Importação das bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier

In [5]:
# Carregamento da base de dados e criação dos previsores (variáveis independentes - X) e da classe (variável dependente - y)
credito = pd.read_csv('./dados/Credit.csv')
credito.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [6]:
previsores = credito.iloc[:,0:20].values
classe = credito.iloc[:,20].values

In [7]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada atributo categórico
labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

In [8]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar)
X_train, X_test, y_train, y_test = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 1)

In [13]:
# Criação do modelo, treinamento, obtenção das previsões e da taxa de acerto
svm = SVC()
svm.fit(X_train, y_train)
(svm)

SVC()

In [17]:
#previsoes
previsoes = svm.predict(X_test)
previsoes

array(['good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'good', 'good',
       'bad', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good

In [19]:
taxa_acerto = accuracy_score(y_test, previsoes)
taxa_acerto

0.7166666666666667

In [21]:
# Utilização do algoritmo ExtraTreesClassifier para extrair as características mais importantes
forest = ExtraTreesClassifier()
forest.fit(X_train, y_train)
importancias = forest.feature_importances_
importancias

array([0.09919447, 0.08300116, 0.07019275, 0.05864644, 0.07900827,
       0.05221448, 0.05301075, 0.05659787, 0.04525834, 0.02782055,
       0.04793659, 0.04769721, 0.06831655, 0.04332885, 0.03578198,
       0.03224661, 0.04021841, 0.02149147, 0.03078634, 0.00725091])

In [23]:
# Criação de nova base de dados utilizando somente os atributos mais importantes
X_train2 = X_train[:,[0,1,2,3]]
X_test2 = X_test[:,[0,1,2,3]]

In [28]:
# Criar de outro modelo com a base de dados reduzida, treinamento e obtençaão das previsões e taxa de acerto
svm2 = SVC()
svm2.fit(X_train2, y_train)
previsoes2 = svm2.predict(X_test2)
taxa_acerto = accuracy_score(y_test, previsoes2)
taxa_acerto

0.7233333333333334