### MACHINE LEARNING

#### Algorítmos de Classificação --> Seleção de Atributos

Selecão de Atributos utiliza uma técnica de vetor de suporte para seleção de alguns atributos, de modo a torna-lo mais genérico e simples do que o obtido com a Decision Tree

In [17]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier

In [2]:
# Obtendo os dados

credito = pd.read_csv('Credit.csv')
credito.head(6)

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
5,'no checking',36,'existing paid',education,9055,'no known savings',1<=X<4,2,'male single',none,...,'no known property',35,none,'for free',1,'unskilled resident',2,yes,yes,good


In [3]:
# Separando e definindo as variáveis previsoras (independentes --> x) da classe target (dependente --> y)

previsores = credito.iloc[:, 0:20].values
classe = credito.iloc[:, 20].values

In [4]:
# Transformação dos atributos categóricos em numéricos da relação utilizando o módulo LabelEncoder()

atributos_cat_index = [0, 2, 3, 5, 6, 8, 9, 11, 13, 14, 16, 18, 19]

def cat2num(lista_previsores, base_previsores):
    
    labelencoder = LabelEncoder()
    for index in lista_previsores:
        base_previsores[:, index] = labelencoder.fit_transform(base_previsores[:, index])
        
cat2num(atributos_cat_index, previsores)

previsores
    

array([[2, 6, 1, ..., 1, 1, 1],
       [1, 48, 3, ..., 1, 0, 1],
       [0, 12, 1, ..., 2, 0, 1],
       ...,
       [0, 12, 3, ..., 1, 0, 1],
       [2, 45, 3, ..., 1, 1, 1],
       [1, 45, 1, ..., 1, 0, 1]], dtype=object)

In [6]:
# Divisão da base de dados (previsores e classe) para treinamento (70%) e teste (30%)

x_train, x_test, y_train, y_test = train_test_split(previsores,
                                                   classe,
                                                   test_size=0.3,
                                                   random_state=1)


In [7]:
# Criando o modelo (Seleção de Atributos) com SVC()

selection_model = SVC()
selection_model.fit(x_train, y_train)

SVC()

In [8]:
# Obtendo as previsoes para a base de teste

previsoes = selection_model.predict(x_test)
previsoes

array(['good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'good', 'good',
       'bad', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good

In [10]:
tx_acerto = accuracy_score(y_test, previsoes)
tx_acerto

0.7166666666666667

In [19]:
# Utilizando o algorítimo ExtraTreesClassifier para criação de um modelo e extrair 
#das caracteristicas mais relevantes para classificação!

forest = ExtraTreesClassifier()
forest.fit(x_train, y_train)
importancia = forest.feature_importances_
importancia

array([0.10222005, 0.08113444, 0.07050925, 0.05739435, 0.08041904,
       0.0528825 , 0.04979766, 0.05459593, 0.04482303, 0.02741958,
       0.05016895, 0.04652077, 0.07154892, 0.041419  , 0.03581234,
       0.03261111, 0.0387327 , 0.02221403, 0.03356789, 0.00620846])

In [20]:
# Criação de nova base de dados utilizando as caracteristicas mais relevantes (de escolha subjetiva!)
# Tente escolher outras caracteristicas (4 ou mais ou menos!!)

x_train2 = x_train[:, [0, 1, 2, 4]]
x_test2 = x_test[:, [0, 1, 2, 4]]

In [21]:
selection_model2 = SVC()
selection_model2.fit(x_train2, y_train)

SVC()

In [23]:
previsoes2 = selection_model2.predict(x_test2)


# Note que um subconjunto bem mais simples obteve a mesma performace!!!!
tx_acerto2 = accuracy_score(y_test, previsoes2)
tx_acerto2

0.7166666666666667