# Machine Learning - Formação Cientista de dados
### Verificação de análise de crédito usando naive bayes e o pacote e1071

In [None]:
#intalação do pacote e1071
#install.packages("e1071", dependencies = T)

In [4]:
library(e1071)

In [5]:
#uso do conjunto de dados Crédito.csv
credito = read.csv(file.choose(), sep = ",", header=T)

In [6]:
head(credito)

checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
'no checking',36,'existing paid',education,9055,'no known savings',1<=X<4,2,'male single',none,...,'no known property',35,none,'for free',1,'unskilled resident',2,yes,yes,good


In [7]:
dim(credito)

In [8]:
#separação da amostra para teste e para treino.
#amostra de 1 e de 2, com reposição , probabilidade de 70% para gerar 1 e 30% para 2
amostra <- sample(2, 1000, replace = T, prob = c(0.7,0.3))
amostra

In [9]:
#separação de amostra para treinamento, tudo aquele que pode dar 2 (70%)
creditotreino = credito[amostra ==1,]
#separação de amostra para o teste, tudo aquele que pode dar 2 (30%)
creditoteste = credito[amostra ==2,] 

In [10]:
dim(creditotreino)

In [11]:
dim(creditoteste)

In [12]:
# modelo = naiveBayes (atributos ~ .(ponto pega todos)  , dados)
modelo = naiveBayes (class ~ . , creditotreino)
modelo


Naive Bayes Classifier for Discrete Predictors

Call:
naiveBayes.default(x = X, y = Y, laplace = laplace)

A-priori probabilities:
Y
      bad      good 
0.2916667 0.7083333 

Conditional probabilities:
      checking_status
Y      'no checking'         <0      >=200   0<=X<200
  bad     0.18095238 0.43809524 0.04285714 0.33809524
  good    0.49607843 0.18823529 0.08235294 0.23333333

      duration
Y          [,1]     [,2]
  bad  25.08571 13.47769
  good 19.52353 11.10896

      credit_history
Y      'all paid' 'critical/other existing credit' 'delayed previously'
  bad  0.09523810                       0.16190476           0.10000000
  good 0.02941176                       0.34509804           0.09215686
      credit_history
Y      'existing paid' 'no credits/all paid'
  bad       0.54285714            0.10000000
  good      0.51176471            0.02156863

      purpose
Y      'domestic appliance'  'new car' 'used car'   business  education
  bad            0.01428571 0.28095238 0

In [13]:
class(modelo)

In [14]:
#predição do modelo
predicao = predict (modelo , creditoteste )
predicao

In [15]:
#avaliar se o modelo ficou bom
confusao = table(creditoteste$class , predicao)
confusao

      predicao
       bad good
  bad   51   39
  good  28  162

In [16]:
#medindo o indice de acertos
taxaacerto = (confusao [1] + confusao[4]) / sum(confusao)

In [17]:
taxaacerto

In [18]:
taxaerro = (confusao [2] + confusao[3]) / sum(confusao)
taxaerro

A taxa de acerto foi boa quase 75%

### Simulando o modelo de produção

Verificação de um ou mais novos clientes querendo saber se podem ter o crédito aprovado.

In [19]:
novocredito = read.csv(file.choose(), sep=",", header = T)

In [20]:
novocredito # apenas um cliente com as mesmas informações e características dos dados de teste menos a classe

checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,residence_since,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker
'no checking',12,'existing paid',radio/tv,804,<100,>=7,4,'male single',none,4,car,38,none,own,1,skilled,1,none,yes


In [21]:
dim(novocredito)

In [22]:
predict(modelo,novocredito)

# Conclusão: 
O Cliente é um bom pagador

## Seleção de atributos
Uso de um algoritmo de máquina de vetor de suporte para melhorar a precisao do modelo de machine learning

In [23]:
library(e1071)


In [24]:
modelo = svm(class ~ . , creditotreino)
modelo


Call:
svm(formula = class ~ ., data = creditotreino)


Parameters:
   SVM-Type:  C-classification 
 SVM-Kernel:  radial 
       cost:  1 
      gamma:  0.02040816 

Number of Support Vectors:  444


In [25]:
predicao = predict (modelo, creditoteste)

In [26]:
predicao

In [27]:
confusao = table(creditoteste$class, predicao)
confusao

      predicao
       bad good
  bad   14   76
  good   4  186

In [28]:
taxaacerto = (confusao [1] + confusao[4]) / sum(confusao)

In [29]:
taxaacerto

In [30]:
taxaerro = (confusao [2] + confusao[3]) / sum(confusao)

In [31]:
taxaerro

In [32]:
install.packages("FSelector")

Installing package into 'C:/Users/dmiyake/Documents/R/win-library/3.4'
(as 'lib' is unspecified)
"package 'FSelector' is in use and will not be installed"

In [33]:
library(FSelector)

In [34]:
random.forest.importance(class ~. , credito) #verificação de quais atributos possuem mais relevância

Unnamed: 0,attr_importance
checking_status,47.792322
duration,28.465005
credit_history,19.747488
purpose,12.540875
credit_amount,19.383498
savings_status,14.118702
employment,7.861373
installment_commitment,6.693678
personal_status,4.020938
other_parties,11.782197


In [35]:
modelo = svm(class ~ checking_status + duration + credit_history + purpose + credit_amount + 
             savings_status, creditotreino )

In [36]:
predicao = predict(modelo, creditoteste)

In [39]:
confusao = table(creditoteste$class, predicao)
confusao

      predicao
       bad good
  bad   14   76
  good   8  182

In [42]:
taxaaxerto2 = (confusao[1] + confusao[4])/ sum(confusao)

In [44]:
taxaaxerto2

In [45]:
#testando o modelo 2  com menos atributos
modelo2 = svm(class ~ checking_status + duration + credit_history + purpose, creditotreino )
predicao2 = predict(modelo, creditoteste)
confusao2 = table(creditoteste$class, predicao2)
confusao2

      predicao2
       bad good
  bad   14   76
  good   8  182