Aprendizado de máquina por regras

In [None]:
#Para utilizar algoritmos de aprendizado de máquina por regras, demos utilizar a biblioteca Orange, uma vez que o sklearn
#não possui o algoritmo de regras implementado em sua biblioteca. É importante lembrar que o algoritmo de aprendizado de máquina por regras 
#é pouco popular nos dias atuais, sendo até mesmo difícil de encontrar materiais sobre tal conteúdo na internet.
!pip install Orange3

In [None]:
#Verificando se a instalação foi realizada corretamente:
import Orange

Base risco de crédito

In [None]:
#Para utilização do algoritmo de regras a coluna classe deve conter o "c#" antes do nome da classe, de modo
#a indicar para o algoritmo qual é a coluna classe. Nos algoritmos de Naive Bayes e árvores de decisão, havíamos
#dividido a base de dados em atributos previsores e atributos classe. 
#No arquivo CSV "base_risco_credito" o nome da coluna classe é iniciado por "c#".
base_risco_credito = Orange.data.Table('risco_credito_regras.csv')

In [None]:
#Podemos observar na base_risco_credito que a classe está separada por uma barra vertical. Isso é feito
#colocando o "c#" iniciando o nome da coluna de atributos classe
base_risco_credito

[[ruim, alta, nenhuma, 0_15 | alto],
 [desconhecida, alta, nenhuma, 15_35 | alto],
 [desconhecida, baixa, nenhuma, 15_35 | moderado],
 [desconhecida, baixa, nenhuma, acima_35 | alto],
 [desconhecida, baixa, nenhuma, acima_35 | baixo],
 ...
]

In [None]:
#Podemos observar quais são os atributos previsores e atributos classes usando o comando ".domain"
base_risco_credito.domain

[historia, divida, garantias, renda | risco]

In [None]:
#Realizando o treinamento temos:
cn2 = Orange.classification.CN2Learner()
regras_risco_credito = cn2(base_risco_credito)

In [None]:
#Podemos exibir as regras que foram criadas usando o seguintes comandos:
for regras in regras_risco_credito.rule_list:
  print(regras)

IF renda==0_15 THEN risco=alto 
IF historia==boa AND divida!=alta THEN risco=baixo 
IF historia==boa AND garantias!=nenhuma THEN risco=baixo 
IF historia==boa AND renda!=15_35 THEN risco=baixo 
IF historia==boa THEN risco=moderado 
IF divida==alta THEN risco=alto 
IF historia!=desconhecida THEN risco=moderado 
IF garantias==adequada THEN risco=baixo 
IF renda==15_35 THEN risco=moderado 
IF historia==desconhecida THEN risco=baixo 
IF TRUE THEN risco=alto 


In [None]:
#Fazendo previsões, temos:
previsoes = regras_risco_credito([['boa','alta','nenhuma','15_35'],['desconhecida','baixa','adequada','0_15']])
previsoes

array([2, 0])

In [None]:
base_risco_credito.domain.class_var.values

('alto', 'baixo', 'moderado')

Base credit data

In [None]:
#A base de dados "credit_data_regras.csv" apresenta duas diferenças em relação a base de dados "credit_data,csv"
#O nome da coluna "clientid" é iniciada com "i#" que indica ao orange para ignorar esse atributo, pois
#não vamos utilizar o clientId
#O nome da coluna de atributos classe é iniciada com o comando "c#" que indica ao orange que essa coluna são 
#os atributos classe.
base_credit = Orange.data.Table('credit_data_regras.csv')

In [None]:
base_credit

[[66155.9, 59.017, 8106.53 | 0],
 [34415.2, 48.1172, 6564.75 | 0],
 [57317.2, 63.108, 8020.95 | 0],
 [42709.5, 45.752, 6103.64 | 0],
 [66952.7, 18.5843, 8770.1 | 1],
 ...
]

In [None]:
base_credit.domain

[income, age, loan | default]

In [None]:
#Neste momento vamos realizar a divisão da base de dados "base_credit" em base de dados de treinamento
# e base de dados de teste com o comando
# "Orange,evaluation.testing.sample(base de dados com todos registros, n = porcentagem para base teste)"
#Note que no primeiro parâmetro adicionamos a base de dados com todos os registros. Enquanto que, no segundo 
#parâmetro passamos o valor de "n" que representa a procentagem de dados que serpa utilizada para testar 
#o algoritmo
base_dividida = Orange.evaluation.testing.sample(base_credit, n=0.25)

In [None]:
#Observe que a base de dados "base_dividida" contém dois conjuntos de dados
base_dividida

([[31112.1, 49.616, 424.352 | 0],
  [29445.5, 28.4457, 1758.88 | 0],
  [50117.9, 32.8273, 3599.07 | 0],
  [22800.8, 28.1983, 3740.9 | 1],
  [22633.7, 37.5969, 553.521 | 0],
  ...
 ], [[47846.9, 24.4184, 3713.26 | 0],
  [66370.7, 38.4055, 5906.03 | 0],
  [35082.4, 41.1537, 2918.48 | 0],
  [42059.6, 55.2907, 5310.27 | 0],
  [56676.2, 46.679, 2278.55 | 0],
  ...
 ])

In [None]:
#Na posição [0] temos o conjunto de dados de teste
base_dividida[0]

[[31112.1, 49.616, 424.352 | 0],
 [29445.5, 28.4457, 1758.88 | 0],
 [50117.9, 32.8273, 3599.07 | 0],
 [22800.8, 28.1983, 3740.9 | 1],
 [22633.7, 37.5969, 553.521 | 0],
 ...
]

In [None]:
#Na posição [1] temos o conjunto de dados de treinamento
base_dividida[1]

[[47846.9, 24.4184, 3713.26 | 0],
 [66370.7, 38.4055, 5906.03 | 0],
 [35082.4, 41.1537, 2918.48 | 0],
 [42059.6, 55.2907, 5310.27 | 0],
 [56676.2, 46.679, 2278.55 | 0],
 ...
]

In [None]:
#Agora armazenamos os dados de treinamento e dados de teste em variáveis separadas
base_treinamento = base_dividida[1]
base_teste = base_dividida[0]

In [None]:
#Observando o tamanho da base de treinamento, para conferir se a base está coerente, temos:
len(base_treinamento)

1500

In [None]:
#Observando o tamanho da base de teste, contendo 25% dos dados da base de dados, temos:
len(base_teste)

500

In [None]:
#Treinando o algoritmo, temos:
cn2 = Orange.classification.rules.CN2SDLearner()
regras_credit = cn2(base_treinamento)

In [None]:
#Agora vamos testar o algoritmo com a base de dados de teste
previsoes = regras_credit(base_teste)

In [None]:
base_credit.domain.class_var.values

('0', '1')

In [None]:
#Podemos visualizar o conjunto de regras criadas
for regras in regras_credit.rule_list:
  print(regras)

IF loan>=2495.13299137587 AND age<=34.9257164876908 AND age>=18.055874488782102 THEN default=1 
IF loan>=2495.13299137587 AND age<=34.9257164876908 THEN default=1 
IF age<=34.9257164876908 AND loan>=2940.4239697461103 AND age>=18.055874488782102 THEN default=1 
IF loan>=2495.13299137587 AND age<=34.9257164876908 AND age>=18.055874488782102 AND age<=34.5148812653497 THEN default=1 
IF age<=34.9257164876908 AND loan>=2940.4239697461103 THEN default=1 
IF age>=34.9257164876908 THEN default=0 
IF loan>=2495.13299137587 AND age<=34.9257164876908 AND age>=18.055874488782102 AND age<=34.5148812653497 AND age>=21.1448488398455 THEN default=1 
IF age<=34.9257164876908 AND loan>=2940.4239697461103 AND age>=18.055874488782102 AND age>=19.4274257733487 THEN default=1 
IF age>=34.9257164876908 AND age>=34.9966813726351 THEN default=0 
IF age>=34.9257164876908 AND loan>=8.01207624713557 THEN default=0 
IF income>=20126.4137681574 AND age>=34.9257164876908 THEN default=0 
IF income>=20126.4137681574 

In [None]:
previsoes = Orange.evaluation.TestOnTestData(base_treinamento,base_teste,[lambda testdata: regras_credit])

In [None]:
#Para visualizar a acurácia do algoritmo, utilizamos o seguinte comando:
#CA significa "classification accuracy"
Orange.evaluation.CA(previsoes)

array([0.902])

Classificador base (majoritary learner)

Base credit data

In [None]:
base_credit = Orange.data.Table('credit_data_regras.csv')

In [None]:
base_credit.domain

[income, age, loan | default]

In [None]:
#criando o algoritmo de aprendizado de máquina, temos:
majority = Orange.classification.MajorityLearner()


In [None]:
previsoes = Orange.evaluation.testing.TestOnTestData(base_credit,base_credit,[majority])

In [None]:
Orange.evaluation.CA(previsoes)

array([0.8585])

In [None]:
for registro in base_credit:
  print(registro.get_class())

0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
1
1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
1
0
1
1
0
0
0
1
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
0
0
1
0
1
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
1
0
0
0
1
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
1
1
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
1
0
0
0
1
0
0
1
0
0
0
0


In [None]:
#Esse comando realiza a contagem de cada classe na base de dados. Podemos usar essa informação para calcular
#as porcentagens de cada atributo classe na base de dados e utilizar essa informação como parâmetro
#para avaliar os algoritmos de base de dados
#No presente caso temos 1717 pessosas que pagam e 283 pessoas que não pagam. 
from collections import Counter
Counter(str(registro.get_class()) for registro in base_credit)

Counter({'0': 1717, '1': 283})

In [None]:
#Logo, os algoritmos de aprendizado de máquina deverão ter uma acurácia maior que 85,85%. Caso contrário,
#seria mais eficaz classificar pela maioria, isto é, classificar todos os novos dados como pessoas que pagam
#. Uma vez que dessa forma teríamos uma acurácia maior que utilizando algoritmos de aprendizado.
1717/2000

0.8585

Base census (MajorityLearner)
O majority learner serve para criar uma linha base, isto, é um valor mínimo de acurácia dos algoritmos. Ele se baseia em identificar a classe que mais se repete e calcular a acurácia classificando os novos dados (utilizando a mesma base de dados para o teste) como sendo pertencente a classe que mais aperece. Caso um algoritmo tenha uma acurácia menor que essa linha base, este algoritmo poderá ser descartado. Pois teríamos uma acurácia maior classificando pela classe que mais aparece.

In [None]:
#abrindo a base de dados "census_regras.csv" com as modifcações necssárias para implementação no Orange
# "i#" indicando as colunas que deverão ser ignoradas e "c#" indicando a coluna de atributos classe.
base_census = Orange.data.Table('census_regras.csv')

In [None]:
#verificando o domínio da base de dados, temos:
base_census.domain

[age, workclass, final-weight, education, education-num, marital-status, occupation, relationship, race, sex, capital-gain, capital-loos, hour-per-week, native-country | income]

In [None]:
majority = Orange.classification.MajorityLearner()
previsoes = Orange.evaluation.testing.TestOnTestData(base_census, base_census,[majority])
Orange.evaluation.CA(previsoes)

array([0.75919044])

In [None]:
Counter(str(registro.get_class()) for registro in base_census)

Counter({'<=50K': 24720, '>50K': 7841})

In [None]:
#Essa resultado indica que os algoritmos de aprendizado de máquina deverão ter uma acurácia mínima de 
#75,91%
24720/(24720+7841)

0.7591904425539756

In [None]:
67/343

0.19533527696793002