# Sobre o aprendizagem baseada em regra e o algoritmo de PRISM

**Aprendizagem baseada em regras:**
1. Abordagem de aprendizado de máquina que busca extrair regras ou padrões facilmente interpretáveis a partir dos dados.
2. Foca na criação de regras que descrevem relacionamentos entre variáveis ​​independentes e dependentes.
3. Utiliza algoritmos que buscam dividir o espaço de entrada em regiões representativas para cada classe.
4. As regras resultantes podem ser expressas em termos de "se... então...", tornando-as compreensíveis para humanos.
5. Exemplos de algoritmos incluem Algoritmos de Indução de Árvore de Decisão (Decision Tree Induction), Algoritmo de Partição Recursiva (Recursive Partitioning Algorithm) e Algoritmo de Cobertura de Instância (Instance Covering Algorithm).

**Algoritmo PRISM (Primitive Rule Induction and Selection Method):**
1. Uma técnica específica de aprendizado baseado em regras.
2. Desenvolvido por Ross Quinlan nos anos 80.
3. Utiliza uma abordagem baseada em busca gulosa para induzir regras simples e interpretação do conjunto de dados.
4. Inicialmente, o algoritmo tenta gerar regras simples que descrevem a maior parte dos dados.
5. Em seguida, seleciona e generaliza as regras mais promissoras para aumentar sua cobertura e generalidade.
6. PRISM é especialmente útil em problemas de classificação com variáveis categóricas.
7. As regras geradas pelo PRISM são facilmente compreensíveis e interpretáveis, tornando-o útil em aplicações onde a transparência é importante.

## OBSERVAÇÃO:
o algoritmo PRISM tem limitação em lidar com conjuntos de dados complexos ou de grande escala. Ele tende a ter dificuldades em lidar com conjuntos de dados que possuem muitas variáveis ou apresentam relações não-lineares entre as variáveis. Além disso, PRISM pode sofrer de overfitting quando aplicado a conjuntos de dados pequenos ou ruidosos.

# IMPPORTANTE - CAIU EM DESUSO, POIS:
com o surgimento de métodos mais avançados de aprendizado de máquina, especialmente algoritmos baseados em redes neurais profundas, que mostraram desempenho superior em uma variedade de tarefas de aprendizado supervisionado e são capazes de lidar com a complexidade dos dados de uma forma mais eficaz. **Como resultado, algoritmos mais antigos, como o PRISM, foram gradualmente substituídos por essas técnicas mais modernas e poderosas.**

## Base risco de crédito

In [None]:
# Carregamento da base de dados 'risco_credito_regras.csv'
# Biblioteca Orange: Plataforma de análise de dados e machine learning baseado em regras.
# Classe: Orange.data.Table
# Função da Classe: Carrega os dados de um arquivo CSV e os armazena em uma estrutura de dados tabular.

base_risco_credito = Orange.data.Table('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/risco_credito_regras.csv')

In [None]:
# Exibição da base de dados 'base_risco_credito'
# O retorno será a exibição dos dados contidos na variável 'base_risco_credito'.

base_risco_credito

[[ruim, alta, nenhuma, 0_15 | alto],
 [desconhecida, alta, nenhuma, 15_35 | alto],
 [desconhecida, baixa, nenhuma, 15_35 | moderado],
 [desconhecida, baixa, nenhuma, acima_35 | alto],
 [desconhecida, baixa, nenhuma, acima_35 | baixo],
 ...
]

In [None]:
# Acesso ao domínio da base de dados 'base_risco_credito'
# Espera-se que a variável 'base_risco_credito' contenha os dados carregados da base de dados 'risco_credito_regras.csv'.
# O retorno será o acesso ao domínio da base de dados, que descreve os atributos e metadados dos dados contidos na base.

base_risco_credito.domain

[historia, divida, garantias, renda | risco]

In [None]:
# Criação do classificador CN2 (regra criada em meados de 1980)
# Função da Classe: Implementa o algoritmo de aprendizado CN2 para geração de regras de classificação.
# Espera-se que o classificador CN2 seja criado com sucesso e atribuído à variável 'cn2'.

cn2 = Orange.classification.rules.CN2Learner()

# Geração de regras de classificação para a base de dados 'base_risco_credito'
# Biblioteca Orange: Plataforma de análise de dados e machine learning.
# Classe: Orange.classification.rules.CN2Learner
# Função da Classe: Gera regras de classificação utilizando o algoritmo CN2.
# Espera-se que as regras de classificação sejam geradas com sucesso para a base de dados 'base_risco_credito' e
# atribuídas à variável 'regras_risco_credito'.
regras_risco_credito = cn2(base_risco_credito)

In [None]:
# Impressão das regras de classificação aprendidas pelo classificador CN2
# Espera-se que cada regra contida em 'regras_risco_credito.rule_list' seja impressa para exibir as regras aprendidas pelo classificador CN2.
# Para cada regra em 'regras_risco_credito.rule_list', imprime a regra gerada.

for regras in regras_risco_credito.rule_list:
  print(regras)

IF renda==0_15 THEN risco=alto 
IF historia==boa AND divida!=alta THEN risco=baixo 
IF historia==boa AND garantias!=nenhuma THEN risco=baixo 
IF historia==boa AND renda!=15_35 THEN risco=baixo 
IF historia==boa THEN risco=moderado 
IF divida==alta THEN risco=alto 
IF historia!=desconhecida THEN risco=moderado 
IF garantias==adequada THEN risco=baixo 
IF renda==15_35 THEN risco=moderado 
IF historia==desconhecida THEN risco=alto 
IF TRUE THEN risco=alto 


- Se a renda for de 0 a 15 e qualquer outra condição não se aplicar, o risco é classificado como alto.
- Se a história de crédito for boa e a dívida não for alta, o risco é classificado como baixo.
- Se a história de crédito for boa e houver garantias, o risco é classificado como baixo.
- Se a história de crédito for boa e a renda não estiver na faixa de 15 a 35, o risco é classificado como baixo.
- Se a história de crédito for boa, mas nenhuma condição específica for atendida, o risco é classificado como moderado.
- Se a dívida for alta, o risco é classificado como alto.
- Se a história de crédito não for desconhecida, o risco é classificado como moderado.
- Se houver garantias adequadas, o risco é classificado como baixo.
- Se a renda estiver na faixa de 15 a 35, o risco é classificado como moderado.
- Se a história de crédito for desconhecida, o risco é classificado como alto.
- Se nenhuma das condições anteriores se aplicar, o risco é classificado como alto.

In [None]:
# história boa, dívida alta, garantias nenhuma, renda > 35
# história ruim, dívida alta, garantias adequada, renda < 15
# Espera-se que as previsões sejam feitas com base nas regras aprendidas pelo classificador CN2.
# Para cada conjunto de características fornecidas como entrada, as previsões são geradas com base nas regras de classificação.
previsoes = regras_risco_credito([['boa', 'alta', 'nenhuma', 'acima_35'], ['ruim', 'alta', 'adequada', '0_15']])
previsoes

array([1, 0])

O retorno [1, 0] indica as previsões de risco feitas pelo classificador CN2 para os dois conjuntos de características fornecidos como entrada.

Para o primeiro conjunto de características (['boa', 'alta', 'nenhuma', 'acima_35']), o modelo prevê um risco alto, representado pelo valor 1.
Para o segundo conjunto de características (['ruim', 'alta', 'adequada', '0_15']), o modelo prevê um risco baixo, representado pelo valor 0.

* **Obervação** :
Nesse estudo de caso, não precisamos fazer a conversão de atributo categórico para atributo numérico, por meio do label encoder, pois esse algoritmo consegue trabalhar com atributos categóricos

In [None]:
# O retorno será o domínio da base de dados, que descreve os atributos e metadados dos dados contidos na base.
# No domínio, os atributos são 'historia', 'divida', 'garantias' e 'renda', com a variável alvo|classe 'risco'.
base_risco_credito.domain

[historia, divida, garantias, renda | risco]

In [None]:
# O retorno será uma lista contendo os valores possíveis da variável de classe.
base_risco_credito.domain.class_var.values

('alto', 'baixo', 'moderado')

In [None]:
#O loop for é utilizado para percorrer cada uma das previsões contidas na lista previsoes. Cada previsão é representada por um valor inteiro, que corresponde a uma classe específica de risco.
# Espera-se que para cada previsão contida em 'previsoes', a função de impressão seja utilizada para exibir o risco correspondente com base nos valores possíveis da variável de classe.
for i in previsoes:
  #print(i)
  print(base_risco_credito.domain.class_var.values[i])

baixo
alto


## Base credit data - 97.40%

In [None]:
base_credit = Orange.data.Table('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/credit_data_regras.csv')

In [None]:
base_credit.domain

[income, age, loan | default]

In [None]:
base_dividida = Orange.evaluation.testing.sample(base_credit, n = 0.25)

In [None]:
base_dividida

([[38337.8, 55.507, 5691.09 | 0],
  [50275.9, 41.8198, 5541.82 | 0],
  [60041, 44.1414, 2659.69 | 0],
  [55040.8, 52.7145, 8352.06 | 0],
  [43044.5, 60.8484, 1661.71 | 0],
  ...
 ],
 [[55858.5, 25.8665, 5630.44 | 0],
  [25640.1, 22.6565, 3105.44 | 1],
  [48018.2, 50.2041, 6120.09 | 0],
  [51894.5, 59.0038, 6579.53 | 0],
  [25686.8, 35.8507, 3728.4 | 0],
  ...
 ])

In [None]:
base_dividida[0]

[[38337.8, 55.507, 5691.09 | 0],
 [50275.9, 41.8198, 5541.82 | 0],
 [60041, 44.1414, 2659.69 | 0],
 [55040.8, 52.7145, 8352.06 | 0],
 [43044.5, 60.8484, 1661.71 | 0],
 ...
]

In [None]:
base_dividida[1]

[[55858.5, 25.8665, 5630.44 | 0],
 [25640.1, 22.6565, 3105.44 | 1],
 [48018.2, 50.2041, 6120.09 | 0],
 [51894.5, 59.0038, 6579.53 | 0],
 [25686.8, 35.8507, 3728.4 | 0],
 ...
]

In [None]:
base_treinamento = base_dividida[1]
base_teste = base_dividida[0]

In [None]:
len(base_treinamento), len(base_teste)

(1500, 500)

In [None]:
cn2 = Orange.classification.rules.CN2Learner()
regras_credit = cn2(base_treinamento)

In [None]:
for regras in regras_credit.rule_list:
  print(regras)

IF age>=34.9015168333426 THEN default=0 
IF income>=69478.3987640403 THEN default=1 
IF loan<=2495.13299137587 AND income>=20145.9885970689 THEN default=0 
IF loan>=7708.31562497011 AND loan>=9601.375482171099 THEN default=1 
IF income<=34145.7995516248 AND age>=34.7410444347188 THEN default=0 
IF income>=58132.4712652713 AND income>=68762.4166649766 THEN default=0 
IF loan>=7395.513416308141 AND age>=18.621307099238 THEN default=1 
IF income>=57596.3540980592 AND age>=18.605122473090898 THEN default=0 
IF age<=18.055874488782102 AND income>=50501.7266888171 THEN default=0 
IF loan>=6241.27050834808 THEN default=1 
IF income>=46024.1445619613 AND income>=49205.6370992213 THEN default=0 
IF loan<=3716.2546852118 AND income>=29724.4768752716 THEN default=0 
IF loan>=5785.88427485782 THEN default=1 
IF income<=37277.1230572835 AND age>=31.8068806584924 THEN default=1 
IF loan>=5722.58198121271 THEN default=0 
IF loan>=5502.73603087282 THEN default=1 
IF age>=31.4007989270613 THEN default=

In [None]:
previsoes = Orange.evaluation.testing.TestOnTestData(base_treinamento, base_teste, [lambda testdata: regras_credit])

In [None]:
previsoes

<Orange.evaluation.testing.Results at 0x7c72945f3ac0>

In [None]:
Orange.evaluation.CA(previsoes)

array([0.962])