# **Curso de Machine Learning - IA Expert Academy**


---



**Aluno:** Lucas Dias Noronha

# **Aprendizado por Regra**

Neste ramo de aprendizado de maquinas, o aprendizado por regra é uma abordagem em que os modelos de aprendizado são expressos como conjuntos de regras if-then (se-então). Essas regras descrevem padrões extraídos dos dados de treinamento e podem ser usadas para tomar decisões ou fazer previsões em novos dados.

No aprendizado por regra, o objetivo é descobrir relações lógicas entre os atributos (características/previsores) de entrada e a variável de saída (rótulo/classe) correspondente. Cada regra é composta por uma condição (parte "if") que especifica uma combinação de valores dos atributos e uma ação (parte "then") que indica a classe ou valor de saída associado a essa combinação. Um exemplo de como a lógica proposicional e computacional estão entrelaçadas.

Vou utilizar a biblioteca Orange em Python, que é muito utilizada para mineração de dados, análise de dados e visualização. Ela fornece uma ampla gama de ferramentas e métodos para tarefas de aprendizado de máquina e análise de dados, tornando-a útil para cientistas de dados, pesquisadores e profissionais que trabalham com análise de dados.

In [None]:
# Atualizando a bibiblioteca no ambiente Colab
!pip install Orange3

In [3]:
# Importando a biblioteca.
import Orange

# **Algoritmos CN2**

O algoritmo CN2 (Classificação Numérica 2) é um exemplo de algoritmo de aprendizado por regra utilizado para tarefas de classificação em conjuntos de dados contendo atributos numéricos. O CN2 foi proposto por Clark e Niblett em 1989 e é uma extensão do algoritmo ID3 (Induction of Decision Trees 3).

# **CN2 Aplicado a Base Credito**

In [90]:
# Carrega um arquivo CSV e cria uma tabela de dados no formato suportado pelo Orange.
base_credit = Orange.data.Table('credit_data_regras.csv')

In [91]:
base_credit # Agora contém uma tabela de dados.

[[66155.9, 59.017, 8106.53 | 0],
 [34415.2, 48.1172, 6564.75 | 0],
 [57317.2, 63.108, 8020.95 | 0],
 [42709.5, 45.752, 6103.64 | 0],
 [66952.7, 18.5843, 8770.1 | 1],
 ...
]

## **Dividindos os Dados**

In [92]:
# Dividindo a tabela de dados em duas partes: uma parte para treinamento e outra parte para teste.
base_dividida = Orange.evaluation.testing.sample(base_credit, n = 0.25) # 25% para teste.

In [93]:
base_dividida # Constando que a tabelo foi dividida.

([[66628.3, 52.3839, 5992.89 | 0],
  [41970.7, 63.1699, 1622.32 | 0],
  [32420.8, 32.3618, 1494.21 | 0],
  [51211.7, 45.6286, 4093.36 | 0],
  [55932.4, 44.3926, 4876.37 | 0],
  ...
 ],
 [[66733.7, 52.9778, 5366.64 | 0],
  [22572.3, 51.0162, 724.193 | 0],
  [51589.3, 50.3135, 56.991 | 0],
  [60776.1, 34.2069, 10382.4 | 1],
  [63391.6, 34.7393, 190.889 | 0],
  ...
 ])

In [94]:
base_dividida[0] # Dados de teste.

[[66628.3, 52.3839, 5992.89 | 0],
 [41970.7, 63.1699, 1622.32 | 0],
 [32420.8, 32.3618, 1494.21 | 0],
 [51211.7, 45.6286, 4093.36 | 0],
 [55932.4, 44.3926, 4876.37 | 0],
 ...
]

In [95]:
base_dividida[1] # Dados de treinamento.

[[66733.7, 52.9778, 5366.64 | 0],
 [22572.3, 51.0162, 724.193 | 0],
 [51589.3, 50.3135, 56.991 | 0],
 [60776.1, 34.2069, 10382.4 | 1],
 [63391.6, 34.7393, 190.889 | 0],
 ...
]

In [96]:
base_credit_treinamento = base_dividida[1] # Armazenando a porção de treinamento (75%).
base_credit_teste = base_dividida[0] # Armazenado a porção de teste (25%).

In [97]:
len(base_credit_treinamento), len(base_credit_teste) # 1500 para treinamento e 500 para teste.

(1500, 500)

## **Treinando o Algoritmo CN2**

In [98]:
# Criando uma instância do classificador CN2.
cn2 = Orange.classification.rules.CN2Learner()

# Aplicando o CN2 aos dados de treinamento para gerar as regras de classificação.
regras_base_credit = cn2(base_credit_treinamento)

In [100]:
# Faz um loop sobre a lista de regras de classificação geradas anteriormente pelo algoritmo CN2.
# Para cada regra de classificação na lista, o código imprime a regra.
for regras_credit in regras_base_credit.rule_list:
  print(regras_credit)

IF age>=34.9966813726351 THEN default=0 
IF loan<=2639.7101263171 AND income>=21479.9467171542 THEN default=0 
IF loan<=3675.83341454456 AND income>=29724.4768752716 THEN default=0 
IF loan>=7708.31562497011 AND loan>=9601.375482171099 THEN default=1 
IF loan>=7181.4785525792595 AND loan>=9595.28628892989 THEN default=0 
IF loan>=7181.4785525792595 AND loan>=8034.74777409028 THEN default=1 
IF income>=58132.4712652713 AND age>=22.939635145478 THEN default=0 
IF loan>=6043.14310633161 AND age>=23.1489815721288 THEN default=1 
IF loan<=2639.7101263171 AND loan>=2639.7101263171 THEN default=1 
IF loan<=2690.76813397945 AND age>=21.989767443854397 THEN default=0 
IF age>=34.669146894011604 THEN default=1 
IF loan>=6994.48780081424 AND age>=21.402402616106 THEN default=1 
IF income>=46801.274286117405 AND income>=57787.565658800304 THEN default=0 
IF loan>=6525.21842259918 THEN default=1 
IF income>=48790.1324336417 THEN default=0 
IF loan>=5785.88427485782 THEN default=1 
IF income<=38423.

In [101]:
# Fazendo previsões utilizando as regras de classificação aprendidas anteriormente com base nos dados de treinamento.
previsoes = Orange.evaluation.testing.TestOnTestData(
    base_credit_treinamento, base_credit_teste, [lambda testdata: regras_base_credit]
)

In [102]:
previsoes # Contém o objeto resultante da avaliação das previsões feitas.

<Orange.evaluation.testing.Results at 0x7f3feb8c5ed0>

In [103]:
# Calcula a acurácia (Accuracy) das previsões feitas pelo modelo de classificação nos dados de teste.
Orange.evaluation.CA(previsoes)

array([0.986])

In [23]:
Orange.evaluation.Precision(previsoes) # Retorna a precisão.

array([0.96875])

In [24]:
Orange.evaluation.Recall(previsoes) # Retorna o Recall.

array([0.84931507])

In [25]:
Orange.evaluation.F1(previsoes) # Retorna o F1-Score.

array([0.90510949])

In [104]:
CAs = Orange.evaluation.scoring.CA(previsoes) # Calcula accurácia.
AUCs = Orange.evaluation.scoring.AUC(previsoes) # Calcula a Área Sob a Curva ROC (AUC).
Recall = Orange.evaluation.scoring.Recall(previsoes) # Calcula o Recall.
F1 = Orange.evaluation.scoring.F1(previsoes) # Calcula o F1-Score.
Precision = Orange.evaluation.scoring.Precision(previsoes) # Calcula a Precisão.

In [105]:
CAs, AUCs, Recall, F1, Precision # Retorna as métricas.

(array([0.986]),
 array([0.9958464]),
 array([0.95522388]),
 array([0.94814815]),
 array([0.94117647]))

## **Relatório Final**


Com base nas métricas (CAs, AUCs, Recall, F1 e Precision), irei classificar o algoritmo da seguinte forma:

Acurácia (CAs): A acurácia é de 0.974, o que indica um bom desempenho do algoritmo na classificação correta das instâncias. Podemos classificar o algoritmo como tendo uma alta acurácia.

AUC (AUCs): A AUC é de 0.99454621, o que indica um excelente poder de discriminação do algoritmo entre as classes positivas e negativas. Podemos classificar o algoritmo como tendo uma alta capacidade de distinguir as classes.

Recall: O recall é de 0.84931507, o que indica que o algoritmo está encontrando a maioria das instâncias positivas, mas pode haver algumas instâncias positivas que estão sendo classificadas incorretamente. Podemos classificar o algoritmo como tendo um recall moderado.

F1-Score: O F1-Score é de 0.90510949, o que indica um bom equilíbrio entre a precisão e o recall. Podemos classificar o algoritmo como tendo um desempenho equilibrado em termos de precisão e recall.

Precisão: A precisão é de 0.96875, o que indica uma baixa taxa de falsos positivos. Podemos classificar o algoritmo como tendo uma alta precisão na identificação das instâncias positivas.

Com base nessas classificações, podemos dizer que o algoritmo tem um desempenho geralmente bom na classificação das instâncias, com alta acurácia, poder de discriminação e precisão. No entanto, o recall pode ser melhorado para aumentar a taxa de instâncias positivas corretamente identificadas.

# **CN2 Aplicado a Base do Censo**

A partir deste ponto, realizarei o treinamento e teste do algoritmo CN2 com a base de dados do censo. No entanto, como seguirei o mesmo processo que foi implementado no treinamento da Base de Crédito, não irei detalhar cada etapa novamente. Ao invés disso, vou fornecer apenas o relatório final com os resultados obtido

In [42]:
base_census = Orange.data.Table('census_regras.csv')

In [43]:
base_census

[[39, State-gov, 77516, Bachelors, 13, ... | <=50K],
 [50, Self-emp-not-inc, 83311, Bachelors, 13, ... | <=50K],
 [38, Private, 215646, HS-grad, 9, ... | <=50K],
 [53, Private, 234721, 11th, 7, ... | <=50K],
 [28, Private, 338409, Bachelors, 13, ... | <=50K],
 ...
]

In [44]:
base_census_dividida = Orange.evaluation.testing.sample(base_census, n = 0.25)

In [45]:
base_census_dividida

([[24, Local-gov, 203924, Bachelors, 13, ... | <=50K],
  [38, Self-emp-not-inc, 176657, Some-college, 10, ... | <=50K],
  [49, Local-gov, 110172, HS-grad, 9, ... | <=50K],
  [49, Private, 262116, Prof-school, 15, ... | <=50K],
  [47, Local-gov, 37672, Bachelors, 13, ... | <=50K],
  ...
 ],
 [[26, Private, 174592, Some-college, 10, ... | <=50K],
  [25, Federal-gov, 207342, Some-college, 10, ... | <=50K],
  [51, Private, 153486, HS-grad, 9, ... | >50K],
  [17, Private, 262511, 11th, 7, ... | <=50K],
  [54, Private, 174102, Some-college, 10, ... | >50K],
  ...
 ])

In [46]:
base_census_dividida[1]

[[26, Private, 174592, Some-college, 10, ... | <=50K],
 [25, Federal-gov, 207342, Some-college, 10, ... | <=50K],
 [51, Private, 153486, HS-grad, 9, ... | >50K],
 [17, Private, 262511, 11th, 7, ... | <=50K],
 [54, Private, 174102, Some-college, 10, ... | >50K],
 ...
]

In [47]:
base_census_dividida[0]

[[24, Local-gov, 203924, Bachelors, 13, ... | <=50K],
 [38, Self-emp-not-inc, 176657, Some-college, 10, ... | <=50K],
 [49, Local-gov, 110172, HS-grad, 9, ... | <=50K],
 [49, Private, 262116, Prof-school, 15, ... | <=50K],
 [47, Local-gov, 37672, Bachelors, 13, ... | <=50K],
 ...
]

In [48]:
base_census_treinamento = base_census_dividida[1]
base_census_teste = base_census_dividida[0]

In [49]:
len(base_census_treinamento), len(base_census_teste)

(24421, 8140)

In [50]:
cn2_census = Orange.classification.rules.CN2Learner()
regras_census_credit = cn2(base_census_treinamento)

In [52]:
previsoes_census = Orange.evaluation.testing.TestOnTestData(
    base_census_treinamento, base_census_teste, [lambda testdata: regras_census_credit]
)

In [53]:
previsoes_census

<Orange.evaluation.testing.Results at 0x7f3feb8269b0>

In [54]:
Orange.evaluation.CA(previsoes_census)

array([0.82579853])

In [55]:
CAs = Orange.evaluation.scoring.CA(previsoes_census) # Calcula accurácia.
AUCs = Orange.evaluation.scoring.AUC(previsoes_census) # Calcula a Área Sob a Curva ROC (AUC).
Recall = Orange.evaluation.scoring.Recall(previsoes_census) # Calcula o Recall.
F1 = Orange.evaluation.scoring.F1(previsoes_census) # Calcula o F1-Score.
Precision = Orange.evaluation.scoring.Precision(previsoes_census) # Calcula a Precisão.

In [56]:
CAs, AUCs, Recall, F1, Precision # Retorna as métricas.

(array([0.82579853]),
 array([0.86897674]),
 array([0.62092534]),
 array([0.62486772]),
 array([0.62886049]))

## **Relatório Final**

Com base nas métricas (CAs, AUCs, Recall, F1 e Precision), irei classificar o algoritmo da seguinte forma:

Acurácia (CA): A acurácia do algoritmo é de 0.82579853, o que indica que ele classifica corretamente aproximadamente 82,58% das instâncias. Portanto, podemos dizer que o algoritmo tem um desempenho razoável em termos de acurácia.

Área Sob a Curva ROC (AUC): A AUC do algoritmo é de 0.86897674, o que indica que ele tem uma boa capacidade de distinguir entre as classes positivas e negativas. Isso sugere que o algoritmo possui um bom poder de discriminação.

Recall: O recall do algoritmo é de 0.62092534, o que indica que ele identifica corretamente cerca de 62,09% das instâncias positivas. Isso significa que o algoritmo tem um desempenho razoável na captura de instâncias positivas.

F1-Score: O F1-Score do algoritmo é de 0.62486772, que é uma média harmônica entre o recall e a precisão. Isso indica um equilíbrio entre a capacidade de identificar instâncias positivas e evitar falsos positivos.

Precisão: A precisão do algoritmo é de 0.62886049, o que indica que ele classifica corretamente cerca de 62,89% das instâncias positivas entre todas as instâncias classificadas como positivas.

Com base nessas métricas, podemos concluir que o algoritmo tem um desempenho razoável em termos de acurácia e capacidade de discriminação entre as classes. No entanto, seu desempenho na identificação correta das instâncias positivas pode ser melhorado, pois o recall e a precisão são relativamente baixos.

# **Classificador base - Majority Learner**

O Classificador base - Majority Learner, também conhecido como Majority Class Classifier, é um classificador simples que atribui a classe mais frequente no conjunto de treinamento a todas as instâncias do conjunto de teste. Em outras palavras, ele classifica todas as instâncias como pertencentes à classe majoritária.

Esse tipo de classificador é útil como uma linha de base para avaliar o desempenho de outros algoritmos de classificação. Ele pode ser usado para comparar o desempenho de algoritmos mais sofisticados em relação a uma abordagem ingênua que simplesmente atribui a classe majoritária.

Lembrando que o Majority Learner é um classificador muito simples e tende a ter um desempenho limitado em problemas complexos. Ele é mais adequado como uma linha de base para comparação com outros algoritmos de classificação mais avançados.

# **Majority Learner Aplicado a Base de Credito**

In [51]:
# Carrega um arquivo CSV e cria uma tabela de dados no formato suportado pelo Orange.
base_credit = Orange.data.Table('credit_data_regras.csv')

In [73]:
base_credit.domain #  Retorna o domínio (esquema) associado a uma tabela de dados.

[income, age, loan | default]

In [74]:
# Cria um classificador baseado na estratégia de classificação da maioria.
majority = Orange.classification.MajorityLearner()

In [85]:
#  Avaliando o desempenho do classificador em dados de teste.
previsoes = Orange.evaluation.testing.TestOnTestData(
    base_credit, base_credit, [majority]
)

In [86]:
Orange.evaluation.CA(previsoes) # Retorna a accuracy.

array([0.8585])

In [None]:
# Criando um loop sobre as instâncias (registros) da tabela e imprimindo a classe de cada registro.
for registro in base_credit:
  print(registro.get_class())

In [63]:
# Contando a ocorrência de cada classe na tabela.
from collections import Counter
Counter(str(registro.get_class()) for registro in base_credit)

Counter({'0': 1717, '1': 283})

In [64]:
# Quando você divide o número de instâncias corretamente classificadas pelo total de...
# ...instâncias, obtém a mesma proporção que a acurácia.
1717 / 2000

0.8585

# **Majority Learner Aplicado a Base do Censo**

In [77]:
base_census = Orange.data.Table('census_regras.csv')

In [78]:
base_census.domain

[age, workclass, final-weight, education, education-num, marital-status, occupation, relationship, race, sex, capital-gain, capital-loos, hour-per-week, native-country | income]

In [79]:
majority = Orange.classification.MajorityLearner()

In [80]:
previsoes = Orange.evaluation.testing.TestOnTestData(base_census, base_census, [majority])

In [81]:
Orange.evaluation.CA(previsoes)

array([0.75919044])

In [None]:
for registro in base_census:
  print(registro.get_class())

In [83]:
from collections import Counter
Counter(str(registro.get_class()) for registro in base_census)

Counter({'<=50K': 24720, '>50K': 7841})

In [84]:
24720 / (24720 + 7841)

0.7591904425539756

# **Considerações Finais**

Durante este estudo de caso, tive a oportunidade de aprofundar meus conhecimentos sobre os algoritmos de aprendizado por regras, como o CN2, com o auxílio do professor Jones Granatyr em seu curso de Machine Learning.

Agradeço ao professor Jones Granatyr pelo conhecimento compartilhado e pela orientação durante o curso. Essa experiência contribuiu significativamente para minha compreensão de algoritmos de Machine Learning e sua aplicação prática.