### Conjunto de dados e problema
Consideramos nesse trabalho o dataset criado e usado no artigo ["Machine Learning for First-Order Theorem Proving" (Bridge, Holden, & Paulson, 2014)](https://link.springer.com/article/10.1007/s10817-014-9301-5), obtido através do [repositório de aprendizado de máquina da UCI](http://archive.ics.uci.edu/ml/datasets/First-order+theorem+proving).

Nesse artigo os autores apresentam a dificuldade, no uso de um provador automático de teoremas de primeira ordem, de selecionar a melhor heurística para provar o teorema em questão. A melhor heurística a ser usada vai depender das formas da conjectura a ser provada e dos axiomas dados. Porém, o relacionamento entre essas formas e a melhor heurítica a ser usada não é obvia, mesmo para aqueles com experiência extensiva com uso de provadores automáticos.

Portando, os autores propõe determinar a melhor heurística a ser usada a partir de certas características extraídas da conjectura e dos axiomas; e fazê-lo de forma automática, com o uso de aprendizado de máquina.
    
Para isso, foram escolhidos 6118 problemas de demonstrações de primeira ordem da biblioteca TPTP (Thousands of Problems for Theorem Provers), descrita em ["The TPTP problem library and associated infrastructure" (Sutcliffe, 2009)](https://link.springer.com/article/10.1007/s10817-009-9143-8), e foi usado [E (versão 0.99 Singtom)](https://wwwlehre.dhbw-stuttgart.de/~sschulz/E/E.html), um provador automático de alta performance para lógica de primeira ordem completa com igualdade. Das 82 heurísticas incluídas nesse provador, foram escolhidas as cinco mais frequentemente selecionados pelo E para os problemas da TPTP, diminuindo o esforço de construção e uso do dataset.

O objetivo então é selecionar para cada um dos problemas qual das cinco heuríticas em consideração (H1, ..., H5) é a melhor, onde uma heurística é melhor que outra se leva a uma demonstração mais rapidamente em E. Uma "heurística" adicional (H0) é considerada, a ser selecionada quando nenhuma das outras heurísticas produz uma demonstração dentro do tempo limite de 100 segundos de CPU.

### Atributos
Os atributos escolhidas pelos autores para realizar essa tarefa de aprendizado podem ser divididas em dois tipos: atributos estáticos e atributos dinâmicos. Enquanto atributos estáticos são características que podem ser extraídas somente da descrição do problema (sua conjectura e seus axiomas), atributos dinâmicos são obtidos a partir de características de cláusulas geradas nos estágios iniciais de uma demonstração automática.
Descrevemos abaixo alguns dos 14 atributos estáticos, para exemplificação. Os 39 atributos dinâmicos seguem formas similares, e detalhes podem ser obtidos de Bridge et al., 2014.

1\. Fração de cláusulas que são _unit clauses_ (consiste de exatamente um literal)<br>
2\. Fração de cláusulas que são _Horn clauses_ (contêm no máximo um literal não-negado)<br>
7\. Fração de cláusulas que são puramente negativas<br>
9\. Comprimento de clásula máximo<br>
10\. Comprimento de clásula médio<br>
11\. Profundidade de cláusula máxima.<br>
13\. Peso de cláusula máximo.<br>

Todos os 53 atributos são numéricos, sendo os atributos 9, 11, e 13 discretos e o restante contínuo.

### Ingestão e pre-processamento de dados
O dataset inicialmente contém, além dos 53 atributos, 5 colunas indicando o tempo que cada heurística levou para chegar a uma demonstração para cada problema, ou -100 caso o tempo limite tenha sido atingido antes disso.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/all-data-raw.csv", header=None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,48,49,50,51,52,53,54,55,56,57
0,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.73684,0.00188,0.73872,0.073308,0.18797,-100.0,-100.0,-100.0,-100.0,-100.0
1,0.83307,0.99682,0.83307,0.76948,0,0.77107,0.068363,0.16057,6,1.2734,...,0.74248,0.00188,0.74436,0.067669,0.18797,0.08,0.08,0.2,0.08,0.08
2,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.7406,0.00188,0.74248,0.069549,0.18797,-100.0,-100.0,-100.0,-100.0,-100.0
3,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.72932,0.00188,0.7312,0.080827,0.18797,-100.0,-100.0,-100.0,-100.0,-100.0
4,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.7312,0.00188,0.73308,0.078947,0.18797,-100.0,-100.0,-100.0,-100.0,-100.0


Como apenas nos interessa para essa tarefa qual foi a melhor heurística para cada um, transformamos os dataset para refletir isso, após importá-lo, adicionando uma coluna "heuristic" com valores de 0 a 5 refletindo quais das heurísticas é a melhor para cada amostra (1 a 5) ou se nenhuma é suficiente (0).

In [2]:
def best_heuristic(row, time_cols):
    n_heuristics = 5
    h_times = row[time_cols].reset_index(drop=True)
    h_times.replace({-100.0 : np.nan}, inplace=True)
    idx, min_time = h_times.idxmin(), h_times.min()
    if np.isnan(min_time):
       return 0
    else:
       return idx+1

time_cols = list(range(53, 58))
df['heuristic'] = df.apply(lambda r : best_heuristic(r, time_cols), axis=1)
df.drop(time_cols, axis=1, inplace=True)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,44,45,46,47,48,49,50,51,52,heuristic
0,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.020202,0.80639,0.99624,0.80263,0.73684,0.00188,0.73872,0.073308,0.18797,0
1,0.83307,0.99682,0.83307,0.76948,0,0.77107,0.068363,0.16057,6,1.2734,...,0.020202,0.80639,0.99624,0.80263,0.74248,0.00188,0.74436,0.067669,0.18797,1
2,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.020202,0.80639,0.99624,0.80263,0.7406,0.00188,0.74248,0.069549,0.18797,0
3,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.020202,0.80639,0.99624,0.80263,0.72932,0.00188,0.7312,0.080827,0.18797,0
4,0.83307,0.99682,0.83307,0.76789,0,0.76948,0.069952,0.16057,6,1.2734,...,0.020202,0.80639,0.99624,0.80263,0.7312,0.00188,0.73308,0.078947,0.18797,0


Podemos observar então, abaixo, na frequência com que cada heurística foi a melhor para uma certa instância, um certo desbalanceamento de classes. Enquanto a classe 0 é a mais frequente, para 2554 instâncias, classe 2 é a menos, com 486.

In [3]:
df['heuristic'].value_counts().sort_index()

0    2554
1    1089
2     486
3     748
4     617
5     624
Name: heuristic, dtype: int64