# Trabalho de Projeto e Análise de Algoritmos
## Luiz Fernando Duarte e Pedro Ferraz

# Complexidade do Problema da Mochila - Prova de que é NP-difícil


Sabe-se que um problema $H$ pertence a classe de problemas NP-Difícil se, e só se, para todo problema $Y$ em NP, $Y\leq_P H$, isto é, $Y$ possui redução polinomial para $H$. Note que tal definição é bem similar a da classe de problemas NP-Completo, diferindo somente no fato de que não necessariamente os problemas da classe NP-Difícil pertencem a NP. 

Assim, para provar que o problema da mochila (KNAP) pertence a classe NP-Difícil, basta encontrar uma redução em tempo polinomial de um problema em NP-Completo para KNAP. Isso ocorre porque todo problema da classe NP possui redução polinomial para qualquer problema da classe NP-Completo. Assim, se $X$ é NP-Completo, então $\forall Y \in \text{NP} \quad  Y \leq_P X$ e, caso encontramos uma redução polinomial de $X$ para KNAP, então 

$$\forall Y \in \text{NP} \quad Y \leq_P X \leq_P \text{KNAP} \implies \forall Y \in \text{NP} \quad Y \leq_P \text{KNAP} \implies \text{KNAP} \in \text{NP-Difícil}$$
 
Sendo assim, considere o problema de Subset Sum, onde dados $n$ números naturais $w_1,w_2,\ldots,w_n$ e um número alvo $W$, se quer saber se existe algum subconjunto dos números tal que a soma deles seja exatamente $W$. Sabe-se que tal problema é NP-Completo (Eva Tardos p492). 

Para construir uma redução polinomial do Subset Sum para KNAP, considere um conjunto $S$ com itens de valor $x_1, x_2, \ldots, x_n$ e um inteiro $X$. Considere também a versão de decisão de KNAP, onde deve-se decidir se é possível encontra um subconjunto $K$ dos itens tal que $\sum_{i \in K} w_i \leq W$ e $\sum_{i \in K} v_i \geq V$. Assim, se tomarmos $x_i = v_i = w_i \ \forall i=1,\ldots,n$ e $V=W=X$, temos que $\sum_{i \in K} x_i \leq X$ e $\sum_{i \in K} x_i \geq X$, o que nos dá $\sum_{i \in K} x_i = X$. Logo, se soubessemos resolver KNAP em tempo polinomial, saberíamos como resolver Subset Sum também em tempo polinomial através desta redução.

Assim, pode-se notar que existe uma redução em tempo polinomial do Subset Sum para o problema da mochila e, portanto, que o problema em questão é NP-Difícil.

# Programação Dinâmica


## Programação Dinâmica - Análise de corretude

Considere que $OPT(i,q)$ é o valor máximo da mochila utilizando os $i$ primeiros elementos para a capacidade $q$. Dessa forma, a seguinte relação mostra como computar se o próximo elemento deve ser colocado na mochila ou não:

$$\text{OPT}(i,q) =
\begin{cases}
 \max\{ \text{OPT}(i-1,q), v_i + \text{OPT}(i-1,q-w_i)\}, & i > 0 \text{ e } q-w_i \geq 0 \\
 \text{OPT}(i-1,q), & i > 0 \text{ e } q-w_i < 0 \\
 0, & i = 0
 \end{cases}$$

Dessa forma, em cada iteração consideramos a inclusão e a não inclusão do objeto na mochila e retornamos o valor máximo. Assim, $\text{OPT}(i,q)$ considera todos os elementos de $1$ até $i$ utilizando capacidade de até $q$ e representa a maior soma possível dos elementos considerando a capacidade da mochila.


## Programação Dinâmica - Análise de complexidade

No problema da mochila existem $n$ objetos e que os pesos são inteiros e vão de $1$ até $W$. Assim, ao salvarmos o resultado de cada chamada $OPT(i, W)$ em uma tabela ou dicionário, evitamos recomputar a mesma configuração mais de uma vez. 

Dessa forma, note que no pior caso teremos que computar um total de $n \cdot W$ chamadas (uma para cada par ordenado $(i, q)$). Conforme explicitado na relação de recorrência acima, cada chamada tem custo $O(1)$. Logo, o algoritmo executa com complexidade de pior caso $O(n \cdot W)$.

## Programação Dinâmica - Implementação

In [None]:
# V[i, q] -> valor máximo da mochila considerando itens {1, 2, ..., i} dado que a mochila fica com peso <= q

# Implementação top-down
function knapsack(n, B, v, w)
    dp_dict = Dict()

    function knapsack_dp(i, q)
        # Caso base
        if i == 0
            return 0
        end

        # Evita recomputar instâncias
        if haskey(dp_dict, (i, q))
            return dp_dict[i, q]
        end

        # Calcula valor máximo recursivamente de acordo com a relação de recorrência
        if (q - w[i] >= 0)
            dp_dict[i, q] = max(knapsack_dp(i-1, q), knapsack_dp(i-1, q-w[i]) + v[i])
        else
            dp_dict[i, q] = knapsack_dp(i-1, q)
        end
        return dp_dict[i, q]
    end

    knapsack_dp(n, B)
    return dp_dict
end

# Implementação bottom-up
function knapsack_bottom_up(n, B, v, w)
    dp_dict = Dict()

    # Inicializa casos base
    for q in 1:B
        dp_dict[0, q] = 0
    end
    dp_dict[0, 0] = 0

    for i in 1:n
        for q in 0:B
            # Computa cada caso de acordo com a relação de recorrência utilizando casos computados anteriormente
            dp_dict[i, q] = dp_dict[i-1, q]
            if q >= w[i]
                dp_dict[i, q] = max(dp_dict[i-1, q], dp_dict[i-1, q-w[i]] + v[i])
            end
        end
    end

    return dp_dict
end

# Backtracking

## Backtracking - Análise de corretude
Podemos observar que o algoritmo de backtracking enumera todas as combinações possíveis e identifica a que respeita a restrição de capacidade e que possui maior valor. Desse modo, o algoritmo testa exaustivamente todas as soluções viáveis e retorna a de melhor valor, portanto sendo correto por exaustão.

## Backtracking - Análise de complexidade

Como dito no enunciado o algoritmo de backtracking enumera todas as possíveis combinações dos $n$ itens. Sabe-se que existem $2^n$ combinações, o que implica que o algoritmo tem complexidade de pior caso $\Theta(2^n)$.


## Backtracking - Implementação

In [None]:
# Implementação que percorre todas as 2^n combinações de itens e retorna a de maior valor
function backtracking_knapsack_complete(n, B, v, w)
    function backtracking_knapsack_inner(i, value, weight)
        if i == 0
            if weight <= B
                return value
            else
                return 0
            end
        end

        ans1 = backtracking_knapsack_inner(i-1, value, weight)
        ans2 = backtracking_knapsack_inner(i-1, value + v[i], weight + w[i])
        return max(ans1, ans2)
    end
    return backtracking_knapsack_inner(n, 0, 0)
end

# Implementação que percorre apenas as combinações viáveis
function backtracking_knapsack_feasible(n, B, v, w)
    function backtracking_knapsack_inner(i, q, value, weight)
        if i == 0
            return value
        end

        ans1 = backtracking_knapsack_inner(i-1, q, value, weight)
        ans2 = 0
        if weight + w[i] <= q
            ans2 = backtracking_knapsack_inner(i-1, q, value + v[i], weight + w[i])
        end
        return max(ans1, ans2)
    end
    return backtracking_knapsack_inner(n, B, 0, 0)
end

# Branch and Bound

## Branch and Bound - Critérios

### Critério de particionamento
Para o algoritmo de Branch-and-Bound foi adotado o critério de particionamento sugerido, que particiona em um subproblema em que objeto está no mochila e outro em que não está na mochila. 

Escolhemos particionar de maneira gulosa: o primeiro item em que particionaremos o espaço de busca é aquele de maior densidade, seguido pelo de segunda maior densidade, e assim por diante.

### Relaxação
A relaxação utilizada foi a relação de programação linear, que relaxa as restrições de integralidade dos itens. Para o problema da mochila, essa relaxação é conhecida como Knap fracionário e tem solução sempre maior ou igual à solução do problema original.

Esta relaxação pode ser resolvida utilizando a estratégia gulosa que inclui na mochila os objetos ordenados por maior densidade, ou seja, com mais valor por unidade de peso, o que faz com que não exista sequência de objetos melhor para se colocar.

No entanto, na maioria das vezes ocorre que um objeto que pela ordem de densidade deveria fazer parte da lista acaba ficando de fora no problema original devido a restrição de capacidade. Isto não acontece no caso fracionário uma vez que seria colocada a fração do objeto que ocuparia a capacidade faltante e, pela propriedade da densidade, não existiria uma opção melhor a se fazer. Assim, pode-se ver que a solução fracionária é uma boa relaxação, sendo uma cota superior apertada.

Além disso, existe uma modificação dessa relaxação que é bastante útil para a implementação do algoritmo, de encontrar o valor ótimo fracionário tendo alguns itens fixos. Tal modificação é útil uma vez que em dado momento podemos querer saber se um ramo com alguns itens já inclusos na mochila pode no melhor dos casos conseguir ter um valor maior do que a melhor solução viável obtida até o momento. Caso a relaxação dê uma solução pior do que uma solução viável já conhecida, podemos descartar tal ramo, o que economiza processamento. 

No tocante a implementação, a computação do problema fracionário considera os últimos $n-i$ elementos ordenados por densidade, sendo $n$ o número total de objetos e $i$ o número de objetos fixados (ou seja, que já decidiu-se colocar ou não na mochila).

### Método para encontrar boa solução viável
O método para achar uma boa solução viável utilizado foi o método guloso, uma vez que ele é bastante similar ao método fracionário, ou seja, espera-se que a diferença entre os resultados dos dois métodos não seja grande. Isso porque eles funcionam da mesma forma até o momento em que tenta-se incluir um objeto que violaria a restrição de capacidade. Nesse momento, o fracionário inclui a fração possível do objeto desejado, enquanto o guloso para o problema original busca outro(s) objetos que caibam na mochila.

### Critério de percorrimento da árvore de busca
Para critério de percorrimento da árvore foi adotada a busca em profundidade, uma vez que possui uma implementação recursiva que não necessita de estruturas de dados auxiliares. 

Além disso, decidimos aleatorizar qual chamada é realizada primeiro: a que inclui o item ou a que não inclui. Dessa forma, evitamos percorrer apenas de forma gulosa, possibilitando diversificar as soluções mais rapidamente e diminuindo a probabilidade de cair em um pior caso.

### Complexidade e corretude
Note que o Branch and Bound é uma implementação "mais esperta" do backtracking que evita computar alguns ramos. No entanto, no pior caso o Branch and Bound não conseguirá podar nenhum ramo e ainda terá que percorrer todas as possíveis soluções, o que o faz ter mesma complexidade de pior caso do backtracking. 

## Branch and Bound - Implementação

In [None]:
# Encontra solução gulosa a ser utilizada como solução viável inicial
function greedy_knapsack(n, B, v, w)
    sorted_items = sort([(v[i] / w[i], i) for i in 1:n], rev=true)
    capacity = B
    value = 0
    items = Int64[]
    for j in 1:n
        _, i = sorted_items[j]
        if w[i] <= capacity
            value += v[i]
            capacity -= w[i]
            push!(items, i)
        end
    end
    return items
end

# Algoritmo Branch and Bound
function branch_and_bound_knapsack(n, B, v, w; time_limit=Inf64)
    t0 = time()

    # Inicializa valores     
    greedy = greedy_knapsack(n, B, v, w)
    current_max_value = sum(v[greedy])
    current_best_solution = greedy
    optimal_solution_count = 1

    # Upper bounds a serem retornados
    largest_upper_bound = -Inf64
    root_upper_bound = -Inf64
    
    # Ordena itens de acordo com densidade
    sorted_density = sort([(v[i] / w[i], i) for i in 1:n], rev=true)
    sorted_items = map(item -> item[2], sorted_density)

    should_print_tle = true
    
    # Relaxação de programação linear - problema da mochila fracionário
    # Encontra relaxação para problema com itens 1:(i-1) fixos 
    function fractional_knapsack_items(initial_value, initial_weight, i)
        capacity = B - initial_weight
        value = initial_value
        for sorted_item in sorted_density[i:end]
            _, i = sorted_item
            if w[i] <= capacity
                value += v[i]
                capacity -= w[i]
            else
                value += v[i] * (capacity / w[i])
                return value
            end
        end
        return value
    end

    # Função recursiva para busca em profundidade
    function branch_and_bound_inner(i, items, value, weight)
        # Atualiza melhor solução conhecida
        if value > current_max_value
            current_max_value = value
            current_best_solution = items
            optimal_solution_count = 1
        elseif value == current_max_value
            optimal_solution_count += 1
        end
        
        # Caso alcance uma folha, retorna
        if i == n+1
            return value, items
        end

        # Calcula limite superior via mochila fracionário
        upper_bound = floor(Int64, fractional_knapsack_items(value, weight, i))
        if i == 1
            root_upper_bound = upper_bound
        end
        if upper_bound <= current_max_value
            return current_max_value, current_best_solution
        end
        
        # Checa se o tempo limite foi excedido
        t1 = time()
        if t1 - t0 > time_limit
            if should_print_tle
                println("Tempo limite excedido.")
                should_print_tle = false
            end
            largest_upper_bound = max(largest_upper_bound, upper_bound)
            return current_max_value, current_best_solution
        end

        # Caso não consiga podar, ramifica
        current_item = sorted_items[i]
        ans1 = -Inf64
        ans2 = -Inf64
        items1 = []
        items2 = []

        # Particiona em ordem aleatória        
        order = rand(0:1)
        if order == 1    
            if weight + w[current_item] <= B
                new_items = copy(items)
                push!(new_items, current_item)
                ans1, items1 = branch_and_bound_inner(i+1, new_items, value + v[current_item], weight + w[current_item])
            end
            ans2, items2 = branch_and_bound_inner(i+1, items, value, weight)
        else
            ans2, items2 = branch_and_bound_inner(i+1, items, value, weight)
            if weight + w[current_item] <= B
                new_items = copy(items)
                push!(new_items, current_item)
                ans1, items1 = branch_and_bound_inner(i+1, new_items, value + v[current_item], weight + w[current_item])
            end
        end

        # Retorna melhor subproblema
        if ans1 >= ans2
            return ans1, items1
        else
            return ans2, items2
        end
    end
    if largest_upper_bound == -Inf64
        largest_upper_bound = current_max_value
        optimal_solution_count = max(1, optimal_solution_count)
    end
    t1 = time()
    return branch_and_bound_inner(1, [], 0, 0)..., root_upper_bound, largest_upper_bound, optimal_solution_count, t1 - t0
end

# Análise das Instâncias

Fizemos uma análise das instâncias com o intuito de tentar promover melhorias na nossa implementação que possivelmente diminuíssem o tempo de processamento. Para isso, fizemos uma implementação via programação inteira e utilizamos como solver o Gurobi. Esse método permitiu que tivéssemos o “gabarito” das instâncias de maneira fácil e rápida, uma vez que quase todas foram resolvidas em menos de $1$ segundo. Com isso, um dos dados mais relevantes que conseguimos extrair é que em uma das instâncias de tamanho $10.000$, dos $2600$ itens da mochila ótima apenas $15$ faziam parte do grupo dos $2600$ itens com maior densidade. Isso mostra que o condicionamento da instância é desfavorável ao algoritmo da maneira que implementamos.


In [None]:
using JuMP, Gurobi

function knapsack_gurobi(n, B, v, w)
    model = Model(Gurobi.Optimizer)
    set_optimizer_attribute(model, "MIPGap", 1e-15)

    @variable(model, x[1:n], Bin)
    @objective(model, Max, sum(x[i] * v[i] for i=1:n))
    @constraint(model, sum(x[i] * w[i] for i=1:n) <= B)

    optimize!(model)
    return value.(x), objective_value(model)
end
items, obj_value = knapsack_gurobi(n, B, v, w)
opt_items = map(item -> item[1], filter(item -> item[2] == 1, collect(enumerate(items))))

# Descrição do experimento realizado

Para rodar os experimentos, tendo em vista alguns testes preliminares, adotamos a estratégia de paralelizar em 8 núcleos a execução dos algoritmos. Dessa forma, cada núcleo recebeu um grupo de instâncias para resolver com o tempo limite de $1$ hora por instância, o que permitiu que computássemos os resultados em $10$ horas ao invés de $80$. O algoritmo de Branch and Bound utilizado nas instâncias foi o descrito anteriormente. Os resultados do Branch and Bound foram salvos em arquivos .json, o que permitiu a confecção da tabela solicitada.

O algoritmo de programação dinâmica foi testado em instâncias pequenas (relativo ao produto entre número de objetos e a capacidade da mochila), devido ao tempo de computação. Também testamos o backtracking com instâncias sintéticas com $n$ de até 30.

Também comparamos o desempenho do Branch and Bound com a programação dinâmica em outras instâncias sintéticas.

As instâncias foram geradas através do código mostrado em aula.

In [None]:
function generate_knapsack_inst(n)    
    value = zeros(n+1)
    weight = zeros(n+1)
    
    infty = 0
    for i in 1:n+1
        value[i] = rand(10:40)
        weight[i] = rand(1:12)
        infty += value[i]
    end

    B = rand(2*n:4*n)
    return n, B, value, weight
end

## Experimentos - Implementação

In [None]:
using Distributed
addprocs(8)

@everywhere include("dynamic_programming.jl")
@everywhere include("backtracking.jl")
@everywhere include("branch_and_bound.jl")

@everywhere begin
    using JSON, DataFrames

    function read_instance(filename)
        file = readchomp(filename);
        lines = split(file, r"\n")
        rows = split.(lines[1:end], r" +")
        n = parse(Int64, rows[1][1])
        B = parse(Int64, rows[1][2])
        name = rows[1][3]

        n_rows = length(rows)
        v = [parse.(Int64, rows[i][2]) for i in 2:n_rows]
        w = [parse.(Int64, rows[i][3]) for i in 2:n_rows]
        return name, n, B, v, w
    end

    function write_json(file::String, dict::Dict, ident = 4) 
        open(file, "w") do f
            JSON.print(f, dict, ident)
        end
        return file
    end

    filenames = ["instances/knap-2-$i.txt" for i in 1:80]
    function run_tests(i, filename)
        results = Dict()
        N = length(filenames)
        name, n, B, v, w = read_instance(filename)
        println("$i / $N Rodando instância $name")
        value, items, root_bound, largest_bound, optimal_solution_count, elapsed_time = branch_and_bound_knapsack(n, B, v, w; time_limit=3600)
        results[name] = Dict()
        results[name]["objective_value"] = value
        results[name]["best_solution"] = items
        results[name]["is_optimal"] = value == largest_bound
        results[name]["root_bound"] = root_bound
        results[name]["largest_bound"] = largest_bound
        results[name]["solution_count"] = optimal_solution_count
        results[name]["elapsed_time"] = elapsed_time
        write_json("results/results_$i.json", results)
        println("Melhor solução: $value - Maior bound: $largest_bound - Tempo de execução: $elapsed_time\n")
    end
end
pmap(x -> run_tests(x...), collect(enumerate(filenames)))

using CSV
results_dict = Dict()
for i in 1:80
    results_name = "results/results_$i.json"
    results_json = JSON.parse(String(read(results_name)))
    result_key = collect(keys(results_json))[1]
    results_dict[result_key] = results_json[result_key]
end
df_results = DataFrame()
for result_key in collect(keys(results_dict))
    dict_keys = ["objective_value", "is_optimal", "elapsed_time", "root_bound", "largest_bound", "solution_count"]
    key_value_pairs = ["name" => result_key, [value_key => results_dict[result_key][value_key] for value_key in dict_keys]...]
    df = DataFrame(key_value_pairs)
    append!(df_results, df)
end
CSV.write("/Users/pedroferraz/Desktop/PUC/2022.1/PAA/Trabalho 3/PAA221T3-02-BaB.csv", df_results)

# Resultados

Ao longo do trabalho, refinamos a implementação do algoritmo Branch and Bound várias vezes para evitar computações desnecessárias e tornar o algoritmo mais eficiente. Isso fez com que tivéssemos que pensar sobre todas os aspectos do algoritmo e o que poderíamos fazer para melhorá-lo. Mesmo com a implementação otimizada apresentada, o algoritmo não foi capaz de provar otimalidade de nenhuma instância do conjunto de instâncias em $1$ hora. Os resultados obtidos estão disponibilizados na tabela em anexo (tabela PAA221T3-02-BaB.pdf). 

Notamos que em muitos casos o algoritmo não foi capaz de melhorar a solução inicial gulosa apresentada. Isso acontece devido à solução gulosa já ter um valor muito próximo do ótimo. Ao comparar o valor da solução gulosa com o valor da relaxação fracionária com os itens, obtemos um GAP muito pequeno. Assim, o algoritmo tem dificuldade de podar ramos e de obter bounds melhores. Além disso, não é fácil encontrar uma solução viável melhor que a gulosa dado que o algoritmo não é capaz de podar muitos ramos. 

É importante ressaltar que as instâncias pequenas puderam ser resolvidas através da programação dinâmica.

Também ficamos muito surpreendidos com a capacidade incrível do Gurobi de resolver todas as instâncias praticamente instantaneamente. Tal resultado mostra o quanto solvers comerciais são avançados e são poderosas ferramentas para resolução de problemas. Podemos ver também que a formulação do problema da mochila por programação inteira é trivial, o que também mostra que essa técnica é muito eficiente para modelar e resolver problemas. Unindo facilidade e flexibilidade de modelagem com um refinado arcabouço de técnicas de solução, programação inteira-mista é uma ferramenta muito poderosa para a resolução de problemas.