# Relatório EP1 - Programação Concorrente e Paralela

**Alunos**: 
- Erick Rodrigues de Santana, NUSP: 11222008
- Francisco Eugênio Wernke, NUSP: 11221870
- Thiago Guerrero Balera, NUSP: 11275297
- Vinicius Pereira Ximenes Frota, NUSP: 11221967

**Professor**: Alfredo Goldman

**Monitores**: Elisa Silva e Luciana Marques

O relatório a seguir foi elaborado com base nas instruções do EP2 da Matéria MAC0219 - Programação Concorrente e Paralela.

## Executando o programa
Para executar o programa *mandelbrot* nas versões com MPI (Sequencial, OpenMP e Pthreads), adicionamos um argumento extra para definir o número de processos a serem criados (num_processes). Além disto, nas versões internamente paralelizadas, ainda existe o argumento de quantas threads serão criadas (num_threads). Antes de executar os comandos, é necessário gerar os binários desta forma:

```bash
cd src
make
```

Agora, pode-se executar as três formas do mandelbrot com MPI da seguinte forma:

```bash
mpirun -np <num_processes> mandelbrot_mpi
mpirun -np <num_processes> mandelbrot_mpi_omp <num_threads>
mpirun -np <num_processes> mandelbrot_mpi_pth <num_threads>
```

## Observações

Todas as execuções do programa foram feitas na Rede Linux usando 20 medições para cada tipo de execução.

In [4]:
# Bibliotecas importadas
import pandas as pd
import matplotlib.pyplot as plt

# Leitura de dados CSV
csv = pd.read_csv("../data_sample.csv")
print(csv)

      tipo  tamanho  threads        tempo         io              figura
0      seq       16        1     0.153780  50.254822                full
1      seq       16        1     0.153542  53.570986                full
2      seq       16        1     0.152588  53.609371                full
3      seq       16        1     0.152826  53.503752                full
4      seq       16        1     0.153780  53.590536                full
...    ...      ...      ...          ...        ...                 ...
10395  omp     8192       32  4790.982723   0.000000  tripleSpiralValley
10396  omp     8192       32  4792.347670   0.000000  tripleSpiralValley
10397  omp     8192       32  4935.701370   0.000000  tripleSpiralValley
10398  omp     8192       32  5377.342939   0.000000  tripleSpiralValley
10399  omp     8192       32  4771.972418   0.000000  tripleSpiralValley

[10400 rows x 6 columns]


## Organização dos dados

Para agrupar os dados coletados usamos a estrutura de dados de dicionário. A estrutura pode ser entendida assim:
```json
{
    seq: {
        Pair<Média, Intervalo de confiança>
    },
    seqio: ...Igual a seq,
    pth: {
        2^0 threads: Pair<Média, Intervalo de confiança>,
        2^1 threads: Pair<Média, Intervalo de confiança>,
        ... ,
        2^5 threads: Pair<Média, Intervalo de confiança>
    },
    omp: ...Igual a pthread,
    mpi: {
        1 process: Pair<Média, Intervalo de confiança>,
        2 processes: Pair<Média, Intervalo de confiança>,
        ...
        16 processes: Pair<Média, Intervalo de confiança>
    },
    mpi_pth: {
        1 process: {
            1 thread: Pair<Média, Intervalo de confiança>,
            2 threads: Pair<Média, Intervalo de confiança>,
            4 threads: Pair<Média, Intervalo de confiança>,
            ...
            32 threads: Pair<Média, Intervalo de confiança>
        },
        2 processes: {
            ...Mesmo que para 1 processo
        },
        ...
        16 processes: {
            ...Mesmo que para 1 processo
        },
    },
    mpi_omp: { ...Mesmo que mpi_pth }
}
```
Onde *seqio* representa o tempo total e *seq* representa o tempo sem as operações de I/O e gerenciamento de memória da versão sequencial.

Como o intervalo de confiança é simétrico em torno da média, só armazenamos os limiares.

In [None]:
data = Dict();
data["seq"] = Dict("full"=>Dict(), "seahorseValley"=>Dict(), "elephantValley"=>Dict(), "tripleSpiralValley"=>Dict());
data["seqio"] = Dict("full"=>Dict(), "seahorseValley"=>Dict(), "elephantValley"=>Dict(), "tripleSpiralValley"=>Dict());
data["pth"] = Dict("full"=>Dict(), "seahorseValley"=>Dict(), "elephantValley"=>Dict(), "tripleSpiralValley"=>Dict());
data["omp"] = Dict("full"=>Dict(), "seahorseValley"=>Dict(), "elephantValley"=>Dict(), "tripleSpiralValley"=>Dict());

keys = ["full", "seahorseValley", "elephantValley", "tripleSpiralValley"];
for i in 4:13
     for t in keys
         pair = 1 => 0;
         data["seq"][t][2^i] = pair;
         data["seqio"][t][2^i] = pair;
         data["pth"][t][2^i] = Pair{Float64, Float64}[];
         data["omp"][t][2^i] = Pair{Float64, Float64}[];
     end
end

## Intervalo de confiança

Para 95% de nível de confiança e n-1 (19) graus de liberdade, obtemos pela tabela da t-student o valor 2.0930 para z.


In [2]:
function confidence_interval(vector, mean)
    z = 2.0930;
    n = length(vector);
    sigma = 0;
    for i in 1:n
        sigma += (vector[i] - mean)^2;
    end
    sigma /= n-1;
    sigma = sqrt(sigma);
    return z * sigma/sqrt(n);
end;

SyntaxError: invalid syntax (<ipython-input-2-7325343aee2d>, line 1)

In [None]:
# Processamento dos dados
size = nrow(csv)

for i in 21:20:size+1
    tipo = csv.tipo[i-1];
    figura = csv.figura[i-1];
    tamanho = csv.tamanho[i-1];
    threads = csv.threads[i-1];
    if (tipo == "seq")
        vector = vcat(csv.tempo[i-20:i-1], csv.io[i-20:i-1]);
        sum = reduce(+, vector);
        pair = sum/20 => confidence_interval(vector, sum/20);
        data["seqio"][figura][tamanho] = pair;

        sum  = reduce(+, csv.tempo[i-20:i-1]);
        pair = sum/20 => confidence_interval(csv.tempo[i-20:i-1], sum/20);
        data[tipo][figura][tamanho] = pair;
    else
        sum  = reduce(+, csv.tempo[i-20:i-1]);
        pair = sum/20 => confidence_interval(csv.tempo[i-20:i-1], sum/20);
        push!(data[tipo][figura][tamanho], pair);
    end
end

## Visualização dos resultados

Para visualizar os resultados, plotamos um gráfico para cada tipo de programa em cada tipo de imagem e, nas versões paralelizáveis, para cada número de *threads* também.

Por motivos de melhor visualização dos resultados, optamos por exibir os eixos em escala logarítimica com base 2. O eixo x representa os expoentes do tamanho de entrada e o eixo y representa o log2 da média do tempo de execução em milissegundos.

In [None]:
# Definição de fontes para o plot
axis_font = Plots.font("Helvetica", 7);
text_font = Plots.font("Helvetica", 10);

In [None]:
# Definição do eixo x
x = [];
for i in 4:13
    append!(x, i);
end

In [None]:
# Coleta dos dados necessários para cada plot
function fetch_data(figura, id)
    plot_seq = [];
    ci_seq = [];
    plot_seqio = [];
    ci_seqio = [];
    plot_pth = [];
    ci_pth = [];
    plot_omp = [];
    ci_omp = [];
    for i in 4:13
        append!(plot_seq, data["seq"][figura][2^i].first);
        append!(plot_seqio, data["seqio"][figura][2^i].first);
        append!(plot_pth, data["pth"][figura][2^i][id].first);
        append!(plot_omp, data["omp"][figura][2^i][id].first);

        append!(ci_seq, data["seq"][figura][2^i].second);
        append!(ci_seqio, data["seqio"][figura][2^i].second);
        append!(ci_pth, data["pth"][figura][2^i][id].second);
        append!(ci_omp, data["omp"][figura][2^i][id].second);
    end
    
    for i in 1:length(plot_seq)
        ci_seq[i] = log2(plot_seq[i] + ci_seq[i]) - log2(plot_seq[i]);
        ci_seqio[i] = log2(plot_seqio[i] + ci_seqio[i]) - log2(plot_seqio[i]);
        ci_pth[i] = log2(plot_pth[i] + ci_pth[i]) - log2(plot_pth[i]);
        ci_omp[i] = log2(plot_omp[i] + ci_omp[i]) - log2(plot_omp[i]);
    end
    
    plot_seq = broadcast(log2, plot_seq);
    plot_seqio = broadcast(log2, plot_seqio);
    plot_pth = broadcast(log2, plot_pth);
    plot_omp = broadcast(log2, plot_omp);
    
    return plot_seq, ci_seq, plot_seqio, ci_seqio, plot_pth, ci_pth, plot_omp, ci_omp;
end;

In [None]:
# Plota os 4 gráficos de cada tipo de programa para cada imagem usando o número de threads fornecido
function plot_by_number_of_threads(threads)
    id = convert(Int64, log2(threads)) + 1;
    keys = ["full", "seahorseValley", "elephantValley", "tripleSpiralValley"];
    for figura in keys
        plot_seq, ci_seq, plot_seqio, ci_seqio, plot_pth, ci_pth, plot_omp, ci_omp = fetch_data(figura, id);
        
        title = "\n" * string(threads) * " Thread(s) - " * figura;
        
        seq = plot(x, plot_seq, label= "Seq sem I/O", lw = 1, legend=:bottomright,
            color="#7a5306", fillcolor="#f4b22e",
            seriestype = :scatter,
            ribbon = ci_seq)
        
        seqio = plot(x, plot_seqio, label= "Seq com I/O", lw = 1, legend=:bottomright,
            color="#810ee0", fillcolor="#d382ab",
            seriestype = :scatter,
            ribbon = ci_seqio)
        
         pth = plot(x,  plot_pth, label= "Pth", lw = 1, legend=:bottomright,
            color="#000396", fillcolor="#07ffc0",
            seriestype = :scatter,
            ribbon = ci_pth)
        
         omp = plot(x, plot_omp, label= "OMP", lw = 1, legend=:bottomright,
            color="#f60000", fillcolor="#29a7e1",
            seriestype = :scatter,
            ribbon = ci_omp)
        
        final_plot = plot(seq, seqio, pth, omp, size=(750, 410), layout=4,
            guidefont=axis_font, xtickfont=axis_font, ytickfont=axis_font,
            titlefont=text_font, legendfont = axis_font,
            bottom_margin = 7mm,
            xticks = [minimum(x):maximum(x)+1;],
            title=title, xlabel="Tamanho da entrada (log2)", ylabel="Tempo (log2(ms))")
        
        display(final_plot)
    end
end;


In [None]:
plot_by_number_of_threads(2^0)

In [None]:
plot_by_number_of_threads(2^1)

In [None]:
plot_by_number_of_threads(2^2)

In [None]:
plot_by_number_of_threads(2^3)

In [None]:
plot_by_number_of_threads(2^4)

In [None]:
plot_by_number_of_threads(2^5)

## Resultados

### Como e por que as três versões do programa se comportam com a variação:


* **Do tamanho da entrada?**
    
    O tempo gasto é proporcional ao tamanho da entrada independentemente da versão. Além disto, podemos ver que todos os gráficos possuem o mesmo formato mas com valores diferentes. Isto ocorre pois, em qualquer método escolhido para fazer a computação, um aumento no tamanho da entrada implica em mais trabalho a ser realizado e todos os métodos reagem de forma similar à este aumento. 
        
        
* **Das regiões do Conjunto de Mandelbrot?**
    
     O tempo gasto na figura *full* é relativamente menor do que o tempo gasto nas outras figuras na versão sequencial. Isto ocorre pois, em relação ao limitante *escape_radius_squared* definido, os pixels da figura *full* divergem em menos iterações do que os pixels das outras figuras, fazendo com que o programa execute mais rapidamente. Nas versões paralelizadas, a diferença de tempo gasto entre as figuras é relativa à quantidade de threads.
        
        
* **Do número de threads?**
    
    Conforme o número de threads aumenta, conseguimos observar, para tamanhos cada vez maiores de entrada, uma redução do tempo cada vez mais proporcional ao número de threads. Isto ocorre pois, quando começamos a ter tamanhos de entrada cada vez maiores, o benefício do uso das threads e da divisão do trabalho acabam superando o seu custo de criação.
    
    Além disso, observamos que, nas versões paralelizadas, quanto maior o número de threads, menor é a diferença de tempo gasto entre as imagens. Isto ocorre pois quanto mais dividimos a imagem em diferentes seções, mais homogênea fica a distribuição dos pixels que demoram muitas iterações para divergir e, portanto, as seções demoram relativamente o mesmo tempo. Assim o programa executa em menos tempo, pois mais threads executarão e terminarão juntas.
 
### Qual o impacto das operações de I/O e alocação de memória no tempo de execução?

Analisando o código, podemos perceber que as operações de I/O e alocação de memória gastam tempo proporcional a t^2 (O(t^2)), onde t é o tamanho da entrada. Podemos notar, então, que a influência dessas operações no tempo é relativa entre os pontos e, para valores de entrada pequenos, o tempo de processamento é ínfimo enquanto a maior parte do tempo gasto pela execução do programa é realizando essas operações.