# Analizando e Desenvolvendo Algoritmos: Fundamentos, Dados e Sugestões
Neste notebook, você ampliará seus conhecimentos em desenvolvimento de algoritmos. Aprenderá sobre os impactos das escolhas de linguagens de programação, análise de recorrência e poderá interagir com um modelo de linguagem natural para analizar seu código, propondo melhorias.
A estrutura do projeto visa diminuir impactos no uso de processamento, promovendo um uso mais sustentável desde à concepção do projeto. 

Na primeira sessão, você irá ser introduzido a conceitos de desenvolvimento de algoritmos eficientes, assim como sugestão de conteúdo pelos autores deste notebook para ampliar seu conhecimento no assunto. A maior parte dos seus esforços nesta tragetória de desenvolvimento de software está nesta sessão, seu tempo deve ser investido aqui.

Na segunda sessão, você poderá fazer uma análise quantitativa do seu algoritmo rodando em diferentes linguagens de programação ou dois algoritmos diferentes rodando em uma mesma linguagem. Depois de enviar seus dois programas ao notebook, uma análise detalhada, com benchmarks de tempo, consumo de CPU/memória, relacionando à impactos sustentáveis serão plotados em gráficos. Com esses dados, você poderá ter insights significativos sobre seu código e se ele é sustentável ou não.

Por fim, na terceira sessão, você poderá enviar seu código a um modelo de Linguagem Natural, que avaliará os benchmarks de sustentabilidade do seu código e proporá mudanças especificas para seu contexto. Dessa forma, você terá mais informações para melhorar seu código e se tornar um melhor programador!
Vamos começar?

### Nível Básico: Compreendendo a Complexidade de Tempo
![Imagem principal](https://miro.medium.com/max/1400/1*j8fUQjaUlmrQEN_udU0_TQ.jpeg)


**Complexidade de Tempo e Complexidade de Espaço – GeeksforGeeks**

Para criar algoritimos eficientes, é importante entender como medir o tempo que um programa leva para rodar. Este material explica, de forma simples, como calcular o número de execuções que um algoritmo faz e como isso afeta o desempenho do programa.

https://www.geeksforgeeks.org/time-complexity-and-space-complexity/


**Compreendendo a Complexidade de Tempo com Exemplos Simples – GeeksforGeeks**

Nem todos os algoritmos funcionam na mesma velocidade. Alguns resolvem problemas rapidamente, enquanto outros demoram mais em função do tamanho da entrada. Este conteúdo usa exemplos práticos para mostrar os diferentes tipos de crescimento do tempo de execução e como prever o desempenho de um algoritmo.
https://www.geeksforgeeks.org/understanding-time-complexity-simple-examples/

### Nível Intermediário: Boas Práticas no Desenvolvimento de Algoritmos

![Imagem](https://lh5.googleusercontent.com/proxy/4NkOeom5Za2qQmQRUrq6MoGtkEyytr5qCKKaSDp-vdjvg-abq518nGxyPqc2Sblz5R0PISDxDROxEFaxMLMVD5v0l2KLFOr6v_5NnsyHV7jfB2w)


**Entendendo a Análise de Algoritmos: Explorando Complexidade de Tempo e Espaço – Artigo no Medium**

Agora que você já sabe que diferentes algoritmos podem levar mais ou menos tempo para rodar, este material ensina como avaliar o desempenho de um código na prática. Ele também traz dicas sobre erros comuns e boas práticas para escrever algoritmos eficientes.

https://medium.com/javarevisited/algorithm-tutorial-day-2-understanding-algorithm-analysis-exploring-time-and-space-complexity-319014d796ad


**Complexidade de Tempo e Espaço em Estruturas de Dados – Simplilearn**

Para criar suas aplicações, você precisará dominar diferentes estruturas de dados. Mas como escolhê-las? Aqui, você aprende como os diferentes tipos de armazenamento influenciam o tempo de execução de um algoritmo e como tomar melhores decisões na hora de programar.

https://www.simplilearn.com/tutorials/data-structure-tutorial/time-and-space-complexity



### Nível Avançado: Resolvendo Recorrências e Projeção Formal de Eficiência


**Teorema Mestre: Dividir, Conquistar e Juntar!**

No nível avançado, você precisa de ferramentas para projetar matematicamente (ou seja, de forma formal) a eficiência de um algoritmo. Neste link, você aprenderá sobre o Teorema Mestre, um método para resolver recorrências de divisão e conquista, com exemplos.


**Relações de Recorrência: Descrevendo Eficiência e Otimização**

Complementando o Teorema Mestre, este material aprofunda o estudo das relações de recorrência. Ele mostra como modelar a complexidade de tempo de algoritmos recursivos e discute substituição iterativa, métodos de árvore e até mesmo funções geradoras para recorrências.

# Análise comparativa entre Linguagens de Programação diferentes
## Introdução
Em projeto e análise de algoritmos, os algoritmos de ordenação servem como um ótimo referencial para estudar o desempenho entre diferentes linguagens de programação.

**Escolha das linguagens**

Para efeito de estudo, escolhemos 3 linguagens diferentes com determinado propósito em termos de implementação, onde o critério de escolha para as 3 linguagens foram: popularidade da linguagem; grau de complexidade de programar na linguagem; sintaxes similares e diferentes paradigmas.

As linguagens de programação foram:

* Python: linguagem de alto nível, dinâmica e de propósito geral, amplamente usada para desenvolvimento web, automação, ciência de dados e IA. Segue o paradigma multiparadigma (orientado a objetos, funcional e procedural) e é interpretada, sendo executada pela máquina virtual do Python.
* Java: linguagem orientada a objetos robusta e amplamente utilizada para aplicações corporativas, mobile (Android) e sistemas de grande escala. Seu código é compilado para bytecode e executado na JVM, permitindo portabilidade entre diferentes sistemas operacionais.
* C: linguagem de programação de baixo nível e alto desempenho, utilizada para desenvolvimento de sistemas operacionais, drivers e softwares embarcados, como também fins educacionais. Segue o paradigma imperativo e procedural, sendo compilada para código de máquina, o que garante eficiência e controle sobre os recursos do hardware.

Com as linguagens acima, temos, no total, uma linguagem interpretada (Python) e duas linguagens compiladas (Java e C).

**Algoritmos**

Como mencionado, iremos utilizar os algoritmos de ordenação mais comumente estudados dos materiais como referência para implementar em Python, Java e C. Para isso, uma explicação breve de cada algoritmo de ordenação escolhido:

* **MergeSort**: Um algoritmo de ordenação baseado no paradigma Divisão e Conquista. Divide o array em duas metades, ordena cada uma recursivamente e as junta (merge) de forma ordenada. Tem complexidade O(n log n) no pior caso.
* **QuickSort**: Também baseado em divisão e conquista, escolhe um elemento da lista como pivô, divide o array em dois grupos (menores e maiores que o pivô) e ordena cada parte recursivamente. No pior caso pode ser O(n²), mas na maioria dos casos é O(n log n).
* **SelectionSort**: Algoritmo simples de ordenação onde se busca o menor elemento e o coloca na primeira posição, depois o segundo menor na segunda posição, e assim por diante. Sua complexidade é O(n²), tornando ineficiente para grandes listas.

# Análise de desemepenho

Nesta seção, iremos analisar o desemepenho de alguns algoritmos de ordenação - SelectionSort, MergeSort e QuickSort - implementados em linguagens diferentes (C, Java - compiladas - e Python - interpretada), e algumas implementações diferentes na mesma linguagem, a fim de extrair dados referentes a uso de CPU e memória, e tempo de execução. A partir dessas informações também iremos obter métricas sustentáveis como emissão de CO², consumo de água, eficiência de memória e Energy Delay Product (EDP). Esses dados serão exibidos em forma de gráficos, possibilitando uma melhor visualização das diferenças entre as abordagens adotadas. No final da seção também será possível fornecer seus próprios códigos para análise.


### Configurando o ambiente

Para coletar as métricas e realizar a análise de desempenho precisamos instalar alguns pacotes que irão nos auxiliar nesse processo. São eles: psutil (para monitoramento de CPU e memória), matplotlib (para plotar gráficos a partir dos dados coletados), pandas (para organização dos dados em tabelas) e numpy (para cálculo das métricas).

Para isso, execute o comando abaixo:

In [None]:
!pip install --upgrade psutil matplotlib pandas numpy

#### **Compilar arquivos base em C e Java**

Como Python é uma linguagem interpretada, não é necessário realizar essa etapa de compilação prévia para seus códigos fonte.

In [None]:
import os
import subprocess

# Diretório base onde os códigos foram extraídos
base_dir = './'

# Compilando código C
# selectionSort
c_selectionsort_source = os.path.join(base_dir, 'C', 'SelectionSort.c')
c_selectionsort_executable = os.path.join(base_dir, 'C', 'selectionsort_exec')
compile_c_selectionsort_cmd = f"gcc -O3 {c_selectionsort_source} -o {c_selectionsort_executable}"

subprocess.run(compile_c_selectionsort_cmd, shell=True, check=True)

# MergeSort
c_mergesort_source = os.path.join(base_dir, 'C', 'MergeSort.c')
c_mergesort_executable = os.path.join(base_dir, 'C', 'mergesort_exec')
compile_c_mergesort_cmd = f"gcc -O3 {c_mergesort_source} -o {c_mergesort_executable}"

subprocess.run(compile_c_mergesort_cmd, shell=True, check=True)

# QuickSort
c_quicksort_source = os.path.join(base_dir, 'C', 'QuickSort.c')
c_quicksort_executable = os.path.join(base_dir, 'C', 'quicksort_exec')
compile_c_quicksort_cmd = f"gcc -O3 {c_quicksort_source} -o {c_quicksort_executable}"

subprocess.run(compile_c_quicksort_cmd, shell=True, check=True)

# Compilando código Java
# selectionSort
java_selectionsort_source = os.path.join(base_dir, 'Java', 'SelectionSort.java')
compile_java_selectionsort_cmd = f"javac {java_selectionsort_source} -d {os.path.join(base_dir, 'Java')}"

subprocess.run(compile_java_selectionsort_cmd, shell=True, check=True)

# MergeSort
java_mergesort_source = os.path.join(base_dir, 'Java', 'MergeSort.java')
compile_java_mergesort_cmd = f"javac {java_mergesort_source} -d {os.path.join(base_dir, 'Java')}"

subprocess.run(compile_java_mergesort_cmd, shell=True, check=True)

# QuickSort
java_quicksort_source = os.path.join(base_dir, 'Java', 'QuickSort.java')
compile_java_quicksort_cmd = f"javac {java_quicksort_source} -d {os.path.join(base_dir, 'Java')}"

subprocess.run(compile_java_quicksort_cmd, shell=True, check=True)

# Para Python, não é necessária compilação

CompletedProcess(args='javac ./Java\\QuickSort.java -d ./Java', returncode=0)

### **Configurar váriaveis globais**

Para o funcionamento correto dos scripts nesse notebook, é necessário configurar algumas váriaveis no bloco de código a seguir. A seguir, uma breve descrição dessas variáveis.

RUNS - Número de execuções de cada algoritmo

SAMPLE_INTERVAL - Intervalo de coleta de métricas

PC_TDP - Para o cálculo das métricas sustentáveis, uma das informações necessárias é a Potência Térmica de Projeto (medida em watts), ou Thermal Design Power (TDP), que é a quantidade máxima de calor gerada pela CPU que o sistema de resfriamento é capaz de dissipar sob qualquer carga de trabalho. É utilizada para cálculo da potência da CPU. Deve ser preenchida de acordo com as informações do computador executando este notebook.

MEMORY_POWER - Consumo energético da memória em watts. Costuma variar entre 3w e 5w. Deve ser preenchida de acordo com as informações da memória do computador usando este notebook.

CO2_INTENSITY - A intensidade de carbono é uma medida da quantidade de carbono emitida por uma atividade (em gCO₂/kWh), a execução do algoritmo nesse caso. É uma forma de avaliar a eficiência do algoritmo em relação a emissão de gases carbônicos. Deve ser preenchida com a informações obtidas junto a fornecedora de energia da região onde esse notebook será executado.

WATER_INTENSITY - A intensidade do uso de água é uma métrica que avalia a eficiência do consumo de água (em L/kWh) em diferentes locais, períodos e geografias. Deve ser preenchida com a informações obtidas junto a órgãos oficiais da região onde esse notebook será executado.

In [1]:
RUNS = 3
SAMPLE_INTERVAL = 0.01
INPUT_SIZE = 10000

PC_TDP = 15 # Intel i5-8250U TDP (15W)
MEMORY_POWER = 4 # 8GB DDR4 RAM power
CO2_INTENSITY = 70 # Brazil: 70 gCO₂/kWh
WATER_INTENSITY = 1.8 # Brazil: 1.8 L/kWh (hydropower)

#### **Definir funções de benchmark**

A partir dos arquivos compilados de C e Java, além dos arquivos fonte em Python, iremos criar uma função de benchmark que executa esses algoritmos um determinado número de vezes e coleta as métricas de interesse para esse projeto.

In [3]:
import psutil
import time
import subprocess
import threading
import numpy as np

def benchmark_java(cmd, input_data, runs=RUNS, sample_interval=SAMPLE_INTERVAL):
    """
    Executa o comando `cmd`, passa `input_data` via stdin e coleta métricas:
      - Tempo de execução total (s)
      - Média de uso de CPU (%)
      - Média de uso de memória (em MB)
      - Pico de uso de CPU (%)
      - Pico de uso de memória (em MB)
    
    Parâmetros:
      - cmd: string com o comando a ser executado
      - input_data: string com os dados que serão passados via stdin para o processo.
      - runs: número de execuções
      - sample_interval: intervalo entre as amostragens (em segundos)
      
    Retorna:
      - Um dicionário com listas de 'tempo_execucao', 'media_cpu', 'media_memoria_MB', 'pico_cpu' e 'pico_memoria_MB'
    """

    tempos_exec = []
    medias_cpu = []
    medias_mem = []
    picos_cpu = []
    picos_mem = []

    for run in range(runs):  
        print(f"Executando '{cmd}' - run {run+1} de {runs}")
        start_time = time.time()
        command = ["java", cmd]

        process = subprocess.Popen(
            command, 
            stdin=subprocess.PIPE, 
            stdout=subprocess.PIPE, 
            stderr=subprocess.PIPE,
            text=True
        )

        cpu_samples = []
        mem_samples = []

        def monitor():
            try:
                proc = psutil.Process(process.pid)
            except psutil.NoSuchProcess:
                return
            while True:
                if process.poll() is not None:
                    break
                try:
                    cpu = proc.cpu_percent(interval=sample_interval)
                    cpu_samples.append(cpu)
                    mem = proc.memory_info().rss / (1024 * 1024)  # MB
                    mem_samples.append(mem)
                except (psutil.NoSuchProcess, psutil.AccessDenied):
                    break

        monitor_thread = threading.Thread(target=monitor)
        monitor_thread.start()
        
        try:
            stdout, stderr = process.communicate(input=input_data, timeout=30)
        except subprocess.TimeoutExpired:
            process.kill()
            stdout, stderr = process.communicate()
            print(f"Process {cmd} timed out!")
        finally:
            if process.poll() is None:
                process.kill()
            if monitor_thread.is_alive():
                monitor_thread.join(timeout=1)

        end_time = time.time()
        execution_time = end_time - start_time
        
        # Registra os picos
        tempos_exec.append(execution_time)
        picos_cpu.append(max(cpu_samples) if cpu_samples else 0)
        picos_mem.append(max(mem_samples) if mem_samples else 0)
        medias_cpu.append(np.mean(cpu_samples) if cpu_samples else 0)
        medias_mem.append(np.mean(mem_samples) if mem_samples else 0)
        
    return {
        'tempo_execucao': tempos_exec,
        'pico_cpu': picos_cpu,
        'pico_memoria_MB': picos_mem,
        'media_cpu': medias_cpu,
        'media_memoria_MB': medias_mem
    }

def benchmark_python(cmd, input_data, runs=RUNS, sample_interval=SAMPLE_INTERVAL):
    """
    Executa o comando `cmd`, passa `input_data` via stdin e coleta métricas:
      - Tempo de execução total (s)
      - Média de uso de CPU (%)
      - Média de uso de memória (em MB)
      - Pico de uso de CPU (%)
      - Pico de uso de memória (em MB)
    
    Parâmetros:
      - cmd: string com o comando a ser executado
      - input_data: string com os dados que serão passados via stdin para o processo.
      - runs: número de execuções
      - sample_interval: intervalo entre as amostragens (em segundos)
      
    Retorna:
      - Um dicionário com listas de 'tempo_execucao', 'media_cpu', 'media_memoria_MB', 'pico_cpu' e 'pico_memoria_MB'
    """

    tempos_exec = []
    medias_cpu = []
    medias_mem = []
    picos_cpu = []
    picos_mem = []

    for run in range(runs):  
        print(f"Executando '{cmd}' - run {run+1} de {runs}")
        start_time = time.time()
        command = ["python", cmd]

        process = subprocess.Popen(
            command, 
            stdin=subprocess.PIPE, 
            stdout=subprocess.PIPE, 
            stderr=subprocess.PIPE,
            text=True
        )

        cpu_samples = []
        mem_samples = []

        def monitor_peaks():
            try:
                proc = psutil.Process(process.pid)
            except psutil.NoSuchProcess:
                return  # Process already exited
            while True:
                if process.poll() is not None:
                    break  # Process has exited
                try:
                    # Obtém uso de CPU com intervalo de amostragem
                    cpu = proc.cpu_percent(interval=sample_interval)
                    cpu_samples.append(cpu)
                    # Obtém uso de memória
                    mem = proc.memory_info().rss / (1024 * 1024)  # MB
                    mem_samples.append(mem)
                except (psutil.NoSuchProcess, psutil.AccessDenied):
                    break

        # Start monitoring in a separate thread
        monitor_thread = threading.Thread(target=monitor_peaks)
        monitor_thread.start()

        try:
            # Send input data and wait for process completion
            stdout, stderr = process.communicate(input=input_data, timeout=30)
        except subprocess.TimeoutExpired:
            process.kill()
            stdout, stderr = process.communicate()
            print(f"Process {cmd} timed out!")
        finally:
            if process.poll() is None:
                process.kill()
            if monitor_thread.is_alive():
                monitor_thread.join(timeout=1)

        end_time = time.time()
        execution_time = end_time - start_time
        
        # Registra os picos
        tempos_exec.append(execution_time)
        picos_cpu.append(max(cpu_samples) if cpu_samples else 0)
        picos_mem.append(max(mem_samples) if mem_samples else 0)
        medias_cpu.append(np.mean(cpu_samples) if cpu_samples else 0)
        medias_mem.append(np.mean(mem_samples) if mem_samples else 0)
        
    return {
        'tempo_execucao': tempos_exec,
        'pico_cpu': picos_cpu,
        'pico_memoria_MB': picos_mem,
        'media_cpu': medias_cpu,
        'media_memoria_MB': medias_mem
    }

def benchmark_c(cmd, input_data, runs=RUNS, sample_interval=SAMPLE_INTERVAL):
    """
    Executa o comando `cmd`, passa `input_data` via stdin e coleta métricas:
      - Tempo de execução total (s)
      - Média de uso de CPU (%)
      - Média de uso de memória (em MB)
      - Pico de uso de CPU (%)
      - Pico de uso de memória (em MB)
    
    Parâmetros:
      - cmd: string com o comando a ser executado
      - input_data: string com os dados que serão passados via stdin para o processo.
      - runs: número de execuções
      - sample_interval: intervalo entre as amostragens (em segundos)
      
    Retorna:
      - Um dicionário com listas de 'tempo_execucao', 'media_cpu', 'media_memoria_MB', 'pico_cpu' e 'pico_memoria_MB'
    """
    tempos_exec = []
    medias_cpu = []
    medias_mem = []
    picos_cpu = []
    picos_mem = []
    
    for run in range(runs):
        print(f"Executando '{cmd}' - run {run+1} de {runs}")
        start_time = time.time()
        # Inicia o processo
        process = subprocess.Popen(cmd, stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)

        cpu_samples = []
        mem_samples = []

        def monitor():
            try:
                proc = psutil.Process(process.pid)
                children = proc.children(recursive=True)  # Obtém subprocessos também
            except psutil.NoSuchProcess:
                return
            while True:
                if process.poll() is not None:
                    break
                try:
                    cpu = proc.cpu_percent(interval=sample_interval) + sum(proc.cpu_percent(interval=sample_interval) for p in children)
                    cpu_samples.append(cpu)
                    mem = proc.memory_info().rss / (1024 * 1024) + sum(proc.memory_info().rss / (1024 * 1024) for p in children)
                    mem_samples.append(mem)
                except (psutil.NoSuchProcess, psutil.AccessDenied):
                    break
        
        monitor_thread = threading.Thread(target=monitor)
        monitor_thread.start()

        # Escreve os dados de entrada e fecha o stdin
        try:
            stdout, stderr = process.communicate(input=input_data, timeout=30)
        except subprocess.TimeoutExpired:
            process.kill()
            stdout, stderr = process.communicate()
            print(f"Process {cmd} timed out!")
        finally:
            if process.poll() is None:
                process.kill()
            if monitor_thread.is_alive():
                monitor_thread.join(timeout=1)
        
        end_time = time.time()
        exec_time = end_time - start_time
        
        # Registra os picos
        tempos_exec.append(exec_time)
        picos_cpu.append(max(cpu_samples) if cpu_samples else 0)
        picos_mem.append(max(mem_samples) if mem_samples else 0)
        medias_cpu.append(np.mean(cpu_samples) if cpu_samples else 0)
        medias_mem.append(np.mean(mem_samples) if mem_samples else 0)
    
    return {
        'tempo_execucao': tempos_exec,
        'pico_cpu': picos_cpu,
        'pico_memoria_MB': picos_mem,
        'media_cpu': medias_cpu,
        'media_memoria_MB': medias_mem
    }

In [4]:
import random
import numpy as np

def generate_input_data(n_elements=INPUT_SIZE, min_value=1, max_value=100000):
    numbers = [str(random.randint(min_value, max_value)) for _ in range(n_elements)]
    
    # print(input_data)  # Optionally, print to verify the input
    
    return "\n".join(numbers)

def calculate_sustainability(
    benchmark_results, 
    input_size_elements,
    tdp_w=PC_TDP,                
    memory_power_w=MEMORY_POWER,         
    carbon_intensity=CO2_INTENSITY,      
    water_intensity=WATER_INTENSITY     
):
    """
    Calculate sustainability metrics from benchmark results.

    Parameters:
      benchmark_results: dict containing lists of benchmark metrics with keys:
         - 'tempo_execucao': execution times in seconds
         - 'media_cpu': average CPU usage percentage (if available)
         - 'media_memoria_MB': average memory usage in MB (if available)
         If these keys are missing, peak values ('pico_cpu', 'pico_memoria_MB') are used as fallback.
      input_size_elements: number of elements processed (assumes 4 bytes per integer)
      tdp_w: CPU Thermal Design Power in Watts (full load power)
      memory_power_w: Memory power consumption in Watts (assumed constant)
      carbon_intensity: grams of CO₂ emitted per kWh of energy consumed
      water_intensity: liters of water used per kWh of energy consumed

    Returns:
      A dictionary containing:
         - energy_kwh: Energy consumption in kilowatt-hours (kWh)
         - co2_emissions_grams: CO₂ emissions in grams
         - water_usage_liters: Water usage in liters
         - edp_kwh_sec: Energy Delay Product in kWh·s
         - memory_efficiency_mb_per_kwh: Memory efficiency in MB processed per kWh
    """    
    # Use average metrics if available; otherwise, fall back to peak values
    avg_time = np.mean(benchmark_results["tempo_execucao"])
    avg_cpu_util = np.mean(benchmark_results["media_cpu"])
    
    # Approximate CPU power consumption using a linear scaling model:
    # For example, if avg_cpu_util is 50%, then estimated CPU power = 0.5 * tdp_w.
    cpu_power = tdp_w * (avg_cpu_util / 100.0)
    
    # Total power includes both CPU and memory power.
    total_power = cpu_power + memory_power_w  # in Watts
    
    # Energy consumption (in kWh):
    # (Power in Watts * Time in seconds) / 3,600,000 converts to kilowatt-hours.
    energy_kwh = (total_power * avg_time) / 3600000.0
    
    # CO₂ emissions (grams) using carbon intensity (g/kWh).
    co2_g = energy_kwh * carbon_intensity
    
    # Water usage (liters) using water intensity (L/kWh).
    water_l = energy_kwh * water_intensity
    
    # Energy Delay Product (kWh·s): a measure combining energy use and execution time.
    edp = energy_kwh * avg_time
    
    # Memory efficiency (MB per kWh): calculate processed MB based on the input size.
    # Assumes each element occupies 4 bytes.
    input_size_mb = (input_size_elements * 4) / (1024 ** 2)
    memory_efficiency = input_size_mb / energy_kwh if energy_kwh != 0 else 0
    
    return {
        "energy_kwh": energy_kwh,
        "co2_emissions_grams": co2_g,
        "water_usage_liters": water_l,
        "edp_kwh_sec": edp,
        "memory_efficiency_mb_per_kwh": memory_efficiency
    }

In [30]:
import json
import os

# Dicionário para mapear algoritmos e linguagens aos seus respectivos executáveis/scripts
executables = {
    'C': {
        'SelectionSort': './C/selectionsort_exec.exe',
        'MergeSort': './C/mergesort_exec.exe',
        'QuickSort': './C/quicksort_exec.exe'
    },
    'Java': {
        'SelectionSort': './Java/SelectionSort',  # Nome da classe principal
        'MergeSort': './Java/MergeSort',
        'QuickSort': './Java/QuickSort'
    },
    'Python': {
        'SelectionSort': './Python/SelectionSort.py',
        'MergeSort': './Python/MergeSort.py',
        'QuickSort': './Python/QuickSort.py'
    }
}

# Exemplo de uso corrigido
def run_benchmark(language, executable, input_data):
    if language == 'C':
        return benchmark_c(executable, input_data)
    elif language == 'Java':
        return benchmark_java(executable, input_data)
    elif language == 'Python':
        return benchmark_python(executable, input_data)
    else:
        raise ValueError("Linguagem não suportada")

# Executando os benchmarks
resultados = {}
for inputSize in [1000,  100000]:
    if str(inputSize) not in resultados:
        resultados[str(inputSize)] = {}

    input_data = generate_input_data(inputSize);
    for lang in ["C", "Java", "Python"]:
        resultados[str(inputSize)][lang] = {}
        for algo in ["SelectionSort", "MergeSort", "QuickSort"]:
            # Get the executable path from the dictionary
            executable_path = executables[lang][algo]
            
            # Run the benchmark
            benchmark_result = run_benchmark(lang, executable_path, input_data)
            
            # Calculate sustainability metrics
            sustainability = calculate_sustainability(
                benchmark_result, 
                input_size_elements=inputSize
            )
            
            # Add sustainability metrics to the results
            benchmark_result.update(sustainability)
            resultados[str(inputSize)][lang][algo] = benchmark_result

# Save the resultados dictionary to a JSON file
output_file = "./resultadosTest.json"  # Path to the output file
with open(output_file, "w") as f:
    json.dump(resultados, f, indent=4)  # indent=4 makes the file human-readable

Executando './C/selectionsort_exec.exe' - run 1 de 3
Executando './C/selectionsort_exec.exe' - run 2 de 3
Executando './C/selectionsort_exec.exe' - run 3 de 3
Executando './C/mergesort_exec.exe' - run 1 de 3
Executando './C/mergesort_exec.exe' - run 2 de 3
Executando './C/mergesort_exec.exe' - run 3 de 3
Executando './C/quicksort_exec.exe' - run 1 de 3
Executando './C/quicksort_exec.exe' - run 2 de 3
Executando './C/quicksort_exec.exe' - run 3 de 3
Executando './Java/SelectionSort' - run 1 de 3
Executando './Java/SelectionSort' - run 2 de 3
Executando './Java/SelectionSort' - run 3 de 3
Executando './Java/MergeSort' - run 1 de 3
Executando './Java/MergeSort' - run 2 de 3
Executando './Java/MergeSort' - run 3 de 3
Executando './Java/QuickSort' - run 1 de 3
Executando './Java/QuickSort' - run 2 de 3
Executando './Java/QuickSort' - run 3 de 3
Executando './Python/SelectionSort.py' - run 1 de 3
Executando './Python/SelectionSort.py' - run 2 de 3
Executando './Python/SelectionSort.py' - run

In [None]:
import json
import numpy as np
import matplotlib.pyplot as plt

# Carregar os dados do arquivo JSON
with open("./resultadosTest.json", "r") as file:
    results = json.load(file)

# Passo 2: Calcular médias
def calculate_average(values):
    """
    Se values for uma lista, calcula a média;
    se já for um escalar, retorna diretamente.
    """
    if isinstance(values, list):
        return np.average(values)
    return values

# Dicionário para armazenar as métricas agregadas
metrics = {
    input_size: {
        "execution_time": {},
        "cpu_peak": {},
        "memory_peak": {},
        "cpu_avg": {},
        "memory_avg": {},
        "co2_emissions": {},
        "water_usage": {},
        "edp": {},
        "memory_efficiency": {}
    }
    for input_size in results.keys()
}

# Inicializar dicionários internos para cada linguagem em todas as métricas
for input_size in results.keys():
    for language in ["C", "Java", "Python"]:
        for key in metrics[input_size].keys():
            metrics[input_size][key][language] = {}

# Percorrer os resultados para calcular as médias
for input_size, languages in results.items():
    for language, algorithms in languages.items():
        for algorithm, values in algorithms.items():
            # Calcular médias para métricas de desempenho
            metrics[input_size]["execution_time"][language][algorithm] = calculate_average(values["tempo_execucao"])
            metrics[input_size]["cpu_peak"][language][algorithm] = calculate_average(values["pico_cpu"])
            metrics[input_size]["memory_peak"][language][algorithm] = calculate_average(values["pico_memoria_MB"])
            metrics[input_size]["cpu_avg"][language][algorithm] = calculate_average(values["media_cpu"])
            metrics[input_size]["memory_avg"][language][algorithm] = calculate_average(values["media_memoria_MB"])
            
            # Para métricas de sustentabilidade, se o valor for uma lista, calcular a média;
            # caso contrário, utilizar o valor escalar.
            metrics[input_size]["co2_emissions"][language][algorithm] = calculate_average(values["co2_emissions_grams"])
            metrics[input_size]["water_usage"][language][algorithm] = calculate_average(values["water_usage_liters"])
            metrics[input_size]["edp"][language][algorithm] = calculate_average(values["edp_kwh_sec"])
            metrics[input_size]["memory_efficiency"][language][algorithm] = calculate_average(values["memory_efficiency_mb_per_kwh"])

# Step 3: Plot the Results
def plot_bar_chart(data, input_size, title, ylabel):
    languages = list(data.keys())
    algorithms = list(data[languages[0]].keys())

    x = np.arange(len(algorithms))  # Posições no eixo X
    width = 0.2  # Largura das barras

    fig, ax = plt.subplots(figsize=(10, 6))
    for i, language in enumerate(languages):
        averages = [data[language][alg] for alg in algorithms]
        ax.bar(x + i * width, averages, width, label=language)

    # Add labels, title, and legend
    ax.set_xlabel("Algoritmo")
    ax.set_ylabel(ylabel)
    ax.set_title(f"{title} (Input Size: {input_size})")
    ax.set_xticks(x + width)
    ax.set_xticklabels(algorithms)
    ax.legend()
    plt.show()

# Gerar gráficos das métricas de desempenho
for input_size in results.keys():
    plot_bar_chart(metrics[input_size]["execution_time"], input_size, "Tempo Médio de Execução por Linguagem e Algoritmo", "Tempo de Execução (s)")
    plot_bar_chart(metrics[input_size]["cpu_avg"], input_size, "Uso Médio de CPU por Linguagem e Algoritmo", "Uso de CPU (%)")
    plot_bar_chart(metrics[input_size]["cpu_peak"], input_size, "Pico de CPU por Linguagem e Algoritmo", "Pico de CPU (%)")
    plot_bar_chart(metrics[input_size]["memory_avg"], input_size, "Uso Médio de Memória por Linguagem e Algoritmo", "Uso de Memória (MB)")
    plot_bar_chart(metrics[input_size]["memory_peak"], input_size, "Pico de Memória por Linguagem e Algoritmo", "Pico de Memória (MB)")

#### **Métricas sustentáveis**

As métricas sustentáveis são indicadores utilizados para avaliar o impacto ambiental das operações computacionais. Elas são essenciais para entender o quanto um algoritmo consome de recursos naturais, como energia, e quanto de impacto ele gera em termos de emissões de CO₂ e uso de água, por exemplo. A medição dessas métricas ajuda a promover práticas mais eficientes e responsáveis no desenvolvimento de tecnologias, visando reduzir a pegada de carbono e o uso de recursos, além de contribuir para o desenvolvimento sustentável.

#### Medir o Consumo de Energia
- Métrica: Energia consumida pelo algoritmo (em kWh).
- Fórmula: Energia (kWh) = Potência (kW) × Tempo (horas)
    - O consumo de energia de um algoritmo é calculado com base na potência média utilizada pelo sistema durante sua execução e no tempo em que ele está sendo executado. Essa métrica é fundamental para entender a quantidade de energia que um algoritmo consome durante sua execução e, assim, avaliar o impacto energético das operações realizadas.

#### Determinar a Intensidade de Carbono Local

- Métrica: Gramas de CO₂ por kWh (intensidade de carbono da rede elétrica).
- Dados de Sorocaba/Brasil: A rede elétrica do Brasil é composta por cerca de 80% de fontes renováveis (principalmente hidrelétricas), com uma intensidade de carbono média de aproximadamente 70 gCO₂/kWh (IEA, 2023). A intensidade de carbono de Sorocaba pode variar um pouco, dependendo da combinação energética local, portanto, é importante consultar relatórios da concessionária local de energia, como a CPFL Energia, para dados mais precisos.
- Fórmula: Emissões de CO₂ (g) = Energia (kWh) × Intensidade de Carbono (gCO₂/kWh)
    - A fórmula acima permite calcular as emissões de dióxido de carbono (CO₂) geradas pelo consumo de energia. Ao multiplicar o consumo de energia em kWh pela intensidade de carbono da rede elétrica, podemos estimar a quantidade de CO₂ emitido durante a execução do algoritmo, considerando a matriz energética da região.

Essas métricas de sustentabilidade são parte de uma abordagem mais ampla para monitorar e mitigar os impactos ambientais das tecnologias que desenvolvemos. A redução do consumo de energia e das emissões de carbono pode ser um passo importante para tornar os sistemas computacionais mais ecológicos e alinhados com as metas globais de sustentabilidade.

In [None]:
# Gerar gráficos das métricas de sustentabilidade
for input_size in results.keys():
    plot_bar_chart(metrics[input_size]["co2_emissions"], input_size, "Emissões de CO₂ por Linguagem e Algoritmo", "CO₂ (g)")
    plot_bar_chart(metrics[input_size]["water_usage"], input_size, "Uso de Água por Linguagem e Algoritmo", "Água (L)")
    plot_bar_chart(metrics[input_size]["edp"], input_size, "Produto Energia-Delay (EDP) por Linguagem e Algoritmo", "EDP (kWh·s)")
    plot_bar_chart(metrics[input_size]["memory_efficiency"], input_size, "Eficiência de Memória por Linguagem e Algoritmo", "MB/kWh")

# Análise do código usando LLM's
**Introdução**
Com o objetivo de aprimorar os algoritmos, comparar e também otimizá-los em termos de sustentabilidade, utilizaremos um dataset com os códigos acima para serem enviados a um modelo LLM para análise e trazer sugestões de melhorias. Dentro desse projeto também é possível realizar upload dos seus próprios algoritmos para serem comparados.

## Upload do arquivo
Para realizar o upload do arquivo, deve seguir o seguinte modelo para leitura correta do algoritmo:

| Linguagem  | Tipo_Algoritmo  | Codigo  |
|------------|---------------|---------|
| Linguagem de Programação escolhida      | O algoritmo (Exemplo: MergeSort, InsertionSort)         | Codigo completo escrito na linguagem escolhida   |

Você pode encontrar um exemplo do CSV usado por esse notebook para comparação dos algoritmos: /kaggle/input/algoritmos-de-ordnacao/algoritmos_base.csv

## Utilizando a Gemini API
Com a Gemini API, podemos utilizar de vários modelos providos pela API com simples execuções e formatar o retorno da IA para análise e sugestões de mudanças, além de criar um prompt eficiente para cumprir nosso objetivo.

O modelo escolhido para esse projeto é o Gemini-1.5 PRO, onde segundo a documentação do Gemini API, é o mais indicado para tarefas complexas como análise e escrita de código

In [None]:
%pip install -U -q "google-generativeai>=0.8.3"

In [None]:
import google.generativeai as genai
import csv
from IPython.display import HTML, Markdown, display

**Chave de API do Google**

Para conseguir uma chave de API para usar a Gemini API, pode encontrar [aqui](https://aistudio.google.com/app/apikey).

In [None]:
from kaggle_secrets import UserSecretsClient

GOOGLE_API_KEY = UserSecretsClient().get_secret("GOOGLE_API_KEY")
genai.configure(api_key=GOOGLE_API_KEY)

In [None]:
aiModel = genai.GenerativeModel('gemini-1.5-pro')

### Lendo o arquivo de algoritmos
Nessa etapa, crie uma secret no Kaggle com o caminho do arquivo de dataset para os algoritmos que irão ser usados.

Exemplo: /kaggle/input/algoritmos-de-ordnacao/algoritmos_base.csv

In [None]:
pathAlgoritmos = UserSecretsClient().get_secret("PATH_ALG_BASE")

In [None]:
class AlgToAnalysis:
    def __init__(self, linguagem, tipo, codigo):
        self.linguagem = linguagem
        self.tipo = tipo
        self.codigo = codigo
    def __repr__(self):
        return f"AlgToAnalysis(linguagem='{self.linguagem}', tipo='{self.tipo}', codigo='{self.codigo}')"

algoritmos = []

# Ler o CSV e mapear para objetos
with open(pathAlgoritmos, newline='', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        algoritmo = AlgToAnalysis(row['Linguagem'], row['Tipo_Algoritmo'], row['Codigo'])
        algoritmos.append(algoritmo)

## Geração do prompt com base na linguagem

In [None]:
prompt = ("""Com base no array de linguagens a seguir, gere uma lista em que cada item da lista vai ter uma linha com:\n
A linguagem da programação, qual o algoritmo (será algum algoritmo de ordenação), uma análise precisa do desempenho do código em termos de computação e sustentabilidade\n
e propostas de sugestão para melhorar o código para menor gasto de CPU, menor gasto energético em prol da sustentabilidade e eficiência.\n
Independente se os algoritmos seguem a mesma lógica, a lista deve estar completa com cada linha do CSV.\n
Array: """ +  "\n".join(map(str, algoritmos))
)

response = aiModel.generate_content(prompt)
Markdown(response.text)