Complexidade e eficiência
=========================

**Autor:** Daniel R. Cassar



## Introdução



Dado um certo problema, existem diversas formas de escrever um algoritmo de computador que resolve esse problema de maneira correta.

Nós vivemos em um momento bastante peculiar, onde o poder de processamento dos nossos computadores pessoais é razoavelmente grande. Isso quer dizer que muitas vezes podemos nos dar o luxo de não nos preocuparmos sobre a *eficiência* dos algoritmos que escrevemos, uma vez que fará pouca diferença para nós se nosso código rodar em poucos segundos ou alguns minutos&#x2026; o que costuma importar para nós é apenas que o algoritmo entregue o resultado correto.

Em certas situações, no entanto, não queremos esperar! Imagina se seu GPS demorasse 5 minutos para recalcular uma rota caso você tenha entrado na rua errada&#x2026; isso é considerado inaceitável nos dias de hoje. Imagina se o seu resultado de busca no seu site de buscas favorito demorasse 5 minutos para ser exibido&#x2026; Imagina se a resposta de um modelo de linguagem (ChatGPT, por exemplo) demorasse 1 hora para ficar pronta&#x2026;

Em outras situações, não *podemos* esperar! O algoritmo que cuida dos voos de aviões em aeroportos deve ser rápido o suficiente para evitar acidentes. O algoritmo que os bancos usam deve ser rápido o suficiente para evitar que transações financeiras fraudulentas sejam realizadas.



## Complexidade



O cerne da **complexidade de algoritmos** é quantificar o quanto um algoritmo consome de recursos quando há um aumento no tamanho do dado de entrada.

Complexidade não está relacionada com o **tempo absoluto de execução** (isso será visto na próxima seção).

Uma analogia seria: dentro do estudo de complexidade, não estamos preocupados com o tempo e os ingredientes que gastamos para fazer um bolo para 10 pessoas, mas sim com a forma que o tempo e os ingredientes *aumentam* em função do aumento do número de pessoas que devem ser atendidas pelo bolo.

Existem dois tipos principais de complexidade:

-   **Complexidade de tempo**: relacionada com a forma que o *número de operações* aumenta com o aumento do tamanho do dado de entrada

-   **Complexidade de memória**: relacionada com a forma que a *memória de armazenamento necessária* aumenta com o aumento do tamanho do dado de entrada

Neste notebook, focaremos na complexidade de tempo.



### Complexidade de tempo linear



O algoritmo abaixo encontra o valor máximo em uma lista de valores.

<hr>

**Problema**: encontrar o valor máximo em uma lista de números.

**Entrada**: uma lista de números.

**Saída**: um número representando o valor máximo da lista de entrada.

**Algoritmo**:



In [None]:
def encontra_maximo(lista):
    '''Retorna o valor máximo de uma lista de valores numéricos.'''

    candidato = lista[0]

    for numero in lista:
        if numero > candidato:
            candidato = numero

    valor_maximo = candidato

    return valor_maximo

<hr>

Para fins puramente didáticos, vamos modificar um pouco o algoritmo para contar quantas vezes nós entramos no laço de repetição. Vamos registrar essa informação em uma variável chamada `contador`.



In [None]:
def encontra_maximo(lista):
    '''Retorna o valor máximo de uma lista de valores numéricos.'''

    contador = 0
    candidato = lista[0]

    for numero in lista:
        contador += 1
        if numero > candidato:
            candidato = numero

    valor_maximo = candidato

    return valor_maximo, contador

Com essa modificação, agora podemos responder a seguinte pergunta: *como a função `encontra_maximo` se comporta quando aumentamos o tamanho do argumento* `lista`?

Podemos investigar essa questão com um laço de repetição e instrução `print`.



In [None]:
for tamanho_da_lista in [10, 100, 1000, 1000000]:

    lista = [0] * tamanho_da_lista
    maximo, contador = encontra_maximo(lista)

    print(
        f"Uma lista de tamanho {len(lista)} itens "
        f"entrou no laço {contador} vezes"
    )

Podemos investigar visualmente também.



In [None]:
import seaborn as sns

x = list(range(1, 1000))
y = [encontra_maximo([0] * n)[1] for n in x]

eixo = sns.lineplot(x=x, y=y)

eixo.set_xlabel("Tamanho da lista de entrada")
eixo.set_ylabel("Contador");

Percebeu o padrão? Uma lista de tamanho $n$ entra no laço de repetição do algoritmo $n$ vezes! A ação de entrar no laço e executar o código lá dentro pode ser até considerada rápida, porém certamente não é instantânea. Como essa é a ação mais custosa do nosso algoritmo, dizemos que este algoritmo executa sua tarefa em **tempo linear**. Em outras palavras, o tempo de execução deste algoritmo aumenta linearmente com o aumento do tamanho da lista de entrada.



### Complexidade de tempo constante



Existem algoritmos *menos* complexos do que os de tempo linear. O algoritmo abaixo, por exemplo, encontra o primeiro elemento de uma lista.

<hr>

**Problema**: encontrar o primeiro elemento de uma lista.

**Entrada**: uma lista com pelo menos um elemento.

**Saída**: um objeto de Python que representa o primeiro elemento da lista de entrada.

**Algoritmo**:



In [None]:
def encontra_primeiro(lista):

    primeiro_elemento = lista[0]

    return primeiro_elemento

<hr>

Para fins puramente didáticos, vamos modificar um pouco o algoritmo para contar quantas vezes nós executamos a ação mais interna do algoritmo. Vamos registrar essa informação em uma variável chamada `contador`.



In [None]:
def encontra_primeiro(lista):

    contador = 0

    primeiro_elemento = lista[0]

    contador += 1

    return primeiro_elemento, contador

Com essa modificação, agora podemos responder a seguinte pergunta: *como a função `encontra_primeiro` se comporta quando aumentamos o tamanho do argumento* `lista`?

Podemos investigar esta questão com um laço de repetição e instrução `print`.



In [None]:
for tamanho_da_lista in [10, 100, 1000, 1000000]:

    lista = [0] * tamanho_da_lista
    primeiro_valor, contador = encontra_primeiro(lista)

    print(
        f"Uma lista de tamanho {len(lista)} itens "
        f"resultou em um contador de: {contador}"
    )

Podemos investigar visualmente também.



In [None]:
import seaborn as sns

x = list(range(1, 1000))
y = [encontra_primeiro([0] * n)[1] for n in x]

eixo = sns.lineplot(x=x, y=y)

eixo.set_xlabel("Tamanho da lista de entrada")
eixo.set_ylabel("Contador");

Percebeu o padrão? O valor do contador *independe* do tamanho da lista de entrada. Dizemos que este algoritmo executa sua tarefa em **tempo constante**.



### Complexidade de tempo polinomial



Existem algoritmos *mais complexos* do que os de tempo linear. O algoritmo abaixo, por exemplo, encontra os índices duplicados de uma lista.

<hr>

**Problema**: encontrar os índices dos números duplicados em uma lista.

**Entrada**: uma lista numérica.

**Saída**: uma lista com tuplas indicando os índices dos elementos duplicados

**Algoritmo**:



In [None]:
def indices_duplicados(lista):
    """Retorna os índices dos itens duplicados em uma lista"""

    indice_dos_duplicados = []

    for i in range(len(lista)):
        for j in range(len(lista)):

            if i != j and lista[i] == lista[j]:
                indice_dos_duplicados.append((i, j))

    return indice_dos_duplicados

<hr>

Para fins puramente didáticos, vamos modificar um pouco o algoritmo para contar quantas vezes nós entramos no laço de repetição mais profundo. Vamos registrar essa informação em uma variável chamada `contador`.



In [None]:
def indices_duplicados(lista):
    """Retorna os índices dos itens duplicados em uma lista"""

    contador = 0
    indice_dos_duplicados = []

    for i in range(len(lista)):
        for j in range(len(lista)):

            contador += 1

            if i != j and lista[i] == lista[j]:
                indice_dos_duplicados.append((i, j))

    return indice_dos_duplicados, contador

Com essa modificação, agora podemos responder a seguinte pergunta: *como a função `indices_duplicados` se comporta quando aumentamos o tamanho do argumento* `lista`?

Podemos investigar esta questão com um laço de repetição e instrução `print`.



In [None]:
for tamanho_da_lista in [10, 100, 1000]:

    lista = [0] * tamanho_da_lista
    indices, contador = indices_duplicados(lista)

    print(
        f"Uma lista de tamanho {len(lista)} itens "
        f"entrou no laço mais interno {contador} vezes"
    )

Podemos investigar visualmente também.



In [None]:
import seaborn as sns

x = list(range(1, 100))
y = [indices_duplicados([0] * n)[1] for n in x]

eixo = sns.lineplot(x=x, y=y)

eixo.set_xlabel("Tamanho da lista de entrada")
eixo.set_ylabel("Contador");

Percebeu o padrão? Como vemos no teste acima, uma lista com $n$ elementos entra no laço mais interno $n^2$ vezes!! Dizemos que esse algoritmo executa sua tarefa em **tempo polinomial**.



### Notação do $O$ grande



Em termos de complexidade, um algoritmo que executa sua tarefa em tempo linear é (geralmente) preferível do que um algoritmo que executa sua tarefa em tempo polinomial. Melhor ainda que estes dois tipos de algoritmos, é o que executa sua tarefa em tempo constante. Existem outras complexidades de algoritmos como veremos abaixo.

O conceito por trás do que discutimos nesta seção é a análise da **complexidade de algoritmos**. Existem diversas formas de calcular a complexidade de algoritmos, sendo que a mais famosa é a notação $O$ grande (*big* $O$, em inglês).

Uma visão matemática sobre a notação $O$ grande pode ser encontrada no capítulo 3 da referência [1]. Uma introdução amigável sobre este tema pode ser vista no vídeo da referência [2].

Veja abaixo como representar as complexidades estudadas na notação $O$ grande:

-   Complexidade de tempo constante: $O(1)$
-   Complexidade de tempo linear: $O(n)$
-   Complexidade de tempo polinomial quadrático: $O(n^2)$
-   Complexidade de tempo polinomial cúbico: $O(n^3)$

Conceitos importantes para se ter em mente:

-   A notação $O$ grande considera sempre o **pior caso possível**. Neste sentido, um algoritmo para buscar um certo item em uma lista pode ter a &ldquo;sorte&rdquo; deste item ser logo o primeiro da lista. Para a notação $O$ grande, devemos considerar a situação mais &ldquo;azarada&rdquo; possível, isto é, o item desejado é o último da lista e vamos ter que procurar do início ao fim até encontrar o item desejado.

-   A notação $O$ grande apresenta apenas o **termo dominante**. Isto é, não escrevemos $O(n^2 + 3n -2)$, mas sim apenas $O(n^2)$ pois é o termo dominante.

-   A notação $O$ grande **ignora constantes**. Isto é, não escrevemos $O(10 n^3)$, mas sim $O(n^3)$.

O código abaixo foi gerado com auxílio do Gemini [3] e mostra o comportamento de algoritmos com diferentes complexidades.



In [None]:
import numpy as np
import pandas as pd
from scipy.special import gamma

n = np.linspace(1, 100, 400)

constante = np.ones_like(n)
logaritmico = np.log(n)
linear = n
linearitmico = n * np.log(n)
polinomial = n**2
exponencial = 2**n
fatorial = gamma(n+1)

df = pd.DataFrame(
    {
        "Tamanho entrada (n)": n,
        "O(1) - Constante": constante,
        "O(log(n)) - Logarítmico": logaritmico,
        "O(n) - Linear": linear,
        "O(n log(n)) - Linearítmico": linearitmico,
        "O($n^2$) - Polinomial": polinomial,
        "O($2^n$) - Exponencial": exponencial,
        "O(n!) - Fatorial": fatorial,
    }
)

df = pd.melt(
    df,
    id_vars=["Tamanho entrada (n)"],
    var_name="Complexidade",
    value_name="Operações",
)

eixo = sns.lineplot(
    data=df,
    x="Tamanho entrada (n)",
    y="Operações",
    hue="Complexidade",
)

eixo.set_xlabel("Tamanho entrada (n)")
eixo.set_ylabel("Número de operações")
eixo.legend(title="Complexidade", loc=1)
eixo.set_xlim(0, 100)
eixo.set_ylim(0, 1e2);

## Eficiência



Enquanto a complexidade de algoritmos é um conceito mais matemático/teórico, a **eficiência de algoritmos** é uma medida mais *prática*. Dado um mesmo contexto (um mesmo computador, por exemplo), um algoritmo que realiza uma tarefa em menos tempo é mais eficiente temporalmente do que um que demora mais para realizar esta tarefa.

Assim como complexidade, podemos medir a eficiência de algoritmos também com relação a memória necessária para a execução dos mesmos.

Vamos retornar para nossa função que encontra o valor máximo.

<hr>

**Problema**: encontrar o valor máximo em uma lista de números.

**Entrada**: uma lista de números.

**Saída**: um número representando o valor máximo da lista de entrada.

**Algoritmo**:



In [None]:
def encontra_maximo(lista):
    '''Retorna o valor máximo de uma lista de valores numéricos.'''

    candidato = lista[0]

    for numero in lista:
        if numero > candidato:
            candidato = numero

    valor_maximo = candidato

    return valor_maximo

<hr>

Podemos medir o tempo que essa função demora para executar usando o módulo `timeit`. Veja o exemplo abaixo e observe como o tempo aumenta quando aumentamos o tamanho da lista.



In [None]:
import timeit

for tamanho_da_lista in [10, 100, 1000, 1000000]:

    lista = [0] * tamanho_da_lista

    tempo_inicio = timeit.default_timer()
    maximo = encontra_maximo(lista)
    tempo_fim = timeit.default_timer()

    tempo_gasto = tempo_fim - tempo_inicio

    print(
        f"Uma lista de tamanho {len(lista)} itens "
        f"demorou {tempo_gasto} segundos"
    )

O tempo gasto para executar um código pode variar por diversos fatores. Uma estratégia interessante é medir o tempo várias vezes e observar as estatísticas dessa distribuição (como a média e o desvio padrão dos tempos gastos). Uma forma de fazer isso é com um laço de repetição.



In [None]:
import statistics

TAMANHO_DA_LISTA = 1000
NUM_REPETICOES = 100

lista = [0] * TAMANHO_DA_LISTA

tempos_gastos = []

for _ in range(NUM_REPETICOES):

    tempo_inicio = timeit.default_timer()
    maximo = encontra_maximo(lista)
    tempo_fim = timeit.default_timer()

    tempos_gastos.append(tempo_fim - tempo_inicio)

media = statistics.mean(tempos_gastos)
desvio_padrao = statistics.stdev(tempos_gastos)

print(f"Tempo gasto: {media} +- {desvio_padrao} segundos")

## XKCD relevante



![img](https://imgs.xkcd.com/comics/efficiency.png)

`Imagem: Efficiency (XKCD) disponível em https://xkcd.com/1445`



## Referências



1.  CORMEN, Thomas H. Algoritmos - Teoria e Prática. 2012.

2.  Vídeo sobre notação $O$ grande [https://www.youtube.com/watch?v=X_6LTVkymVM](https://www.youtube.com/watch?v=X_6LTVkymVM)

3.  Gemini [https://gemini.google.com](https://gemini.google.com)

