In [88]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Laços encaixados e uma introdução à sua otimização

### Exercício: _Dada uma sequência arbitrária de inteiros não-negativos, encontrar o par mais próximo_
Ler uma sequência arbitrária de inteiros não-negativos $S$ e ___depois___ encontrar $a \in S$ e $b \in S$, $a \ne b$, tais que a distância entre eles, isto é,  $\lvert a - b \rvert$, seja mínima.

In [None]:
from random import choices
from time import time

for p in range(1, 5):
    n = 10 ** p
    tst = choices(range(1000000), k=n)

    start = time()

    
    
    
    
    
    
    end = time()
    print(f'{n:7} {end - start:10.5f} {min_i:6}  {tst[min_i]:6} ' +
          f'{min_j:6}  {tst[min_j]:6}  {min_dist:6}')

##### Solução

In [4]:
from random import choices
from time import time

for p in range(1, 5):
    n = 10 ** p
    tst = choices(range(1000000), k=n)

    start = time()
    min_a, min_b, min_dist = 0, 0, 10000000000
    for i in range(len(tst)):
        a = tst[i]
        for j in range(len(tst)):
            b = tst[j]
            if (a != b) and (abs(a - b) < min_dist):
                min_i, min_j, min_dist = i, j, abs(a - b)
    end = time()
    print(f'{n:7} {end - start:10.5f} {min_i:6}  {tst[min_i]:6} ' +
          f'{min_j:6}  {tst[min_j]:6}  {min_dist:6}')

     10    0.00004      1  633625      9  656754   23129
    100    0.00300      7   71775     79   71675     100
   1000    0.27157     81  803368     89  803366       2
  10000   26.08168     27  582301   3050  582300       1


A primeira coluna dos resultados é o tamanho da amostra, a segunda é o tempo gasto na solução do problema. O que você consegue observar?

Será possível melhorar esse desempenho?

-   Como tanto $i$ quanto $j$ assumem valores em `range(len(tst))` estamos testando $\vert\, a - b \,\vert$ e também $\vert\, b - a \,\vert$.  
    Deve ser possível eliminar o teste redundante. Você consegue fazer isso?

In [16]:
from random import choices
from time import time

for p in range(1, 5):
    n = 10 ** p
    tst = choices(range(1000000), k=n)

    start = time()

    
    
    
    
    
    
    end = time()
    print(f'{n:7} {end - start:10.5f} {min_i:6}  {tst[min_i]:6} ' +
          f'{min_j:6}  {tst[min_j]:6}  {min_dist:6}')

     10    0.00002      3  222315      9  232247    9932
    100    0.00113     81  995298     82  995755     457
   1000    0.13115    349  185199    887  185198       1
  10000   13.35210     32  905734   8088  905733       1


##### Solução

In [16]:
from random import choices
from time import time

for p in range(1, 5):
    n = 10 ** p
    tst = choices(range(1000000), k=n)

    start = time()
    min_a, min_b, min_dist = 0, 0, 10000000000
    for i in range(len(tst)):
        a = tst[i]
        for j in range(i + 1, len(tst)):
            b = tst[j]
            if (a != b) and (abs(a - b) < min_dist):
                min_i, min_j, min_dist = i, j, abs(a - b)
    end = time()
    print(f'{n:7} {end - start:10.5f} {min_i:6}  {tst[min_i]:6} ' +
          f'{min_j:6}  {tst[min_j]:6}  {min_dist:6}')

     10    0.00002      3  222315      9  232247    9932
    100    0.00113     81  995298     82  995755     457
   1000    0.13115    349  185199    887  185198       1
  10000   13.35210     32  905734   8088  905733       1


Melhorou, mas, ainda assim, quando o tamanho da amostra cresce 10 vezes, o tempo gasto cresce 100. Isto pode inviabilizar o uso desta solução para grandes amostras.

Você consegue identificar onde está essa demora e por que ela acontece?

-   O problema é que temos dois _loops_ aninhados percorrendo a amostra. Para cada valor do _loop_ externo, o _loop_ interno faz uma varredura completa, isto é, examina da ordem de $n$ valores. O _loop_ externo também examina $n$ valores.  
    Portanto, para uma amostra de tamanho $n$, os dois _loops_ combinados realizam da ordem de $n^2$ operações, o que explica o comportamento do algoritmo. 

Não importa o que a gente faça, se continuarmos com dois _loops_ aninhados como esses, o tempo gasto na solução será da ordem de $n^2$.

Para mudar esse comportamento, temos que mudar a nossa abordagem.

Você consegue pensar em algum caso particular no qual a solução do problema seria mais simples?

-   Se a lista estivesse ordenada, isso nos ajudaria?  
    Sim, porque aí o par mais próximo seria sempre composto por dois elementos adjacentes.

-   E daí?
    Daí, nós poderíamos dispensar o _loop_ interno.

Como a lista pode não estar ordenada, vamos ordená-la usando uma função disponível em Python.  
O tempo gasto por um bom algoritmo para ordenar uma lista com $n$ elementos é da ordem de $n \cdot \log_2 n$.

Você consegue incorporar essas alterações à nossa solução?

In [40]:
from random import choices
from time import time

for p in range(1, 8):
    n = 10 ** p
    tst = choices(range(10000000), k=n)

    start = time()
    tst.sort()

    
    
    
    
    
    
    end = time()
    print(f'{n:8} {end - start:10.5f} {min_i:7} {tst[min_i]:8} ' +
          f'{min_j:8} {tst[min_j]:8} {min_dist:8}')

      10    0.00007       3  4959745        4  5035636    75891
     100    0.00005       9  1094424       10  1094763      339
    1000    0.00076     944  9420446      945  9420449        3
   10000    0.01046      55   148287       56   148288        1
  100000    0.06930      68   105460       69   105461        1
 1000000    1.04577      12   100113       13   100114        1
10000000   14.02315       1   100000        2   100001        1


##### Solução

In [40]:
from random import choices
from time import time

for p in range(1, 8):
    n = 10 ** p
    tst = choices(range(10**7), k=n)

    start = time()
    tst.sort()
    min_dist = 10**10
    for j in range(1, len(tst)):
        i = j -1
        a = tst[i]
        b = tst[j]
        if (a != b) and (abs(a - b) < min_dist):
            min_i, min_j, min_dist = i, j, abs(a - b)
    end = time()
    print(f'{n:8} {end - start:10.5f} {min_i:7} {tst[min_i]:8} ' +
          f'{min_j:8} {tst[min_j]:8} {min_dist:8}')

      10    0.00007       3  4959745        4  5035636    75891
     100    0.00005       9  1094424       10  1094763      339
    1000    0.00076     944  9420446      945  9420449        3
   10000    0.01046      55   148287       56   148288        1
  100000    0.06930      68   105460       69   105461        1
 1000000    1.04577      12   100113       13   100114        1
10000000   14.02315       1   100000        2   100001        1


Nosso algoritmo agora passa a ter um bom desempenho, mesmo para grandes valores de $n$.  
E basta um pequeno ajuste para que ele fique com uma aparência mais _pythonica_...

In [6]:
from random import choices
from time import time

for p in range(1, 8):
    n = 10**p
    tst = choices(range(10**7), k=n)

    start = time()
    tst.sort()
    min_dist = 10**10
    a = tst[0]
    for b in tst[1:]:
        if (a != b) and (b - a < min_dist):
            min_a, min_b, min_dist = a, b, b - a
        a = b
    end = time()
    print(f'{n:8} {end - start:10.5f} {min_a:8} {min_b:8} {min_dist:8}')

      10    0.00002  9278242  9286273     8031
     100    0.00004  9396142  9397393     1251
    1000    0.00038  7421965  7421986       21
   10000    0.00492   485024   485025        1
  100000    0.04316     1849     1850        1
 1000000    0.92756        6        7        1
10000000   14.00294        2        3        1


### Exercício: _Gerar todos os números primos menores que um valor dado_
Ler um inteiro $n$ e criar uma lista com todos os números primos menores do que $n$.

Este problema pode ser resolvido por _enumeração exaustiva_. Vamos tentar?

In [None]:
# ler n
primos = []

for k in range(n):
    # verificar se k é primo:
    # se k for primo, adicionar k à lista de primos
print(primos)

In [None]:
# ler n
n = int(input('Primos até quanto? '))

In [None]:
# se k é primo...






In [51]:
# ler n
n = int(input('Primos até quanto? '))
primos = []

for k in range(2, n):
    # testar se k é primo
    k_eh_primo = True
    for d in range(2, k):
        if k % d == 0:
            k_eh_primo = False
    # se k for primo, adicionar k à lista primos

    
print(primos)

Primos até quanto? 20
[2, 3, 5, 7, 11, 13, 17, 19]


##### Solução

In [None]:
# ler n
n = int(input('Primos até quanto? '))

In [None]:
# se k é primo...

k_eh_primo = True
for d in range(2, k):
    if k % d == 0:
        k_eh_primo = False

In [51]:
# ler n
n = int(input('Primos até quanto? '))
primos = []

for k in range(2, n):
    # testar se k é primo
    k_eh_primo = True
    for d in range(2, k):
        if k % d == 0:
            k_eh_primo = False
    # se k for primo, adicionar k à lista primos
    if k_eh_primo:
        primos.append(k)
print(primos)

Primos até quanto? 20
[2, 3, 5, 7, 11, 13, 17, 19]


Será que esse algoritmo funciona bem para qualquer tamanho de amostra?

Você consegue antecipar uma resposta antes de testá-lo?  
Por que?

In [7]:
from time import time


for p in range(1, 5):
    n = 10**p
    
    start = time()
    primos = []

    for k in range(2, n):
        # testar se k é primo
        k_eh_primo = True
        for d in range(2, k):
            if k % d == 0:
                k_eh_primo = False
        # se k for primo, adicionar k à lista primos
        if k_eh_primo:
            primos.append(k)
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00001      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00042     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.04636    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    4.27158   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]


Com os dois _loops_ aninhados, o tempo gasto por este algoritmo para examinar $n$ candiadatos é da ordem de $n^2$, o que o torna impraticável para grandes valores de $n$. 

Podemos melhorar esse desempenho, se lembrarmos de que:

-   O único primo par é $2$ e, portanto, podemos examinar apenas candidatos ímpares.
-   Como os candidatos serão ímpares, não faz sentido tentar dividi-los por números pares, o que também reduz o número de divisores à metade.

Vamos incorporar essas alterações ao nosso algoritmo.

In [8]:
from time import time


for p in range(1, 5):
    n = 10**p
    
    start = time()
    primos = [2]

    for k in range(3, n, 2):
        # testar se k é primo
        k_eh_primo = True
        for d in range(3, k, 2):
            if k % d == 0:
                k_eh_primo = False
        # se k for primo, adicionar k à lista primos
        if k_eh_primo:
            primos.append(k)
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00002      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00015     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.01467    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    1.05082   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]


O desempenho melhorou, mas mudou a sua relação com $n$?  
Por que?

Você consegue pensar em alguma melhoria simples?  
Você está satisfeito com os limites dos _loops_?

-   É possível limitar a `range` do _loop_ interno a $\sqrt{n}$.  
    Por que?

In [9]:
from time import time


for p in range(1, 7):
    n = 10**p
    
    start = time()
    primos = [2]

    for k in range(3, n, 2):
        # testar se k é primo
        k_eh_primo = True
        for d in range(3, int(k**0.5) + 1, 2):
            if k % d == 0:
                k_eh_primo = False
        # se k for primo, adicionar k à lista primos
        if k_eh_primo:
            primos.append(k)
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00002      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00004     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00063    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.01731   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000    0.43091   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]
 1000000   14.79425  78498 [2, 3, 5, 7, 11, 13] [999931, 999953, 999959, 999961, 999979, 999983]


O desempenho já melhorou bastante e talvez seja suficiente para um grande número de aplicações.  
Mas, e se quiséssemos algo mais rápido?

Podemos tentar outra abordagem.  
Por exemplo, criar uma lista de _não primos_ e, a partir dela, derivar uma lista de _primos_.

Para criar a lista de _não primos_, para cada candidato $k$ vamos colocar na lista todos os seus múltiplos ímpares.

In [19]:
from time import time


for p in range(1, 6):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    nao_primos = []

    for k in range(3, raiz_n, 2):
        for ik in range(3*k, n, 2*k):
            nao_primos.append(ik)
            
    primos = [2]
    for p in range(3, n, 2):
        if p not in nao_primos:
            primos.append(p)
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00144      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00003     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00241    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.23329   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000   24.40503   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]


O desempenho piorou bastante... o que terá acontecido?

-   Você consegue ver quantos _loops_ __explícitos__ e __implícitos__ existem agora na nossa solução?  
    Será possível melhorar isso?
-   Examine as _ranges_ dos _loops_?  
    Há algo estranho? Algo que possa ser melhorado?

Vamos exibir também o número de elementos na lista de *não primos*.  
Veja se isso ajuda...

In [21]:
from time import time


for p in range(1, 6):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    nao_primos = []

    for k in range(3, raiz_n, 2):
        for ik in range(3*k, n, 2*k):
            nao_primos.append(ik)
            
    primos = [2]
    for p in range(3, n, 2):
        if p not in nao_primos:
            primos.append(p)
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(nao_primos):8} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.01715        1      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00004       36     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00240      668    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.22353     9639   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000   26.73204   125493   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]


Você vê algo estranho?  

Observe o comprimento da lista de _não primos_.  
Faz sentido? O que terá causado isso?

Veja o que fazemos nos _loops_ das linhas 11 e 12.  
Para cada $k$ na faixa $\left[\,3, 5, \ldots \sqrt{n}\,\right]$ colocamos todos os seus múltiplos na lista de _não primos_.  

Pense no que acontece para $k = 3, 5$ e $7$.  
Agora pense no que acontece para $k = 9$.  
Nós vamos acrescentar à lista todos os múltiplos de $9$. Mas eles já estão lá porque todos são múltiplos de $3$. Nossa lista de _não primos_ cresce desnecessariamente. E isso vai nos prejudicar severamente quando formos usá-la para buscar `p` na linha 17.

Veja o que acontece quando trocamos _listas_ por _conjuntos_ nesse mesmo algoritmo.

In [20]:
from time import time


for p in range(1, 7):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    nao_primos = set()

    for k in range(3, raiz_n, 2):
        for ik in range(3*k, n, 2*k):
            nao_primos.add(ik)
            
    primos = [2]
    for p in range(3, n, 2):
        if p not in nao_primos:
            primos.append(p)
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(nao_primos):8} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00147        1      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00002       25     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00019      332    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.00237     3771   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000    0.03653    40408   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]
 1000000    0.52338   421502  78498 [2, 3, 5, 7, 11, 13] [999931, 999953, 999959, 999961, 999979, 999983]


Além de ser menor, a representação de `nao_primos` como _conjunto_ ao invés de _lista_ leva uma grande vantagem na hora dos testes de pertinência na linha 17.

A desvantagem da _lista_ pode ser revertida se adotarmos a estratégia do _crivo de Eratóstenes_:

1.  Criamos uma lista com todos os candidatos possíveis.
1.  Percorremos a lista da esquerda para a direita e, para cada candidato, eliminamos todos os seus múltiplos.
1.  Ao chegar ao final, todos os candidatos remanescentes serão primos.

Para evitar o custo da _eliminação_ dos múltiplos, vamos apenas marcá-los como _não primos_.  
Para isso criamos uma lista cujos elementos são todos `True` e convertemos esse valor para `False` quando o elemento é eliminado.

Vamos ver como fica...

In [86]:
from time import time


for p in range(1, 7):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    crivo = [True] * n
    for k in range(3, raiz_n, 2):
        if crivo[k]:
            for i in range(k*k, n, 2*k):
                crivo[i] = False
    primos = [2] + [i for i in range(3, n, 2) if crivo[i]]
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.05937      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00001     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00008    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.00206   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000    0.01181   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]
 1000000    0.13580  78498 [2, 3, 5, 7, 11, 13] [999931, 999953, 999959, 999961, 999979, 999983]


In [83]:
from time import time


for p in range(1, 7):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    crivo = [True] * n
    for k in range(3, raiz_n, 2):
        if crivo[k]:
            crivo[k*k::2*k] = [False] * ((n - 1 - k * k) // (2 * k) + 1)
    primos = [2] + [i for i in range(3, n, 2) if crivo[i]]
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00001      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00001     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00010    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.00657   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000    0.00613   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]
 1000000    0.06205  78498 [2, 3, 5, 7, 11, 13] [999931, 999953, 999959, 999961, 999979, 999983]


In [83]:
from time import time


for p in range(1, 7):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    crivo = [True] * n
    for k in range(3, raiz_n, 2):
        if crivo[k]:
            crivo[k*k::2*k] = [False] * ((n - 1 - k * k) // (2 * k) + 1)
    primos = [2] + [i for i in range(3, n, 2) if crivo[i]]
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00001      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00001     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00010    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.00657   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000    0.00613   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]
 1000000    0.06205  78498 [2, 3, 5, 7, 11, 13] [999931, 999953, 999959, 999961, 999979, 999983]


In [78]:
from time import time


for p in range(1, 7):
    n = 10**p
    raiz_n = int(n**0.5) + 1
    
    start = time()
    crivo = [True] * (n // 2)
    for k in range(3, raiz_n, 2):
        if crivo[k // 2]:
            crivo[k*k//2::k] = [False] * ((n-k*k-1)//(2*k)+1)
    primos = [2] + [2 * i + 1 for i in range(1, n // 2) if crivo[i]]
    end = time()
    
    print(f'{n:8} {end - start:10.5f} {len(primos):6} {primos[:6]} {primos[-6:]}')

      10    0.00190      4 [2, 3, 5, 7] [2, 3, 5, 7]
     100    0.00001     25 [2, 3, 5, 7, 11, 13] [71, 73, 79, 83, 89, 97]
    1000    0.00005    168 [2, 3, 5, 7, 11, 13] [967, 971, 977, 983, 991, 997]
   10000    0.00098   1229 [2, 3, 5, 7, 11, 13] [9929, 9931, 9941, 9949, 9967, 9973]
  100000    0.00392   9592 [2, 3, 5, 7, 11, 13] [99923, 99929, 99961, 99971, 99989, 99991]
 1000000    0.05907  78498 [2, 3, 5, 7, 11, 13] [999931, 999953, 999959, 999961, 999979, 999983]
