# Aula 2 - Listas e conjuntos em Python

## Objetivos:
- Revisar listas (`list`) em Python
- Testar o tempo de execução das quatro operações (leitura, busca, inserção, deleção) em listas
- Revisar conjuntos (`set`) em Python
- Testar o tempo de execução das quatro operações (leitura, busca, inserção, deleção) em conjuntos

## Estruturas de dados em Python
São várias as estruturas de dados em Python que já vêm implementadas com a linguagem. As mais comuns são as strings, as listas, as tuplas, os dicionários e os conjuntos. As três primeira são também chamadas de ordenadas ou sequências por serem indexadas (não confundir com possuirem os elementos em ordem). As duas últimas são chamadas de não ordenadas, ou seja, não são sequências, já que não são indexadas. Nesta aula nos interessam as listas e os conjuntos.

## Listas (`list`)

Uma lista em Python é uma coleção ordenada (indexada) de zero ou mais referências a objetos Python. São sequências com índice começando em zero. Além disso, elas são heterogêneas, isto é, admitem objetos de tipos diferentes, e são mutáveis, ou seja, podem ser alteradas em tempo de execução. Uma lista é definida por colchetes e seus elementos são separados por vírgula:

    []                # lista vazia
    [1, 3, True, 6.5] # lista com quatro elementos de tipos diferentes

As sequências em Python (strings, listas e tuplas) possuem diversas operações que são comuns entre elas. Para duas sequências qualquer chamadas `a_seq` e `b_seq`, temos:
- Indexação: `a_seq[i]` acessa um elemento da sequência na posição (índice) `i`
- Concatenação: `a_seq + b_seq` combina sequências em uma só, gerando um nova sequência
- Repetição: `3 * a_seq` concatena a sequência um número repetido de vezes, gerando uma nova sequência
- Pertencimento: `e in a_seq` pergunta se um item `e` está na sequência
- Comprimento: `len(a_seq)` pergunta o número de elementos da sequência
- Fatiamento: `a_seq[i:j]` extrai parte da sequência do índice `i` até o índice `j-1`, sendo que `i` e `j` podem ser emitidos e podem ser números negativos (consultar documentação)

Para uma lista os seguintes métodos ou operações são possíveis:
- Inserção: `a_list.append(item)` adiciona `item` ao final da lista
- Concatenção: `a_list.extend(b_list)` concatena `b_list` a `a_list`
- Inserção: `a_list.insert(i,item)` insere `item` na `i`ésima posição da lista
- Deleção: `a_list.pop()` remove e devolve o último elemento da lista
- Deleção:`a_list.pop(i)` remove e devolve o `i`ésimo elemento da lista
- Ordenação: `a_list.sort()` modifica uma lista para que fique ordenada
- Ordenação: `a_list.reverse()` modifica uma lista para ficar na ordem reversa
- Deleção: `del a_list[i]` remove o elemento na `i`ésima posição
- Busca: `a_list.index(item)` devolve o índice da primeira ocorrência de `item`
- Contagem: `a_list.count(item)` conta o número de ocorrências de `item`
- Deleção: `a_list.remove(item)` remove a primeira ocorrência de `item`

Python permite a criação compacta de listas por meio de abrangências de listas (*list comprehension*). Por exemplo, a criação de uma lista em que os elementos são o quadrado dos elementos de outra lista pode ser feita por meio de um laço de repetição:

    >>> numbers = [1, 2, 3, 4, 5, 6]
    >>> squared = []
    >>> for n in numbers:
            squared.append(n*n)
    >>> squared
    [1, 4, 9, 16, 25, 36]

Essa mesma lista pode ser criada com abrangências de lista assim:

    >>> numbers = [1, 2, 3, 4, 5, 6]
    >>> [n*n for n in numbers]
    [1, 4, 9, 16, 25, 36]

Para mais detalhes, consulte a documentação.

Em Python fazemos uso frequente de listas. Listas nada mais são do que *arrays* com tamanho variável. Em outras palavras, são *arrays* que ocupam um espaço de memória maior do que o necessário pelos elementos contidos e que modificam este espaço alocado conforme elementos são removidos ou adicionados. Não entraremos em detalhes sobre isso; quem tivere curiosidade pode conultar, por exemplo, o excelente texto __[Python list implementation](http://www.laurentluce.com/posts/python-list-implementation/)__.


Embora na aula anterior tenhamos mencionado que não queremos avaliar o desempenho em tempo puro, mas em passos, aqui vamos usar o tempo. Para testar as quatro operações geraremos listas de vários tamanhos. Também analisaremos apenas o pior caso. Como visto na revisão acima, as quatro operações em Python que correspondem à leitura, busca, inserção e deleção de uma lista chamada `array`, índice `i` e valor `v` são, respectivamente:
- Leitura: `array[i]` (não importa o valor de `i`)
- Busca: `array.index(v)` (`v` deve ser o último valor da lista ou não constar na lista)
- Inserção: `array.insert(i,v)` (`i` deve ser zero e `v` pode ser qualquer valor)
- Deleção: `array.pop(i)` (a rigor deveria-se usar `del array[i]`; `i` deve ser zero)

### Leitura
O código a seguir faz a operação de leitura de um índice qualquer de uma lista com 10 elementos. Usamos uma lista apenas com números zero para este exemplo. `%timeit` é uma 'função mágica' do ipython que executa automaticamente várias vezes o código que segue na mesma linha e fornece estatísicas do tempo de execução.

In [1]:
# Teste de leitura do índice 5 em um lista com 10 elementos
l = [0 for _ in range(10)]
%timeit l[5]

75 ns ± 4.72 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


**Exercício:** Use as células de código a seguir (e crie outras, se necessário) para repetir o teste para listas maiores, por exemplo, com 100 e com 1000 elementos. Teste também para outros valores de índice. O que podemos concluir sobre o número de 'passos' necessários para fazer a leitura do valor de um determinado índice numa lista em Python? Está coerente com o que foi visto na aula anterior?

In [2]:
# Teste de leitura do índice 5 em um lista com 100 elementos
l = [0 for _ in range(100)]
%timeit l[5]

10000000 loops, best of 3: 33.3 ns per loop


In [3]:
# Teste de leitura do índice 5 em um lista com 1000 elementos
l = [0 for _ in range(1000)]
%timeit l[5]

10000000 loops, best of 3: 30.5 ns per loop


### Busca

O código a seguir faz a operação de busca de um valor de uma lista com 10 elementos. Como a busca por um valor que não está na lista, faz com que o método `index` gere uma exceção, usaremos novamente uma lista com zeros, mas mudaremos o valor do último elemento para um antes de realizar a busca. Também faremos o teste com `%timeit`.

In [4]:
# Teste de busca pelo valor 1 em um lista com 10 elementos
l = [0 for _ in range(10)]
l[-1] = 1
%timeit l.index(1)

The slowest run took 6.94 times longer than the fastest. This could mean that an intermediate result is being cached.
10000000 loops, best of 3: 196 ns per loop


**Exercício:** Use as células de código a seguir (e crie outras, se necessário) para repetir o teste para listas maiores, por exemplo, com 100 e com 1000 elementos. O que podemos concluir sobre o número de 'passos' necessários para fazer a leitura do valor de um determinado índice numa lista em Python? Está coerente com o que foi visto na aula anterior? Qual a diferença dos resultados em relação ao exerício de leitura?

In [5]:
# Teste de busca pelo valor 1 em um lista com 100 elementos
l = [0 for _ in range(100)]
l[-1] = 1
%timeit l.index(1)

The slowest run took 4.15 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.03 µs per loop


In [6]:
# Teste de busca pelo valor 1 em um lista com 1000 elementos
l = [0 for _ in range(1000)]
l[-1] = 1
%timeit l.index(1)

100000 loops, best of 3: 9.23 µs per loop


### Inserção

O código a seguir faz a operação de inserção de um valor no índice zero de uma lista com 1000 elementos. Usamos uma lista apenas com números zero para este exemplo. Neste caso não é possível fazer o teste usando `%timeit` como nos casos anteriores pois as inserções seriam sempre feitas na mesma lista, que cresceria a centenas de milhares de elementos. Por conta disso, usaremos um laço de repetição. A cada repetição do laço, o uma estrutura chamada `TimeitResult` é obtida com `%timeit` para apenas uma execução usando as opções `r 1 n 1`, e o valor é atribuído a uma variável com auxílio da opção `-o`. A seguir o valor `best` (que é igual ao `worst` neste caso) é adicionado a uma lista. Ao final obtém-se a média dos valores na lista. A opção `-q` oculta o resultado de cada execução de `%timeit`.

In [7]:
# Teste de inserção do valor 1 no índice zero em um lista com 1000 elementos executado 1000 vezes
time = []
for i in range(1000):
    l = [0 for _ in range(1000)]
    t = %timeit -o -r 1 -n 1 -q l.insert(0,1)
    time.append(t.best)
print(sum(time)/len(time))

1.9126889985727756e-06


**Exercício:** Use as células de código a seguir (e crie outras, se necessário) para repetir o teste para listas maiores, por exemplo, com 10000 e com 100000 elementos. O que podemos concluir sobre o número de 'passos' necessários para fazer a inserção de um valor no índice 0 de uma lista em Python? Está coerente com o que foi visto na aula anterior? Note a sugestão do uso de listas maiores para que o comportamento seja melhor observado. Este é um dos motivos pelo qual fazemos a análise em termos de 'passos' e não de tempo puro.

In [8]:
# Teste de inserção do valor 1 no índice zero em um lista com 10000 elementos executado 1000 vezes
time = []
for i in range(1000):
    l = [0 for _ in range(10000)]
    t = %timeit -o -r 1 -n 1 -q l.insert(0,1)
    time.append(t.best)
print(sum(time)/len(time))

9.332616998335652e-06


In [9]:
# Teste de inserção do valor 1 no índice zero em um lista com 100000 elementos executado 1000 vezes
time = []
for i in range(1000):
    l = [0 for _ in range(100000)]
    t = %timeit -o -r 1 -n 1 -q l.insert(0,1)
    time.append(t.best)
print(sum(time)/len(time))

9.161044500024218e-05


### Deleção

O código a seguir faz a operação de deleção do elemento no índice zero de uma lista com 10000 elementos. Usamos uma lista apenas com números zero para este exemplo. Semelhante ao que ocorre no caso da inserção, usaremos laços de repetição. Caso contrário as deleções seriam sempre feitas na mesma lista que rapidamente ficaria vazia.

In [10]:
# Teste de deleção do elemento no índice zero em um lista com 10000 elementos
time = []
for i in range(1000):
    l = [0 for _ in range(10000)]
    t = %timeit -o -r 1 -n 1 -q l.pop(0) #del l[0]
    time.append(t.best)
print(sum(time)/len(time))

4.767996998452872e-06


**Exercício:** Use as células de código a seguir (e crie outras, se necessário) para repetir o teste para listas maiores, por exemplo, com 100000 e com 1000000 elementos. O que podemos concluir sobre o número de 'passos' necessários para fazer a deleção do valor no índice 0 de uma lista em Python? Está coerente com o que foi visto na aula anterior? Neste caso, note também o uso de lista ainda maiores para que possamos observar melhor o comportamento.

In [11]:
# Teste de deleção do elemento no índice zero em um lista com 10000 elementos
time = []
for i in range(1000):
    l = [0 for _ in range(100000)]
    t = %timeit -o -r 1 -n 1 -q l.pop(0) #del l[0]
    time.append(t.best)
print(sum(time)/len(time))

7.243060399912338e-05


In [12]:
# Teste de deleção do elemento no índice zero em um lista com 10000 elementos
time = []
for i in range(1000):
    l = [0 for _ in range(1000000)]
    t = %timeit -o -r 1 -n 1 -q l.pop(0) #del l[0]
    time.append(t.best)
print(sum(time)/len(time))

0.0008361080399994308


## Conjuntos (`set`)

Uma conjunto em Python é uma coleção não ordenada (não indexada) de zero ou mais objetos Python imutáveis. Não são sequências. Além disso, elas são heterogêneas, porém não permitem itens duplicados. Uma lista é definida por chaves e seus elementos são separados por vírgula:

    set()             # conjunto vazio
    {1, 3, True, 6.5} # lista com quatro elementos de tipos diferentes, todos imutáveis
    {}                # ATENÇÃO: dicionário vazio!

Operações típicas conhecidas do uso de conjuntos matemáticos também estão disponíveis em Python. Para dois conjuntos quaisquer chamados `set1` e `set2`, temos:
- Pertencimento: `x.in(set1)` pergunta se o valor `x` pertence ao conjunto
- Cardinalidade: `len(set)` devolve a cardinalidade do conjunto
- União: `set1 | set2` cria um novo conjunto com todos os elementos de ambos
- Interseção: `set1 & set2` cria um novo conjunto com os elementos comuns a ambos
- Diferença: `set1 - set2` cria um novo conjunto com os elementos do primeiro que não estão no segundo
- Subconjunto: `set1 <= set2` pergunta se todos os elementos do primeiro conjunto estão no segundo

Para algumas dessas operações há métodos específicos da clase `set`:
- União: `set1.union(set2)` cria um novo conjunto com  todos os elementos de ambos
- Interseção: `set1.intersection(set2)` cria um novo conjunto com todos os elementos comuns a ambos
- Diferença: `set1.difference(set2)` cria um novo conjunto com todos os elementos do primeiro conjunto ue não estão no segundo
- Subconjunto: `set1.issubset(set2)` pergunta se um conjunto é subconjunto do outro

Por fim, temos algumas operações básicas para adicionar e remover elementos de um conjunto:
- Inserção: `set.add(item)` adiciona `item` ao conjunto
- Deleção: `set.remove(item)` remove `item` do conjunto
- Deleção: `set.pop()` remove um elemento arbitrário do conjunto
- Deleção: `set.clear()` remove todos os elementos do conjunto

De forma semelhante a lista, conjuntos também podem ser criados de forma compacta por abrangência de conjuntos (*set comprehension*):

    >>> numbers = [1, 2, 3, 4, 5, 6]
    >>> {n*n for n in numbers}
    {1, 4, 36, 9, 16, 25}

Ao longo do curso veremos que o uso de conjuntos pode ser útil na elaboração de algoritmos para operar sobre outras estruturas de dados.

Diferente do que fizemos com listas, testaremos apenas uma operação com conjuntos, a operação de inserção. O motivo para isso é resposta de um dos exercícios a seguir. Como no caso das listas, vamos avaliar o desempenho da operação inserção sobre conjuntos em tempo puro, ao invés de passos propriamente ditos. Também faremos os testes em conjuntos de vários tamanhos. Como visto na revisão, a operação em Python que corresponde à inserção de um valor `v` em um conjunto chamado `myset` é:
- Inserção: `myset.add(v)` (`v` pode ser qualquer valor)

Note que não há um índice, então não temos como determinar o local da inserção. Com base na aula anterior, a princípio, gostaríamos de fazer a adição no início para obter o pior caso.

### Inserção

O código a seguir faz a operação de inserção de um valor num conjunto com 10 elementos. Como o conjunto não admite valores repitidos, geramos dez número diferentes. Semelhante ao que ocorre no caso da inserção e deleção em *arrays*, usaremos laços de repetição, caso contrário as inserções seriam sempre feitas no mesmo conjunto que após a primeira inserção já teria aquele elemento. Inserimos o valor -1 que certamente não aparece na abrangência de conjuntos usada para gerar o conjunto.

In [13]:
# Teste de inserção do valor -1 em um conjunto com 10 elementos
for i in range(1000):
    s = {i for i in range(10)}
    t = %timeit -o -r 1 -n 1 -q s.add(-1)
    time.append(t.best)
print(sum(time)/len(time))

0.00041852710049755616


**Exercício:** Use as células de código a seguir (e crie outras, se necessário) para repetir o teste para conjuntos maiores, por exemplo, com 100 e com 1000 elementos. O que podemos concluir sobre o número de 'passos' necessários para fazer a inserção do valor em um conjunto em Python? Está coerente com o que foi visto na aula anterior?

In [14]:
# Teste de inserção do valor -1 em um conjunto com 100 elementos
for i in range(100000):
    s = {i for i in range(100)}
    t = %timeit -o -r 1 -n 1 -q s.add(-1)
    time.append(t.best)
print(sum(time)/len(time))

9.087460381907948e-06


In [15]:
# Teste de inserção do valor -1 em um conjunto com 10 elementos
for i in range(1000000):
    s = {i for i in range(1000)}
    t = %timeit -o -r 1 -n 1 -q s.add(-1)
    time.append(t.best)
print(sum(time)/len(time))

KeyboardInterrupt: ignored

**Exercício:** A diferença dos resultados obtidos nos exercícios anteriores e aquilo que foi visto na aula anterior pode ser justificado pelo quê?