# [Py-Intro] Aula 03
# Tipos básicos e estruturas de controles

## O que você vai aprender nesta aula?

Após o término da aula você terá aprendido:

- Conjuntos: set e frozenset
- Mapeamentos: dicionários
- ?

# Tipos básicos - conjuntos e mapeamentos

Na aula passada vimos outros tipos básicos: números e sequência.

Agora vamos falar sobre conjuntos.

### Set (conjunto)

Conjunto, ou set, é uma ferramenta subutilizada do Python, tanto que muitos cursos introdutórios não passam abordam esse assunto.

Set vem da teoria de conjuntos da matemática. Um conjunto não permite a existência de elementos iguais dentro de si, por conta disso é muito utilizado para remover repetições:

In [2]:
l = ['spam', 'spam', 'eggs', 'spam']
l

['spam', 'spam', 'eggs', 'spam']

In [2]:
set(l)

{'eggs', 'spam'}

Como podemos ver a sintaxe de set - {1}, {1, 2}, etc. - se parece exatamente com a notação matemática, com exceção que não existe uma notação para set vazio. Caso você precise criar um conjunto vazio use: `set()`.

In [16]:
A = set()
len(a)

0

Vale lembrar que conjuntos também se comportam como sequências, por conta disso é possível usar neles as funções que aprendemos anteriormente:

In [17]:
A = {5, 4, 3, 3, 2, 10}
A

{2, 3, 4, 5, 10}

In [18]:
len(A)

5

In [19]:
sum(A)

24

In [20]:
max(A)

10

In [21]:
min(A)

2

Um ponto importante a se observar é que conjunto não mantém a ordem dos elementos:

In [4]:
A = {4, 5, 1, 3, 4, 5, 7}
A  # ordem diferente da declarada!

{1, 3, 4, 5, 7}

Por isso não é possível acessar os elementos pela posição:

In [23]:
A[0]

TypeError: 'set' object does not support indexing

É possível acessar seus elementos iterando o set:

In [7]:
for num in A:
    print(num)

1
3
4
5
7


Ou convertendo-o para tupla ou lista:

In [8]:
tuple(A)

(1, 3, 4, 5, 7)

In [10]:
tuple(A)[0]

1

In [9]:
list(A)

[1, 3, 4, 5, 7]

In [11]:
list(A)[-1]

7

Assim como listas os conjuntos também possuem um mecanismo simplificado para construir conjuntos o `set comprehension`:

In [98]:
{letra for letra in 'abrakadabraalakazam'}

{'a', 'b', 'd', 'k', 'l', 'm', 'r', 'z'}

In [101]:
{numero for numero in range(30) if numero % 3 != 0}

{1, 2, 4, 5, 7, 8, 10, 11, 13, 14, 16, 17, 19, 20, 22, 23, 25, 26, 28, 29}

Outra característica importante de conjuntos é que eles realizam verificações de pertencimento de forma muito mais eficiente.

Para demonstrar isso vamos usar o módulo [timeit](https://docs.python.org/3/library/timeit.html) que oferece uma maneira simples de contar o tempo de execução de código Python.

O módulo `timeit` possui uma função `timeit(stmt='pass', setup='pass', number=1000000, ...)` que executa um `setup` e um `código` (stmt) uma dada quantidade de vezes e contabiliza o tempo levado para executar o código (o tempo de rodar o setup não é incluído). O código e o setup devem ser passados como strings.

In [23]:
import timeit

tempo = timeit.timeit('[math.exp(x) for x in range(10)]', setup='import math')
tempo

2.484276436998698

O código acima executa primeiro o setup `import math` depois o código `[math.exp(x) for x in range(10)]`, que cria uma lista com os exponencianciais de 0 a 9, 1000000 vezes.

Para sabermos qual a média do tempo de execução desse código fazemos:

In [24]:
tempo / 1000000

2.484276436998698e-06

Sabendo disso agora podemos calcular o tempo de verificação de um elemento em lista e set:

In [46]:
import timeit
import random

# PS: esse código demora para ser executado
vezes = 1000
print('tamanho  | tempo da lista | tempo do set | list vs set')
tamanhos = (10 ** i for i in range(3, 8))
for tamanho in tamanhos:  # cria um gerador com os valores 10^3, 10^4, ..., 10^7
    setup_lista = 'l = list(range({}))'.format(tamanho)
    tempo = timeit.timeit('9999999 in l', setup=setup_lista, number=vezes)
    media_lista = tempo / vezes
    
    setup_set = 's = set(range({}))'.format(tamanho)
    tempo = timeit.timeit('9999999 in s', setup=setup_set, number=vezes)
    media_set = tempo / vezes
    
    msg = '{:<9}| {:<15}| {:<13}| set é {:<}x + rápido'
    msg = msg.format(tamanho, round(media_lista, 8), round(media_set, 8),
                     round(media_lista / media_set))
    print(msg)

tamanho  | tempo da lista | tempo do set | list vs set
1000     | 2.068e-05      | 7e-08        | set é 317x + rápido
10000    | 0.00014707     | 4e-08        | set é 3424x + rápido
100000   | 0.0012816      | 9e-08        | set é 15021x + rápido
1000000  | 0.01202676     | 3e-08        | set é 361403x + rápido
10000000 | 0.11431318     | 5e-08        | set é 2243811x + rápido


Esse código usa alguns recursos mais avançados de formatação de string. Para entender melhor o que é feito verifique a [documentação oficial do assunto](https://docs.python.org/3/library/string.html#format-string-syntax).

Conjuntos também oferecem algumas operações interessantes:

<center>União $${(A \cup B)}$$</center>
![União (A U B)](img/uniao.svg)

A união pode ser feita a partir da função A.union(B) ou através da utilização do operador bitwise ou `|` : 

In [9]:
A = {2, 3, 4}
B = {3, 5, 7}
A | B

{2, 3, 4, 5, 7}

In [10]:
A.union(B)

{2, 3, 4, 5, 7}

<center>Intersecção $${A \cap B}$$</center>
![](img/interseccao.svg)

A intersecção pode ser feita a partir da função A.intersection(B) ou com o operador bitwise e `&` :

In [11]:
A = {2, 3, 4}
B = {3, 5, 7}
A & B

{3}

In [12]:
A.intersection(B)

{3}

<center>Diferença $${A - B}$$</center>
![](img/diferenca.svg)

A diferença pode ser feita a partir da função A.difference(B) ou com o operador `-` :

In [13]:
A = {2, 3, 4}
B = {3, 5, 7}
A - B

{2, 4}

In [14]:
A = {2, 3, 4}
B = {3, 5, 7}
A.difference(B)

{2, 4}

<center>Diferença simétrica $${A \bigtriangleup B}$$</center>
![](img/diferenca-simetrica.svg)

A diferença pode ser feita a partir da função A.difference(B) ou com o operador `^` :

In [15]:
A = {2, 3, 4}
B = {3, 5, 7}
A ^ B

{2, 4, 5, 7}

In [16]:
A.symmetric_difference(B)

{2, 4, 5, 7}

Ok, essas funções são legais, mas eu já vi isso no ensino médio e nunca usei na minha vida, como isso vai ser útil para mim? (pelo menos foi isso que eu pensei ao ver isso)

Para testar isso vamos gerar um conjunto de nomes. Vamos usar a biblioteca externa [faker](http://fake-factory.readthedocs.io/en/latest/index.html) que gera dados falsos.

Para usá-la é necessário instalar:
    
    $ pip install fake-factory

Depois de instalá-la em nosso virtualenv podemos usá-la:

In [30]:
from faker import Factory

factory = Factory.create('pt_BR')  # criando fábrica de dados falsos português brasileiro
nomes = {factory.name() for _ in range(10000)}
nomes

{'Giovanna Oliveira',
 'Luiz Gustavo Gomes',
 'Sr. Davi Martins',
 'Ana Sophia Almeida',
 'Lara Araújo',
 'Mirella Fernandes',
 'Mariane Rodrigues',
 'Luiz Otávio Silva',
 'Pietra Silva',
 'Levi Fernandes',
 'Rafaela Barros',
 'Clarice Ribeiro',
 'Augusto Correia',
 'Gustavo Henrique Silva',
 'Danilo Correia',
 'Ana Carolina Cunha',
 'Breno Pereira',
 'Bruna Cardoso',
 'Dra. Catarina Souza',
 'Nathan Pereira',
 'Dra. Sabrina Oliveira',
 'Ana Beatriz Azevedo',
 'Srta. Maria Castro',
 'Dr. Luiz Fernando Pereira',
 'Thiago Pereira',
 'Sra. Isabelly Gomes',
 'Danilo Araújo',
 'Pietro Carvalho',
 'Sr. Lucas Gomes',
 'Dra. Marina Martins',
 'Dr. Bryan Rodrigues',
 'Gabrielly Santos',
 'Melissa Souza',
 'Bárbara Oliveira',
 'Noah Barbosa',
 'Thiago Costela',
 'Pietra Barbosa',
 'Mirella Ferreira',
 'Srta. Maria Vitória Rocha',
 'Srta. Sofia Ferreira',
 'Francisco Correia',
 'Marina Cardoso',
 'Dra. Alice Costela',
 'Leonardo Azevedo',
 'João Lucas Castro',
 'Sr. Matheus Barros',
 'Dr. Eduardo

Agora vamos supor que temos uma lista de nomes e queremos conferir se eles estão no conjunto de nomes. Normalmente faríamos:

In [67]:
buscas = {'João Silva', 'Ana Ferreira', 'Eduardo Santos', 'Pedro Alves', 'Enzo Correira'}

presentes = [busca for busca in buscas if busca in nomes]
presentes

['João Silva', 'Pedro Alves', 'Ana Ferreira', 'Eduardo Santos']

In [66]:
ausentes = [busca for busca in buscas if busca not in nomes]
ausentes

['Enzo Correira']

Porém se usarmos operações de conjunto podemos fazer isso de forma mais simples e eficiente.

Para saber quais nomes buscados estão no conjunto de nomes:

In [36]:
buscas & nomes

{'Ana Ferreira', 'Eduardo Santos', 'João Silva', 'Pedro Alves'}

Os nomes que não estão:

In [37]:
buscas - nomes

{'Enzo Correira'}

Comparando o tempo de execução das buscas usando `for` contra buscas usando intersecção obtemos o seguinte resultado:

In [87]:
# tamanho  | tempo set + for | tempo set + & | for vs &
# 100      | 3.945e-05       | 1.86e-06      | & é 21.25x + rápido
# 1000     | 5.844e-05       | 1.751e-05     | & é 3.34x + rápido
# 10000    | 0.00014848      | 5.991e-05     | & é 2.48x + rápido
# 100000   | 0.00015138      | 8.862e-05     | & é 1.71x + rápido
# 1000000  | 0.00014647      | 8.113e-05     | & é 1.81x + rápido

### dict

Dict, dictnionary ou dicionário é a estrutura padrão de mapeamento e é indexado por chaves compostas por tipos imutáveis (números, strings, tuplas etc.).

Já falamos sobre dicionários anteriormente, nesta aula faremos uma rápida revisão e aprofundremos mais sobre o assunto:

In [18]:
votos = {'joão': 10, 'maria': 25, 'ana': 40, 'pedro': 75}
votos['joão']

10

In [153]:
votos['joão'] = 11
votos

{'ana': 40, 'joão': 11, 'maria': 25, 'pedro': 75}

Como podem ver aqui os dicionários não mantém a ordem de seus elementos. Criamos o dict com os elementos {'joão': 10, 'maria': 25, 'ana': 40, 'pedro': 75}, porém sua ordem atual é {'ana': 40, 'joão': 11, 'maria': 25, 'pedro': 75} e, futuramente, essa ordem pode ser outra conforme alteramos esse dicionário.

In [154]:
len(votos)

4

In [3]:
del votos['joão']
votos

{'ana': 40, 'maria': 25, 'pedro': 75}

Vale notar que ao tentar acessar um elemento não existente é levantada uma exceção:

In [130]:
votos['joão']

KeyError: 'joão'

As vezes pode ser necessário evitar esse tipo de comportamento. Isso pode ser feito usando a função:

In [132]:
print(votos.get('joão'))

None


também é possível estabelecer um valor para ser retornado caso a chave não seja encontrada:

In [133]:
votos.get('joão', 0)

0

Por exemplo se você quiser contabilizar os votos de uma eleição em que nem todos os candidatos receberam votos e, portanto, não aparecem no dicionário votos:

In [144]:
candidatos = list(votos.keys()) + ['joão', 'muriel', 'marcola']
candidatos

['ana', 'pedro', 'maria', 'joão', 'muriel', 'marcola']

In [150]:
for candidato in candidatos:
    print('{} recebeu {} votos.'.format(candidato, votos.get(candidato, 0)))

ana recebeu 40 votos.
pedro recebeu 75 votos.
maria recebeu 25 votos.
joão recebeu 0 votos.
muriel recebeu 0 votos.
marcola recebeu 0 votos.


Podemos verificar se alguma chave existe no dicionário com o `in`:

In [155]:
votos

{'ana': 40, 'joão': 11, 'maria': 25, 'pedro': 75}

In [156]:
'ana' in votos

True

In [157]:
'penélope' in votos

False

In [22]:
len(votos)  # número de items no dict

4

In [23]:
outros_votos = {'milena': 100, 'mário': 1}
votos.update(outros_votos)  # atualiza o dicionário votos com os items de outros_votos
votos

{'ana': 40, 'joão': 10, 'maria': 25, 'milena': 100, 'mário': 1, 'pedro': 75}

Para acessar somente as chaves de um dicionário fazemos:

In [163]:
votos.keys()

dict_keys(['ana', 'pedro', 'maria'])

Percebe-se que o retorno não é uma lista de chaves, mas sim um `dict_keys`. Não vou entrar em detalhes, mas esse `dict_keys` - junto com `dict_values` e `dict_items` que serão mostrados mais a frente - se comportam como conjunto, por tanto verificações de pertencimento são muito eficientes, além de suportar algumas operações de conjuntos:

*Para mais informações verifique a [documentação oficial](https://docs.python.org/3/library/stdtypes.html#dict-views) e o [PEP 3106](https://www.python.org/dev/peps/pep-3106/) em que essa mudança foi proposta*

In [164]:
['maria', 'adelaide'] & votos.keys()

{'maria'}

In [165]:
['maria', 'adelaide'] - votos.keys()

{'adelaide'}

Para acessar somente os valores do dicionários:

In [8]:
votos.values()

dict_values([25, 40, 75])

Como os valores não são únicos o `dict_values` não pode se comportar como conjunto, por esse motivo ele não possui as operações de conjuntos

In [11]:
votos.items()

dict_items([('maria', 25), ('ana', 40), ('pedro', 75)])

Porém o `dict.items()` implementa as operações de conjuntos, pois a dupla `chave` e `valor` são únicas:

In [12]:
[('jean', 50), ('maria', 25)] & votos.items()

{('maria', 25)}

In [14]:
[('jean', 50), ('maria', 25)] - votos.items()

{('jean', 50)}

Revendo iteração de dicionários:

In [15]:
for nome in votos.keys():
    print(nome)

maria
ana
pedro


In [16]:
for qtd_votos in votos.values():
    print(qtd_votos)

25
40
75


In [21]:
for nome, qtd_votos in votos.items():  # atribuição múltipla, lembra?
    print('{} recebeu {} votos.'.format(nome.capitalize(), qtd_votos))

Maria recebeu 25 votos.
Ana recebeu 40 votos.
João recebeu 10 votos.
Pedro recebeu 75 votos.


### Exercício

- Calcule a média de votos por candidatos:

In [231]:
# não mude esse código, ele que gera os votos para você testar seu programa

from faker import Factory
import random

factory = Factory.create('pt_BR')

# usa distribuição de gauss para gerar quantidade de votos
votos = {factory.name(): abs(round(random.gauss(0, .2) * 10000)) for _ in range(333)}
# deixa nomes completos com somente dois nomes
votos = {nome: votos for nome, votos in votos.items() if len(nome.split()) == 2}

In [232]:
def media(votos):
    ...

print(media(votos))

1618.7004830917874


Assim como listas e sets, dicionários também possuem uma maneira de criar dicts com facilidade: `dict comprehension`

In [106]:
from faker import Factory

factory = Factory.create('pt_BR')
cpfs = {factory.name(): factory.cpf() for _ in range(10)}
cpfs

{'Dr. Luigi Lima': '546.207.891-94',
 'Enrico Barros': '670.824.539-65',
 'Fernando Barbosa': '302.961.574-14',
 'Gabriela Castro': '923.507.648-18',
 'Luiz Gustavo Gomes': '650.172.849-58',
 'Marcelo Martins': '029.483.756-65',
 'Maria Fernanda Azevedo': '932.486.175-19',
 'Paulo Ribeiro': '637.105.428-71',
 'Pedro Henrique Castro': '871.630.429-22',
 'Valentina Correia': '836.210.957-21'}

In [234]:
{numero: numero ** 2 for numero in range(10)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

Acontece que dict comprehension nos dá uma maneira muito bonilinda de inverter as chaves e valores de dicionários:

In [235]:
telefones = {'joão': '9941', 'ana': '9103', 'maria': '9301', 'márcio': '9203'}
telefones

{'ana': '9103', 'joão': '9941', 'maria': '9301', 'márcio': '9203'}

Normalmente faríamos:

In [236]:
nomes = {}
for nome, telefone in telefones.items():
    nomes[telefone] = nome
    
nomes

{'9103': 'ana', '9203': 'márcio', '9301': 'maria', '9941': 'joão'}

Mas com dict comprehension é muito mais fácil:

In [237]:
{telefone: nome for nome, telefone in telefones.items()}

{'9103': 'ana', '9203': 'márcio', '9301': 'maria', '9941': 'joão'}

### Exercícios

- Dado uma frase calcule as ocorrências de cada palavra naquela. Armazene cada palavra como chave em um dict e as quantidade seu valor:

In [None]:
def conta_palavras(frase):
    ...

A hapax legomenon (often abbreviated to hapax) is a word which occurs only once in either the written record of a language, the works of an author, or in a single text. Define a function that given the file name of a text will return all its hapaxes. Make sure your program ignores capitalization.