<h1 align=center>Capítulo 1</h1>
<h2 align=center>Estutura de Dados e Algoritmos</h2>
<p align=center><img src=https://capiremov.org/wp-content/uploads/2021/07/algoritmo.jpg width=500</p>

O Python fornece uma variedade de estruturas de dados internas úteis, como listas, conjuntos e dicionários. Na maioria das vezes, o uso dessas estruturas é simples. No entanto, muitas vezes surgem perguntas comuns sobre pesquisa, classificação, ordenação e filtragem. Assim, o objetivo deste capítulo é discutir estruturas de dados e algoritmos comuns envolvendo dados. Além disso, é dado tratamento às diversas estruturas de dados contidas no módulo de coleções.

## 1.1. Desempacotando uma sequência em variáveis separadas
**Problema**
Você tem uma tupla ou sequência de N elementos que gostaria de descompactar em uma coleção de N variáveis.

**Solução**
Qualquer sequência (ou iterável) pode ser descompactada em variáveis usando uma simples operação de atribuição. O único requisito é que o número de variáveis e a estrutura correspondam à sequência. Por exemplo:

In [30]:
p=(4,5)
x,y = p
x

4

In [31]:
y

5

In [32]:
data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
name, shares, price, date = data
print(name)
print(shares)
print(price)
print(date)

ACME
50
91.1
(2012, 12, 21)


In [33]:
name, shares, price, (year, mon, day) = data # Tem que ser a mesma quantidade de elementos. Senão dá erro!!
print(name)
print(day)
print(mon)
print(year)

ACME
21
12
2012


**Discussão**

A descompactação realmente funciona com qualquer objeto que seja iterável, não apenas tuplas ou listas. Isso inclui strings, arquivos, iteradores e geradores. Por exemplo:

In [34]:
s = 'Hello'
a, b, c, d, e = s
print(a)
print(b)
print(c)
print(d)
print(e)

H
e
l
l
o


Ao descompactar, às vezes você pode querer descartar certos valores. Python não tem sintaxe especial para isso, mas muitas vezes você pode simplesmente escolher um nome de variável descartável para ele. Por exemplo:

In [35]:
data = [ 'ACME', 55, 97, (2012, 12, 21) ]
_, shares, price, _ = data
print(shares)
print(price)

55
97


No entanto, certifique-se de que o nome da variável que você escolher não esteja sendo usado para outra coisa.

## 1.2. Descompactando Elementos de Iteráveis de Comprimento Arbitrário

**Problema**

Você precisa descompactar N elementos de um iterável, mas o iterável pode ser maior que N elementos, causando uma exceção de “muitos valores para descompactar”.

**Solução**

As “expressões em estrela” do Python podem ser usadas para resolver esse problema. Por exemplo, suponha que você faça um curso e decida no final do semestre que vai tirar a primeira e a última notas da lição de casa e apenas tirar a média do restante delas. Se houver apenas quatro tarefas, talvez você simplesmente descompacte todas as quatro, mas e se houver 24? Uma expressão de estrela facilita:

In [36]:
from statistics import mean

def drop_first_last(grades):
	first, *middle, last = grades
	return mean(middle)

Como outro caso de uso, suponha que você tenha registros de usuário que consistem em um nome e endereço de e-mail, seguidos por um número arbitrário de números de telefone. Você pode descompactar os registros assim:

In [37]:
user_record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = user_record
print(name)
print(email)
print(phone_numbers)

Dave
dave@example.com
['773-555-1212', '847-555-1212']


Vale a pena notar que a variável `phone_numbers` sempre será uma lista, independentemente de quantos números de telefone forem descompactados (incluindo nenhum). Assim, qualquer código que use `phone_numbers` não terá que levar em conta a possibilidade de não ser uma lista ou realizar qualquer tipo de verificação de tipo adicional.

A variável com estrela também pode ser a primeira da lista. Por exemplo, digamos que você tenha uma sequência de valores representando os números de vendas da sua empresa nos últimos oito trimestres. Se você quiser ver como o trimestre mais recente se compara à média dos sete primeiros, você pode fazer algo assim:
<code>
*trailing_qtrs, current_qtr = sales_record
trailing_avg = sum(trailing_qtrs) / len(trailing_qtrs)
return avg_comparison(trailing_avg, current_qtr)
</code>

In [38]:
# Aqui está uma visão da operação do interpretador Python:
*trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]

print(trailing)

[10, 8, 7, 1, 9, 5, 10]


In [39]:
print(current)

3


**Discussão**

A descompactação iterável estendida é feita sob medida para descompactar iteráveis de comprimento desconhecido ou arbitrário. Muitas vezes, esses iteráveis têm algum componente ou padrão conhecido em sua construção (por exemplo, “tudo após o elemento 1 é um número de telefone”), e a descompactação em estrela permite que o desenvolvedor aproveite esses padrões facilmente em vez de realizar acrobacias para obter os elementos relevantes no iterável.

Vale a pena notar que a sintaxe estrela pode ser especialmente útil ao iterar sobre uma sequência de tuplas de comprimento variável. Por exemplo, talvez uma sequência de tuplas marcadas:

In [40]:
records = [
    ('foo', 1, 2),
    ('bar', 'hello'),
    ('foo', 3, 4),
]
def do_foo(x, y):
    print('foo', x, y)
def do_bar(s):
    print('bar', s)
for tag, *args in records:
	if tag == 'foo':
		do_foo(*args)
	elif tag == 'bar':
		do_bar(*args)

foo 1 2
bar hello
foo 3 4


A descompactação em estrela também pode ser útil quando combinada com certos tipos de operações de processamento de string, como divisão. Por exemplo:

In [41]:
line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
uname, *fields, homedir, sh = line.split(':')
print(uname)
print(homedir)
print(sh)

nobody
/var/empty
/usr/bin/false


Às vezes você pode querer descompactar valores e jogá-los fora. Você não pode simplesmente especificar um `*` ao descompactar, mas pode usar um nome de variável descartável comum, como `_` ou `ign` (ignorado). Por exemplo:

In [42]:
record = ('ACME', 50, 123.45, (12, 18, 2012))
name, *_, (*_, year) = record
print(name)
print(year)

ACME
2012


Há uma certa semelhança entre a descompactação em estrela e os recursos de processamento de lista de várias linguagens funcionais. Por exemplo, se você tiver uma lista, poderá dividi-la facilmente em componentes `head` e `tail` como este:

In [43]:
items = [1, 10, 7, 4, 5, 9]
head, *tail = items
print(head)
print(tail)

1
[10, 7, 4, 5, 9]


Pode-se imaginar escrever funções que realizam tal divisão para realizar algum tipo de algoritmo recursivo inteligente. Por exemplo:

In [44]:
def sum(items):
	head, *tail = items
	return head + sum(tail) if tail else head

sum(items)

36

No entanto, esteja ciente de que a recursão realmente não é um recurso forte do Python devido ao limite de recursão inerente. Assim, este último exemplo pode ser nada mais do que uma curiosidade acadêmica na prática.

## 1.3. Mantendo os últimos N itens

**Problema**

Você deseja manter um histórico limitado dos últimos itens vistos durante a iteração ou durante algum outro tipo de processamento.

**Solução**

Manter um histórico limitado é um uso perfeito para um `collections.deque`. Por exemplo, o código a seguir executa uma correspondência de texto simples em uma sequência de linhas e produz a linha correspondente junto com as N linhas anteriores de contexto quando encontradas:

In [45]:
from collections import deque
def search(lines, pattern, history=5):
	previous_lines = deque(maxlen=history)
	for line in lines:
		if pattern in line:
			yield line, previous_lines
		previous_lines.append(line)

with open('somefile.txt', encoding='utf-8') as f:
    for line, prevlines in search(f, 'amor', 5):
	    for pline in prevlines:
		    print(pline, end='')
		    print(line, end='')
		    print('-'*20)

Eu te amo porque te amo,
e com amor não se paga.
--------------------
Não precisas ser amante,
e com amor não se paga.
--------------------
e nem sempre sabes sê-lo.
e com amor não se paga.
--------------------
Eu te amo porque te amo.
e com amor não se paga.
--------------------
Amor é estado de graça
e com amor não se paga.
--------------------
Amor foge a dicionários
Porque amor não se troca,
--------------------
e a regulamentos vários.
Porque amor não se troca,
--------------------

Porque amor não se troca,
--------------------
Eu te amo porque não amo
Porque amor não se troca,
--------------------
bastante ou demais a mim.
Porque amor não se troca,
--------------------

Porque amor é amor a nada,
--------------------
Eu te amo porque não amo
Porque amor é amor a nada,
--------------------
bastante ou demais a mim.
Porque amor é amor a nada,
--------------------
Porque amor não se troca,
Porque amor é amor a nada,
--------------------
não se conjuga nem se ama.
Porque amor é amor

**Discussão**

Ao escrever código para pesquisar itens, é comum usar uma função geradora envolvendo rendimento, conforme mostrado na solução desta receita. Isso dissocia o processo de pesquisa do código que usa os resultados. Se você é novo em geradores, veja a Receita 4.3.

Usar **deque(maxlen=N)** cria uma fila de tamanho fixo. Quando novos itens são adicionados e a fila está cheia, o item mais antigo é removido automaticamente. Por exemplo:

In [46]:
q = deque(maxlen=3)
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [47]:
q.append(4)
q

deque([2, 3, 4])

In [48]:
q.append(5)
q

deque([3, 4, 5])

Embora você possa executar manualmente essas operações em uma lista (por exemplo, anexar, excluir etc.), a solução de fila é muito mais elegante e é executada muito mais rapidamente.

De maneira mais geral, um `deque` pode ser usado sempre que você precisar de uma estrutura de fila simples. Se você não der um tamanho máximo, obterá uma fila ilimitada que permite anexar e destacar itens em ambas as extremidades. Por exemplo:

In [49]:
q = deque()
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [50]:
q.appendleft(4)
q

deque([4, 1, 2, 3])

In [51]:
q.pop() # Retira o último valor.

3

In [52]:
q

deque([4, 1, 2])

In [53]:
q.popleft() # Retira o valor à esquerda

4

In [54]:
q

deque([1, 2])

Adicionar ou remover itens de qualquer extremidade de uma fila tem complexidade O(1). Isso é diferente de uma lista em que inserir ou remover itens da frente da lista é O(N).

## 1.4. Encontrando os maiores ou menores N itens

**Problema**

Você deseja fazer uma lista dos maiores ou menores N itens em uma coleção.

**Solução**

O módulo `heapq` tem duas funções - `nlargest()` e `nsmallest()` - que fazem exatamente o que você quer. Por exemplo:

In [55]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums))
print(heapq.nsmallest(3, nums))

[42, 37, 23]
[-4, 1, 2]


Ambas as funções também aceitam um parâmetro chave que permite que sejam usadas com estruturas de dados mais complicadas. Por exemplo:

In [56]:
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]

cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print(cheap)
print("")
print(expensive)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]

[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


**Discussão**

Se você estiver procurando os N itens menores ou maiores e N for pequeno em comparação com o tamanho geral da coleção, essas funções oferecem desempenho superior. 

Por baixo dos panos, eles trabalham primeiro convertendo os dados em uma lista onde os itens são ordenados como um `heap`. Por exemplo:

In [57]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
heap = list(nums)
heapq.heapify(heap)
heap

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]

A característica mais importante de um heap é que `heap[0]` é sempre o menor item. Além disso, os itens subsequentes podem ser facilmente encontrados usando o método `heapq.heappop()`, que retira o primeiro item e o substitui pelo próximo menor item (uma operação que requer operações O(log N) onde N é o tamanho do heap ). Por exemplo, para encontrar os três menores itens, você faria o seguinte:

In [58]:
heapq.heappop(heap)

-4

In [59]:
heapq.heappop(heap)

1

In [60]:
heapq.heappop(heap)

2

As funções `nlargest()` e `nsmallest()` são mais apropriadas se você estiver tentando encontrar um número relativamente pequeno de itens. 

Se você está simplesmente tentando encontrar o menor ou o maior item (N=1), é mais rápido usar `min()` e `max()`. 

Da mesma forma, se N tiver aproximadamente o mesmo tamanho que a própria coleção, geralmente é mais rápido classificá-lo primeiro e obter uma fatia (ou seja, use `sorted(items)[:N]` ou `sorted(items)[-N:]`).

Deve-se notar que a implementação real de `nlargest()` e `nsmallest()` é adaptável em como ela opera e realizará algumas dessas otimizações em seu nome (por exemplo, usando classificação se N estiver próximo do mesmo tamanho que a entrada). Embora não seja necessário usar esta receita, a implementação de um `heap` é um assunto de estudo interessante e que vale a pena.

Isso geralmente pode ser encontrado em qualquer livro decente sobre algoritmos e estruturas de dados. A documentação do módulo `heapq` também discute os detalhes de implementação subjacentes.

## 1.5. Implementando uma fila de prioridade

**Problema**

Você deseja implementar uma fila que classifica os itens por uma determinada prioridade e sempre retorna o item com a prioridade mais alta em cada operação `pop`.

**Solução**

A classe a seguir usa o módulo `heapq` para implementar uma fila de prioridade simples:

In [61]:
import heapq
class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
    
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1

    def pop(self):
        return heapq.heappop(self._queue)[-1]

Aqui está um exemplo de como ele pode ser usado:

In [62]:
class Item:
    def __init__(self, name):
        self.name = name
    
    def __repr__(self):
        return 'Item({!r})'.format(self.name)

In [63]:
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)
q.pop()

Item('bar')

In [64]:
q.pop()

Item('spam')

In [65]:
q.pop()

Item('foo')

In [66]:
q.pop()

Item('grok')

Observe como a primeira operação `pop()` retornou o item com a prioridade mais alta. Observe também como os dois itens com a mesma prioridade (foo e grok) foram retornados na mesma ordem em que foram inseridos na fila.

**Discussão**

O núcleo desta receita diz respeito ao uso do módulo `heapq`. As funções `heapq.heappush()` e `heapq.heapppop()` inserem e removem itens de uma `lista _queue` de forma que o primeiro item da lista tenha a menor prioridade (como discutido na Receita 1.4). O método `heappop()` sempre retorna o item “menor”, então essa é a chave para fazer a fila exibir os itens corretos. Além disso, como as operações `push` e `pop` têm complexidade O(log N) onde N é o número de itens no `heap`, elas são bastante eficientes mesmo para valores razoavelmente grandes de N.

Nesta receita, a fila consiste em tuplas do formato (-prioridade, índice, item). O valor de prioridade é negado para que a fila classifique os itens da prioridade mais alta para a mais baixa. Isso é o oposto da ordenação de `heap` normal, que classifica do valor mais baixo para o mais alto.

A função da variável de índice é ordenar corretamente os itens com o mesmo nível de prioridade. Mantendo um índice cada vez maior, os itens serão classificados de acordo com a ordem em que foram inseridos. No entanto, o índice também desempenha um papel importante ao fazer as operações de comparação funcionarem para itens que têm o mesmo nível de prioridade.

Para detalhar isso, as instâncias de `Item` no exemplo não podem ser ordenadas. Por exemplo:
<code>
a = Item('foo')
b = Item('bar')
a < b

Traceback (most recent call last):
File "\<stdin\>", line 1, in \<module\>
TypeError: unorderable types: Item() < Item()
</code>
    
Se você fizer tuplas (prioridade, item), elas podem ser comparadas desde que as prioridades sejam diferentes. No entanto, se duas tuplas com prioridades iguais forem comparadas, a comparação falhará como antes. Por exemplo:

In [67]:
a = (1, Item('foo'))
b = (5, Item('bar'))
a < b

True

<code>
c = (1, Item('grok'))
a < c
Traceback (most recent call last):
File "\<stdin\>", line 1, in \<module\>
TypeError: unorderable types: Item() < Item()
</code>

Ao introduzir o índice extra e fazer tuplas (prioridade, índice, item), você evita esse problema inteiramente, já que duas tuplas nunca terão o mesmo valor para índice (e o *Python* nunca se preocupa em comparar os valores restantes da tupla uma vez que o resultado da comparação pode seja determinado):

In [68]:
a = (1, 0, Item('foo'))
b = (5, 1, Item('bar'))
c = (1, 2, Item('grok'))
a < b

True

In [69]:
a < c

True

Se você quiser usar essa fila para comunicação entre `threads`, precisará adicionar bloqueio e sinalização apropriados. Veja a Receita 12.3 para um exemplo de como fazer isso.
A documentação do módulo `heapq` contém mais exemplos e discussões sobre a teoria e implementação de heaps.

## 1.6. Mapeando Chaves para Vários Valores em um Problema de Dicionário

Você quer fazer um dicionário que mapeie chaves para mais de um valor (o chamado “multidict”).

**Solução**

Um dicionário é um mapeamento em que cada chave é mapeada para um único valor. Se você quiser mapear chaves para vários valores, precisará armazenar os vários valores em outro contêiner, como uma lista ou conjunto. Por exemplo, você pode fazer dicionários como este:

In [70]:
d = {
    'a' : [1, 2, 3],
    'b' : [4, 5]
}

e = {
    'a' : {1, 2, 3},
    'b' : {4, 5}
}

A escolha de usar ou não listas ou conjuntos depende do uso pretendido. Use uma lista se desejar preservar a ordem de inserção dos itens. Use um conjunto se quiser eliminar duplicatas (e não se preocupe com o pedido).

Para construir facilmente esses dicionários, você pode usar `defaultdict` no módulo `collections`. Um recurso do `defaultdict` é que ele inicializa automaticamente o primeiro valor para que você possa simplesmente se concentrar em adicionar itens. Por exemplo:

In [71]:
from collections import defaultdict
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)

d

defaultdict(list, {'a': [1, 2], 'b': [4]})

In [72]:
e = defaultdict(set)
e['a'].add(1)
e['a'].add(2)
e['b'].add(4)

e

defaultdict(set, {'a': {1, 2}, 'b': {4}})

Um cuidado com `defaultdict` é que ele criará automaticamente entradas de dicionário para chaves acessadas posteriormente (mesmo que não sejam encontradas atualmente no dicionário). Se você não quiser esse comportamento, você pode usar `setdefault()` em um dicionário comum. Por exemplo:

In [73]:
d = {} # A regular dictionary
d.setdefault('a', []).append(1)
d.setdefault('a', []).append(2)
d.setdefault('b', []).append(4)
d

{'a': [1, 2], 'b': [4]}

No entanto, muitos programadores acham que `setdefault()` não é natural—sem mencionar o fato de que ele sempre cria uma nova instância do valor inicial em cada chamada (a lista vazia [] no exemplo).

**Discussão**

Em princípio, construir um dicionário multivalorado é simples. No entanto, a inicialização do primeiro valor pode ser confusa se você tentar fazer isso sozinho. Por exemplo, você pode ter um código parecido com este:
<code>
d = {}
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)
</code>

Usar um `defaultdict` simplesmente leva a um código muito mais limpo:

<code>
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)
</code>

Essa receita está fortemente relacionada ao problema de agrupar registros em problemas de processamento de dados. Veja a Receita 1.15 para um exemplo.

## 1.7. Mantendo os dicionários em ordem

**Problema**

Você deseja criar um dicionário e também deseja controlar a ordem dos itens ao iterar ou serializar.

**Solução**

Para controlar a ordem dos itens em um dicionário, você pode usar um `OrderedDict` do módulo de coleções. Ele preserva exatamente a ordem de inserção original dos dados ao iterar. Por exemplo:

In [74]:
from collections import OrderedDict
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4

for key in d:
    print(key, d[key])

foo 1
bar 2
spam 3
grok 4


Um `OrderedDict` pode ser particularmente útil quando você deseja criar um mapeamento que poderá posteriormente serializar ou codificar em um formato diferente. Por exemplo, se você deseja controlar com precisão a ordem dos campos que aparecem em uma codificação JSON, primeiro construir os dados em um `OrderedDict` fará o truque:

In [75]:
import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

**Discussão**

Um `OrderedDict` mantém internamente uma lista duplamente vinculada que ordena as chaves de acordo com a ordem de inserção. Quando um novo item é inserido pela primeira vez, ele é colocado no final desta lista. A reatribuição subsequente de uma chave existente não altera a ordem.

Esteja ciente de que o tamanho de um `OrderedDict` é mais que o dobro do tamanho de um dicionário normal devido à lista vinculada extra que é criada. Assim, se você for construir uma estrutura de dados envolvendo um grande número de instâncias `OrderedDict` (por exemplo, lendo 100.000 linhas de um arquivo CSV em uma lista de instâncias `OrderedDict`), você precisa estudar os requisitos do seu aplicativo para determinar se o os benefícios de usar um `OrderedDict` superaram a sobrecarga de memória extra.

## 1.8. Calculando com dicionários

**Problema**

Você deseja realizar vários cálculos (por exemplo, valor mínimo, valor máximo, classificação etc.) em um dicionário de dados.

**Solução**

Considere um dicionário que mapeia nomes de ações para preços:

In [76]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

Para realizar cálculos úteis no conteúdo do dicionário, muitas vezes é útil inverter as chaves e os valores do dicionário usando `zip()`. Por exemplo, aqui está como encontrar o preço mínimo e máximo e o nome da ação:

In [77]:
min_price = min(zip(prices.values(),prices.keys()))
min_price

(10.75, 'FB')

In [78]:
max_price = max(zip(prices.values(), prices.keys()))
max_price

(612.78, 'AAPL')

Da mesma forma, para classificar os dados, use `zip()` com `sorted()`, como a seguir:

In [79]:
prices_sorted = sorted(zip(prices.values(), prices.keys()))
prices_sorted

[(10.75, 'FB'),
 (37.2, 'HPQ'),
 (45.23, 'ACME'),
 (205.55, 'IBM'),
 (612.78, 'AAPL')]

Ao fazer esses cálculos, saiba que `zip()` cria um iterador que só pode ser consumido uma vez. Por exemplo, o código a seguir é um erro:

In [80]:
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names))

# print(max(prices_and_names)) # ValueError: max() arg is an empty sequence

(10.75, 'FB')


**Discussão**

Se você tentar realizar reduções de dados comuns em um dicionário, descobrirá que eles processam apenas as chaves, não os valores. Por exemplo:

In [81]:
min(prices) # Returns 'AAPL'

'AAPL'

In [82]:
max(prices) # Returns 'IBM'

'IBM'

Isso provavelmente não é o que você quer porque você está realmente tentando realizar um cálculo envolvendo os valores do dicionário. Você pode tentar corrigir isso usando o método `values()` de um dicionário:

In [83]:
min(prices.values()) # Returns 10.75

10.75

In [84]:
max(prices.values()) # Returns 612.78

612.78

Infelizmente, isso muitas vezes não é exatamente o que você quer. Por exemplo, você pode querer saber informações sobre as chaves correspondentes (por exemplo, qual ação tem o menor preço?).

Você pode obter a chave correspondente ao valor mínimo ou máximo se fornecer uma função de chave para `min()` e `max()`. Por exemplo:

In [85]:
min(prices, key=lambda k: prices[k])

'FB'

In [86]:
max(prices, key=lambda k: prices[k])

'AAPL'

No entanto, para obter o valor mínimo, você precisará realizar uma etapa de pesquisa extra. Por exemplo:

In [87]:
min_value = prices[min(prices, key=lambda k: prices[k])]
min_value

10.75

A solução envolvendo `zip()` resolve o problema “invertendo” o dicionário em uma sequência de pares (valor, chave). Ao realizar comparações em tais tuplas, o elemento `value` é comparado primeiro, seguido pela chave. Isso fornece exatamente o comportamento que você deseja e permite que reduções e ordenações sejam facilmente executadas no conteúdo do dicionário usando uma única instrução.

Deve-se notar que em cálculos envolvendo pares (valor, chave), a chave será usada para determinar o resultado em instâncias em que várias entradas tenham o mesmo valor. Por exemplo, em cálculos como `min()` e `max()`, a entrada com a chave menor ou maior será retornada se houver valores duplicados. Por exemplo:

In [88]:
prices = { 'AAA' : 45.23, 'ZZZ': 45.23 }
min(zip(prices.values(), prices.keys()))

(45.23, 'AAA')

In [89]:
max(zip(prices.values(), prices.keys()))

(45.23, 'ZZZ')

## 1.9. Encontrando semelhanças em dois dicionários

**Problema**

Você tem dois dicionários e deseja descobrir o que eles podem ter em comum (mesmas chaves, mesmos valores, etc.).

**Solução**

Considere dois dicionários:

In [90]:
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}

Para descobrir o que os dois dicionários têm em comum, simplesmente execute operações comuns de conjunto usando os métodos `keys()` ou `items()`. Por exemplo:

In [91]:
# Encontrar chaves em comum
a.keys() & b.keys()

{'x', 'y'}

In [92]:
# Encontrar o que está em <a> e não está em <b>
a.keys() - b.keys()

{'z'}

In [93]:
# Encontrar o par(chave/valor) em comum.
a.items() & b.items()

{('y', 2)}

Esses tipos de operações também podem ser usados para alterar ou filtrar o conteúdo do dicionário. Por exemplo, suponha que você queira criar um novo dicionário com as chaves selecionadas removidas. Aqui está um código de exemplo usando uma compreensão de dicionário:

In [94]:
# Fazer um novo dicionário com certas chaves removidas
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
c

{'y': 2, 'x': 1}

**Discussão**

Um dicionário é um mapeamento entre um conjunto de chaves e valores. O método `keys()` de um dicionário retorna um objeto *keys-view* que expõe as chaves. Um recurso pouco conhecido das visualizações de chaves é que elas também suportam operações de conjunto comuns, como uniões, interseções e diferenças. Assim, se você precisar realizar operações comuns de conjunto com chaves de dicionário, muitas vezes você pode usar os objetos keys-view diretamente sem primeiro convertê-los em um conjunto.

O método `items()` de um dicionário retorna um objeto *items-view* que consiste em pares (chave, valor). Esse objeto suporta operações de conjunto semelhantes e pode ser usado para realizar operações como descobrir quais pares de chave-valor dois dicionários têm em comum.

Embora semelhante, o método `values()` de um dicionário não suporta as operações de conjunto descritas nesta receita. Em parte, isso se deve ao fato de que, diferentemente das chaves, os itens contidos em uma visualização de valores não são garantidos como exclusivos. Isso por si só torna certas operações de conjunto de utilidade questionável. No entanto, se você precisar realizar esses cálculos, eles podem ser realizados simplesmente convertendo os valores em um conjunto primeiro.

## 1.10. Removendo duplicatas de uma sequência enquanto mantém a ordem

**Problema**

Você deseja eliminar os valores duplicados em uma sequência, mas preserva a ordem dos itens restantes.

**Solução**

Se os valores na sequência forem hashable, o problema pode ser facilmente resolvido usando um conjunto e um gerador. Por exemplo:

In [95]:
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

Aqui está um exemplo de como usar sua função:

In [96]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))

[1, 5, 2, 9, 10]

Isso só funciona se os itens na sequência forem passíveis de `hash`. Se você estiver tentando eliminar duplicatas em uma sequência de tipos que não podem ser compartilhados (como `dicts`), você pode fazer uma pequena alteração nesta receita, da seguinte forma:

In [97]:
def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

Aqui, o objetivo do argumento `key` é especificar uma função que converte itens de sequência em um tipo hashable para fins de detecção de duplicatas. Veja como funciona:

In [98]:
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
list(dedupe(a, key=lambda d: (d['x'],d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [99]:
list(dedupe(a, key=lambda d: d['x']))

[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

Esta última solução também funciona bem se você deseja eliminar duplicatas com base no valor de um único campo ou atributo ou uma estrutura de dados maior.

**Discussão**

Se tudo o que você quer fazer é eliminar duplicatas, geralmente é fácil fazer um conjunto. Por exemplo:

In [100]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
a

[1, 5, 2, 1, 9, 1, 5, 10]

In [101]:
set(a)

{1, 2, 5, 9, 10}

No entanto, essa abordagem não preserva nenhum tipo de ordenação. Assim, os dados resultantes serão embaralhados posteriormente. A solução mostrada evita isso.

O uso de uma função geradora nesta receita reflete o fato de que você pode querer que a função seja de propósito extremamente geral – não necessariamente vinculada diretamente ao processamento de listas. Por exemplo, se você quiser ler um arquivo, eliminando linhas duplicadas, você pode simplesmente fazer isso:

<code>
with open(somefile,'r') as f:
    for line in dedupe(f):
</code>
    
A especificação de uma função chave imita uma funcionalidade semelhante em funções internas, como `sorted()`, `min()` e `max()`. Por exemplo, veja Receitas 1.8 e 1.13.


## 1.11. Nomeando uma fatia

**Problema**

Seu programa se tornou uma bagunça ilegível de índices de fatia codificados e você deseja limpá-lo.

**Solução**

Suponha que você tenha algum código que está extraindo campos de dados específicos de uma string de registro com campos fixos (por exemplo, de um arquivo simples ou formato similar):

In [102]:
###### 0123456789012345678901234567890123456789012345678901234567890'
record = '....................100         ........513.25  ..........'
cost = int(record[20:32]) * float(record[40:48])
cost

51325.0

Em vez de fazer isso, por que não nomear as fatias assim?

In [103]:
SHARES = slice(20,32)
PRICE = slice(40,48)

cost = int(record[SHARES]) * float(record[PRICE])
cost

51325.0

Na última versão, você evita ter muitos índices misteriosos codificados, e o que você está fazendo fica muito mais claro.

**Discussão**

Como regra geral, escrever código com muitos valores de índice codificados leva a uma confusão de legibilidade e manutenção. Por exemplo, se você voltar ao código um ano depois, olhará para ele e se perguntará o que estava pensando quando o escreveu. A solução mostrada é simplesmente uma forma de declarar mais claramente o que seu código está realmente fazendo.

Em geral, o *built-in* `slice()` cria um objeto slice que pode ser usado em qualquer lugar que um slice seja permitido. Por exemplo:

In [104]:
items = [0, 1, 2, 3, 4, 5, 6]
a = slice(2, 4)
items[2:4]

[2, 3]

In [105]:
items[a]

[2, 3]

In [106]:
items[a] = [10,11]
items

[0, 1, 10, 11, 4, 5, 6]

In [107]:
del items[a]
items

[0, 1, 4, 5, 6]

Se você tiver uma instância de slice `s`, poderá obter mais informações sobre ela examinando seus atributos `s.start`, `s.stop` e `s.step`, respectivamente. Por exemplo:

In [108]:
a = slice(10, 50, 2)
a.start

10

In [109]:
a.stop

50

In [110]:
a.step

2

Além disso, você pode mapear uma fatia em uma sequência de um tamanho específico usando seu método `indices(size)` \[índices(tamanho)\]. Isso retorna uma tupla (`start`, `stop`, `step`) onde todos os valores foram adequadamente limitados para caber dentro dos limites (para evitar exceções `IndexError` ao indexar). Por exemplo:

In [111]:
a =slice(5, 10, 2)
s = 'HelloWorld'
a.indices(len(s))

(5, 10, 2)

In [112]:
for i in range(*a.indices(len(s))):
    print(s[i])

W
r
d


## 1.12. Determinando os itens que ocorrem com mais frequência em uma sequência

**Problema**

Você tem uma sequência de itens e gostaria de determinar os itens que ocorrem com mais frequência na sequência.

**Solução**

A classe `collections.Counter` foi projetada exatamente para esse problema. Ele ainda vem com um prático método most_common() que lhe dará a resposta.
Para ilustrar, digamos que você tenha uma lista de palavras e queira descobrir quais palavras ocorrem com mais frequência. Veja como você faria:

In [113]:
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]

from collections import Counter

word_counts = Counter(words)
top_three = word_counts.most_common(3)
print(top_three)

[('eyes', 8), ('the', 5), ('look', 4)]


**Discussão**

Como entrada, os objetos `Counter` podem ser alimentados com qualquer sequência de itens de entrada hashable. Nos bastidores, um contador é um dicionário que mapeia os itens para o número de ocorrências. Por exemplo:

In [114]:
word_counts['not']

1

In [115]:
word_counts['eyes']

8

Se você quiser incrementar a contagem manualmente, basta usar a adição:

In [116]:
morewords = ['why','are','you','not','looking','in','my','eyes']
for word in morewords:
    word_counts[word] += 1

word_counts['eyes']

9

Ou, alternativamente, você pode usar o método `update()`:

In [117]:
word_counts.update(morewords)
word_counts

Counter({'look': 4,
         'into': 3,
         'my': 5,
         'eyes': 10,
         'the': 5,
         'not': 3,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1,
         'why': 2,
         'are': 2,
         'you': 2,
         'looking': 2,
         'in': 2})

Um recurso pouco conhecido das instâncias `Counter` é que elas podem ser facilmente combinadas usando várias operações matemáticas. Por exemplo:

In [118]:
a = Counter(words)
b = Counter(morewords)
a

Counter({'look': 4,
         'into': 3,
         'my': 3,
         'eyes': 8,
         'the': 5,
         'not': 1,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1})

In [119]:
b

Counter({'why': 1,
         'are': 1,
         'you': 1,
         'not': 1,
         'looking': 1,
         'in': 1,
         'my': 1,
         'eyes': 1})

In [120]:
# Combinar as contagens
a + b

Counter({'look': 4,
         'into': 3,
         'my': 4,
         'eyes': 9,
         'the': 5,
         'not': 2,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1,
         'why': 1,
         'are': 1,
         'you': 1,
         'looking': 1,
         'in': 1})

In [121]:
# Subtrair as contagens
a - b

Counter({'look': 4,
         'into': 3,
         'my': 2,
         'eyes': 7,
         'the': 5,
         'around': 2,
         "don't": 1,
         "you're": 1,
         'under': 1})

Desnecessário dizer que os objetos `Counter` são uma ferramenta tremendamente útil para quase qualquer tipo de problema em que você precise tabular e contar dados. Você deve preferir isso a soluções escritas manualmente envolvendo dicionários.

## 1.13. Classificando uma lista de dicionários por uma chave comum

**Problema**

Você tem uma lista de dicionários e gostaria de classificar as entradas de acordo com um ou mais valores do dicionário.

**Solução**

Classificar este tipo de estrutura é fácil usando a função `itemgetter` do módulo `operator`. Digamos que você tenha consultado uma tabela de banco de dados para obter uma lista dos membros em seu site e receba a seguinte estrutura de dados em troca:

In [122]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

É bastante fácil produzir essas linhas ordenadas por qualquer um dos campos comuns a todos os dicionários. Por exemplo:

In [123]:
from operator import itemgetter

rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))

print(rows_by_fname)
print('')
print(rows_by_uid)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


A função `itemgetter()` também pode aceitar várias chaves. Por exemplo, este código:

In [124]:
rows_by_lfname = sorted(rows, key=itemgetter('lname','fname'))
print(rows_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


**Discussão**

Neste exemplo, as linhas são passadas para a função integrada `sorted()`, que aceita uma chave de argumento de palavra-chave. Espera-se que esse argumento seja um `callable` que aceite um único item de linhas como entrada e retorne um valor que será usado como base para classificação. A função `itemgetter()` cria exatamente esse callable.

A função `operator.itemgetter()` recebe como argumentos os índices de pesquisa usados para extrair os valores desejados dos registros em linhas. Pode ser um nome de chave de dicionário, um elemento de lista numérica ou qualquer valor que possa ser alimentado ao método `__getitem__()` de um objeto. Se você fornecer vários índices para `itemgetter()`, o callable que ele produz retornará uma tupla com todos os elementos nela, e `sorted()` ordenará a saída de acordo com a ordem classificada das tuplas. Isso pode ser útil se você quiser classificar simultaneamente em vários campos (como sobrenome e nome, conforme mostrado no exemplo).

A funcionalidade de `itemgetter()` às vezes é substituída por expressões lambda. Por exemplo:

In [125]:
rows_by_fname = sorted(rows, key=lambda r: r['fname'])
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'],r['fname']))

print(rows_by_fname)
print("")
print(rows_by_lfname)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


Essa solução geralmente funciona bem. No entanto, a solução envolvendo `itemgetter()` normalmente é executada um pouco mais rápido. Assim, você pode preferir se o desempenho for uma preocupação. Por último, mas não menos importante, não esqueça que a técnica mostrada nesta receita pode ser aplicada a funções como `min()` e `max()`. Por exemplo:

In [126]:
min(rows, key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

In [127]:
max(rows, key=itemgetter('uid'))

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}

## 1.14. Classificando objetos sem suporte de comparação nativa

**Problema**

Você deseja classificar objetos da mesma classe, mas eles não oferecem suporte nativo a operações de comparação.

**Solução**

A função built-in `sorted()` recebe um argumento chave que pode receber um callable que retornará algum valor no objeto que `sorted` usará para comparar os objetos. Por exemplo, se você tiver uma sequência de instâncias de usuário em seu aplicativo e desejar classificá-las pelo atributo `user_id`, forneça um callable que receba uma instância de usuário como entrada e retorne o `user_id`. Por exemplo:

In [128]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id
    
    def __repr__(self):
        return 'User({})'.format(self.user_id)
users = [User(23), User(3), User(99)]
users

[User(23), User(3), User(99)]

In [129]:
sorted(users, key=lambda u: u.user_id)

[User(3), User(23), User(99)]

Em vez de usar `lambda`, uma abordagem alternativa é usar `operator.attrgetter()`:

In [130]:
from operator import attrgetter

sorted(users, key=attrgetter('user_id'))

[User(3), User(23), User(99)]

**Discussão**

A escolha de usar ou não `lambda` ou `attrgetter()` pode ser uma preferência pessoal. No entanto, `attrgetter()` geralmente é um pouco mais rápido e também possui o recurso adicional de permitir que vários campos sejam extraídos simultaneamente. Isso é análogo ao uso de `operator.itemgetter()` para dicionários (veja a Receita 1.13). Por exemplo, se as instâncias de usuário também tivessem um atributo `first_name` e `last_name`, você poderia executar um ordenar assim:
<code>
by_name = sorted(users, key=attrgetter('last_name', 'first_name'))
</code>

Também vale a pena notar que a técnica usada nesta receita pode ser aplicada a funções como `min()` e `max()`. Por exemplo:

In [131]:
min(users, key=attrgetter('user_id'))

User(3)

In [132]:
max(users, key=attrgetter('user_id'))

User(99)

## 1.15. Agrupando registros com base em um campo

**Problema**

Você tem uma sequência de dicionários ou instâncias e deseja iterar os dados em grupos com base no valor de um campo específico, como data.

**Solução**

A função `itertools.groupby()` é particularmente útil para agrupar dados assim. Para ilustrar, suponha que você tenha a seguinte lista de dicionários:

In [133]:
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

Agora suponha que você queira iterar sobre os dados em pedaços agrupados por data. Para fazer isso, primeiro classifique pelo campo desejado (neste caso, data) e depois use `itertools.groupby()`:

In [134]:
from operator import itemgetter
from itertools import groupby

# Ordenado pelo primeiro campo desejado
rows.sort(key=itemgetter('date'))

# Iterando em grupos
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ', i)

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


**Discussão**

A função `groupby()` funciona varrendo uma sequência e encontrando “execuções” sequenciais de valores idênticos (ou valores retornados pela função de chave fornecida). Em cada iteração, ele retorna o valor junto com um iterador que produz todos os itens de um grupo com o mesmo valor.

Um passo preliminar importante é classificar os dados de acordo com o campo de interesse. Como `groupby()` examina apenas itens consecutivos, não classificar primeiro não agrupará os registros como você deseja.

Se seu objetivo é simplesmente agrupar os dados por datas em uma grande estrutura de dados que permite acesso aleatório, você pode ter mais sorte usando `defaultdict()` para construir um `multidict`, conforme descrito na Receita 1.6. Por exemplo:

In [135]:
from collections import defaultdict

row_by_date = defaultdict(list)
for row in rows:
    row_by_date[row['date']].append(row)

Isso permite que os registros de cada data sejam acessados facilmente assim:
<code>
for r in rows_by_date['07/01/2012']:
    print(r)    
</code>

Para este último exemplo, não é necessário classificar os registros primeiro. Assim, se a memória não for preocupação, pode ser mais rápido fazer isso do que primeiro classificar os registros e iterar usando `groupby()`.

## 1.16. Filtrando Elementos de Sequência

**Problema**

Você tem dados dentro de uma sequência e precisa extrair valores ou reduzir a sequência usando alguns critérios.

**Solução**

A maneira mais fácil de filtrar dados de sequência geralmente é usar uma *List Comprehension*. Por exemplo:

In [136]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
[n for n in mylist if n > 0]

[1, 4, 10, 2, 3]

In [137]:
[n for n in mylist if n <0]

[-5, -7, -1]

Uma desvantagem potencial de usar uma compreensão de lista é que ela pode produzir um grande resultado se a entrada original for grande. Se isso for uma preocupação, você pode usar expressões geradoras para produzir os valores filtrados de forma iterativa. Por exemplo:

In [138]:
pos = (n for n in mylist if n > 0)
pos

<generator object <genexpr> at 0x000001EA46D22CE0>

In [139]:
for x in pos:
    print(x)

1
4
10
2
3


Às vezes, os critérios de filtragem não podem ser expressos facilmente em uma *List Comprehension* ou expressão geradora. Por exemplo, suponha que o processo de filtragem envolva tratamento de exceção ou algum outro detalhe complicado. Para isso, coloque o código de filtragem em sua própria função e use a função `filter()` integrada. Por exemplo:

In [140]:
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

ivals = list(filter(is_int, values))
print(ivals)

['1', '2', '-3', '4', '5']


`filter()` cria um iterador, portanto, se você quiser criar uma lista de resultados, certifique-se de usar também `list()` conforme mostrado.

**Discussão**

As *List Comprehension* e as expressões geradoras geralmente são as maneiras mais fáceis e diretas de filtrar dados simples. Eles também têm o poder adicional de transformar os dados ao mesmo tempo. Por exemplo:

In [141]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
import math

[math.sqrt(n) for n in mylist if n > 0]

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]

Uma variação na filtragem envolve substituir os valores que não atendem aos critérios por um novo valor em vez de descartá-los. Por exemplo, talvez em vez de apenas encontrar valores positivos, você também queira recortar valores ruins para caber em um intervalo especificado. Isso geralmente é feito facilmente movendo o critério de filtro para uma expressão condicional como esta:

In [142]:
clip_neg = [n if n > 0 else 0 for n in mylist]
clip_neg

[1, 4, 0, 10, 0, 2, 3, 0]

In [143]:
clip_pos = [n if n < 0 else 0 for n in mylist]
clip_pos

[0, 0, -5, 0, -7, 0, 0, -1]

Outra ferramenta de filtragem notável é `itertools.compress()`, que recebe um iterável e uma sequência seletora booleana como entrada. Como saída, ele fornece todos os itens no iterável onde o elemento correspondente no seletor é `True`. Isso pode ser útil se você estiver tentando aplicar os resultados da filtragem de uma sequência a outra sequência relacionada. Por exemplo, suponha que você tenha as duas colunas de dados a seguir:

In [144]:
addresses = [ 
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]

counts = [ 0, 3, 10, 4, 1, 7, 6, 1]

Agora suponha que você queira fazer uma lista de todos os endereços em que o valor de contagem correspondente seja maior que 5. Veja como você pode fazer isso:

In [145]:
from itertools import compress
more5 = [n > 5 for n in counts]
more5

[False, False, True, False, False, True, True, False]

In [146]:
list(compress(addresses,more5))

['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']

A chave aqui é primeiro criar uma sequência de booleanos que indique quais elementos satisfazem a condição desejada. A função `compress()` então seleciona os itens correspondentes aos valores `True`.

Como `filter()`, `compress()` normalmente retorna um iterador. Assim, você precisa usar `list()` para transformar os resultados em uma lista, se desejar.

## 1.17. Extraindo um subconjunto de um dicionário

**Problema**

Você deseja criar um dicionário que seja um subconjunto de outro dicionário.

**Solução**

Isso é facilmente realizado usando uma compreensão de dicionário. Por exemplo:

In [147]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}

# Faz um dicionário com todos os preços acima de 200
p1 = { key:value for key, value in prices.items() if value > 200 }

# Faz um dicionário de Ações de Empresas Tech
tech_names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = { key:value for key,value in prices.items() if key in tech_names }
p2

{'AAPL': 612.78, 'IBM': 205.55, 'HPQ': 37.2}

**Discussão**

Muito do que pode ser feito com uma *Dict Comprehension* também pode ser feito criando uma sequência de tuplas e passando-as para a função `dict()`. Por exemplo:

In [148]:
p1 = dict((key, value) for key, value in prices.items() if value > 200)
p1

{'AAPL': 612.78, 'IBM': 205.55}

No entanto, a solução de *Dict Comprehension* é um pouco mais clara e realmente funciona um pouco mais rápido (mais de duas vezes mais rápido quando testado no dicionário de preços usado no exemplo). Às vezes, existem várias maneiras de realizar a mesma coisa. Por exemplo, o segundo exemplo poderia ser reescrito como:

In [149]:
# Faz um dicionário de ações de empresas tech
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'}
p2 = { key:prices[key] for key in prices.keys() & tech_names}
p2

{'HPQ': 37.2, 'IBM': 205.55, 'AAPL': 612.78}

No entanto, um estudo de tempo revela que esta solução é quase 1,6 vezes mais lenta que a primeira solução. Se o desempenho importa, geralmente vale a pena gastar um pouco de tempo estudando-o. Consulte a Receita 14.13 para obter informações específicas sobre tempo e perfil.

## 1.18. Mapeando Nomes para Elementos de Sequência

**Problema**

Você tem código que acessa elementos de lista ou tupla por posição, mas isso torna o código um pouco difícil de ler às vezes. Você também gostaria de ser menos dependente da posição na estrutura, acessando os elementos pelo nome.

**Solução**

`collections.namedtuple()` fornece esses benefícios, enquanto adiciona sobrecarga mínima sobre o uso de um objeto de tupla normal. `collections.namedtuple()` é na verdade um método de fábrica que retorna uma subclasse do tipo de tupla padrão do Python. Você o alimenta com um nome de tipo e os campos que ele deve ter, e ele retorna uma classe que você pode instanciar, passando valores para os campos que você definiu e assim por diante. Por exemplo:

In [150]:
from collections import namedtuple
Subscriber = namedtuple('Subscriber', ['addr', 'joined'])
sub = Subscriber('jonesy@example.com', '2012-10-19')
sub

Subscriber(addr='jonesy@example.com', joined='2012-10-19')

In [151]:
sub.addr

'jonesy@example.com'

In [152]:
sub.joined

'2012-10-19'

Embora uma instância de uma tupla nomeada pareça uma instância de classe normal, ela é intercambiável com uma tupla e suporta todas as operações usuais de tupla, como indexação e descompactação. Por exemplo:

In [153]:
len(sub)

2

In [154]:
addr, joined = sub
addr

'jonesy@example.com'

In [155]:
joined

'2012-10-19'

Um caso de uso importante para tuplas nomeadas é desacoplar seu código da posição dos elementos que ele manipula. Portanto, se você receber de volta uma grande lista de tuplas de uma chamada de banco de dados e manipulá-las acessando os elementos posicionais, seu código poderá quebrar se, digamos, você adicionar uma nova coluna à sua tabela. Não é assim se você primeiro converter as tuplas retornadas em tuplas nomeadas.
Para ilustrar, aqui está algum código usando tuplas comuns:

<code>
def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return total</code>
    
Referências a elementos posicionais geralmente tornam o código um pouco menos expressivo e mais dependente da estrutura dos registros. Aqui está uma versão que usa um `namedtuple`:

In [156]:
from collections import namedtuple

Stock = namedtuple('Stock', ['name', 'shares', 'price'])

def compute_cost(records):
    total = 0.0
    for rec in records:
        s = Stock(*rec)
        total += s.shares * s.price
    return total

Naturalmente, você pode evitar a conversão explícita para a tupla nomeada *Stock* se a sequência de registros no exemplo já contiver tais instâncias.

**Discussão**

Um uso possível de um `namedtuple` é como um substituto para um dicionário, que requer mais espaço para armazenamento. Assim, se você estiver construindo grandes estruturas de dados envolvendo dicionários, o uso de um `namedtuple` será mais eficiente. No entanto, esteja ciente de que, diferentemente de um dicionário, uma tupla nomeada é imutável. Por exemplo:

In [157]:
s = Stock('ACME', 100, 123.45)
s

Stock(name='ACME', shares=100, price=123.45)

<code>
s.shares = 75
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: can't set attribute
</code>

Se você precisar alterar qualquer um dos atributos, isso pode ser feito usando o método `_replace()` de uma instância `namedtuple`, que cria uma `namedtuple` inteiramente nova com valores especificados substituídos. Por exemplo:

In [158]:
s = s._replace(shares=75)
s

Stock(name='ACME', shares=75, price=123.45)

Um uso sutil do método `_replace()` é que ele pode ser uma maneira conveniente de preencher tuplas nomeadas que possuem campos opcionais ou ausentes. Para fazer isso, você cria uma tupla protótipo contendo os valores padrão e, em seguida, usa `_replace()` para criar novas instâncias com valores substituídos. Por exemplo:

In [159]:
from collections import namedtuple
Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time'])

# Criando uma instância prototipada
stock_prototype = Stock('', 0, 0.0, None, None)

# Função para converter um dicionário para a Stock
def dict_to_stock(s):
    return stock_prototype._replace(**s)

Aqui está um exemplo de como esse código funcionaria:

In [160]:
a = {'name': 'ACME', 'shares': 100, 'price': 123.45}
dict_to_stock(a)

Stock(name='ACME', shares=100, price=123.45, date=None, time=None)

In [161]:
b = {'name': 'ACME', 'shares': 100, 'price': 123.45, 'date': '12/17/2012'}
dict_to_stock(b)

Stock(name='ACME', shares=100, price=123.45, date='12/17/2012', time=None)

Por último, mas não menos importante, deve-se notar que, se seu objetivo é definir uma estrutura de dados eficiente onde você estará alterando vários atributos de instância, usar `namedtuple` não é sua melhor escolha. Em vez disso, considere definir uma classe usando `__slots__` (consulte a Receita 8.4).

## 1.19. Transformando e reduzindo dados ao mesmo tempo

**Problema**

Você precisa executar uma função de redução (por exemplo, `sum()`, `min()`, `max()`), mas primeiro precisa transformar ou filtrar os dados.

**Solução**

Uma maneira muito elegante de combinar uma redução de dados e uma transformação é usar um argumento gerador de expressão. Por exemplo, se você quiser calcular a soma dos quadrados, faça o seguinte:

In [162]:
nums = [1, 2, 3, 4, 5]
s = sum(x * x for x in nums)
s

55

Aqui estão alguns outros exemplos:

In [163]:
# Determina se qualquer arquivo <.py> existe em um diretório

import os
files = os.listdir(r'..\Python_Cookbook_Recipes_3rd')
if any(name.endswith('.py') for name in files):
    print('There be python!')
else:
	print('Sorry, no python.')

# Saída é uma tupla como CSV
s = ('ACME', 50, 123.45)
print(','.join(str(x) for x in s))

# Redução de dados através dos campos de uma Estrutura de Dados.
portfolio = [
	{'name':'GOOG', 'shares': 50},
	{'name':'YHOO', 'shares': 75},
	{'name':'AOL', 'shares': 20},
	{'name':'SCOX', 'shares': 65}
]

min_shares = min(s['shares'] for s in portfolio)
print(min_shares)

Sorry, no python.
ACME,50,123.45
20


**Discussão**
A solução mostra um aspecto sintático sutil das expressões geradoras quando fornecidas como argumento único para uma função (ou seja, você não precisa de parênteses repetidos). Por exemplo, essas declarações são as mesmas:

In [164]:
s = sum((x * x for x in nums)) # Passa uma expressão geradora como argumento
s = sum(x * x for x in nums) # Mais elegante.

Usar um argumento gerador geralmente é uma abordagem mais eficiente e elegante do que criar primeiro uma lista temporária. Por exemplo, se você não usou uma expressão geradora, considere esta implementação alternativa:

In [165]:
nums = [1, 2, 3, 4, 5]
s = sum([x * x for x in nums])
s

55

Isso funciona, mas introduz uma etapa extra e cria uma lista extra. Para uma lista tão pequena, pode não importar, mas se `nums` fosse enorme, você acabaria criando uma grande estrutura de dados temporária para ser usada apenas uma vez e descartada. A solução do gerador transforma os dados de forma iterativa e, portanto, é muito mais eficiente em termos de memória.

Certas funções de redução, como `min()` e `max()`, aceitam um argumento de chave que pode ser útil em situações em que você pode estar inclinado a usar um gerador. Por exemplo, no exemplo do portfólio, você pode considerar esta alternativa:

In [166]:
# Original: retorna 20
min_shares = min(s['shares'] for s in portfolio)
print(f"Original: {min_shares}")
# Alternativa: retorna {'name': 'AOL', 'shares': 20}
min_shares = min(portfolio, key=lambda s: s['shares'])
print(f"\nAlternativa: {min_shares}")

Original: 20

Alternativa: {'name': 'AOL', 'shares': 20}


## 1.20. Combinando vários mapeamentos em um único mapeamento

**Problema**

Você tem vários dicionários ou mapeamentos que deseja combinar logicamente em um único mapeamento para executar determinadas operações, como pesquisar valores ou verificar a existência de chaves.

**Solução**

Suponha que você tenha dois dicionários:

In [167]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }


Agora suponha que você queira realizar pesquisas onde você tenha que verificar ambos os dicionários (por exemplo, primeiro verificando em a e depois em b se não for encontrado). Uma maneira fácil de fazer isso é usar a classe `ChainMap` do módulo `collections`. Por exemplo:

In [168]:
from collections import ChainMap
c = ChainMap(a,b)
print(c['x']) # Outputs 1 (from a)
print(c['y']) # Outputs 2 (from b)
print(c['z']) # Outputs 3 (from a)

1
2
3


**Discussão**

Um `ChainMap` pega vários mapeamentos e os faz aparecer logicamente como um. No entanto, os mapeamentos **não são literalmente mesclados**. Em vez disso, um `ChainMap` simplesmente mantém uma lista dos mapeamentos subjacentes e redefine as operações comuns do dicionário para varrer a lista. A maioria das operações funcionará. Por exemplo:

In [169]:
len(c)

3

In [170]:
list(c.keys())

['y', 'z', 'x']

In [171]:
list(c.values())

[2, 3, 1]

Se houver chaves duplicadas, os valores do primeiro mapeamento serão usados. Assim, a entrada `c['z']` no exemplo sempre se referiria ao valor no dicionário `a`, não ao valor no dicionário `b`.

As operações que alteram o mapeamento sempre afetam o primeiro mapeamento listado. Por exemplo:

In [172]:
c['z'] = 10
c['w'] = 40
del c['x']

In [173]:
a

{'z': 10, 'w': 40}

In [None]:
del c['y']
# KeyError: "Key not found in the first mapping: 'y'"

Um `ChainMap` é particularmente útil ao trabalhar com valores com escopo, como variáveis em uma linguagem de programação (ou seja, globais, locais, etc.). Na verdade, existem métodos que facilitam isso:

In [175]:
values = ChainMap()
values['x'] = 1

# Adicionando um novo mapeamento

values = values.new_child()
values['x'] = 2

values = values.new_child()
values['x'] = 3
values

ChainMap({'x': 3}, {'x': 2}, {'x': 1})

In [176]:
values['x']

3

In [177]:
# Descartando o último mapeamento
values =values.parents
values['x']

2

In [178]:
# Descartando o último mapeamento
values =values.parents
values['x']

1

In [179]:
values

ChainMap({'x': 1})

Como alternativa ao `ChainMap`, você pode considerar mesclar dicionários usando o método `update()`. Por exemplo:

In [180]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }

merged = dict(b)
merged

{'y': 2, 'z': 4}

In [181]:
merged.update(a)

In [182]:
merged['x']

1

In [184]:
merged['y']

2

In [183]:
merged['z']

3

Isso funciona, mas requer que você crie um objeto de dicionário completamente separado (ou altere destrutivamente um dos dicionários existentes). Além disso, se algum dos dicionários originais sofrer mutação, as alterações não serão refletidas no dicionário mesclado. Por exemplo:

In [185]:
a['x'] = 13
merged['x']

1

Um `ChainMap` usa os dicionários originais, então não tem esse comportamento. Por exemplo:

In [187]:
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }
merged = ChainMap(a, b)
merged

ChainMap({'x': 1, 'z': 3}, {'y': 2, 'z': 4})

In [188]:
merged['x']

1

In [192]:
a['x'] = 42
merged['x'] # Note que ele mudou o dicionário no <merged>

42