# Uma coleção de sequências

Parte II - Estrutura de Dados | Capítulo 2 - Python Fluente - Luciano Ramalho


## Útil

- sequências container (list, tuple, collections.deque): armazena tipos diferentes e referências aos objetos que elas contêm
- sequências simples (str, byter, array.array, memoryview): itens de um só tipo, armazenados cada item em seu próprio espaço de memória

## Liscomps e Genexps

list comprehensions = listcomps

expressões geradoras = genexps

In [None]:
symbols = '$¢£¥€¤'
codes = []

for symbol in symbols:
    codes.append(ord(symbol))

codes

[36, 162, 163, 165, 8364, 164]

In [None]:
symbols = '$¢£¥€¤'

codes = [ord(symbol) for symbol in symbols]

codes

[36, 162, 163, 165, 8364, 164]

In [None]:
x = 'ABC'
codes = [ord(x) for x in x]
x

'ABC'

In [None]:
mari = [m for m in 'Mari']
mari

['M', 'a', 'r', 'i']

In [None]:
ord('a')

97

In [None]:
symbols = '$¢£¥€¤'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
beyond_ascii

[162, 163, 165, 8364, 164]

In [None]:
beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols)))
beyond_ascii

[162, 163, 165, 8364, 164]

In [None]:
list(map(len, ['123', '22', '3', '41111']))

[3, 2, 1, 5]

In [None]:
list(map(sum, [[1, 2, 3], [2, 2], [3], [4, 1, 1, 1, 1]]))

[6, 4, 3, 8]

In [None]:
import timeit

TIMES = 10000

SETUP = """
symbols = '$¢£¥€¤'
def non_ascii(c):
    return c > 127
"""

def clock(label, cmd):
    res = timeit.repeat(cmd, setup=SETUP, number=TIMES)
    print(label, *(f'{x:.3f}' for x in res))

clock('listcomp        :', '[ord(s) for s in symbols if ord(s) > 127]')
clock('listcomp + func :', '[ord(s) for s in symbols if non_ascii(ord(s))]')
clock('filter + lambda :', 'list(filter(lambda c: c > 127, map(ord, symbols)))')
clock('filter + func   :', 'list(filter(non_ascii, map(ord, symbols)))')

listcomp        : 0.026 0.025 0.028 0.034 0.041
listcomp + func : 0.033 0.033 0.033 0.023 0.017
filter + lambda : 0.015 0.014 0.014 0.016 0.015
filter + func   : 0.013 0.013 0.014 0.014 0.014


## Produtos cartesianos

In [None]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [
    (color, size)
    for color in colors
    for size in sizes
]

tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

In [None]:
for color in colors:
    for size in sizes:
        print((color, size))

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


## Expressões geradoras

Economizam memória, pois geram itens um por um usando o protocolo de iteradores, ao invés de criar uma lista completa somente para alimentar outro construtor.

Útil para:
- inicializar sequências que não sejam listas
- gerar uma saída que não precise ser armazenada em memória

In [None]:
symbols = '$¢£¥€¤'
tuple(ord(symbol) for symbol in symbols)

(36, 162, 163, 165, 8364, 164)

In [None]:
import array
array.array('I', (ord(symbol) for symbol in symbols))

array('I', [36, 162, 163, 165, 8364, 164])

A expressão geradora gera itens um por um, e portanto, uma lista com todas as variações (no caso abaixo, de variações de camiseta), nunca seria construída.

In [None]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']

for tshirt in (f'{c} {s}' for c in colors for s in sizes):
    print(tshirt)

black S
black M
black L
white S
white M
white L


## Tuplas

Armazenadas como registros em posições específicas. Logo, quando utilizamos, sabemos a quantidade de itens - normalmente fixo - e sua ordem é importante.

In [None]:
cidades_e_estados = [
    ('São Paulo', 'SP'),
    ('São Caetano do Sul', 'SP'),
    ('São José dos Campos', 'SP')
]

for cidade, estado in cidades_e_estados:
    print(estado)

SP
SP
SP


Desempacotamento de tuplas com swap, trocando valores de duas variáveis sem usar uma temporária.

In [None]:
nome, sobrenome =  ('Pinheiro', 'Mariana')
nome, sobrenome = sobrenome, nome

nome

'Mariana'

In [None]:
sobrenome

'Pinheiro'

Prefixar um argumento com um asterisco ao chamar uma função.

In [None]:
# (a // b, x % y)
divmod(20, 8)

(2, 4)

In [None]:
t = (20, 8)
divmod(*t)

(2, 4)

In [None]:
t = (20.5, 8.2)
divmod(*t)

(2.0, 4.100000000000001)

Usando * para capturar itens excedentes. Definir parâmetros de função com *args para capturar argumentos em excesso.

In [None]:
a, b, *rest = range(10)
rest

[2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
*a, b, rest = range(10)
a

[0, 1, 2, 3, 4, 5, 6, 7]

In [None]:
cidades_e_estados_com_pais = [
    ('São Paulo', ('SP', 'BR')),
    ('São Caetano do Sul', ('SP', 'BR')),
    ('São José dos Campos', ('SP', 'BR'))
]

for cidade, (estado, pais) in cidades_e_estados_com_pais:
    print(estado)

SP
SP
SP


Tuplas nomeadas pode ser útil no debugging.

In [None]:
from collections import namedtuple

FaixaCep = namedtuple('Cep', ['inicio_da_faixa', 'fim_da_faixa'])

cep1 = FaixaCep(0, 100)
cep1

Cep(inicio_da_faixa=0, fim_da_faixa=100)

In [None]:
cep1._fields

('inicio_da_faixa', 'fim_da_faixa')

In [None]:
cep2_data = (101, 200)
cep2 = FaixaCep._make(cep2_data)
cep2

Cep(inicio_da_faixa=101, fim_da_faixa=200)

In [None]:
cep2._asdict()

OrderedDict([('inicio_da_faixa', 101), ('fim_da_faixa', 200)])

In [None]:
cep3_data = (201, 300)
cep3 = FaixaCep(*cep3_data)
cep3

Cep(inicio_da_faixa=201, fim_da_faixa=300)

## Slicing

[start:stop:step]

In [None]:
l = [10, 20, 30, 40, 50, 60]

# 2 em 2
l[::2]

[10, 30, 50]

In [None]:
l[::-2]

[60, 40, 20]

In [None]:
# Começando no índice 2, de 3 em 3
l[2::3]

[30, 60]

In [None]:
invoice = """
0.....6.................................40........52...55........
1909  Pimoroni PiBrella                      $17.50    3    $52.50
1489  6mm Tactile Switch x20                  $4.95    2    $9.90
1510  Panavise Jr. - PV-201                  $28.00    1    $28.00
1601  PiTFT Mini Kit 320x240                 $34.95    1    $34.95
"""

SKU = slice(0, 6)
DESCRIPTION = slice(6, 40)
UNIT_PRICE = slice(40, 52)
QUANTITY = slice(52, 55)
ITEM_TOTAL = slice(55, None)

line_items = invoice.split('\n')[2:-1]

for item in line_items:
    print(item[UNIT_PRICE], item[DESCRIPTION])

     $17.50  Pimoroni PiBrella                 
      $4.95  6mm Tactile Switch x20            
     $28.00  Panavise Jr. - PV-201             
     $34.95  PiTFT Mini Kit 320x240            


In [None]:
line_items

['1909  Pimoroni PiBrella                      $17.50    3    $52.50',
 '1489  6mm Tactile Switch x20                  $4.95    2    $9.90',
 '1510  Panavise Jr. - PV-201                  $28.00    1    $28.00',
 '1601  PiTFT Mini Kit 320x240                 $34.95    1    $34.95']

In [None]:
l = list(range(10))
l[2:5] = [20, 30]
l

[0, 1, 20, 30, 5, 6, 7, 8, 9]

In [None]:
l[3::3] = [11, 22]
l

[0, 1, 20, 11, 5, 6, 22, 8, 9]

In [None]:
l[2:5] = [999]
l

[0, 1, 999, 6, 22, 8, 9]

In [None]:
l = [1, 2, 3]
l * 5

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [None]:
'mari' * 5

'marimarimarimarimari'

In [None]:
[[]] * 3

[[], [], []]

In [None]:
board = [['_'] * 3 for i in range(3)]
board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

In [None]:
board[1][2] = 'X'
board

[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]

In [None]:
weird_board = [['_'] * 3] * 3
weird_board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

In [None]:
weird_board[1][2] = 'O'
weird_board

[['_', '_', 'O'], ['_', '_', 'O'], ['_', '_', 'O']]

In [None]:
board = []
for i in range(3):
    row = ['_'] * 3
    board.append(row)
board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

## Atribuições combinadas e sequências

In [None]:
l = [1, 2, 3]
idl = id(l)
idl

140107937834240

In [None]:
l *= 2
l

[1, 2, 3, 1, 2, 3]

In [None]:
# Sequência mutável, continua sendo o mesmo objeto.
id(l) == idl

True

In [None]:
t = (1, 2, 3)
idt = id(t)
idt

140107884940176

In [None]:
# Sequência imutável, uma nova tupla é criada.
t *= 2
id(t) == idt

False

E por conta disso, a concatenação repetida de sequências imutáveis é ineficiente. Ao invés de concatenar os novos itens, o interpretador cria uma nova sequência.

Apenas disso, essa regra não vale para strings, já que a criação por laço é bem comum, as instâncias são alocadas em memória com espaço extra, assim a concatenação não exigirá uma cópia da string completa todas as vezes.

In [None]:
t = (1, 2, [30, 40])
try:
    t[2] += [50, 60]
except TypeError as e:
    print(repr(e))

TypeError("'tuple' object does not support item assignment")


In [None]:
t

(1, 2, [30, 40, 50, 60])

In [None]:
t = (1, 2, [30, 40])
t[2].extend([50,60])
t

(1, 2, [30, 40, 50, 60])

In [None]:
import dis

dis.dis('s[a] += b')

  1           0 LOAD_NAME                0 (s)
              2 LOAD_NAME                1 (a)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR
              8 LOAD_NAME                2 (b)
             10 INPLACE_ADD
             12 ROT_THREE
             14 STORE_SUBSCR
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE


Evitar colocar itens mutáveis em tuplas.

## Fluent interface
Alterações in place devolvem None.
E, por conta disso, os métodos que devolvem novos objetos (todos os métodos de str, por exemplo) podem ser chamados pela fluent interface.

In [None]:
class Poem:
    def __init__(self, title: str) -> None:
        self.title = title

    def indent(self, spaces: int):
        """Indent the poem with the specified number of spaces."""
        self.title = " " * spaces + self.title
        return self

    def suffix(self, author: str):
        """Suffix the poem with the author name."""
        self.title = f"{self.title} - {author}"
        return self

In [None]:
Poem("Road Not Travelled").indent(4).suffix("Robert Frost").title

Sort

In [None]:
l = ['abc', 'Aaa', 'Mar', 'mmm', 'mar']

sorted(l)

In [None]:
sorted(l, reverse=True, key=str.lower)

In [None]:
min(l, key=len)

In [None]:
max(l, key=str.lower)

Sorted: gera uma nova lista de strings

.sort(): ordena a lista in-place e devolve o valor None

In [None]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
sorted(fruits)

In [None]:
fruits

In [None]:
sorted(fruits, reverse=True)

In [None]:
sorted(fruits, key=len)

In [None]:
fruits.sort()
fruits

In [None]:
a = fruits.sort()
type(a)

In [None]:
[list(g) for k, g in itertools.groupby('AAAABBBCCD')]

In [None]:
import heapq

a = ['abc', 'AaaA', 'Mar', 'mmmM', 'ma', 'Mar']

# Return a list with the n largest elements from the dataset defined by iterable.
heapq.nlargest(1, a)

## Sequências ordenadas com bisect

**bisect** e **insort** usam o algortirmo de busca binária para encontrar e inserir itens em qualquer sequência ordenada.

In [None]:
'''
Busca binária de needle (objeto a ser encontrado: agulha)
em hatstack (espaço onde se faz a busca: palheiro).

"procurar uma agulha em um palheiro" :)
'''

import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(haystack, needles, bisect_fn):
    print('DEMO:', bisect_fn.__name__)
    print('haystack ->', ' '.join('%2d' % n for n in haystack))
    for needle in reversed(needles):
        position = bisect_fn(haystack, needle)
        offset = position * '  |'
        print(ROW_FMT.format(needle, position, offset))

demo(HAYSTACK, NEEDLES, bisect.bisect)

DEMO: bisect_right
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11      |  |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


In [None]:
demo(HAYSTACK, NEEDLES, bisect.bisect_left)

DEMO: bisect_left
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12      |  |  |  |  |  |  |  |  |  |  |  |29
23 @  9      |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


In [None]:
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [55, 60, 65, 70, 75, 80, 85, 90, 95]]

['F', 'D', 'D', 'C', 'C', 'B', 'B', 'A', 'A']

**bisect_left** retorna a posição do item existente, de modo que a inserção ocorrerá antes dele.

In [None]:
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect_left(breakpoints, score)
    return grades[i]

[grade(score) for score in [55, 60, 65, 70, 75, 80, 85, 90, 95]]

['F', 'F', 'D', 'D', 'C', 'C', 'B', 'B', 'A']

## Arrays

In [None]:
from array import array
from random import random

# Utilizando expressão geradora aqui!
floats = array('d', (random() for i in range(10**7)))
floats[-1]

0.04084143113098504

Salvando o array em um arquivo binário. O **from_file** chega a ser 60x mais rápido que ler um arquivo texto.

In [None]:
with open('floats.bin', 'wb') as fp:
    floats.tofile(fp)

In [None]:
floats2 = array('d')

with open('floats.bin', 'rb') as fp:
    floats2.fromfile(fp, 10**7)

floats2[-1]

0.04084143113098504

In [None]:
floats2 == floats

True

In [None]:
m  = [1, 2, 3]
m.clear()
m

[]

## Memory Views
É um tipo de sequência de memória compartilhada, podendo lidar com fatias de arrays sem copiar os bytes.

Permite compartilhar memória entre estruturas de dados sem fazer uma cópia inicial, importante para conjuntos grandes de dados.

In [None]:
numbers = array('h', [-2, -1, 0, 1, 2])
memv = memoryview(numbers)
len(memv)

5

In [None]:
memv[0]

-2

In [None]:
memv_oct = memv.cast('B')
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [None]:
memv_oct[5] = 4
numbers

array('h', [-2, -1, 1024, 1, 2])

## Filas
**collections.deque** fila dupla thread-safe, criada para proporcionar inserção e remoção rápidas de ambas as extremidades.

Para controle dos "últimos itens vistos" também pode ser útil.

In [None]:
import collections

dq = collections.deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [None]:
dq.rotate(5)
dq

deque([2, 3, 4, 5, 6, 7, 8, 9, 0, 1])

In [None]:
dq.appendleft(-1)
dq

deque([-1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [None]:
dq.extend([11, 22, 33])
dq

deque([4, 5, 6, 7, 8, 9, 0, 11, 22, 33])

In [None]:
dq.extendleft([10, 20, 30, 40])
dq

deque([40, 30, 20, 10, 4, 5, 6, 7, 8, 9])

In [None]:
dq.popleft()
dq

deque([30, 20, 10, 4, 5, 6, 7, 8, 9])

Outras implementações de filas:
- queue
- multiprocessing
- asyncio
- heapq

## Lista e itens misturados

In [None]:
 l = [1, 2, 50, 0, 22, 33, '23', '44', '88', 24, '100']
 sorted(l)

TypeError: ignored

In [None]:
sorted(l, key=int)

[0, 1, 2, 22, '23', 24, 33, '44', 50, '88', '100']

O algoritmo de ordenação por debaixo dos panos de sorted e list.sort é o TimSort (adota insertion sort e merge sort).