# Processamento de massas de dados

## Funções envolvendo ordem

### sorted

In [1]:
palavras = ['zebra', 'casa', 'bicicleta', 'uva', 'camelo']

In [2]:
sorted(palavras)

['bicicleta', 'camelo', 'casa', 'uva', 'zebra']

In [3]:
sorted(palavras, reverse=True)

['zebra', 'uva', 'casa', 'camelo', 'bicicleta']

In [4]:
sorted(palavras, key=len)

['uva', 'casa', 'zebra', 'camelo', 'bicicleta']

### max e min

In [5]:
max(palavras)

'zebra'

In [6]:
max(palavras, key=len)

'bicicleta'

### Critérios mais interessantes

In [7]:
from collections import namedtuple

Atleta = namedtuple('Atleta', 'nome altura peso')

atletas = [
    Atleta('Marcos', 1.88, 89),
    Atleta('Ana', 1.81, 77),
    Atleta('Claudia', 1.70, 65),
    Atleta('Jorge', 1.75, 92),
]
atletas

[Atleta(nome='Marcos', altura=1.88, peso=89),
 Atleta(nome='Ana', altura=1.81, peso=77),
 Atleta(nome='Claudia', altura=1.7, peso=65),
 Atleta(nome='Jorge', altura=1.75, peso=92)]

In [8]:
sorted(atletas)

[Atleta(nome='Ana', altura=1.81, peso=77),
 Atleta(nome='Claudia', altura=1.7, peso=65),
 Atleta(nome='Jorge', altura=1.75, peso=92),
 Atleta(nome='Marcos', altura=1.88, peso=89)]

In [9]:
from operator import attrgetter
sorted(atletas, key=attrgetter('peso'))

[Atleta(nome='Claudia', altura=1.7, peso=65),
 Atleta(nome='Ana', altura=1.81, peso=77),
 Atleta(nome='Marcos', altura=1.88, peso=89),
 Atleta(nome='Jorge', altura=1.75, peso=92)]

### Ordenação correta de texto Unicode

In [10]:
palavras = ['zebra', 'casa', 'bicicleta', 'uva', 'cânhamo']

In [11]:
sorted(palavras)

['bicicleta', 'casa', 'cânhamo', 'uva', 'zebra']

Não há um jeito bom de fazer isso na biblioteca padrão. Procure o projeto [PyUCA](https://pypi.python.org/pypi/pyuca/).

## Funções de redução

A.k.a. fold, accumulate, aggregate, compress, inject...

### sum

In [12]:
sum(range(101))

5050

In [13]:
sum(range(101), 1000)

6050

### all/any

In [14]:
tudo = [2, 7, 3, 4, 1]
alguns = [4, 3, 0, 9, 2]
nenhum = [0, 0.0, 0j]

In [15]:
all(tudo)

True

In [16]:
all(alguns)

False

In [17]:
all(nenhum)

False

In [18]:
any(tudo)

True

In [19]:
any(alguns)

True

In [20]:
any(nenhum)

False

## Iteradores / Geradores

### enumerate

In [21]:
for i, p in enumerate(palavras):
    print(i, p)

0 zebra
1 casa
2 bicicleta
3 uva
4 cânhamo


In [22]:
enumerate(palavras)

<enumerate at 0x106907318>

In [23]:
list(enumerate(palavras, 1))

[(1, 'zebra'), (2, 'casa'), (3, 'bicicleta'), (4, 'uva'), (5, 'cânhamo')]

### map, filter x compreensões

In [24]:
map(len, palavras)

<map at 0x1069138d0>

In [25]:
list(map(len, palavras))

[5, 4, 9, 3, 7]

In [26]:
[len(p) for p in palavras]

[5, 4, 9, 3, 7]

In [27]:
def pequena(palavra):
    return len(palavra) < 5

filter(pequena, palavras)

<filter at 0x106913f98>

In [28]:
list(filter(pequena, palavras))

['casa', 'uva']

In [29]:
list(filter(lambda p: len(p) < 5, palavras))

['casa', 'uva']

In [30]:
[p for p in palavras if len(p) < 5]

['casa', 'uva']

### zip

In [31]:
países = ['China', 'Brasil', 'EUA', 'Alemanha']
siglas = ('CN', 'BR', 'US', 'DE')
zip(siglas, países)

<zip at 0x10691f4c8>

In [32]:
list(zip(siglas, países))

[('CN', 'China'), ('BR', 'Brasil'), ('US', 'EUA'), ('DE', 'Alemanha')]

In [33]:
for sigla, país in zip(siglas, países):
    print(sigla, país)

CN China
BR Brasil
US EUA
DE Alemanha


In [34]:
for sigla, país in sorted(zip(siglas, países)):
    print(sigla, país)

BR Brasil
CN China
DE Alemanha
US EUA


In [35]:
from operator import itemgetter

for sigla, país in sorted(zip(siglas, países), key=itemgetter(1)):
    print(sigla, país)

DE Alemanha
BR Brasil
CN China
US EUA


### transposição com zip

In [36]:
m = [
    (1, 2, 3),
    (10, 20, 30),
    (100, 200, 300),
    (1000, 2000, 3000),
]
print(*m, sep='\n')

(1, 2, 3)
(10, 20, 30)
(100, 200, 300)
(1000, 2000, 3000)


In [37]:
t = zip(*m)
print(*t, sep='\n')

(1, 10, 100, 1000)
(2, 20, 200, 2000)
(3, 30, 300, 3000)


## iter

In [38]:
from random import randint

def d6():
    return randint(1, 6)

In [39]:
for _ in range(20):
    print(d6(), end='  ')
print()

3  6  3  3  2  4  1  6  5  2  3  1  5  3  1  5  1  4  2  2  


In [40]:
for lance in iter(d6, 6):
    print(lance, end='  ')

1  2  

In [41]:
[d6() for _ in range(20)]

[1, 5, 3, 5, 5, 1, 4, 5, 5, 6, 4, 2, 3, 6, 1, 4, 5, 5, 2, 3]

In [42]:
[lance for lance in iter(d6, 6)]

[3, 1, 3, 3]