# CAPÍTULO 3: Estruturas de dados embutidas, funções e arquivos

## 3.1 Estruturas de Dados e sequências

### Tuplas

Uma tupla é uma sequência imutável, de tamanho fixo, de objetos Python. Pode-se converter qualquer sequência ou iterador em uma tupla chamando a função _**tuple**_. Os elementos podem ser acessados com colchetes [ ] e são indexadas a partir de 0 (zero).

Os objetos que compõem a tupla podem ser, por si, mutáveis, mas uma vez incluídos na tupla, não será possível modificá-los em cada posição. Contudo, se um objeto na tupla for mutável, como uma lista, pode-se modificá-lo _in-place_.

A concateção de tuplas é feito com o operador **`+`**. Multiplicar uma tupla por um inteiro implica em concatenar a tupla pela referida quantidade. **Os objetos em si não são copiados, apenas a referência a eles**.

In [1]:
# criando tuplas

tup = 1, 2, 3

In [2]:
tup

(1, 2, 3)

In [3]:
nested_tup = (4, 5, 6), (7, 8)

In [4]:
nested_tup

((4, 5, 6), (7, 8))

In [5]:
# usando a função tuple

tuple([4, 0, 2])

(4, 0, 2)

In [6]:
tup = tuple('string')

In [7]:
tup

('s', 't', 'r', 'i', 'n', 'g')

In [8]:
# acessando os elementos da tupla

tup[0]

's'

In [11]:
list1 = []
for i in tup:
    print(i) 

s
t
r
i
n
g


In [12]:
# imutabilidade das tuplas

tup = ('foo', [1,2], True)

In [13]:
tup[2] = False

TypeError: 'tuple' object does not support item assignment

In [14]:
# modificando objeto in-place na tupla - para objetos mutáveis

tup[1].append(3)

In [15]:
tup

('foo', [1, 2, 3], True)

In [17]:
tup[1].remove(3)

In [18]:
tup

('foo', [1, 2], True)

In [19]:
# concatenando com operador "+"

(4, None, 'foo') + (6, 8) + ('bar',)

(4, None, 'foo', 6, 8, 'bar')

In [20]:
# multiplicando a tupla por inteiro

('bra', 'sil')*4

('bra', 'sil', 'bra', 'sil', 'bra', 'sil', 'bra', 'sil')

### Descompactando Tuplas

Ao tentar atribuir uma tupla a uma varável, o Python tentará _descompactar_ a tupla. Até mesmo sequências de tuplas aninhadas podem ser descompactadas. Com essa funcionalidade, é possível fazer _swap_ entre variáveis.

Outro uso comum da descompactação é na **iteração por sequência de tuplas ou listas**.

Na descompactação, a sintaxe especial _**`*rest`**_ é utilizada para extrair elementos da tupla, podendo ser usada também em **assinatura de função para capturar um lista arbitrariamente longa de argumentos posicionais**.

In [21]:
# descompactando tuplas

tup = (4, 5, 6)

In [22]:
a, b, c = tup

In [23]:
b

5

In [25]:
a

4

In [26]:
# com tuplas aninhadas

tup = 4, 5,(6,7)

In [27]:
a, b, (c, d) = tup

In [28]:
d

7

In [30]:
a

4

In [31]:
# modificando o nome de variáveis (swaping)

tmp = a
a = b
b = tmp

In [32]:
a

5

In [33]:
b

4

In [34]:
# outra forma de fazer

a, b = 1, 2

In [35]:
a

1

In [36]:
b

2

In [37]:
b, a = a, b

In [38]:
a

2

In [39]:
b

1

In [40]:
# iteração por sequências de tuplas ou listas

seq = [(1,2,3), (4,5,6), (7,8,9)]

In [41]:
for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [42]:
# usando o *rest

values = 1,2,3,4,5

In [43]:
a, b, *rest = values

In [44]:
a, b

(1, 2)

In [46]:
rest #observe que o resultado será um objeto lista

[3, 4, 5]

In [48]:
# usando o underscore (_) para variáveis indesejadas

a, b, *_ = values

In [49]:
a

1

In [50]:
b

2

In [52]:
_ # o uso do (_) é uma convenção quando não se deseja trabalhar com os elementos "indesejados"

[3, 4, 5]

### Métodos de tupla

A imutabilidade da tupla quanto ao seu tamanho e conteúdo implica em pequena quantidade de métodos próprios.

In [53]:
# métodos de tupla

a = (1, 2, 2, 2, 3, 4, 2)

In [75]:
a.index(2, 4)

6

In [76]:
a.count(2)

4

### Lista

Listas são coleções mutáveis que podem ser criadas usando colchetes `[ ]`ou com a função _**`list`**_. É muito utilizada para processamento de dados como um iterador ou uma expressão geradora.

In [77]:
# criando uma lista

a_list = [2, 3, 7, None]

In [81]:
a_list[:2]

[2, 3]

In [78]:
tup = ('foo', 'bar', 'baz')

In [79]:
b_list = list(tup)

In [80]:
b_list

['foo', 'bar', 'baz']

In [82]:
b_list[1] = 'peekaboo'

In [83]:
b_list

['foo', 'peekaboo', 'baz']

In [84]:
# gerando iteradores 

gen = range(10)

In [85]:
gen

range(0, 10)

In [86]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### Adicionando e removendo elementos da lista

Elementos são adiconados pelo método _**`append`**_, os quais serão inseridos no **final** da lista. O método _**`insert`**_ insere elementos em **local específico** da lista. A operação inversa ao **insert** é o _**`pop`**_, que remove e devolve um elemento de um índice em particular. O método _**`remove`**_ localiza o primeiro valor informado e o remove da lista.

In [87]:
# adicionando elementos no final da lista

b_list.append('dwarf')

In [88]:
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [90]:
# adicionando com insert

b_list.insert(1, 'red')

In [91]:
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

In [95]:
# alternativa a trabalhar com os metodos de lista built-in: módulo collections 

import collections 

In [109]:
# classe collections.deque

b_deque = collections.deque(b_list)

In [99]:
type(b_deque)

collections.deque

In [97]:
b_deque.rotate(-1)

In [98]:
b_deque

deque(['red', 'peekaboo', 'baz', 'dwarf', 'foo'])

In [100]:
b_deque.appendleft('bra')

In [101]:
b_deque

deque(['bra', 'red', 'peekaboo', 'baz', 'dwarf', 'foo'])

In [102]:
b_deque.append('sil')

In [103]:
b_deque

deque(['bra', 'red', 'peekaboo', 'baz', 'dwarf', 'foo', 'sil'])

In [106]:
b_deque.reverse()

In [107]:
b_deque

deque(['sil', 'foo', 'dwarf', 'baz', 'peekaboo', 'red', 'bra'])

In [110]:
# classe collections.defaultdict

b_dict = collections.defaultdict(list)
for elemento in b_deque:
    b_dict[elemento].append(b_deque.count(elemento))

In [111]:
b_dict

defaultdict(list,
            {'foo': [1],
             'red': [1],
             'peekaboo': [1],
             'baz': [1],
             'dwarf': [1]})

In [112]:
type(b_dict)

collections.defaultdict

In [113]:
# usando o pop em listas

b_list.pop(2)

'peekaboo'

In [114]:
b_list

['foo', 'red', 'baz', 'dwarf']

In [115]:
b_list.append('foo')

In [116]:
b_list

['foo', 'red', 'baz', 'dwarf', 'foo']

In [117]:
b_list.remove('foo')

In [118]:
b_list

['red', 'baz', 'dwarf', 'foo']

In [119]:
# Verificando se um elemento está em um lista com o operador *in*

'dwarf'in b_list

True

In [120]:
'dwarf'in b_deque

True

In [121]:
'foo'in b_dict

True

In [122]:
# E se não está (not in)

'bra'not in b_list

True

In [126]:
# a performance de busca em listas é inferior do que em dicionários e conjuntos
# pois estes são baseados em algoritmos com tabelas hash

%timeit 'bra'in b_list

96.4 ns ± 1.62 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [124]:
%timeit 'bra'in b_deque

109 ns ± 0.144 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [125]:
%timeit 'bra'in b_dict # mais rápido que os demais

41.5 ns ± 0.726 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


### Concatenando e combinando listas

As listas podem ser concatenadas com o operador _**`+`**_, assim como as tuplas. Para listas já existentes, pode-se concatenar usando o método _**`extend`**_. O uso desse método é mais performático que a concatenação com soma. Logo

>```ptyhon
everything = []
for chunck in list_of_lists:
    everything.extend(chunck)
```

é mais rápido que 

>```ptyhon
everything = []
for chunck in list_of_lists:
    everything = everything + chunck
```

In [127]:
# concatenando listas com +

[4, 9, None, 3] + [2, 6, (2,3)]

[4, 9, None, 3, 2, 6, (2, 3)]

In [143]:
# usando o método extend

x = [4, 9, None, 3]

In [144]:
x.extend('giz')

In [145]:
x

[4, 9, None, 3, 'g', 'i', 'z']

In [146]:
x.clear()

In [147]:
x

[]

### Ordenação de listas

Use a função _**`sort`**_ para ordenar a lista. Os argumentos da função **sort** são interessante, permitindo, entre outras ações, passar uma _**chave de ordenação**_ secundária, que gera um valor a ser usado para ordenar os objetos.

A função _**`sorted`**_ - diferente de **sort** - é capaz de gerar uma **cópia** ordenada de uma **sequência genérica**. 

In [148]:
a = [7, 9, 3, 2, 5, 6, 1]

In [149]:
a.sort()

In [150]:
a

[1, 2, 3, 5, 6, 7, 9]

In [151]:
b = ['foo','bazz', 'red', 'dwarf']

In [152]:
b.sort(key=len)

In [153]:
b

['foo', 'red', 'bazz', 'dwarf']

### Busca binária e manutenção de uma lista ordenada

O módulo _**`bisect`**_ implementa a busca binária e a inserção em um lista ordenada. O método _**`bisect.bisect`**_ encontra o local em que um elemento deve ser inserido para manter a lista ordenada, enquanto o método _**`bisect.insort`**_ insere o elemento nesse local encontrado. Observe que o módulo **bisect** não verifica se a listá está ordenada!

In [154]:
# usando o módulo bisect

import bisect

In [155]:
c = [1, 2, 2, 2, 3, 4, 7]

In [158]:
bisect.bisect(c, 2)

4

In [159]:
bisect.bisect(c, 5)

6

In [160]:
bisect.insort(c, 6)

In [161]:
c

[1, 2, 2, 2, 3, 4, 6, 7]

### Fatiamento (Slicing)

Forma de selecionar seções na maioria dos tipos de sequências usando a notação de fatias (slices), formatada como **start:stop** ao operador de indexação `[]`.

As seções podem receber uma atribuição com uma sequência. O elemento no índice _**stop**_ não é incluído no fatiamento, de forma que o número de elementos no resultado será _**`stop - start`**_.

Se os valores de _start_ e _stop_ forem omitidos, será considerado o início e o final da sequência.

Índices negativos de fatiamento fatiam a sequência em relação ao final.

Um _**step**_ pode ser usado depois de um segundo dois-pontos para, por exemplo, obter elementos alternados. Usar esse recurso com _**`-1`**_ implica em inverter uma lista ou uma tupla.



In [162]:
# fazendo o slicing

seq = [7, 2, 3, 7, 5, 6, 0, 1]

In [163]:
seq[1:5]

[2, 3, 7, 5]

In [164]:
# recebendo atribuição de elementos

seq[3:4] = [6, 3]

In [165]:
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [166]:
# trabalhando com o start-stop

seq[:5]

[7, 2, 3, 6, 3]

In [167]:
seq[3:]

[6, 3, 5, 6, 0, 1]

In [168]:
# usando índices negativos

seq[-4:]

[5, 6, 0, 1]

In [173]:
# trabalando com steps

seq[::2]

[7, 3, 3, 6, 1]

In [175]:
# invertendo a sequência

seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

### Funções embutidas para sequências

#### Enumerate

É um recurso para manter o controle do índice do item atual em uma iteração de sequência. A função _**`enumerate`**_ devolve uma sequência de tuplas (i, value).

Sem a _**enumerate**_, um forma de fazer isso seria:

> ```python
>i = 0
>for value in collection:
>    #faz algo com value
>    i += 1
>```

Com _**enumerate**_, pode-se fazer da seguinte forma:

> ```python
>for i, value in enumerate(collection)
>    #faz algo com value
>```


In [176]:
# mapeamento em um dict de valores - idealmente únicos - aos seus locais na sequência

some_list = ['foo', 'bar', 'baz']

In [177]:
mapping = {}

In [178]:
for i, v in enumerate(some_list):
    mapping[v] = i

In [179]:
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

#### Sorted

A função _**`sorted`**_ devolve uma nova lista ordenada a partir dos elementos de qualquer sequência. _**sorted**_ aceita os mesmos argumentos que o método _**sort**_ em listas.

In [180]:
sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [181]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

In [185]:
mapping2 = {}
for i, v in enumerate(sorted('horse race')):
    mapping2[v] = i

In [186]:
mapping2

{' ': 0, 'a': 1, 'c': 2, 'e': 4, 'h': 5, 'o': 6, 'r': 8, 's': 9}

In [203]:
x = enumerate(sorted('horse race'))

In [204]:
x

<enumerate at 0x1116cb240>

In [205]:
list(x)

[(0, ' '),
 (1, 'a'),
 (2, 'c'),
 (3, 'e'),
 (4, 'e'),
 (5, 'h'),
 (6, 'o'),
 (7, 'r'),
 (8, 'r'),
 (9, 's')]

#### Zip

O _**`zip`**_ pareia elementos de sequências diferentes, determinando a sequência resultante pela mais curta relacionada. Um bom uso do _**zip**_ é iterar simultaneamente por várias sequências, podendo ser combinada com _**enumerate**_. O _**zip**_ pode ser usado também para desparear (_unzip_) uma sequência.

In [206]:
# usando o zip

seq1 = ['foo', 'bar', 'baz']

In [207]:
seq2 = ['one', 'two', 'three']

In [208]:
zipped = zip(seq1, seq2)

In [209]:
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [210]:
# relacionando com outra sequência menor

seq3 = [False, True]

In [211]:
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [212]:
# combiando com enumerate

for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [213]:
# Unzipping

pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]

In [214]:
first_names, last_names = zip(*pitchers)

In [215]:
first_names

('Nolan', 'Roger', 'Schilling')

In [216]:
last_names

('Ryan', 'Clemens', 'Curt')

#### Reversed

Itera pelos elementos de uma sequência inversa.

In [217]:
list(reversed(range(20)))

[19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### Dicionários (Dict)

É uma estrutura de dados tipo _hash map_ ou _array associativo_. Consiste em uma coleção de pares _chave-valor_ de tamanho flexível, em que _chave_ e _valor_ são objetos Python.

Pode-se acessar, inserir ou definir elementos usando a mesma sintaxe utilizada para acessar elementos de uma lista ou de uma tupla. Apaga-se elementos usando a palavra reservada _**`del`**_ ou o método _**`pop`**_.

Os métodos _**`key`**_ e _**`values`**_ oferecem iteradores para as chaves e valores do dicionário, respectivamente. Os pares de chave-valor não são ordenads, mas essas funções devolvem as chaves e valores na mesma ordem.

Pode-se combinar dicionários, usa-se o método _**`update`**_. Tal método também permite a alteraçãp _in-place_ dos dicionários.

In [1]:
# Criando um dict

empty_dict = {}


In [2]:
d1 = {'a':'some value', 'b':[1,2,3,4]}

In [3]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [4]:
d1[7] = 'an integer'

In [5]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [6]:
d1['b']

[1, 2, 3, 4]

In [14]:
d1['b'][::-1]

[4, 3, 2, 1]

In [15]:
#Usando o comando in para verificar se um dict tem uma chave

'b'in d1

True

In [16]:
d1[5] = 'some value'

In [17]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}

In [18]:
d1['dummy'] = 'another value'

In [19]:
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}

In [20]:
del d1[5]

In [21]:
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 'dummy': 'another value'}

In [22]:
ret = d1.pop('dummy')

In [23]:
ret

'another value'

In [24]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [25]:
# métodos key e values

list(d1.keys())

['a', 'b', 7]

In [26]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer']

In [27]:
# método update

d1.update({'b': 'foo', 'c': 12})

In [28]:
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

### Criando dicionários a partir de sequências


> ```python
mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value
```



In [29]:
# Criando dicts a partir de sequências

mapping = dict(zip(range(5), reversed(range(5))))

In [30]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### Valores default

É muito comum ter uma lógica como esta:

>```python
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value
    ```

Os métodos _**`get`**_ e _**`pop`**_ podem aceitar um valor default a ser devolvido, de modo que é possível escrever o bloco _if-else_ anterior simplesmente como:

>```python
value = some_dict.get(key, default_value)
    ```

Por padrão, _**get**_ devolverá _**None**_ se a chave não estiver presente, enquanto _**pop**_ lancará uma exceção.


In [31]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

In [32]:
by_letter = {}

In [33]:
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

In [34]:
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

O método de dicionário _**`setdefault`**_ serve para facilitar o laço anterior. Veja:

In [35]:
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

In [36]:
by_letter

{'a': ['apple', 'atom', 'apple', 'atom'],
 'b': ['bat', 'bar', 'book', 'bat', 'bar', 'book']}

In [38]:
# usando o método defaultdict do módulo collections

from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

In [39]:
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

### Conjunto (Set)

Um conjunto é uma coleção não ordenada de elementos únicos. Assemelha-se aos dicionários, porém somente com as chaves, sem os valores. Podem ser criados com a função _**`set`**_ ou por meio de chaves - um conjunto literal.

Os conjuntos aceitam as operações matemáticas de conjunto, como união, intrsecção, diferença e diferença simétrica. 

Métodos comuns dos conjuntos:

> `a.add(x)` -> adiciona um elemento ao conjunto 'a'

>`a.clear()` -> reinicia o conjunto 'a', deixando-o em um estado vazio, descartando todos os seus elementos

>`a.remove(x)` -> remove o elemento x do conjunto 'a'

>`a.pop()` -> remove um elemento arbitrário do conjunto 'a', gerando um KeyError se o conjunto estiver vazio

>`a.union(b)` - `a | b` -> todos os elementos únicos em 'a' e 'b'

>`a.update(b)` - `a |= b` -> define o conteúdo de 'a' como a união dos elementos em 'a' e 'b'

>`a.intersection(b)` - `a & b` -> todos os elementos _tanto_ em 'a' _quanto_ em 'b'

>`a.intersection_update(b)` - `a &= b` -> define o conteúdo de a como a intersecção dos elementos em 'a'e em 'b'

>`a.difference(a)` - `a-b` -> complemento. Os elementos de 'a'que não estão em 'b'

>`a.difference_update(b)` - `a-=b` -> define 'a' com os elementos que estão em 'a', mas _não estão em 'b'_

>`a.symmetric_difference(b)` - `a^b` -> Todos os elementos que estão em 'a'ou em 'b', mas _não estão em ambos_

>`a.symmetric_difference_update(b)` - `a^=b` -> define 'a' com os elementos que estão em 'a' ou em 'b', mas que _não estão em ambos_

>`a.issubset(b)` -> True se os elementos de 'a'estiverem todos contidos em 'b'

>`a.issuperset(b)` -> True se os elementos de 'b' estiverem todos contidos em 'a'

> `a.isdisjoint(b)` -> True se 'a' e 'b' não tiverem em comum

Todas as operações lógicas de conjunto têm contrapartidas in-place, o que permite substituir o conteúdo do conjunto à esquerda da operação com o resultado.

Assim como nos dicionários, os elementos de conjuntos geralmente devem ser imutáveis. Os conjuntos serão iguais se, e somente se, seus conteúdos forem iguais.


In [1]:
# criando um conjunto

set([2, 2, 2, 1, 3, 3,])

{1, 2, 3}

In [3]:
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

In [4]:
# operações matemáticas

a = {1, 2, 3, 4, 5,}

In [5]:
b = {3, 4, 5, 6, 7, 8}

In [6]:
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [7]:
a|b

{1, 2, 3, 4, 5, 6, 7, 8}

In [8]:
a.intersection(b)

{3, 4, 5}

In [9]:
a&b

{3, 4, 5}

In [10]:
a.intersection_update(b)

In [11]:
a

{3, 4, 5}

In [12]:
a.update(b)

In [13]:
a

{3, 4, 5, 6, 7, 8}

In [14]:
c = a.copy()

In [15]:
c

{3, 4, 5, 6, 7, 8}

In [16]:
c |= b

In [17]:
c

{3, 4, 5, 6, 7, 8}

In [22]:
d = b.copy()

In [23]:
d &= b

In [24]:
d

{3, 4, 5, 6, 7, 8}

In [25]:
my_data = [1, 2, 3, 4]

In [26]:
my_set = {tuple(my_data)}

In [27]:
my_set

{(1, 2, 3, 4)}

In [28]:
a_set = {1, 2, 3, 4, 5}

In [29]:
{1, 2, 3}.issubset(a_set)

True

In [30]:
a_set.issuperset({1, 2, 3})

True

In [32]:
# comparando se são sets iguais

{1, 2, 3} == {3, 2, 1}

True

### List, set e dict comprehensions

Permitem compor novas coleções de modo conciso, filtrando os elementos de outra coleção, transformando os elementos ao passar um filtro, com uma expressão concisa. Formato da _**list comprehensions**_:

>```pyhton
[expr for val in collection if condition]
    ```

Isso equivale a:

> ```python
result = []
for val in collection:
    if condition:
        result.append(expr)```

Uma _**dict comprehension**_ tem a seguinte sintaxe:


>```pyhton
dict_comp = {expr-chave: expr-valor for value in collection if condition}
    ```
    
Uma _**set comprehension**_ tem a seguinte sintaxe:


>```pyhton
set_comp = {expr for value in collection if condition}```


In [35]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']

In [36]:
[x.upper() for x in strings if len(x)>2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [40]:
# criando um dict comprehension

dict_strings = {len(x): x for x in strings}

In [41]:
dict_strings

{1: 'a', 2: 'as', 3: 'car', 4: 'dove', 6: 'python'}

In [42]:
set_strings = {x[0] for x in strings}

In [43]:
set_strings

{'a', 'b', 'c', 'd', 'p'}

#### List comprehensions aninhadas

In [44]:
# exemplo

all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'], ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

In [45]:
all_data

[['John', 'Emily', 'Michael', 'Mary', 'Steven'],
 ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

Buscar os nomes que tem mais de dois 'e'. Poderia ser feito assim:

> ```python
names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e')>=2]
    names_of_interest.extend(enough_es)```

Mas aninhando as _list comprehensions_, pode-se fazer da seguinte forma:

In [46]:
# list comprehension aninhada
result = [name for names in all_data for name in names if name.count('e')>=2]

In [47]:
result

['Steven']

In [48]:
# outro exemplo

some_tuples =[(1,2,3), (4,5,6), (7,8,9)]

In [49]:
flattened = [x for tup in some_tuples for x in tup]

In [50]:
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Equivalente a:

> ```python
flattened = []
for tup in some_tuples:
    for x in tup:
    flattened.append(x)```

In [55]:
# outro exemplo

[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

## 3.2 Funções

As funções são o principal e mais importante método de organização de código e reutilização em Python. As funções são declaradas com a palavra reservada _**`def`**_ e o retorno é feito com a palavra reservada _**`return`**_:

>```python
def my_function(x, y, z=1.5):
    if z>1:
        return z*(x+y)
    else:
        return z/(x+y)
    ```

Não há problema em ter várias instruções _**return**_. Caso Python não encontre uma instrução _**return**_, retornará o valor _**None**_ automaticamente.

Todas as funções podem ter _argumentos posicionais_ (_positional arguments_) e _argumentos nomeados_ (_keyword arguments_). Os argumentos nomeados _devem_ vir depois de argumentos posicionais.

In [1]:
# exemplo

def my_function(x, y, z=1.5):
    if z>1:
        return z*(x+y)
    else:
        return z/(x+y)


In [2]:
my_function(5, 6, z=0.7)

0.06363636363636363

In [3]:
my_function(3.14, 7, 3.5)

35.49

In [4]:
my_function(10, 20)

45.0

In [5]:
# nomes para argumentos posicionais ajudam na legibilidade do código

my_function(x=5, y=6, z=7)

77

### Namespace, escopo e funções locais

As funções podem acessar variáveis em dois escopos diferentes: _global_ e _local_. Em Python, o escopo pode ser denominado _**`namespace`**_. Quaisquer variáveis que recebam uma atribuição em uma função, por padrão são associadas ao namespace local, criado quando a função é chamada e imediatamente preenchido com os argumentos da função. depois que a função termina, o namespace local é destruído.

>```python
def func():
a = []
    for i in range(5):
        a.append(i)
    ```

O escopo de _**`a`**_ é local. Para ser global, deveria ser escrito da seguinte forma:

>```python
a = []
def func():
    for i in range(5):
        a.append(i)
    ```

In [6]:
def func():
    a = []
    for i in range(5):
        a.append(i)

In [8]:
func()

In [9]:
a

NameError: name 'a' is not defined

In [11]:
# com namespace global

a = []
def func():
    for i in range(5):
        a.append(i)

In [12]:
func()

In [13]:
a

[0, 1, 2, 3, 4]

Fazer uma atribuição a uma variável fora do escopo da função é possível, porém essas variáveis devem ser declaradas como globais com a palavra reservada _**global**_.

In [14]:
a = None

In [16]:
def bind_a_variable():
    global a
    a = []
    bind_a_variable()

In [17]:
print(a)

None


### Devolvendo diversos valores

Python tem a capacidade de devolver diversos valores de uma função usando uma sintaxe simples.

>```pyhton
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c
    ```

>```python
a, b, c = f()
    ```

No último caso, Python devolve apenas _um objeto_, no caso uma tupla, que é em seguida desempacotada. Seria semelhante a escrever:

>```python
return_value = f()
    ```

In [18]:
# devolvendo um dicionário

def f():
    a = 5
    b = 6
    c = 7
    return {'a': a, 'b': b, 'c':c}

In [19]:
f()

{'a': 5, 'b': 6, 'c': 7}

### Funções são objetos

Pode-se manipular funções como objetos em Python.

In [29]:
# Exemplo - Data Wrangling

states = [' Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda', 'south carolina##', 'West virginia?']

In [21]:
states

[' Alabama ',
 'Georgia!',
 'Georgia',
 'georgia',
 'Fl0rIda',
 'south carolina##',
 'West virginia?']

In [22]:
# importanto o modulo de regex

import re

Modelo para limpeza com Expressões Regulares (REGEX):

>```python
def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?], '', value)
        value = value.title()
        result.append(value)
    return result
    ```


In [27]:
def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

In [30]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

Uma abordagem diferente, criando uma lista das operações que se deseja efetuar - _**método funcional**_:

>```python
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)
    ```

>```python
    clean_ops = [str.strip, remove_punctuation, str.title]
    ```

>```python
def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result
    ```

In [32]:
def remove_puctuation(value):
    return re.sub('[!#?]', '', value)

In [33]:
clean_ops = [str.strip, remove_puctuation, str.title]

In [34]:
def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [35]:
# usando a função em states

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

In [36]:
# usando funções como argumentos

for x in map(remove_puctuation, states):
    print(x)

 Alabama 
Georgia
Georgia
georgia
FlOrIda
south carolina
West virginia


In [37]:
for x in map(str.strip, states):
    print(x)

Alabama
Georgia!
Georgia
georgia
FlOrIda
south carolina##
West virginia?


In [38]:
for x in map(str.title, states):
    print(x)

 Alabama 
Georgia!
Georgia
Georgia
Florida
South Carolina##
West Virginia?


### Funções anônimas(lambdas)

É uma forma de escrever funções constituídas de uma única instrução, cujo resultado é o valor de retorno. Estas funções são definidas com a palavra reservada _**`lambda`**_.

In [2]:
#exemplo

def short_function(x):
    return x*2

In [3]:
short_function(2)

4

In [10]:
#outra forma com lambda

equiv_anon = lambda x: x * 2

In [27]:
equiv_anon(4)

8

In [28]:
# outro exemplo

def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

In [29]:
ints = [4, 0, 1, 5, 6]

In [30]:
apply_to_list(ints, lambda x: x*2)

[8, 0, 2, 10, 12]

In [31]:
# exemplo de ordenação de letras distintas

strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [32]:
strings.sort(key=lambda x: len(set(list(x))))

In [33]:
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

### Currying: aplicação parcial dos argumentos

Homenagem à Haskell Curry, significa derivar novas funçõesa partir de funções existentes por meio da _aplicação parcial de argumentos_.

In [35]:
# exemplo

def add_numbers(x, y):
    return x + y

In [37]:
# nova função com Currying

add_five = lambda y: add_numbers(5, y)

In [38]:
add_five(5)

10

In [39]:
# com o módulo functools

from functools import partial

In [40]:
add_five = partial(add_numbers, 5)

In [41]:
add_five(10)

15

### Geradores

O Python tem uma forma consistente de iteração em sequências, denominado _**protocolo iterador**_, um modo genérico de deixar os objetos iteráveis.

Um _**iterador**_ é qualquer objeto que produzirá objetos ao interpretador Python quando usado em um contexto como um laço for. Os métodos que recebem uma lista também poderá receberá um objeto iterador.

Um _**gerador**_ é devolvem uma sequência de vários resultado em modo lazy, fazendo uma pausa após cada um, até que o próximo resultado seja solicitado. Para criar um gerador, deve-se utilizar a palavra reservada _**`yield`**_ em vez de _**return**_ na função. O gerador só passa a executar o seu código qaundo você começar a lhe solicitar elementos.

In [42]:
# exemplos

some_dict = {'a': 1, 'b': 2, 'c': 3}

In [43]:
for key in some_dict:
    print(key)

a
b
c


In [44]:
#construindo um iterador

dict_iterator = iter(some_dict)

In [45]:
dict_iterator

<dict_keyiterator at 0x1077a3548>

In [46]:
list(dict_iterator)

['a', 'b', 'c']

In [48]:
dict_iterator?

In [49]:
# criando um gerador

def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n**2))
    for i in range(1, n+1):
        yield i**2

In [50]:
squares

<function __main__.squares(n=10)>

In [51]:
type(squares)

function

In [52]:
gen = squares()

In [53]:
gen

<generator object squares at 0x1077b5360>

In [55]:
for x in gen:
    print(x, end= ' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

### Expressões geradoras

É um gerador análogo ao _list_, _dict_ e _set comprehensions_. Para criar uma expressão geradora deve-se a mesma sintaxe do list comprehension entre parênteses.

In [1]:
gen = (x ** 2 for x in range(100))

In [2]:
gen

<generator object <genexpr> at 0x102b9bf10>

In [4]:
# isso é equivalente a 

def _make_gen():
    for x in range(100):
        yield x ** 2

gen = _make_gen()

In [5]:
gen

<generator object _make_gen at 0x102b9baf0>

In [6]:
# expressões geradoras no lugar de list comprehensions em argumentos de funções

sum(x ** 2 for x in range(100))

328350

In [8]:
dict((i, i**2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

### Módulo Itertools

O módulo _**`itertools`**_ da biblioteca padrão tem uma coleção de geradores para muitos algoritmos comuns de dados. Consulte a documentação oficial de Python (https://docs.python.org/3.7/library/itertools.html)

In [2]:
# exemplos

import itertools

In [3]:
first_letter = lambda x: x[0]

In [4]:
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [5]:
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


In [6]:
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [7]:
names

['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [8]:
dict(itertools.combinations(names, 2))

{'Alan': 'Steven',
 'Adam': 'Steven',
 'Wes': 'Steven',
 'Will': 'Steven',
 'Albert': 'Steven'}

In [9]:
dict(itertools.permutations(names, 2))

{'Alan': 'Steven',
 'Adam': 'Steven',
 'Wes': 'Steven',
 'Will': 'Steven',
 'Albert': 'Steven',
 'Steven': 'Albert'}

### Erros e tratamento de exceção

Tratar erros e exceções é uma parte importante na construção de programas robustos. Pode-se fazer isso escrevendo uma função que encapsule uma chamada em um bloco _**`try/except`**_:

>```python
def attempt_float(x):
    try:
        return float(x)
    except:
        return x
        ```

Pode-se capturar vários tipos de exceção escrevendo uma _**tupla**_ de tipos de exceção:

>```python
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x
        ```
        
Se desejar que algum código seja executado, apesar da supressão da exceção, use o comando _**`finally`**_:

>```python
    f = open(path, 'w')
    try:
        write_to_file(f)
    finally:
        f.close()
        ```

## 3.3 Arquivos e o sistema operacional

Para abrir um arquivo para leitura ou escrita, utilize a função embutida _**`open`**_ com o path de arquivo relativo ou absoluto.

Por padrão, o arquivo é aberto em modo somente leitura _**'r'**_. Pode-se tratar o handle do arquivo como uma lista e iterar pelas linhas:

>```python
for line in arquivo:
    pass
    ```

In [2]:
path = 'segismundo.txt'

In [3]:
f = open(path)

In [4]:
lines = [x.rstrip() for x in open(path)]

In [5]:
lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

In [6]:
f.close()

In [7]:
# usando a instrução "with"

with open(path) as f:
    lines = [x.rstrip() for x in f]

In [8]:
lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

### Bytes e Unicode com arquivos

O comportamento padrão para arquivos Python é o _modo texto_, que significa que você pretende trabalhar com strings Python, em Unicode. Isso contrasta com o modo binário, que pode ser obtido concatenando **`b`** no modo do arquivo.

In [9]:
with open(path) as f:
    chars = f.read(10)

In [10]:
chars

'Sueña el r'

O UTF-8 é uma codificação Unicode de tamanho variável, portanto, quando requisito certo número de caracteres do arquivo, Python lê bytes suficientes do arquivo para decodificar essa quantidade de caracteres.

In [11]:
with open(path, 'rb') as f:
    data = f.read(10)

In [12]:
data

b'Sue\xc3\xb1a el '

In [13]:
# usando o decode para codificar

data.decode('utf8')

'Sueña el '

In [14]:
data[:4].decode('utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: unexpected end of data

In [15]:
# usando encode de open para conveter de uma codificação Unicode para outra:

sink_path = 'sink.txt'

In [16]:
with open(path) as source:
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink:
        sink.write(source.read())

In [17]:
with open(sink_path, encoding='iso-8859-1') as f:
    print(f.read(10))

Sueña el r


In [18]:
# usando seek para abrir arquivos em outro modo que não o binário. caso a posição acabe no meio de bytes que definem
# um caractere Unicode, então leituras resultarão em um erro:

f = open(path)

In [19]:
f.read(5)

'Sueña'

In [20]:
f.seek(4)

4

In [21]:
f.read(1)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte