# Notes & Code

## Chapter: Scaling with generators

Let's start with iterations, iteration is simply pass over each element in a sequence doing some operation on that. It's largelly used in for loops. But when a for loop is used, what happens under the hood? <br>
So actually python uses a built-in function called `iter()` transforming a sequence into a `iterator`, what points to next element each iteration. <br> 

- iterator: An iterator is like a moving pointer over the collections.

In [2]:
numbers = [1, 2, 3, 4, 5]

for num in numbers: print(num)

1
2
3
4
5


In [5]:
numbers = [1, 2, 3, 4, 5]

numbers_iter = iter(numbers)

for num in numbers_iter: print(num)
    
print(f'numbers type: {type(numbers)}')
print(f'numbers_iter type {type(numbers_iter)}')

1
2
3
4
5
numbers type: <class 'list'>
numbers_iter type <class 'list_iterator'>


So I have this situation for example in a for loop what python actually does is get some sequence and transform it into a iterator. And how python do that?<br>
Simple!<br>

There is a built-in function called iter() that get a sequence and return a iterator like showed previously. And how does iter() get the iterator?<br>

Many ways to do that but one specific is define the magic dunder method `__iter__`. In this point we have to define the difference between iterator and iterable.<br>

- iterable: Are objects that return an iterator when passed through iter() function.
- iterator: Are the returns of iter() function, an object that have give one element by time.

In [1]:
names = ['Tom', 'Shelly',' Garth']
names_it = iter(names)

In [5]:
next(names_it)

StopIteration: 

Analisando mais detalhadamente a operação iter() sobre um objeto iterável, podemos utilizar outra built-in function chamada next() para acessar o próximo elemento do iterador. aplicando next() sucessivas vezes, consigo acessar todos os elementos da sequencia, até que ao não ter mais elementos, ocorre um raise exception de um erro do tipo `StopIteration`.

In [57]:
names = ['Tom', 'Shelly',' Garth']
names_it = iter(names)

In [21]:
# neste caso, tenho também a presença de um valor default onde ao invés de um raise exception, terei obterei o valor default.
# este valor default continua ocorrendo indefinidamente ao acessar o iterator desta forma.

next(names_it, "Rodrigo")

'Rodrigo'

Vamos agora, começar a analisar onde esta definição de iteradores e iteráveis podem trazer ganho em sua utilização.

In [25]:
# Definição de uma função que calcula uma lista de quadrados de numeros, um a um recebendo como parametro o limite superior 
# da lista

def calculate_squares(__max):
    
    squares = list()
    
    for num in range(__max):
        
        squares.append(num ** 2)
        
    return squares

In [28]:
calculate_squares(4)

[0, 1, 4, 9]

Reparamos que neste caso passando para função o valor máximo de elementos que quero calcular o quadrado, é retornado uma lista de valores. Isto significa que preciso ocupar espaço na memória com uma lista de quadrados calculados. Ou seja, dependendo do numero de elementos este valor pode rapidamente explodir a memória. Imagine se quiser uma lista com 1 milhão de quadrados ou mais.<br>
Como comentado anteriormente, se uma classe definir o método mágico `__iter__` e o método `__next__` é possível obter um iterador passando este objeto pela função iter() e neste caso, também como visto anteriormente, não seria criada uma lista de valores e sim ocorreria a obtenção de um valor da sequencia por vez conforme necessário.<br>
Vamos ver a seguir como fazer esta definição utilizando orientação a objetos.

In [295]:
class SquareIterator():
    
    def __init__(self, max_value):
        
        self.max_value = max_value
        self.current_value = 0
        
    def __iter__(self):
        
        return self
    
    def __next__(self):
        
        if self.current_value >= self.max_value:
            
            raise StopIteration
            
        current_squared_value = self.current_value ** 2
        
        self.current_value += 1
        
        return current_squared_value

In [30]:
for num in SquareIterator(3):
    
    print(num)

0
1
4


In [31]:
for num in calculate_squares(3):
    
    print(num)

0
1
4


Utilizando tanto a classe como a função, quanto a classe eu consigo resolver o problema de iterar sobre uma lista de quadrados de números entre 0 e um valor máximo.
A diferença é que no caso da classe, eu não precisar gerar uma lista completa a cada chamada next, o objeto altera seu estado através do retorno de uma nova instância com seus atributos atualizados até atingir o limite.

Interessante, entramos agora em um novo questionamento...<br>
Ok, interessante essa criação da classe onde definindo os métodos `__iter__` e `__next__` consigo criar meu iterator sem precisar criar de fato uma sequencia inteira, acessando os elementos um a um conforme for preciso.<br>
A dúvida é, existe forma mais fácil e prática de fazer isso?<br>
E a resposta é sim!

### Generator Functions

As generate functions pelo que estou lendo tem muitas funcionalidades, mas a principal explorada neste texto é exatamente a praticidade na geração de iterators.<br>
Estas funções se parecem muito com uma função tradicional mas ao invés de ter um `return` ocorre uma nova palavra-chave, `yield`. E é exatamente este cara que faz toda a diferença.

In [1]:
def gen_nums():
    
    n = 0
    
    while n < 4:
        
        yield n
        
        n += 1

In [4]:
for num in gen_nums():
    
    print(num)

0
1
2
3


In [5]:
sequence = gen_nums()
type(sequence)

generator

Vamos as definições:

- `GENERATOR FUNCTION:` - É uma função na qual eu defino retorno através da palavra-chave yield e não da palavra `return`.

- `GENERATOR OBJECT:` - É o objeto retornado pela GENERATOR FUNCTION, e na real, ele é um iterator onde posso aplicar a built-in function next() e utilizar em for loops por exemplo.

In [10]:
next(sequence)

StopIteration: 

Aqui temos uma definição interessante sobre as GENERATOR FUNCTIONS e sua comparação com as regular functions.<br>
Enquanto funções regulares podem apresentar vários pontos de saída (return statement), elas apresentam apenas um ponto de entrada. Ou seja, toda vez que uma função regular é chamada, ela roda desde sua primeira linha.<br>
No caso das GENERATOR FUNCTIONS, cada yield statement funciona como ponto de saída e entrada. Ou seja, ao chamar a função uma primeira vez, ela roda até o primeiro yield, ao rodar a função novamente ela começa a rodar exatamente na linha seguinte ao yield retornado anteriormente. 

__Obs:__ Não é necessário dar um raise em uma excessão (StopIteration), no caso do GENERATOR OBJECT retornado por uma GENERATOR FUNCTION, ele jé é implementado nativamente.<br>

Vamos fazer alguns testes:

In [11]:
def gen_function():
    
    yield "Rodrigo Bernardo Medeiros"

In [33]:
sequence = gen_function()

In [35]:
next(sequence)

StopIteration: 

Seria uma prática interessande utilizar generator functions para definir fluxos de desenvolvimento, ou para operar parcialmente sobre valores?

In [36]:
def split_names(complete_name):
    
    names = complete_name.split()
    
    for name in names:
        
        yield name

In [42]:
names = [
    'rodrigo bernardo medeiros', 
    'adriane bernardo medeiros', 
    'roberval mauricio cesar'
]

first_name = list()
second_name = list()
third_name = list()

for name in names:
    
    separated_names = split_names(name)
    
    first_name.append(next(separated_names))
    second_name.append(next(separated_names))
    third_name.append(next(separated_names))

In [44]:
first_name

['rodrigo', 'adriane', 'roberval']

In [45]:
second_name

['bernardo', 'bernardo', 'mauricio']

In [46]:
third_name

['medeiros', 'medeiros', 'cesar']

Neste exemplo acima, eu utilizo uma GENERATOR FUNCTION para tratar determinado informação.

Vamos retornar ao exemplo do quadrado dos números, reformulando a solução utilizando uma GENERATOR FUNCTION.

In [47]:
def gen_square_numbers(max_value):
    
    current_value = 0
    
    while current_value < max_value:
        
        yield current_value ** 2
        
        current_value += 1

In [48]:
for num in gen_square_numbers(4):
    
    print(num)

0
1
4
9


Muito bom, neste caso foi possível reescrever a classe escrita anteriormente que definia diretamente um itarator por uma GENERATOR FUNCTION que retorna um GENERATOR OBJECT que no fundo também é um ITERATOR.
Repara-se pela verbosidade de cada código que utilizar GENERATOR FUNCTIONS parece ser muito mais natural, fácil de ler, manter e escalar.

### Generator Patterns and scalable Composability

Agora vamos explorar um pouco mais as GENERATOR FUNCTIONS.

In [123]:
def matching_lines_from_file(path, pattern):
    
    with open(path) as handle:
        
        for line in handle:
            
            if pattern in line:
                
                yield line.rstrip('\n')

Neste exemplo, escrevi uma função para ler um arquivo e retornar um GENERATOR OBJECT que itera sobre as linhas que contém determinado padrão de caracteres.

In [136]:
path = r'./src/log_file.txt'
pattern = 'WARNING'

for line in matching_lines_from_file(path, pattern):
    
    print(line)



Através da GENERATOR FUNCTION, consegui iterar somente pelas linhas de interesse sem precisar trazer para meu código a complexidade de encontrar o padrão. Resolvo isso através do iterator. Posso escrever essas funções como se fossem uma espécie de filtro sem precisar construir uma sequencia para alocar a informação.

### Algumas boas práticas neste desenvolvimento:

- Utilizar `with` para abrir o arquivo, é uma boa prática que garante que o arquivo será fechado assim que o código passar pelo bloco de contexto.

- Neste exemplo, utilizei o modo pythonico de iterar por linhas em um arquivo. Utilizando o for line in file, aproveito este ponto para lembrar de registrar e não mais utilizar o readlines(), este método carrega o arquivo inteiro e com essa joga fora toda minha estratégia de utilizar menos memória em meus desenvolvimentos. Ou seja, jogo fora minha escalabilidade.

Vamos avançar em nossa função para analisar nosso arquivo de log, agora além de pegar somente as linhas com o padrão WARNING, quero também parsear a informação da linha em um dicionário com duas chaves, `level` para escrever o tipo de mensagem de log e `message` para escrever a mensagem efetivamente:


In [137]:
def parse_log_records(lines):
    
    for line in lines:
        
        level, message = line.split(':', 1)
        
        yield {
            "level": level,
            "message": message
        }

In [138]:
valid_lines = matching_lines_from_file(path, pattern)

for parsed_info in parse_log_records(valid_lines):
    
    print(parsed_info)



Neste caso combinei duas funções para tratar problemas distintos, ambas são GENERATOR FUNCTIONS que retornam GENERATOR OBJECTS. pelo livro que estou estudando esse tratamento define a composição de escalabilidade. Ou seja, é sempre importante pensar na implementação a nível desses pequenos detalhes, como escalar, como evitar grandes consumos de memória.
Mais um detalhe de implementação, a função matching_lines_from_file, recebe um caminho e padrão para executar duas tarefas, uma ler os arquivos e outra retornar um GENERATOR OBJECT contendo somente as linhas de interesse. Neste ponto vamos fazer uma refatoração para que as interfaces estejam alinhadas e ambas as funções possam receber iteradores e operar sobre eles.

In [143]:
# função responsável por ler um arquivo retornando um GENERATOR OBJECT que itera sobre todas as linhas.

def lines_from_file(path):
    
    with open(path) as handle:
        
        for line in handle:
            
            yield line.rstrip('\n')
            
def matching_lines(lines, pattern):
    
    for line in lines:
        
        if pattern in line:
            
            yield line

In [140]:
lines_from_file = lines_from_file(path)
correct_lines = matching_lines(lines_from_file, 'WARNING')

for line in parse_log_records(correct_lines):
    
    print(line)



### Teste utilizando `yield from`

Esta composição de palavras-chave é utilizada quando quero encadear duas generate functions. Vou desenvolver um exemplo baseado na leitura do arquivo com log.

In [150]:
def matching_lines_from_files(path, pattern='WARNING'):
    
    all_lines = lines_from_file(path)
    
    yield from matching_lines(all_lines, pattern)

In [152]:
for line in parse_log_records(matching_lines_from_files(path, pattern='WARNING')):
    
    print(line)



### Python está cheio de iteradores

Vamos ver alguns exemplos:

In [167]:
calories = {
    "apple": 95,
    "slice of bacon": 43,
    "cheddar cheese": 113,
    "ice cream": 15
}

items = calories.items()

In [170]:
len(items)

4

In [171]:
iter(items)

<dict_itemiterator at 0x27253fc75e0>

In [173]:
('apple', 95) in items

True

In [177]:
for key, value in items: print(f'{key}: {value}')
for ind, item in enumerate(items): print(f'{ind + 1} - {item}')

apple: 95
slice of bacon: 43
cheddar cheese: 113
ice cream: 15
1 - ('apple', 95)
2 - ('slice of bacon', 43)
3 - ('cheddar cheese', 113)
4 - ('ice cream', 15)


Além desse exemplo de iterador, no livro são citados diversos outros exemplos de iterators em python, como os resultados da utilização de map, filter e zip. Vou codar um pouco com esses caras pra ver no que dá.

In [234]:
str_numbers = ['1', '2', '3', '4']

def change_type(number):
    
    return int(number)

int_numbers = map(change_type, str_numbers)

type(int_numbers)

map

A aplicação de uma função map, retorna um objeto do tipo map que adivinhem só, é um iterator.

In [235]:
def filter_test(number):
    
    if number > 2:
        
        return number
    

filter_numbers = filter(filter_test, int_numbers)
type(filter_numbers)

filter

Fazendo um paralelo com a aplicação do map, ao aplicar o filter obtenho um objeto do tipo filter que também é um iterator. É importante saber que isso existe e sempre pensar nesse gerenciamento de memória ao desenvolver as soluções com isso vamos ficando cada vez mais afiados. Lembrando que enquanto a gente só conhece martelo, todo problema é prego. Conhecer novas formas de resolver problemas nos torna mais criativos

### Iterator protocol

objetos que são considerados iterators se seguem o seguinte protocolo:

1) Tem a implementação de um método `__next__` que não tem parametros.<br>
2) O método `__next__` é responsável por atualizar o estado do objeto para o próximo item na sequencia.<br>
3) Após todos os elementos serem produzidos, o método `__next__` é responsável por dar um raise exception no erro StopIteration.<br>
4) Ocorre a definição de um método `__iter__` que não recebe parametros e retorna o próprio elemento. Liretamente um método com um return self dentro.<br>

### Definição de um objeto iterável.

In [240]:
import pandas as pd

In [264]:
content = {
    'names': [
        'rodrigo', 
        'renata',
        'isabella', 
        'gabriella'
    ],
    'age': [
        35,
        34,
        2,
        0
    ]
}

family = pd.DataFrame(content)

In [265]:
family.to_dict(orient='records')

[{'names': 'rodrigo', 'age': 35},
 {'names': 'renata', 'age': 34},
 {'names': 'isabella', 'age': 2},
 {'names': 'gabriella', 'age': 0}]

In [285]:
for ind, item in family.iterrows():
    
    print(dict(item))

{'names': 'rodrigo', 'age': 35}
{'names': 'renata', 'age': 34}
{'names': 'isabella', 'age': 2}
{'names': 'gabriella', 'age': 0}


In [287]:
family.loc[0]

names    rodrigo
age           35
Name: 0, dtype: object

In [288]:
class DataFrame():
    
    def __init__(self, dataframe):
        
        self._dataframe = dataframe.reset_index(drop=True)
        self._index = 0
        
    def __iter__(self):
        
        return self
    
    def __next__(self):
        
        try:
            
            return dict(self._dataframe.loc[self._index])
        
        except:
            
            raise StopIteration
        
        finally:
            
            self._index += 1

In [289]:
# implementing __iter__ metho to define an iterable object, this method must return a iterator in this case I just apply 
# the built-in function iter() in the list.

class IterRowsDataFrame():
    
    def __init__(self, dataframe):
        
        self._dataframe = dataframe
        
    def __iter__(self):
        
        return iter(self._dataframe.to_dict(orient='records'))

In [290]:
# Just to solve the problem in othet way, in this case instead of use iter(), I defined the __iter__ method as a generator
# function which returns a generator object.

class IterRowsDataFrameGeneratorFunction():
    
    def __init__(self, dataframe):
        
        self._dataframe = dataframe
        
    def __iter__(self):
        
        index = 0
        
        while index < len(self._dataframe):
        
            yield self._dataframe.to_dict(orient='records')[index]
            
            index += 1

In [291]:
dict_rows_family = DataFrame(family)
for item in dict_rows_family: print(item)

{'names': 'rodrigo', 'age': 35}
{'names': 'renata', 'age': 34}
{'names': 'isabella', 'age': 2}
{'names': 'gabriella', 'age': 0}


In [292]:
dict_rows_family = IterRowsDataFrame(family)
for item in dict_rows_family: print(item)

{'names': 'rodrigo', 'age': 35}
{'names': 'renata', 'age': 34}
{'names': 'isabella', 'age': 2}
{'names': 'gabriella', 'age': 0}


In [293]:
dict_rows_family = IterRowsDataFrameGeneratorFunction(family)
for item in dict_rows_family: print(item)

{'names': 'rodrigo', 'age': 35}
{'names': 'renata', 'age': 34}
{'names': 'isabella', 'age': 2}
{'names': 'gabriella', 'age': 0}


In [277]:
teste = DataFrame(family)
next(teste)

{'names': 'rodrigo', 'age': 35}

In [278]:
teste = IterRowsDataFrame(family)
next(teste)

TypeError: 'IterRowsDataFrame' object is not an iterator

In [279]:
teste = IterRowsDataFrameGeneratorFunction(family)
next(teste)

TypeError: 'IterRowsDataFrameGeneratorFunction' object is not an iterator

Como podemos ver nestes exemplos, a classe DataFrame é um iterator pela definição dos métodos necessários (`__iter__`, `__next__`), enquanto que as demais são apenas iterables definindo somente o método `__iter__`.

# CREATING COLLECTIONS WITH COMPREHENSIONS

# CRIANDO COLEÇÕES COM COMPREENSÕES

List comprehension é uma forma declarativa de alto nível para criar listas em python.

In [1]:
squares = [n * n for n in range(6)]
print(squares)

[0, 1, 4, 9, 16, 25]


Isto é exatamente equivalente ao seguinte:

In [2]:
squares = list() # ou squares = []

for n in range(6):
    
    squares.append(n * n)
    
print(squares)

[0, 1, 4, 9, 16, 25]


Observe que no primeiro exemplo, o que você digita está declarando que tipo de lista você quer, enquanto que no segundo está especificando como cria-la. 
Por isso que nós dizemos que é uma forma alto nível e declarativa:Funciona como se vocês estivesse definindo que tipo de lista quer criar, e depois, deixa o Python descobrir como construi-la. 

Python permite escrever outros tipos de `comprehensions` além das listas. Segue um exemplo de `dictionary comprehension`:

In [3]:
blocks = { n: "x" * n for n in range(5)}
print(blocks)

{0: '', 1: 'x', 2: 'xx', 3: 'xxx', 4: 'xxxx'}


Isto é exatamente equivalente a fazer o seguinte:

In [4]:
blocks = dict()

for n in range(5):
    
    blocks[n] = 'x' * n
    
print(blocks)

{0: '', 1: 'x', 2: 'xx', 3: 'xxx', 4: 'xxxx'}


Os principais benefícios das `comprehensions` são legibilidade e manutenibilidade. Muitas pessoas, acham elas muito legíveis; Mesmo desenvolvedores que nunca encontraram elas antes, podem na maioria das vezes adivinhar corretamente o que significa.
E além disso, há um benefício cognitivo mais profundo: Uma vez que você praticar um pouco, vai achar que pode escreve-las com pouquíssimo esforço mental - mantendo sua atenção livre para outras tarefas.

## List Comprehensions

__`List comprehension` é a mais usada e util tipo de `comprehension`, e essencialmente é uma forma de criar e popular uma lista.__ Sua estrutura segue a seguinte expressão:

[ __EXPRESSION__ for __VARIABLE__ in __SEQUENCE__ ]

*EXPRESSION* é qualquer expressão python, embora em compreensões, esta expressão tipicamente contenha uma variável. Esta variável é declarada no campo *VARIABLE*. *SEQUENCE* define a fonte dos valores pelos quais a variável itera, criando uma sequencia final de valores calculados.

In [17]:
squares = [n * n for n in range(6)]
print(type(squares))
print(squares)

<class 'list'>
[0, 1, 4, 9, 16, 25]


In [12]:
def double_short_words(words):
    
    return [
        word + word
        for word in words
        if len(word) < 5
    ]

In [16]:
words = 'ola ole ovo rodrigo bernardo medeiros'.split()

double_small_words = double_short_words(words)
print(double_small_words)

['olaola', 'oleole', 'ovoovo']
