# Iteradores

- Percorrer uma a uma unidades de uma sequência
- Objetos iteráveis: listas, strings, dicionários, conexão de arquivos
    - Possuem a capacidade de serem iterados
    - Possuem o método associado iter()
    - Aplicar iter() cria um iterador (é isso que o for loop faz) e itera o objeto
- Objetos iteradores: objeto após a iteração
    - Produz o próximo valor com seu método associado next()

In [12]:
palavra = 'Lucas' #iterável
iterador = iter(palavra) # iterador
print(iterador)
type(iterador)

<str_iterator object at 0x0000021015406888>


str_iterator

In [4]:
next(iterador) # rode várias vezes; observe o efeito e o erro

StopIteration: 

In [9]:
# printar todos os valores de um iterador: usando o operador estela / splat:
print(*iterador) # rode duas vezes -> retorna nada ao fim do caminho




In [10]:
# iterando dicionários: para iterar precisamos descompactar com o método items()
dict = {'Lucas': 'Madriles', 'David': 'Bowie'}
for key, value in dict.items():
    print(key, value)

Lucas Madriles
David Bowie


In [11]:
# iterando conexão de arquivos: depois achar um arquivo pra preencher esse exemplo
file = open('file.txt')
it = iter(file)
print(next(it)) # primeira linha
print(next(it)) # segunda linha

FileNotFoundError: [Errno 2] No such file or directory: 'file.txt'

O método list() e sum() também iteram sobre os objetos

## Enumerate()
- Função que aceita qualquer iterável como argumento
- Retorna um objeto enumerate com pares de valor e índice do iterável original

In [37]:
xmen = ['fera', 'anjo', 'ciclope', 'garota marvel', 'homem de gelo']
e = enumerate(xmen)
print(type(e))

<class 'enumerate'>


In [38]:
e_list = list(e) # transforma o enumerate em lista de tuples com os pares (importante p/ não ficar esgotando o iterador)
print(e_list) #rode só uma vez ou o argumento e da lista se esvazia

[(0, 'fera'), (1, 'anjo'), (2, 'ciclope'), (3, 'garota marvel'), (4, 'homem de gelo')]


In [18]:
# objeto enumerate é iterador e iterado:
for index, value in enumerate(xmen):
    print(index, value)

0 fera
1 anjo
2 ciclope
3 garota marvel
4 homem de gelo


In [19]:
# mudando o index de início
for index, value in enumerate(xmen, start = 10):
    print(index, value)

10 fera
11 anjo
12 ciclope
13 garota marvel
14 homem de gelo


## zip()
- aceita um número (arbitrário) de iteráveis e compacta em lista de tuplas de tamanho arbitrário

In [23]:
xmen = ['fera', 'anjo', 'ciclope', 'garota marvel', 'homem de gelo']
nomes = ['McCoy', 'Worthington', 'Summers', 'Grey', 'Drake']
z = zip(xmen, nomes)
print(type(z))

<class 'zip'>


In [24]:
z_list = list(z) # transforma o enumerate em lista de tuples com os pares
print(z_list)

[('fera', 'McCoy'), ('anjo', 'Worthington'), ('ciclope', 'Summers'), ('garota marvel', 'Grey'), ('homem de gelo', 'Drake')]


In [26]:
xmen = ['fera', 'anjo', 'ciclope', 'garota marvel', 'homem de gelo']
nomes = ['McCoy', 'Worthington', 'Summers', 'Grey', 'Drake']
for z1, z2 in zip(xmen, nomes):
    print(z1, z2)

fera McCoy
anjo Worthington
ciclope Summers
garota marvel Grey
homem de gelo Drake


In [40]:
xmen = ['fera', 'anjo', 'ciclope', 'garota marvel', 'homem de gelo']
nomes = ['McCoy', 'Worthington', 'Summers', 'Grey', 'Drake']
z = zip(xmen, nomes)
print(*z)

('fera', 'McCoy') ('anjo', 'Worthington') ('ciclope', 'Summers') ('garota marvel', 'Grey') ('homem de gelo', 'Drake')


In [45]:
# unzip:
xmen = ['fera', 'anjo', 'ciclope', 'garota marvel', 'homem de gelo']
nomes = ['McCoy', 'Worthington', 'Summers', 'Grey', 'Drake']
z = zip(xmen, nomes)
result1, result2 = zip(*z)
print(result1)
print(result2)

('fera', 'anjo', 'ciclope', 'garota marvel', 'homem de gelo')
('McCoy', 'Worthington', 'Summers', 'Grey', 'Drake')


## Lidando com muitos dados usando iterações
- Carregar dados em pacotes (chunks) para economizar memória
- argumento(?) chunksize

In [None]:
# exemplo: somando uma coluna 'x' do dataframe
import pandas as pd
result = []
for chunk in pd.read_csv('data.csv',chunksize = 1000): # cada chunk um dataframe
    result.append(sum(chunk['x'])) # junta as somas dos chunks
total = sum(result)
print(total)

# ou:
result = 0
for chunk in pd.read_csv('data.csv',chunksize = 1000): # cada chunk um dataframe
    total += sum(chunk['x']) # junta as somas dos chunks
print(total)


In [None]:
# exercício do curso:
# Define count_entries()
def count_entries(csv_file, c_size, colname):
    """Return a dictionary with counts of
    occurrences as value for each key."""
    
    # Initialize an empty dictionary: counts_dict
    counts_dict = {}

    # Iterate over the file chunk by chunk
    for chunk in pd.read_csv(csv_file, chunksize = c_size):

        # Iterate over the column in DataFrame
        for entry in chunk[colname]:
            if entry in counts_dict.keys():
                counts_dict[entry] += 1
            else:
                counts_dict[entry] = 1

    # Return counts_dict
    return counts_dict

# Call count_entries(): result_counts
result_counts = count_entries('tweets.csv', 10, 'lang')

# Print result_counts
print(result_counts)

# List comprehension

- Criando listas com uma linha só de código a partir de qualquer iterável
- Precisa de uma variável do iterável pra representar os membros do iterável
- Precisa da expressão de output (a transformação do elemento)

In [3]:
lista = [1,2,5,8,10]
new_nums = [variável + 1 for variável in lista ] # operação for variável em lista
new_nums

[2, 3, 6, 9, 11]

In [4]:
result = [num for num in range(11)]
result

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

## Nested loop com list comprehension
- loop dentro de loop

In [7]:
# exemplo sem list comprehension
pairs_1 = []
for num1 in range(0, 2):
    for num2 in range(6, 8):
        pairs_1.append((num1, num2))
print(pairs_1)

[(0, 6), (0, 7), (1, 6), (1, 7)]


In [10]:
# com:
pairs_2 = [(num1, num2) for num1 in range(0, 2) for num2 in range(6, 8)]
# output de saída; primeiro for; segundo for.
print(pairs_2)

# obs.: sacrificamos legibilidade por sumaridade

[(0, 6), (0, 7), (1, 6), (1, 7)]


In [12]:
# criando matriz:
matrix = [[x for x in range(5)] for y in range(5)]
matrix

[[0, 1, 2, 3, 4],
 [0, 1, 2, 3, 4],
 [0, 1, 2, 3, 4],
 [0, 1, 2, 3, 4],
 [0, 1, 2, 3, 4]]

## Condicionais com list comprehension


In [3]:
# condição filtrando a saída
[ num ** 2 for num in range(10) if num%2 == 0] #  quadrado do range(10) quando for par
# obs.: % é o operador de módulo (modulo operator) produz o resto da divisão entre os argumentos

[0, 4, 16, 36, 64]

In [5]:
# condição no iterável
[ num ** 2 if num%2 == 0 else 0 for num in range(10) ] # if deve vir antes do for

[0, 0, 4, 0, 16, 0, 36, 0, 64, 0]

# Dict Comprehension
- cria dicionários
- usa {chaves}


In [8]:
pros_neg = {num: -num for num in range(9)}
print(type(pros_neg))
pros_neg

<class 'dict'>


{0: 0, 1: -1, 2: -2, 3: -3, 4: -4, 5: -5, 6: -6, 7: -7, 8: -8}

# Generators (geradores)
- um gerador é como um objeto modificante ao invés da lista/dict em sí
- que pode ser iterado para criar os elementos da lista conforme a condição criada (de forma similar às comprehensions)
- Por esse motivo funciona bem em streaming data (dados que vão sendo atualizados enquanto os manipulamos)
- usa (parêntesis)
- Tudo que dá pra fazer em list comprehension dá pra fazer com generator (if else)

In [12]:
result = (num for num in range(6))
print(result) # sem elementos

for num in result: # loop produz os elementos
    print(num)

<generator object <genexpr> at 0x000001C7375D4E48>
0
1
2
3
4
5


In [13]:
# ou
result = (num for num in range(6))
print(list(result))

[0, 1, 2, 3, 4, 5]


In [18]:
# lazy evaluation: a avaliação (geração do valor) da expressão é atrasada até que seja necessária
result = (num for num in range(6))
print(next(result)) # gera o próximo

0


In [19]:
(num for num in range(10**1000000))
# nunca use essa [list comprehension] em um servidor local ou não

<generator object <genexpr> at 0x000001C7375D49C8>

### Generator functions
- funções que produzem objetos geradoes
- usa yield ao invés de return


In [23]:
def num_sequencie(n):
    """Generate values from 0 to n."""
    i = 0
    while i < n:
        yield i
        i +=1


In [24]:
result = num_sequencie(5)
for item in result:
    print(item)

0
1
2
3
4


#### Streaming data
- dados atualizados enquanto são manipulados
- Uma boa aplicação de generators.
- Não entendi bem, então vou colocar o exercicio todo aqui.

In [None]:
# Open a connection to the file
with open('world_dev_ind.csv') as file:

    # Skip the column names
    file.readline()

    # Initialize an empty dictionary: counts_dict
    counts_dict = {}

    # Process only the first 1000 rows
    for j in range(1000):

        # Split the current line into a list: line
        line = file.readline().split(',')

        # Get the value for the first column: first_col
        first_col = line[0]

        # If the column value is in the dict, increment its value
        if first_col in counts_dict.keys():
            counts_dict[first_col] += 1

        # Else, add to the dict and set value to 1
        else:
            counts_dict[first_col] = 1

# Print the resulting dictionary
print(counts_dict)

In [None]:
# Define read_large_file()
def read_large_file(file_object):
    """A generator function to read a large file lazily."""

    # Loop indefinitely until the end of the file
    while True:

        # Read a line from the file: data
        data = file_object.readline()

        # Break if this is the end of the file
        if not data:
            break

        # Yield the line of data
        yield data
        
# Open a connection to the file
with open('world_dev_ind.csv') as file:

    # Create a generator object for the file: gen_file
    gen_file = read_large_file(file)

    # Print the first three lines of the file
    print(next(gen_file))
    print(next(gen_file))
    print(next(gen_file))

In [None]:
# Initialize an empty dictionary: counts_dict
counts_dict = {}

# Open a connection to the file
with open('world_dev_ind.csv') as file:

    # Iterate over the generator from read_large_file()
    for line in read_large_file(file):

        row = line.split(',')
        first_col = row[0]

        if first_col in counts_dict.keys():
            counts_dict[first_col] += 1
        else:
            counts_dict[first_col] = 1

# Print            
print(counts_dict)