## Iterators vs Iterables

Un **iterable** es un objeto que retorna un **iterator**, mientras que un **iterator** es un objeto que guarda estados y reproduce el siguiente valor cuando hacemos uso de la función **next()**.

## Iterating over iterables (I)

Dado un objeto **iterable** podemos pasarlo a tipo **iterator** haciendo uso de la función **iter()**.

In [1]:
#Nos creamos una lista que es un objeto iterable
flash = ['jay garrick', 'barry allen', 'wally west', 'bart allen']

#Recorremos dicho objeto iterable
for value in flash:
    print(value)

jay garrick
barry allen
wally west
bart allen


In [2]:
#Convertimos la lista a un objeto de tipo iterator
superspeed = iter(flash)
#Mostramos cada uno de los elementos del iterator
print(next(superspeed))
print(next(superspeed))
print(next(superspeed))
print(next(superspeed))

jay garrick
barry allen
wally west
bart allen


## Iterating over iterables (II)

No todos los objetos **iterables** son listas. Un claro ejemplo es la función **range()**. La función **range()** no crea una lista sino lo que crea es un objeto de tipo range.

In [4]:
#Creamos un objeto iterator a partir de un objeto range con pocos valores
small_value = iter(range(3))

#Mostramos los distintos valores
print(next(small_value))
print(next(small_value))
print(next(small_value))

0
1
2


In [5]:
#Creamos un iterador para range(10 ** 100): googol
googol = iter(range(10 ** 100))

#Mostramos los 4 primeros valroes
print(next(googol))
print(next(googol))
print(next(googol))
print(next(googol))

0
1
2
3


## Using enumerate

Ya que tenemos idea de lo que es un iterador, vamos a proceder a hacer uso de la función **enumerate()**, esta función recibe como parámetro un elemento **iterable**, como por ejemplo una lista y retorna un iterador que contiene una secuencia de tuplas del tipo índice-valor.

In [6]:
#Nos creamos una lista
mutants = ['charles xavier', 'bobby drake', 'kurt wagner', 'max eisenhardt', 'kitty pride']
#Nos creamos una lista de tuplas indice-valor
mutant_list = list(enumerate(mutants))
#Procedemos a mostrar el resultado
for index,value in mutant_list:
    print(index,value)

0 charles xavier
1 bobby drake
2 kurt wagner
3 max eisenhardt
4 kitty pride


La función **enumerate** tiene el argumento adicional **start**, que nos permite indicar el valor por el cual queremos que comience el índice.

In [7]:
for index,value in enumerate(mutants, start = 1):
    print(index,value)

1 charles xavier
2 bobby drake
3 kurt wagner
4 max eisenhardt
5 kitty pride


## Using zip

La función **zip()** puede recibir un número cualquiera de objetos de tipo **iterable** y retorna un objeto de tipo **iterator** de tuplas. Si queremos mostrar los valores del objeto tipo zip, podemos convertir dicho objeto a tipo lista y tras mostrar los resultados. Si queremos printar un objeto tipo zip de forma directa, debemos de desempaquetarlo. 

In [22]:
#Nos creamos tres listas
mutants = ['charles xavier', 'bobby drake', 'kurt wagner', 'max eisenhardt', 'kitty pride']
aliases = ['prof x', 'iceman', 'nightcrawler', 'magneto', 'shadowcat']
powers = ['telepathy', 'thermokinesis', 'teleportation', 'magnetokinesis', 'intangibility']

#Nos creamos una lista de tuplas a partir de un zip
mutant_list = list(zip(mutants, aliases, powers))
#Mostramos el resultado
print(mutant_list)

[('charles xavier', 'prof x', 'telepathy'), ('bobby drake', 'iceman', 'thermokinesis'), ('kurt wagner', 'nightcrawler', 'teleportation'), ('max eisenhardt', 'magneto', 'magnetokinesis'), ('kitty pride', 'shadowcat', 'intangibility')]


In [23]:
#Nos creamos un zip iterator
mutant_zip = zip(mutants, aliases, powers)
#Desempaquetamos
for mutant, aliase, power in mutant_zip:
    print(mutant, aliase, power)

charles xavier prof x telepathy
bobby drake iceman thermokinesis
kurt wagner nightcrawler teleportation
max eisenhardt magneto magnetokinesis
kitty pride shadowcat intangibility


## Using * and zip to 'unzip'

A la hora de desempaquetar un objeto tipo zip, no tenemos ninguna función que lo haga de forma inmediata. Sim embargo, tenemos la opción de hacer uso del operador * para desempaquetar este tipo de objetos.

In [24]:
#Nos creamos un objeto de tipo zip
object_zip = zip(mutants, powers)
#Procedemos a desempaquetar los resultados
print(*object_zip)

('charles xavier', 'telepathy') ('bobby drake', 'thermokinesis') ('kurt wagner', 'teleportation') ('max eisenhardt', 'magnetokinesis') ('kitty pride', 'intangibility')


In [25]:
#Procedemos a crearnos un objeto tipo zip y a desempaquetarlo en tuplas
object_zip = zip(mutants, powers)
mutant, powers = zip(*object_zip)
print(mutant)
print(powers)

('charles xavier', 'bobby drake', 'kurt wagner', 'max eisenhardt', 'kitty pride')
('telepathy', 'thermokinesis', 'teleportation', 'magnetokinesis', 'intangibility')


## Processing large amounts of Twitter data

Existen situaciones en las cuales los datos que deseamos utilizar son demasiado grandes como para cargarlos por completo en memoria. Este problema que se le suele plantear a un Data Scientist, la solución a esto consiste en procesar nuestro conjunto de datos trozo a trozo. Para ello la función **read.csv()** contiene el argumento **chunksize** que lo que hace es devolver un elemento iterable de la dimensión indicada en dicho argumento.

In [5]:
#Hacemos la carga las librerías necesarias
import pandas as pd

#Procedemos a realizar el cuenteo de idiomas
count_dict = {}
for chunk in pd.read_csv("tweets.csv", chunksize = 10):
    for entry in chunk["lang"]:
        if entry in count_dict.keys():
            count_dict[entry] += 1
        else:
            count_dict[entry] = 1

#Mostramos el resultado 
print(count_dict)

{'en': 97, 'et': 1, 'und': 2}


## Extracting information for large amounts of Twitter data

In [6]:
def count_entries(csv_file, c_size, colname):
    """Return a dictionary with counts of ocurrences
    as value for each key"""
    counts_dict = {}
    for chunk in pd.read_csv(csv_file, chunksize = c_size):
        for entry in chunk[colname]:
            if entry in counts_dict.keys():
                counts_dict[entry] += 1
            else:
                counts_dict[entry] = 1
    return counts_dict

#Hacemos llamada a la función 
result_counts = count_entries('tweets.csv', 10, 'lang')
print(result_counts)

{'en': 97, 'et': 1, 'und': 2}
