# Saltarse la primera parte de un iterable

4.8

- Problema
        Desea iterar sobre elementos de forma iterativa, pero los primeros elementos no son de interés y solo desea descartarlos.  
        

- Solución
        El módulo itertools tiene algunas funciones que se pueden utilizar para abordar esta tarea. los primero es la función itertools.drop while (). Para usarlo, debe proporcionar una función y un iterable. 
        El iterador devuelto descarta los primeros elementos de la secuencia siempre que el La función suministrada devuelve True. Posteriormente, se produce la totalidad de la secuencia.
        A modo de ilustración, suponga que está leyendo un archivo que comienza con una serie de líneas de comentarios.

Por ejemplo:

In [9]:
with open('test') as f:
    for line in f:
        print(line, end='')

# es un fichero de prueva
##

test1 : "hola"

# termino el archivo

In [11]:
from itertools import dropwhile

In [12]:
with open('test') as f:
    for line in dropwhile(lambda line: line.startswith('#'), f):
        print(line, end='')


test1 : "hola"

# termino el archivo

In [14]:
from itertools import islice

In [19]:
items = ['a', 'b', 'c', 1, 4, 10, 15]
for x in islice(items, 3, None):
    print(x)

1
4
10
15


En este ejemplo, se requiere el último argumento None para islice () para indicar que quiere todo más allá de los primeros tres elementos en lugar de solo los primeros tres elementos  
(p. ej., una porción de [3:] en lugar de una porción de [: 3]).

In [18]:
items = ['a', 'b', 'c', 1, 4, 10, 15]
for x in islice(items, 3):
    print(x)

a
b
c


Las funciones dropwhile () e islice () son principalmente funciones de conveniencia que puede usar para evitar escribir un código bastante desordenado como este:
```python
with open('/etc/passwd') as f:
    # Skip over initial comments
    while True:
        line = next(f, '')
        if not line.startswith('#'):
            break
    # Process remaining lines
    while line:
        # Replace with useful processing
        print(line, end='')
        line = next(f, None)
```

Descartar la primera parte de un iterable también es ligeramente diferente a simplemente filtrar todos
de ella. Por ejemplo, la primera parte de esta receta se podría reescribir de la siguiente manera:

In [22]:
with open('test') as f:
    lines = (line for line in f if not ((line.startswith('#') or line=="\n")))
    for i in lines:
        print(i)

test1 : "hola"



Obviamente, esto descartará las líneas de comentarios al principio, pero también descartará todas las líneas a lo largo de todo el archivo. Por otro lado, la solución solo descarta elementos hasta que un artículo ya no satisfaga la prueba suministrada. Después de eso, todos los elementos siguientes son devuelto sin filtrado.
Por último, pero no menos importante, cabe destacar que esta receta funciona con todos los iterables, incluidos aquellos cuyo tamaño no se puede determinar de antemano. Esto incluye generadores, archivos y tipos de objetos similares.

## Las principales ventajas de islice de itertools sobre el slice nativo son:

### islice:

- ✅ Funciona con cualquier iterable (generadores, archivos, iteradores infinitos)
- ✅ Eficiente en memoria - no carga datos en memoria, procesa elemento por elemento
- ✅ Permite iterar sobre secuencias enormes o infinitas sin agotarlas
- ✅ Lazy evaluation - solo consume lo necesario

### Slice nativo ([start:stop:step]):

- ❌ Solo funciona con secuencias (listas, tuplas, strings)
- ❌ Crea una copia en memoria - consume memoria proporcional al tamaño
- ❌ No funciona con generadores - si intentas gen[0:10] obtienes TypeError
Ejemplo práctico:

In [23]:
from itertools import islice

# islice: OK - eficiente, no carga todo en memoria
def infinite_gen():
    n = 0
    while True:
        yield n
        n += 1

primeros_10 = list(islice(infinite_gen(), 10))  # [0,1,2...9]

print(primeros_10)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [24]:

# Slice nativo: ERROR - no funciona con generadores
primeros_10 = infinite_gen()[0:10]  # TypeError!




TypeError: 'generator' object is not subscriptable

In [55]:
import sys
from itertools import islice

# crea una lista grande
big_list = list(range(1_000_000))

print (f"{'tamaño de big_list':31}:{sys.getsizeof(big_list):>10} bytes")

slice_big_list_normal = big_list[100:1000]  # Crea nueva lista en memoria
print (f"{'tamaño de slice_big_list_normal':31}:{sys.getsizeof(slice_big_list_normal):>10} bytes")

slice_big_list_islice= islice(big_list, 100, 1000)  # Itera sin copiar
print (f"{'tamaño de slice_big_list':31}:{sys.getsizeof(slice_big_list_islice):>10} bytes")  

# for i in slice_big_list:
#   print(i, end=' ')

tamaño de big_list             :   8000056 bytes
tamaño de slice_big_list_normal:      7256 bytes
tamaño de slice_big_list       :        72 bytes


# Iterando todas las combinaciones posibles o Permutaciones

4.9

- Problema
        Quieres iterar sobre todas las posibles combinaciones o permutaciones de una colección de artículos.


- Solución
        El módulo itertools proporciona tres funciones para esta tarea. El primero de estos: itertools.permutations (): toma una colección de elementos y produce una secuencia de tuplas que reorganiza todos los elementos en todas las posibles permutaciones (es decir, los mezcla en todas las configuraciones posibles).   
        
Por ejemplo:

In [1]:
from itertools import combinations, permutations

In [2]:
items = ['a', 'b', 'c']

In [3]:
for i in permutations(items):
    print(i)

('a', 'b', 'c')
('a', 'c', 'b')
('b', 'a', 'c')
('b', 'c', 'a')
('c', 'a', 'b')
('c', 'b', 'a')


In [4]:
# Si desea todas las permutaciones de una longitud menor, puede dar un argumento de longitud 
# opcionalmente. Por ejemplo:
for i in permutations(items,2):
    print(i)

('a', 'b')
('a', 'c')
('b', 'a')
('b', 'c')
('c', 'a')
('c', 'b')


Utilice itertools.combinations () para producir una secuencia de combinaciones de elementos tomados desde la entrada.  
Por ejemplo:

In [5]:
for c in combinations(items, 3):
    print(c)

('a', 'b', 'c')


In [6]:
for c in combinations(items, 2):
    print(c)

('a', 'b')
('a', 'c')
('b', 'c')


Para combinaciones (), no se considera el orden real de los elementos. Eso es el
La combinación ('a', 'b') se considera igual que ('b', 'a') (que no es
producido).
Al producir combinaciones, los elementos elegidos se eliminan de la colección de pos‐
candidatos posibles (es decir, si 'a' ya ha sido elegido, entonces se elimina de
ación). La función itertools.combinations_with_replacement () relaja esto, y
permite elegir el mismo artículo más de una vez.   
Por ejemplo:

In [7]:
from itertools import combinations_with_replacement

In [35]:
for c in combinations_with_replacement(items, 3):
    print(c)

('a', 'a', 'a')
('a', 'a', 'b')
('a', 'a', 'c')
('a', 'b', 'b')
('a', 'b', 'c')
('a', 'c', 'c')
('b', 'b', 'b')
('b', 'b', 'c')
('b', 'c', 'c')
('c', 'c', 'c')


Esta receta demuestra solo parte del poder que se encuentra en el módulo itertools.
Aunque ciertamente podría escribir código para producir permutaciones y combinaciones
usted mismo, hacerlo probablemente requeriría más que un poco de pensamiento.   
Cuando se enfrenta con problemas de iteración aparentemente complicados, siempre vale la pena mirar primero las herramientas de iteración.
Si el problema es común, es probable que ya exista una solución.

# Iterando sobre los pares índice-valor de una secuencia

4.10

- Problema
        Desea iterar sobre una secuencia, pero desea realizar un seguimiento de qué elemento de la secuencia se está procesando actualmente.
  
  
- Solución
        La función incorporada enumerate () maneja esto bastante bien:

In [36]:
mi_lista=list(range(10))

In [41]:
for i, v in enumerate(mi_lista):
    print(i,v)

0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9


o imprimir la salida con números de línea canónicos (donde normalmente comienza la numeración en 1 en lugar de 0), 
puede pasar un argumento de inicio:

In [43]:
for i, v in enumerate(mi_lista,10):
    print(i,v)

10 0
11 1
12 2
13 3
14 4
15 5
16 6
17 7
18 8
19 9


Este caso es especialmente útil para rastrear números de línea en archivos en caso de que desee utilizar un número de línea en un mensaje de error:

In [97]:
def parse_data(filename):
    with open(filename, 'r') as f:
        print(f)
        for lineno, line in enumerate(f, 1):
            fields = (len(line)>1) * line.split() or "sin datos"
            print(lineno,fields)
            try:
                count = int(fields[0])
                print(count)

            except ValueError as e:
                print('Line {}: Parse error: {}'.format(lineno, e))

In [98]:
parse_data("test")

<_io.TextIOWrapper name='test' mode='r' encoding='UTF-8'>
1 ['#', 'es', 'un', 'fichero', 'de', 'prueva']
Line 1: Parse error: invalid literal for int() with base 10: '#'
2 ['##']
Line 2: Parse error: invalid literal for int() with base 10: '##'
3 sin datos
Line 3: Parse error: invalid literal for int() with base 10: 's'
4 ['test1', ':', '"hola"']
Line 4: Parse error: invalid literal for int() with base 10: 'test1'
5 sin datos
Line 5: Parse error: invalid literal for int() with base 10: 's'
6 ['#', 'termino', 'el', 'archivo']
Line 6: Parse error: invalid literal for int() with base 10: '#'


In [99]:
parse_data("num.txt")

<_io.TextIOWrapper name='num.txt' mode='r' encoding='UTF-8'>
1 ['1', 'emiliano']
1
2 ['2', '4626-57645']
2
3 ['3']
3
4 ['4']
4
5 ['5']
5
6 ['6']
6
7 ['no', 'hay', 'mas', 'numeros']
Line 7: Parse error: invalid literal for int() with base 10: 'no'


enumerate() puede ser útil para realizar un seguimiento del desplazamiento en una lista de apariciones de ciertos valores, por ejemplo. Entonces, si desea mapear palabras en un archivo a las líneas en las que ocurren, se puede lograr fácilmente usando enumerate () para asignar cada palabra al desplazamiento de línea en el archivo donde se encontró:

In [101]:
from collections import defaultdict

In [141]:
palabras = defaultdict(list)

In [142]:
with open('test', 'r') as f:
    lineas = f.readlines()

In [143]:
for index, linea in enumerate(lineas):
    for palabra in [w.strip().lower() for w in linea.split()]:
        palabras[palabra].append(index)

In [144]:
palabras

defaultdict(list,
            {'#': [0, 5],
             'es': [0],
             'un': [0],
             'fichero': [0],
             'de': [0],
             'prueva': [0],
             '##': [1],
             'test1': [3],
             ':': [3],
             '"hola"': [3],
             'termino': [5],
             'el': [5],
             'archivo': [5]})

Si imprime palabras después de procesar el archivo, será un diccionario (por defecto
dict para ser precisos), y tendrá una clave para cada palabra. El valor de cada palabra clave va ser una lista de números de línea en los que aparece la palabra. Si la palabra aparece dos veces en una sola línea, ese número de línea se enumerará dos veces, lo que permite identificar varios métricas sobre el texto.

Aunque es un punto menor, vale la pena mencionar que a veces es fácil tropezarse
al aplicar enumerate () a una secuencia de tuplas que también se están desempaquetando.
Para hacerlo, debes escribir un código como este:

In [145]:
data = [ (1, 2), (3, 4), (5, 6), (7, 8) ]

In [146]:
for n, (x, y) in enumerate(data):
    print(n, x, y)

0 1 2
1 3 4
2 5 6
3 7 8


# Iterando sobre varias secuencias simultáneamente

4.11

- Problema
        Desea iterar sobre los elementos contenidos en más de una secuencia a la vez.


- Solución
        Para iterar sobre más de una secuencia simultáneamente, use la función zip ().  

Por ejemplo:

In [None]:
xpts = [1, 5, 4, 2, 10, 7]
ypts = [101, 78, 37, 15, 62, 99]
for x, y in zip(xpts, ypts):
    print(x,y)

1 101
5 78
4 37
2 15
10 62
7 99


zip (a, b) funciona creando un iterador que produce tuplas (x, y) donde se toma x
de a y se toma de b. La iteración se detiene cuando una de las secuencias de entrada es
agotado. Por lo tanto, la longitud de la iteración es la misma que la longitud del más corto
entrada. Por ejemplo:

In [148]:
a = [1, 2, 3]
b = ['w', 'x', 'y', 'z']
for i in zip(a,b):
    print(i)

(1, 'w')
(2, 'x')
(3, 'y')


Si no desea este comportamiento, utilice itertools.zip_longest () en su lugar. Por ejemplo:

In [149]:
from itertools import zip_longest

In [150]:
for i in zip_longest(a,b):
    print(i)

(1, 'w')
(2, 'x')
(3, 'y')
(None, 'z')


In [151]:
for i in zip_longest(a, b, fillvalue=0):
    print(i)

(1, 'w')
(2, 'x')
(3, 'y')
(0, 'z')


zip () se usa comúnmente siempre que necesite emparejar datos. Por ejemplo, suponga
tiene una lista de encabezados de columna y valores de columna como este:

In [152]:
headers = ['name', 'shares', 'price']
values = ['ACME', 100, 490.1]

In [153]:
# Usando zip (), puede emparejar los valores para hacer un diccionario como este:
dic = dict(zip(headers,values))

In [154]:
dic

{'name': 'ACME', 'shares': 100, 'price': 490.1}

alternativamente, si está intentando producir una salida, puede escribir un código como este:

In [157]:
for name, val in zip(headers, values):
    print(name, '=', val)

name = ACME
shares = 100
price = 490.1


Es menos común, pero zip () puede pasar más de dos secuencias como entrada. Para esto
caso, las tuplas resultantes tienen el mismo número de elementos que el número de entradas
secuencias. Por ejemplo

In [158]:
a = [1, 2, 3]
b = [10, 11, 12]
c = ['x','y','z']
for i in zip(a, b, c):
    print(i)

(1, 10, 'x')
(2, 11, 'y')
(3, 12, 'z')


Por último, pero no menos importante, es importante enfatizar que zip () crea un iterador como resultado.
Si necesita los valores emparejados almacenados en una lista, use la función list (). Por ejemplo:

In [159]:
zip(a, b)

<zip at 0x7f7ac570faa0>

In [160]:
list(zip(a, b))

[(1, 10), (2, 11), (3, 12)]