# Iterando en elementos en contenedores separados

4.11

- Problema
         Necesita realizar la misma operaci√≥n en muchos objetos, pero los objetos est√°n contenidos en diferentes contenedores y le gustar√≠a evitar bucles anidados sin perder la legibilidad de su c√≥digo.


- soluci√≥n
         El m√©todo itertools.chain () se puede utilizar para simplificar esta tarea. Toma una lista de iterables como entrada y devuelve un iterador que enmascara de manera efectiva el hecho de que realmente est√°s actuando en varios contenedores.
         
Para ilustrarlo, considere este ejemplo:

In [2]:
from itertools import chain

In [3]:
a = [1, 2, 3, 4]
b = ['x', 'y', 'z']
for x in chain(a, b):
    print(x)

1
2
3
4
x
y
z


Un uso com√∫n de chain () es en programas en los que le gustar√≠a realizar ciertos
operaciones en todos los elementos a la vez, pero los elementos se agrupan en diferentes
conjuntos.   
Por ejemplo:

```python
    # Various working sets of items
    active_items = set()
    inactive_items = set()
    # Iterate over all items
    for item in chain(active_items, inactive_items):
        # Process item
```

Esta soluci√≥n es mucho m√°s elegante que usar dos bucles separados, como se muestra a continuaci√≥n:

```python
        for elemento in active_items:
            # Elemento de proceso
            ...

        for elemento in inactive_items:
            # Elemento de proceso
            ...
```

itertools.chain () acepta uno o m√°s iterables como argumentos. Entonces funciona creando
un iterador que consume y devuelve sucesivamente los elementos producidos por cada uno de
los iterables suministrados que proporcion√≥. Es una distinci√≥n sutil, pero chain() es m√°s eficiente que primero combinar las secuencias e iterar.   
Por ejemplo:

```python
        # Ineficiente
        for x in a + b:
            ...
        # Mejor
        for x in chain(a, b):
            ...
```


En el primer caso, la operaci√≥n a + b crea una secuencia completamente nueva y, adem√°s
requiere que a y b sean del mismo tipo. chain () no realiza tal operaci√≥n, por lo que est√° lejos m√°s eficiente con la memoria si las secuencias de entrada son grandes y se puede aplicar f√°cilmente cuando los iterables en cuesti√≥n son de diferentes tipos.

# Crear canalizaciones de procesamiento de datos

4.12

- Problema
        Desea procesar datos de forma iterativa en el estilo de una canalizaci√≥n de procesamiento de datos (similar a Tuber√≠as Unix). Por ejemplo, tiene una gran cantidad de datos que deben procesarse, pero no cabe del todo en la memoria.


- Soluci√≥n
        Las funciones de generador son una buena forma de implementar canalizaciones de procesamiento.   

Para ilustrar, suponga que tiene un directorio enorme de archivos de registro que desea procesar:

In [4]:
import os
import fnmatch
import gzip
import re
import bz2
import zipfile

In [5]:
arch = os.walk(os.getcwd())

In [6]:
next(arch)

('d:\\recetas-python\\Capitulo 4 (Iterables y Generadotres)',
 [],
 ['arc.txt',
  'cap4-1-7.ipynb',
  'cap4-11-15-walrus-match-case.ipynb',
  'cap4-8-10.ipynb',
  'test'])

In [7]:
def gen_find(busqueda, top=os.getcwd()):
    """Encuentra archivos en un √°rbol de directorios que coinciden con un patr√≥n.
    
    Utiliza os.walk() para recorrer recursivamente un √°rbol de directorios y 
    fnmatch para aplicar filtros de patr√≥n tipo shell. Devuelve las rutas 
    completas de los archivos coincidentes.
    
    Args:
        busqueda (str): Patr√≥n de b√∫squeda tipo shell (ej: '*.txt', 'cap4*.*')
        top (str): Ruta del directorio ra√≠z donde comenzar la b√∫squeda 
                    (por defecto es el directorio actual)
        
    Yields:
        str: Ruta completa de cada archivo que coincide con el patr√≥n
        
    Example:
        >>> for archivo in gen_find('*.py', '/home/user'):
        ...     print(archivo)
        /home/user/script1.py
        /home/user/subdir/script2.py
    """
    for path, carpetas, archivos in os.walk(top):
        for nombre in fnmatch.filter(archivos, busqueda):
            yield os.path.join(path, nombre)


In [8]:
archivos = gen_find("cap4*.*",os.getcwd())
archivos

<generator object gen_find at 0x000001E517C4BA40>

In [10]:
archivos=list(archivos)

In [9]:
def gen_opener(filenames):
    """Abre una secuencia de archivos, detectando autom√°ticamente el formato.
    
    Lee nombres de archivo y abre cada uno, detectando autom√°ticamente si es 
    gzip (.gz), bzip2 (.bz2) o zip (.zip). El archivo se cierra inmediatamente 
    al pasar a la siguiente iteraci√≥n, permitiendo procesar archivos muy grandes 
    sin cargar todo en memoria.
    
    Args:
        filenames (iterable): Secuencia de rutas de archivo (strings)
        
    Yields:
        file object: Objeto de archivo abierto en modo lectura de texto
        
    Example:
        >>> for archivo in gen_opener(['log.txt', 'data.gz', 'archive.zip']):
        ...     primera_linea = archivo.readline()
        
    Note:
        Los archivos se cierran autom√°ticamente despu√©s de cada iteraci√≥n.
        Para archivos .zip, se lee el primer archivo dentro del ZIP.
    """
    for filename in filenames:
        if filename.endswith('.gz'):
            f = gzip.open(filename, 'rt')
        elif filename.endswith('.bz2'):
            f = bz2.open(filename, 'rt')
        elif filename.endswith('.zip'):
            # Para archivos ZIP, abre el primer archivo dentro del ZIP
            zf = zipfile.ZipFile(filename, 'r')
            first_file = zf.namelist()[0]
            f = zf.open(first_file, 'r')
        else:
            f = open(filename, 'rt')
        yield f
        f.close()

## Nota: Diferencia entre modo `'r'` y `'rt'`

La diferencia entre `'r'` y `'rt'` en Python es **muy sutil pero importante**:

- **`'r'`**: Abre en modo lectura (por defecto es texto)
- **`'rt'`**: Abre expl√≠citamente en modo lectura de **TEXTO** (`'t'` = text mode)

### ¬øPor qu√© usamos `'rt'` en este c√≥digo?

En `gen_opener()` se usa `'rt'` por **coherencia y claridad**, especialmente porque tambi√©n abrimos archivos comprimidos:

```python
if filename.endswith('.gz'):
    f = gzip.open(filename, 'rt')      # ‚Üê 'rt' expl√≠cito
elif filename.endswith('.bz2'):
    f = bz2.open(filename, 'rt')       # ‚Üê 'rt' expl√≠cito
else:
    f = open(filename, 'rt')           # ‚Üê 'rt' expl√≠cito
```

### Diferencia pr√°ctica en Windows:

```python
# Modo 'r' (texto con conversi√≥n autom√°tica en Windows)
with open('archivo.txt', 'r') as f:
    contenido = f.read()
    # En Windows: \r\n se convierte autom√°ticamente a \n

# Modo 'rt' (equivalente, pero expl√≠cito)
with open('archivo.txt', 'rt') as f:
    contenido = f.read()
    # Mismo comportamiento, pero m√°s claro
```

### Respuesta: ¬øEs necesario?

**No es estrictamente necesario**. `'r'` ser√≠a suficiente. Se usa `'rt'` para:

1. ‚úÖ Ser **expl√≠cito** - dejar claro que es modo texto
2. ‚úÖ **Coherencia** - mantener uniformidad con `gzip.open()` y `bz2.open()`
3. ‚úÖ **Legibilidad** - mejorar la comprensi√≥n del c√≥digo

**Conclusi√≥n**: Puedes cambiar `'rt'` por `'r'` sin problema, funcionar√° igual. La `'t'` es solo para ser expl√≠cito y mejorar la legibilidad.

### Soporte para archivos ZIP

La funci√≥n ahora soporta archivos `.zip`. Cuando detecta un archivo ZIP:
- Abre el ZIP
- Lee el nombre del primer archivo dentro del ZIP
- Abre ese primer archivo para lectura

**Limitaci√≥n actual:** Solo procesa el primer archivo dentro del ZIP.

**¬øQu√© pasa si el ZIP tiene m√∫ltiples archivos?**

Si necesitas procesar **todos los archivos** dentro del ZIP, tienes varias opciones:

#### **Opci√≥n 1: Iterar sobre todos los archivos del ZIP**
```python
def gen_opener_all_files(filenames):
    """Abre archivos, procesando TODOS los archivos dentro de ZIPs"""
    for filename in filenames:
        if filename.endswith('.zip'):
            zf = zipfile.ZipFile(filename, 'r')
            for inner_file in zf.namelist():
                if not inner_file.endswith('/'):  # Ignorar directorios
                    f = zf.open(inner_file, 'r')
                    yield f
                    f.close()
        else:
            # ... resto del c√≥digo para .gz, .bz2, etc
```

#### **Opci√≥n 2: Especificar qu√© archivo leer del ZIP**
```python
def gen_opener_with_index(filenames, zip_index=0):
    """Especifica qu√© archivo leer del ZIP (por √≠ndice)"""
    for filename in filenames:
        if filename.endswith('.zip'):
            zf = zipfile.ZipFile(filename, 'r')
            files = zf.namelist()
            if len(files) > zip_index:
                f = zf.open(files[zip_index], 'r')
                yield f
                f.close()
```

**Ejemplo de uso:**
```python
# Opci√≥n 1: Procesar todos los archivos
for f in gen_opener_all_files(['datos.zip', 'respaldo.gz']):
    print(f.readline())

# Opci√≥n 2: Procesar segundo archivo del ZIP
for f in gen_opener_with_index(['datos.zip'], zip_index=1):
    print(f.readline())
```

In [10]:
# Versi√≥n alternativa 1: Procesar TODOS los archivos dentro del ZIP
def gen_opener_all_files(filenames):
    """Abre archivos, procesando TODOS los archivos dentro de ZIPs.
    
    Si encuentra un ZIP con m√∫ltiples archivos, abre cada uno secuencialmente.
    """
    for filename in filenames:
        if filename.endswith('.gz'):
            f = gzip.open(filename, 'rt')
            yield f
            f.close()
        elif filename.endswith('.bz2'):
            f = bz2.open(filename, 'rt')
            yield f
            f.close()
        elif filename.endswith('.zip'):
            # Procesa TODOS los archivos dentro del ZIP
            zf = zipfile.ZipFile(filename, 'r')
            for inner_file in zf.namelist():
                if not inner_file.endswith('/'):  # Ignorar directorios
                    f = zf.open(inner_file, 'r')
                    yield f
                    f.close()
        else:
            f = open(filename, 'rt')
            yield f
            f.close()


# Versi√≥n alternativa 2: Especificar qu√© archivo leer del ZIP
def gen_opener_with_index(filenames, zip_index=0):
    """Abre archivos, permitiendo especificar cu√°l archivo leer del ZIP.
    
    Args:
        filenames: Rutas de archivo
        zip_index: √çndice del archivo a leer del ZIP (por defecto 0 = primero)
    """
    for filename in filenames:
        if filename.endswith('.gz'):
            f = gzip.open(filename, 'rt')
            yield f
            f.close()
        elif filename.endswith('.bz2'):
            f = bz2.open(filename, 'rt')
            yield f
            f.close()
        elif filename.endswith('.zip'):
            zf = zipfile.ZipFile(filename, 'r')
            files = [f for f in zf.namelist() if not f.endswith('/')]
            if len(files) > zip_index:
                f = zf.open(files[zip_index], 'r')
                yield f
                f.close()
        else:
            f = open(filename, 'rt')
            yield f
            f.close()

In [11]:
list(gen_opener(archivos))


[<_io.TextIOWrapper name='d:\\recetas-python\\Capitulo 4 (Iterables y Generadotres)\\cap4-1-7.ipynb' mode='rt' encoding='cp1252'>,
 <_io.TextIOWrapper name='d:\\recetas-python\\Capitulo 4 (Iterables y Generadotres)\\cap4-11-15-walrus-match-case.ipynb' mode='rt' encoding='cp1252'>,
 <_io.TextIOWrapper name='d:\\recetas-python\\Capitulo 4 (Iterables y Generadotres)\\cap4-8-10.ipynb' mode='rt' encoding='cp1252'>,
 <_io.TextIOWrapper name='d:\\recetas-python\\Capitulo 4 (Iterables y Generadotres)\\cap4.tar.gz' encoding='cp1252'>]

In [12]:
def gen_concatenate(iterators):
    """Encadena m√∫ltiples iteradores en una sola secuencia continua.
    
    Toma una secuencia de iteradores y emite todos sus elementos 
    consecutivamente, simplificando la iteraci√≥n sobre m√∫ltiples fuentes 
    de datos sin necesidad de bucles anidados.
    
    Args:
        iterators (iterable): Secuencia de iteradores a concatenar
        
    Yields:
        any: Elementos de todos los iteradores, en orden
        
    Example:
        >>> it1 = iter([1, 2, 3])
        >>> it2 = iter([4, 5, 6])
        >>> list(gen_concatenate([it1, it2]))
        [1, 2, 3, 4, 5, 6]
    """
    for it in iterators:
        yield from it

In [13]:
def gen_grep(pattern, lines):
    """Filtra l√≠neas que coinciden con una expresi√≥n regular.
    
    Busca un patr√≥n de expresi√≥n regular en una secuencia de l√≠neas 
    y emite solo las que contienen una coincidencia.
    
    Args:
        pattern (str): Expresi√≥n regular a buscar
        lines (iterable): Secuencia de l√≠neas de texto
        
    Yields:
        str: L√≠neas que coinciden con el patr√≥n
        
    Example:
        >>> lineas = ['python es genial', 'java tambi√©n', 'python rules']
        >>> list(gen_grep('python', lineas))
        ['python es genial', 'python rules']
    """
    pat = re.compile(pattern)
    for line in lines:
        if pat.search(line):
            yield line

In [15]:
lognames = gen_find('access-log*', '/home/emi')
files = gen_opener(lognames)
lines = gen_concatenate(files)
pylines = gen_grep('(?i)python', lines)
for line in pylines:
    print(line)

Si desea ampliar a√∫n m√°s la canalizaci√≥n, incluso puede alimentar los datos en expresiones generadoras. Por ejemplo, esta versi√≥n encuentra el n√∫mero de bytes transferidos y suma el total:

In [None]:
ognames = gen_find('access-log*', '/home/emi')
files = gen_opener(lognames)
lines = gen_concatenate(files)
pylines = gen_grep('(?i)python', lines)
bytecolumn = (line.rsplit(None,1)[1] for line in pylines)
bytes_ = (int(x) for x in bytecolumn if x != '-')
print('Total', sum(bytes_))

El procesamiento de datos de manera canalizada funciona bien para una amplia variedad de otros problemas, incluido el an√°lisis, la lectura de fuentes de datos en tiempo real, el sondeo peri√≥dico, etc. Para comprender el c√≥digo, es importante comprender que la declaraci√≥n de rendimiento act√∫a como una especie de productor de datos, mientras que un bucle for act√∫a como un consumidor de datos. Cuando los generadores se apilan, cada rendimiento alimenta un solo elemento de datos a la siguiente etapa de la tuber√≠a que lo consume con iteraci√≥n. En el √∫ltimo ejemplo, la funci√≥n sum () en realidad est√° impulsando todo el programa, sacando un elemento a la vez de la tuber√≠a de generadores.
Una caracter√≠stica interesante de este enfoque es que cada funci√≥n del generador tiende a ser peque√±a y aut√≥noma. Como tales, son f√°ciles de escribir y mantener. En muchos casos, tienen un prop√≥sito tan general que pueden reutilizarse en otros contextos. El c√≥digo resultante que pega
los componentes juntos tambi√©n tienden a leerse como una receta simple que se entiende f√°cilmente.  

La eficiencia de memoria de este enfoque tampoco puede ser exagerada. El c√≥digo que se muestra funcionar√≠a incluso si se usara en un directorio masivo de archivos. De hecho, debido a la naturaleza iterativa del procesamiento, se utilizar√≠a muy poca memoria.  

Hay un poco de extrema sutileza en la funci√≥n gen_concatenate (). El prop√≥sito de esta funci√≥n es concatenar secuencias de entrada juntas en una secuencia larga de l√≠neas. La funci√≥n itertools.chain () realiza una funci√≥n similar, pero requiere que todos los iterables encadenados se especifiquen como argumentos. En el caso de esta receta en particular, hacer eso implicar√≠a una declaraci√≥n como lines = itertools.chain (* files), lo que har√≠a que el generador gen_opener () se consumiera por completo. Dado que ese generador est√° produciendo una secuencia de archivos abiertos que se cierran inmediatamente en el siguiente paso de iteraci√≥n, no se puede usar chain (). La soluci√≥n mostrada evita este problema.  

Tambi√©n aparece en la funci√≥n gen_concatenate () el uso de yield from para delegar a un subgenerador. El resultado de la declaraci√≥n de √©l simplemente hace que gen_concatenate () emita todos los valores producidos por el generador.  

Por √∫ltimo, pero no menos importante, debe tenerse en cuenta que un enfoque canalizado no siempre funciona para todos los problemas de manejo de datos. A veces, solo necesita trabajar con todos los datos a la vez. Sin embargo, incluso en ese caso, el uso de canalizaciones de generador puede ser una forma de dividir l√≥gicamente un problema en una especie de flujo de trabajo.  



# Aplanar una secuencia anidada

4.13

- Problema
        Tiene una secuencia anidada que desea aplanar en una √∫nica lista de valores.


- Soluci√≥n
        Esto se resuelve f√°cilmente escribiendo una funci√≥n generadora recursiva que implique un rendimiento de declaraci√≥n. 
        
Por ejemplo

In [17]:
def flatten(items, ignore_types=(str, bytes)):
    for x in items:
        if isinstance(x, (list,tuple,set)): 
            yield from flatten(x)
        elif isinstance(x,(int,float,str)):
            yield x

In [18]:
items = [1, 2, [ 3, 4, [5, 6], 7 ], 8,{1,2,3},{1:"uno"}]

In [19]:
list(flatten(items))

[1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3]

In [25]:
nombres = ['Dave', 'Paula', ['Thomas', 'Lewis']]
for x in flatten(nombres):
    print(x)

Dave
Paula
Thomas
Lewis


In [20]:
def flatten2(items, ignore_types=(str, bytes)):
    from collections.abc import Iterable
    for x in items:
        if isinstance(x, Iterable) and not isinstance(x, ignore_types):
            yield from flatten(x)
        else:
            yield x

In [26]:
list(flatten2(items))

[1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 1]

In [27]:
list(flatten2(nombres))

['Dave', 'Paula', 'Thomas', 'Lewis']

En el c√≥digo, isinstance (x, Iterable) simplemente comprueba si un elemento es iterable.
Si es as√≠, yield from se utiliza para emitir todos sus valores como una especie de subrutina. El final resulto
es una √∫nica secuencia de salida sin anidamiento.

La declaraci√≥n `yield from ` es un buen atajo para usar si alguna vez desea escribir generadores
que llaman a otros generadores como subrutinas. Si no lo usa, debe escribir un c√≥digo que
utiliza un bucle for adicional. Por ejemplo:

```python
        def flatten(items, ignore_types=(str, bytes)):
            for x in items:
                if isinstance(x, Iterable) and 
                   not isinstance(x, ignore_types):
                    for i in flatten(x):
                        yield i
                else:
                    yield x
```

Aunque es solo un cambio menor, el rendimiento de la declaraci√≥n simplemente se siente mejor y conduce a un c√≥digo m√°s limpio. Como se se√±al√≥, la verificaci√≥n adicional de cadenas y bytes est√° ah√≠ para evitar la expansi√≥n de esos tipos en caracteres individuales. Si hay otros tipos que no desea expandir, puede proporcionar un valor diferente para el argumento ignore_types. Finalmente, debe tenerse en cuenta que `yield` tiene un papel m√°s importante en los programas avanzados que involucran corrutinas y concurrencia basada en generadores. Vea la receta 12.12 para
otro ejemplo.

# Iterando en orden clasificado sobre combinado clasificado Iterables

4.15

- Problema
        Tiene una colecci√≥n de secuencias ordenadas y desea iterar sobre una secuencia ordenada de todos ellos se fusionaron.  
        
        

- Soluci√≥n
        La funci√≥n heapq.merge () hace exactamente lo que quieres.  

Por ejemplo:

In [28]:
import heapq

In [29]:
a = [1, 4, 7, 10]
b = [2, 5, 6, 11]

In [30]:
a + b

[1, 4, 7, 10, 2, 5, 6, 11]

In [31]:
for c in heapq.merge(a, b):
    print(c)

1
2
4
5
6
7
10
11


In [32]:
list(heapq.merge(a, b))

[1, 2, 4, 5, 6, 7, 10, 11]

La naturaleza iterativa de heapq.merge significa que nunca lee ninguna de los secuencias proporcionadas a la vez. Esto significa que puede usarlo en secuencias muy largas con muy poca sobrecarga.   
Por ejemplo, aqu√≠ hay un ejemplo de c√≥mo fusionar√≠a dos archivos:

import heapq
with open('archivo_1', 'rt') as file1, \
     open('archivo_2') 'rt' as file2, \
     open('archivo_final', 'wt') as outf:
    for line in heapq.merge(file1, file2):
        outf.write(line)

In [None]:
import heapq
with open('archivo1', 'r') as file1, open('archivo2','r') as file2, \
     open('archivo_final', 'w') as outf:
    for line in heapq.merge(file1, file2):
        outf.write(line)

Es importante enfatizar que heapq.merge () requiere que todas las secuencias de entrada ya est√©n ordenadas. En particular, no lee primero todos los datos en un mont√≥n ni realiza ninguna clasificaci√≥n preliminar. Tampoco realiza ning√∫n tipo de validaci√≥n de las entradas a comprobar
si cumplen con los requisitos de pedido. En su lugar, simplemente examina el conjunto de elementos del frente de cada secuencia de entrada y emite el m√°s peque√±o encontrado. Luego se lee un nuevo elemento de la secuencia elegida y el proceso se repite hasta que todas las secuencias de entrada
se han consumido por completo.

---

# üîÑ Modernizaci√≥n para Python 3.8+ 

Esta secci√≥n muestra c√≥mo modernizar el c√≥digo anterior aprovechando las caracter√≠sticas de Python 3.8+

## 1Ô∏è‚É£ Usar Pathlib en lugar de os.path (Python 3.4+)

**Versi√≥n antigua** (usando `os.path`):
```python
def gen_find(busqueda, top):
    for path, carpetas, archivos in os.walk(top):
        for nombre in fnmatch.filter(archivos, busqueda):
            yield os.path.join(path, nombre)
```

**Versi√≥n moderna** (usando `pathlib.Path`):
- ‚úÖ M√°s legible y orientado a objetos
- ‚úÖ Multiplataforma autom√°tico (Windows/Linux/Mac)
- ‚úÖ M√©todos integrados como `.glob()`, `.match()`, etc.

In [None]:
from pathlib import Path

def gen_find_modern(pattern: str, top: str | Path):
    """
    Versi√≥n moderna usando pathlib.
    Encuentra todos los archivos que coinciden con el patr√≥n.
    """
    top_path = Path(top) if isinstance(top, str) else top
    
    # glob() es m√°s simple y directo que os.walk + fnmatch
    yield from top_path.rglob(pattern)  # rglob = recursive glob

In [None]:
# Ejemplo de uso
archivos_modernos = list(gen_find_modern("cap4*.*", Path.cwd()))
print(f"Encontrados {len(archivos_modernos)} archivos:")
for archivo in archivos_modernos[:3]:  # Mostrar solo los primeros 3
    print(f"  - {archivo.name}")

## 2Ô∏è‚É£ Operador Walrus `:=` para simplificar c√≥digo (Python 3.8+)

**Versi√≥n antigua**:
```python
def gen_opener(filenames):
    for filename in filenames:
        if filename.endswith('.gz'):
            f = gzip.open(filename, 'rt')
        elif filename.endswith('.bz2'):
            f = bz2.open(filename, 'rt')
        else:
            f = open(filename, 'rt')
        yield f
        f.close()
```

**Versi√≥n moderna con walrus**:
- ‚úÖ Reduce repetici√≥n de c√≥digo
- ‚úÖ M√°s conciso y expresivo

In [None]:
from pathlib import Path
from contextlib import contextmanager

@contextmanager
def open_file_smart(filepath: Path):
    """Context manager que abre archivos seg√∫n su extensi√≥n."""
    if filepath.suffix == '.gz':
        f = gzip.open(filepath, 'rt')
    elif filepath.suffix == '.bz2':
        f = bz2.open(filepath, 'rt')
    else:
        f = open(filepath, 'rt')
    try:
        yield f
    finally:
        f.close()

def gen_opener_modern(filenames):
    """Versi√≥n moderna usando pathlib y context managers."""
    for filename in filenames:
        path = Path(filename) if isinstance(filename, str) else filename
        with open_file_smart(path) as f:
            yield f

## 3Ô∏è‚É£ Pattern Matching con match-case (Python 3.10+)

**Versi√≥n antigua** (flatten con if-elif):
```python
def flatten(items, ignore_types=(str, bytes)):
    for x in items:
        if isinstance(x, (list,tuple,set)): 
            yield from flatten(x)
        elif isinstance(x,(int,float,str)):
            yield x
```

**Versi√≥n moderna con match-case**:
- ‚úÖ M√°s expresivo y legible
- ‚úÖ Pattern matching estructural
- ‚úÖ Detecci√≥n de tipos m√°s elegante

In [None]:
from collections.abc import Iterable

def flatten_modern(items, ignore_types=(str, bytes)):
    """
    Versi√≥n moderna usando match-case (Python 3.10+)
    Aplana una secuencia anidada recursivamente.
    """
    for x in items:
        match x:
            # Si es iterable pero NO string/bytes
            case _ if isinstance(x, Iterable) and not isinstance(x, ignore_types):
                yield from flatten_modern(x, ignore_types)
            # Cualquier otro tipo (n√∫meros, strings, etc.)
            case _:
                yield x

In [None]:
# Prueba comparativa
items_test = [1, 2, [3, 4, [5, 6], 7], 8, {9, 10, 11}, 'texto']

print("Versi√≥n antigua:")
print(list(flatten(items_test)))

print("\nVersi√≥n moderna (match-case):")
print(list(flatten_modern(items_test)))

## 4Ô∏è‚É£ Type Hints Modernos (Python 3.9+)

**Cambios principales**:
- ‚úÖ `list[int]` en lugar de `List[int]` (no necesita import de typing)
- ‚úÖ `dict[str, int]` en lugar de `Dict[str, int]`
- ‚úÖ `tuple[int, ...]` en lugar de `Tuple[int, ...]`
- ‚úÖ `str | int` en lugar de `Union[str, int]` (Python 3.10+)
- ‚úÖ `X | None` en lugar de `Optional[X]` (Python 3.10+)

In [None]:
from collections.abc import Iterator, Iterable
from pathlib import Path

# Versi√≥n con type hints modernos (Python 3.10+)
def gen_grep_modern(
    pattern: str, 
    lines: Iterable[str]
) -> Iterator[str]:
    """
    Busca un patr√≥n regex en l√≠neas.
    
    Args:
        pattern: Expresi√≥n regular a buscar
        lines: Secuencia de l√≠neas de texto
        
    Yields:
        L√≠neas que coinciden con el patr√≥n
    """
    pat = re.compile(pattern)
    for line in lines:
        if pat.search(line):
            yield line

def gen_find_typed(
    pattern: str, 
    top: str | Path
) -> Iterator[Path]:
    """
    Encuentra archivos que coinciden con el patr√≥n.
    
    Args:
        pattern: Patr√≥n glob (ej: '*.txt')
        top: Directorio ra√≠z (string o Path)
        
    Yields:
        Rutas de archivos encontrados
    """
    top_path = Path(top) if isinstance(top, str) else top
    yield from top_path.rglob(pattern)

## 5Ô∏è‚É£ Pipeline de procesamiento completo modernizado

Juntando todas las mejoras anteriores:

In [None]:
# Pipeline completo modernizado (Python 3.10+)
from pathlib import Path
from collections.abc import Iterator
import re

# 1. Buscar archivos .ipynb en el directorio actual
notebooks = gen_find_typed("*.ipynb", Path.cwd())

# 2. Abrir archivos (simplificado - notebooks son texto plano)
def read_notebooks(paths: Iterator[Path]) -> Iterator[str]:
    """Lee l√≠neas de m√∫ltiples archivos."""
    for path in paths:
        with path.open('r', encoding='utf-8') as f:
            yield from f

# 3. Filtrar l√≠neas que contienen 'python'
lines = read_notebooks(notebooks)
python_lines = gen_grep_modern(r'(?i)python', lines)

# 4. Contar ocurrencias
print("L√≠neas con 'python' en notebooks:")
count = 0
for line in python_lines:
    if (count := count + 1) <= 5:  # Walrus operator! 
        print(f"{count}: {line.strip()[:60]}...")
    else:
        break

print(f"\n‚úÖ Pipeline ejecutado con √©xito (Python 3.10+)")

## üìä Resumen de Modernizaciones

| Caracter√≠stica | Python < 3.8 | Python 3.8+ | Python 3.10+ |
|---------------|--------------|-------------|---------------|
| **Paths** | `os.path.join()` | `pathlib.Path` | `pathlib.Path` |
| **Type hints** | `List[int]` | `list[int]` | `str \| int` |
| **Asignaci√≥n** | `x = expr; if x:` | `if (x := expr):` | `if (x := expr):` |
| **Pattern matching** | `if/elif/else` | `if/elif/else` | `match/case` |
| **Union types** | `Union[str, int]` | `Union[str, int]` | `str \| int` |
| **Optional** | `Optional[str]` | `Optional[str]` | `str \| None` |

### Beneficios de modernizar:

‚úÖ **C√≥digo m√°s conciso** - Menos boilerplate  
‚úÖ **Mejor legibilidad** - Patrones m√°s claros  
‚úÖ **Type safety** - Mejor detecci√≥n de errores con mypy/pylance  
‚úÖ **Performance** - Algunas optimizaciones internas  
‚úÖ **Mantenibilidad** - Aprovecha idiomas modernos de Python