# Clases Iterables

Un archivo es un ejemplo perfecto de un objeto que se puede recorrer secuencialmente, y por lo tanto, es un objeto iterable.

Imagina que tienes un archivo de texto con varios millones de líneas, y quieres encontrar todas las líneas que contienen una palabra específica. Sin usar la iteración, tendrías que leer todo el archivo y buscar la palabra línea por línea. Esto puede ser muy ineficiente, especialmente si el archivo es muy grande.

En su lugar, puedes hacer que el archivo sea iterable. Para hacer esto, debes definir una clase que tenga un método __iter__() que abra el archivo y devuelva un objeto iterador. Cada vez que se llama al método __next__() del iterador, se lee la siguiente línea del archivo.

A continuación, te muestro un ejemplo de cómo se puede hacer un archivo iterable en Python:

In [6]:
# Ejemplo de clase iterable para leer una palabra a la vez de un archivo de texto


class FileIterable:
    
    def __init__(self,filename):
        self.file = open(filename)
        
    # devuelve el objeto iterador, en este caso la instancia de FileIterable actual
    def __iter__(self):
        return self
    
         
    # El método __next__() se utiliza para iterar sobre los elementos de la lista. Cada vez que se llama al método __next__(), 
    # se devuelve el siguiente elemento de la lista. Si se ha llegado al final de la lista, se genera una excepción StopIteration para indicar 
    # que la iteración ha finalizado.
    def __next__(self):
        line = self.file.readline()
        if line:
            return line.strip()
        else:
            raise StopIteration
        
        
      

In [7]:
file_iterable = FileIterable("mi_archivo.txt")
for line in file_iterable:
    if 'caballo' in line:
        print(line)

este es corrido del caballo blanca
Como el caballo era rebelde intento no ser encontrado
Para lo cual se escondió junto a otro caballo quien
a su vez tambien era un caballo perseguido
Luegos buncando otro caballo
Encontraron muchos y muchos caballos
po lo que nunca encontraron a caballo


In [8]:
import pandas as pd
import numpy as np

class DataFrameIterator:
    def __init__(self, num_rows):
        self.num_rows = num_rows
        self.batch_size = 5
        self.current_index = 0
        self.df = pd.DataFrame({
            'Edad': np.random.randint(18, 65, num_rows),
            'Ingresos': np.random.randint(5000, 100000, num_rows),
            'Gastos': np.random.randint(1000, 5000, num_rows)
        })

    def __iter__(self):
        return self

    def __next__(self):
        if self.current_index >= self.num_rows:
            raise StopIteration
        batch = self.df.iloc[self.current_index:self.current_index + self.batch_size]
        self.current_index += self.batch_size
        return batch.describe()

In [9]:
df_iter = DataFrameIterator(20)

for batch_stats in df_iter:
    print(batch_stats)


            Edad     Ingresos       Gastos
count   5.000000      5.00000     5.000000
mean   39.800000  70531.40000  2786.800000
std     7.155418  23744.61508  1356.414833
min    28.000000  40825.00000  1285.000000
25%    40.000000  51265.00000  1957.000000
50%    40.000000  75364.00000  2272.000000
75%    45.000000  91182.00000  3987.000000
max    46.000000  94021.00000  4433.000000
            Edad      Ingresos       Gastos
count   5.000000      5.000000     5.000000
mean   37.200000  37824.600000  3869.200000
std    16.783921  16766.412893   771.739723
min    18.000000  18128.000000  2761.000000
25%    27.000000  24801.000000  3387.000000
50%    34.000000  37114.000000  4173.000000
75%    46.000000  52595.000000  4483.000000
max    61.000000  56485.000000  4542.000000
            Edad     Ingresos       Gastos
count   5.000000      5.00000     5.000000
mean   40.400000  47291.80000  3042.400000
std    12.280065  33998.71092  1361.427119
min    21.000000   9806.00000  1184.000000
25

In [10]:
import pandas as pd
import numpy as np

class DataFrameIterator:
    def __init__(self, num_rows, batch_size=5):
        self.num_rows = num_rows
        self.batch_size = batch_size
        self.current_index = 0
        self.df = pd.DataFrame({
            'Edad': np.random.randint(18, 65, num_rows),
            'Ingresos': np.random.randint(5000, 100000, num_rows),
            'Gastos': np.random.randint(1000, 5000, num_rows)
        })

    def __iter__(self):
        return self

    def __next__(self):
        if self.current_index >= self.num_rows:
            raise StopIteration
        batch = self.df.iloc[self.current_index:self.current_index + self.batch_size]
        self.current_index += self.batch_size
        return batch.describe()

df_iter = DataFrameIterator(20, batch_size=10)

for batch_stats in df_iter:
    print(batch_stats)


            Edad      Ingresos       Gastos
count  10.000000     10.000000    10.000000
mean   37.200000  71109.900000  3278.600000
std    14.397531  23309.054356  1415.005709
min    20.000000  28202.000000  1044.000000
25%    25.750000  55702.750000  2454.250000
50%    34.000000  77411.000000  3579.000000
75%    50.500000  87703.750000  4103.750000
max    59.000000  97597.000000  4927.000000
            Edad      Ingresos      Gastos
count  10.000000     10.000000    10.00000
mean   39.900000  43418.300000  2974.30000
std    12.169634  33099.955002  1370.58374
min    22.000000   8618.000000  1009.00000
25%    31.250000  18315.750000  1860.00000
50%    40.000000  32035.000000  2999.00000
75%    45.750000  75696.250000  4178.75000
max    60.000000  90447.000000  4664.00000
