In [None]:
# Примеры встроенных итерируемых объектов
my_list = [1, 2, 3, 4, 5]
my_string = "Привет"
my_dict = {'a': 1, 'b': 2, 'c': 3}

print("Список:", list(my_list))
print("Строка:", list(my_string))
print("Ключи словаря:", list(my_dict.keys()))
print("Значения словаря:", list(my_dict.values()))

# Проверим, являются ли они итерируемыми
print(f"\nСписок итерируемый: {hasattr(my_list, '__iter__')}")
print(f"Строка итерируемая: {hasattr(my_string, '__iter__')}")
print(f"Словарь итерируемый: {hasattr(my_dict, '__iter__')}")


Список: [1, 2, 3, 4, 5]
Строка: ['П', 'р', 'и', 'в', 'е', 'т']
Ключи словаря: ['a', 'b', 'c']
Значения словаря: [1, 2, 3]

Список итерируемый: True
Строка итерируемая: True
Словарь итерируемый: True


In [2]:
# Получение итератора и работа с ним
my_list = [10, 20, 30, 40]

# Получаем итератор из списка
list_iterator = iter(my_list)
print(f"Тип итератора: {type(list_iterator)}")

# Проверяем наличие методов итератора
print(f"У итератора есть __iter__: {hasattr(list_iterator, '__iter__')}")
print(f"У итератора есть __next__: {hasattr(list_iterator, '__next__')}")

# Ручная итерация с помощью next()
print("\nРучная итерация:")
print(f"Первый элемент: {next(list_iterator)}")
print(f"Второй элемент: {next(list_iterator)}")
print(f"Третий элемент: {next(list_iterator)}")

# Можем продолжить итерацию
print(f"Четвёртый элемент: {next(list_iterator)}")

# Попытка получить следующий элемент вызовет StopIteration
try:
    print(f"Пятый элемент: {next(list_iterator)}")
except StopIteration:
    print("Достигнут конец итератора - поднято исключение StopIteration")


Тип итератора: <class 'list_iterator'>
У итератора есть __iter__: True
У итератора есть __next__: True

Ручная итерация:
Первый элемент: 10
Второй элемент: 20
Третий элемент: 30
Четвёртый элемент: 40
Достигнут конец итератора - поднято исключение StopIteration


In [None]:
# Пример простого генератора
def simple_generator():
    """Простой генератор с yield"""
    print("Генерируем 1")
    yield 1
    print("Генерируем 2") 
    yield 2
    print("Генерируем 3")
    yield 3
    print("Генератор завершён")

# Создаём генератор (пока ничего не выполняется)
gen = simple_generator()
print(f"Тип генератора: {type(gen)}")
print("Генератор создан, но код ещё не выполнился\n")

# Теперь запускаем итерацию
print("Начинаем итерацию:")
for value in gen:
    print(f"Получили значение: {value}")
    print("---")


In [None]:
# Демонстрация ленивых вычислений vs жадных
def expensive_operation(x):
    """Имитируем дорогую операцию"""
    print(f"Выполняем дорогую операцию для {x}")
    return x ** 2

print("=== ЖАДНЫЙ ПОДХОД (List Comprehension) ===")
print("Создаём список - все вычисления сразу:")
eager_results = [expensive_operation(x) for x in range(5)]
print(f"Результат: {eager_results}")
print()

print("=== ЛЕНИВЫЙ ПОДХОД (Generator Expression) ===")
print("Создаём генератор - вычисления откладываются:")
lazy_results = (expensive_operation(x) for x in range(5))
print(f"Генератор создан: {lazy_results}")
print("Никаких вычислений пока не было!")
print()

print("Теперь берём только первые 2 элемента:")
for i, result in enumerate(lazy_results):
    if i >= 2:
        break
    print(f"Результат {i}: {result}")

print("\nОстальные 3 элемента не были вычислены - экономия ресурсов!")


In [None]:
# Пример 1: Обработка большого файла построчно
import os

# Создаём тестовый файл с множеством строк
print("Создаём большой текстовый файл...")
with open('large_text.txt', 'w', encoding='utf-8') as f:
    for i in range(1000):
        f.write(f"Это строка номер {i}. Здесь много текста для токенизации.\n")

print("Файл создан!")

# Функция для чтения файла построчно (генератор)
def read_file_lines(filename):
    """Генератор, который читает файл построчно"""
    print(f"Открываем файл {filename}")
    with open(filename, 'r', encoding='utf-8') as f:
        for line_no, line in enumerate(f, 1):
            yield line.strip()

# Демонстрация ленивого чтения
lines_generator = read_file_lines('large_text.txt')
print(f"Тип генератора: {type(lines_generator)}")

# Читаем только первые 3 строки
print("\nПервые 3 строки из файла:")
for i, line in enumerate(lines_generator):
    if i >= 3:
        break
    print(f"Строка {i+1}: {line}")

print("\nОстальные 997 строк не были загружены в память!")

# Здесь мы бы использовали encode_iterable:
# tokenizer = Tokenizer.from_files('vocab.txt', 'merges.txt')
# token_stream = tokenizer.encode_iterable(lines_generator)

# Очистка
os.remove('large_text.txt')
print("Файл удалён")


In [None]:
# Пример 2: Потоковая обработка данных
import time

def data_stream_simulator():
    """Симулируем поток данных (например, сообщения из чата или сети)"""
    messages = [
        "Привет, как дела?",
        "Сегодня хорошая погода",
        "Завтра пойдём в кино",
        "Мне нравится программирование на Python",
        "Машинное обучение очень интересно"
    ]
    
    for i, msg in enumerate(messages):
        print(f"📥 Получено сообщение {i+1}: {msg}")
        # Имитируем задержку получения данных
        time.sleep(0.5)
        yield msg

print("=== Потоковая обработка сообщений ===")
print("Сообщения поступают по одному...")

# Создаём поток сообщений
message_stream = data_stream_simulator()

# В реальном приложении здесь был бы вызов:
# tokenizer = Tokenizer.from_files('vocab.txt', 'merges.txt') 
# token_stream = tokenizer.encode_iterable(message_stream)

# Имитируем обработку потока
print("\n🔄 Обрабатываем сообщения по мере поступления:")
for i, message in enumerate(message_stream):
    print(f"✅ Обработано: '{message}' (длина: {len(message)} символов)")
    if i >= 2:  # Обрабатываем только первые 3 сообщения
        print("⏹️  Остановка обработки...")
        break

print("\nОстальные сообщения можно обработать позже или не обрабатывать вовсе!")


In [None]:
# Демонстрация эффективности памяти
import sys

print("=== Сравнение использования памяти ===")

# 1. Неэффективный способ - загружаем всё в память
def create_large_list(size):
    """Создаём большой список строк"""
    return [f"Строка номер {i} с длинным текстом для демонстрации" for i in range(size)]

# 2. Эффективный способ - генератор
def create_large_generator(size):
    """Создаём генератор строк"""
    for i in range(size):
        yield f"Строка номер {i} с длинным текстом для демонстрации"

# Тестируем с 100,000 элементов
size = 100_000

print(f"Создаём коллекцию из {size:,} строк...")

# Измеряем размер списка
large_list = create_large_list(size)
list_size = sys.getsizeof(large_list)
print(f"📦 Размер списка: {list_size:,} байт ({list_size / 1024 / 1024:.1f} МБ)")

# Измеряем размер генератора
large_generator = create_large_generator(size)
generator_size = sys.getsizeof(large_generator)
print(f"⚡ Размер генератора: {generator_size:,} байт ({generator_size / 1024:.1f} КБ)")

# Вычисляем экономию
savings_ratio = list_size / generator_size
print(f"💾 Экономия памяти: {savings_ratio:.0f}x раз!")

print(f"\n📊 Список занимает {list_size:,} байт")
print(f"📊 Генератор занимает {generator_size:,} байт")
print(f"🎯 Разница: {list_size - generator_size:,} байт")

# Освобождаем память
del large_list
print("\n✅ Список удалён из памяти")


In [None]:
# Пример пайплайна обработки данных
import re

def data_source():
    """Источник данных - различные тексты"""
    texts = [
        "   Привет, мир!   ",
        "Это очень ДЛИННЫЙ текст с множеством слов",
        "короткий",
        "ТЕКСТ В ВЕРХНЕМ РЕГИСТРЕ!!!",
        "   \t\n   пустой текст   \n\t   ",
        "Текст с цифрами 123 и символами @#$%",
        "Ещё один нормальный текст для обработки"
    ]
    for text in texts:
        yield text

def clean_whitespace(texts):
    """Стадия 1: Очистка от лишних пробелов"""
    for text in texts:
        cleaned = text.strip()
        if cleaned:  # Пропускаем пустые строки
            yield cleaned

def normalize_case(texts):
    """Стадия 2: Нормализация регистра"""
    for text in texts:
        yield text.lower()

def filter_by_length(texts, min_length=5, max_length=50):
    """Стадия 3: Фильтрация по длине"""
    for text in texts:
        if min_length <= len(text) <= max_length:
            yield text

def remove_special_chars(texts):
    """Стадия 4: Удаление специальных символов"""
    for text in texts:
        # Оставляем только буквы, цифры и пробелы
        cleaned = re.sub(r'[^а-яё\w\s]', '', text, flags=re.IGNORECASE)
        yield cleaned

def add_prefix(texts, prefix="[ОБРАБОТАНО]"):
    """Стадия 5: Добавление префикса"""
    for text in texts:
        yield f"{prefix} {text}"

# Создаём пайплайн
print("=== Пайплайн обработки текста ===")
print("Источник -> Очистка -> Нормализация -> Фильтрация -> Удаление символов -> Префикс -> Токенизация")
print()

# Соединяем все стадии
source = data_source()
stage1 = clean_whitespace(source)
stage2 = normalize_case(stage1)
stage3 = filter_by_length(stage2, min_length=10, max_length=60)
stage4 = remove_special_chars(stage3)
stage5 = add_prefix(stage4)

# Обрабатываем пайплайн
print("Результаты пайплайна:")
processed_texts = list(stage5)
for i, text in enumerate(processed_texts, 1):
    print(f"{i}. {text}")

print(f"\nИз 7 исходных текстов получили {len(processed_texts)} обработанных")

# В реальном приложении здесь был бы вызов:
# tokenizer = Tokenizer.from_files('vocab.txt', 'merges.txt')
# Пересоздаём пайплайн для токенизации
final_pipeline = add_prefix(remove_special_chars(filter_by_length(normalize_case(clean_whitespace(data_source())))))
# token_stream = tokenizer.encode_iterable(final_pipeline)


In [None]:
# Пример с itertools - продвинутая работа с итераторами
import itertools

def infinite_text_generator():
    """Бесконечный генератор текста"""
    templates = [
        "Сообщение номер {}",
        "Документ под номером {}",
        "Текст для обработки: {}",
        "Строка данных № {}"
    ]
    counter = 1
    while True:
        template = templates[counter % len(templates)]
        yield template.format(counter)
        counter += 1

print("=== Работа с бесконечными последовательностями ===")

# 1. Ограничиваем бесконечную последовательность
infinite_texts = infinite_text_generator()
limited_texts = itertools.islice(infinite_texts, 5)  # Берём только первые 5

print("Первые 5 элементов из бесконечной последовательности:")
for text in limited_texts:
    print(f"- {text}")

print()

# 2. Группировка данных
def categorized_texts():
    """Генерируем тексты с категориями"""
    data = [
        ("новости", "Сегодня хорошая погода"),
        ("новости", "Завтра будет дождь"),
        ("техника", "Новый iPhone выпущен"),
        ("техника", "Python 3.12 доступен"),
        ("спорт", "Футбольный матч завершён"),
        ("спорт", "Теннисный турнир начался")
    ]
    for category, text in data:
        yield category, text

print("=== Группировка текстов по категориям ===")
texts_with_categories = categorized_texts()

# Группируем по категориям
grouped = itertools.groupby(texts_with_categories, key=lambda x: x[0])

for category, group in grouped:
    print(f"📂 Категория: {category}")
    texts_in_category = [text for _, text in group]
    for text in texts_in_category:
        print(f"  - {text}")
    
    # Здесь можно применить encode_iterable к текстам категории:
    # token_stream = tokenizer.encode_iterable(texts_in_category)
    print()

# 3. Цепочка итераторов
print("=== Объединение нескольких источников данных ===")

def source1():
    yield "Первый источник: документ 1"
    yield "Первый источник: документ 2"

def source2():
    yield "Второй источник: файл A"
    yield "Второй источник: файл B"

def source3():
    yield "Третий источник: запись X"
    yield "Третий источник: запись Y"

# Объединяем все источники в один поток
combined_stream = itertools.chain(source1(), source2(), source3())

print("Объединённый поток данных:")
for text in combined_stream:
    print(f"📄 {text}")

# Этот объединённый поток можно передать в encode_iterable:
# token_stream = tokenizer.encode_iterable(combined_stream)
