# Встроенные модули

## Что такое встроенные модули?

Встроенные модули Python - это готовые наборы функций и классов, которые поставляются вместе с Python. Они позволяют не "изобретать велосипед" и использовать уже готовые решения для многих задач.

In [19]:
import sys
# Посмотрим, какие модули уже установлены в нашей системе
print(sys.builtin_module_names)



## Способы импорта модулей (повторение)

In [20]:
# Способ 1: импорт всего модуля
import math
print(math.sqrt(16))  # Используем функцию из модуля math

# Способ 2: импорт конкретных функций
from random import randint, choice
print(randint(1, 10))  # Используем функцию напрямую
print(choice(['a', 'b', 'c']))

# Способ 3: импорт с переименованием
import datetime as dt
print(dt.datetime.now())

4.0
5
b
2025-05-17 02:57:14.852667


## Как узнать, что умеет модуль?

In [21]:
# Используем dir() для просмотра содержимого модуля
import random
print(dir(random)[:10])  # Покажем первые 10 элементов

# Для получения справки используем help()
help(random.choice)

['BPF', 'LOG4', 'NV_MAGICCONST', 'RECIP_BPF', 'Random', 'SG_MAGICCONST', 'SystemRandom', 'TWOPI', '_ONE', '_Sequence']
Help on method choice in module random:

choice(seq) method of random.Random instance
    Choose a random element from a non-empty sequence.



## Связь со сферой машинного обучения

Встроенные модули критически важны в области машинного обучения:

```python


In [22]:
# Пример: в будущем мы будем использовать модули для:

# 1. Обработки файлов с данными
import os
print(f"В текущей директории {len(os.listdir())} файлов")

# 2. Работы с матрицами и векторами (в ML будем использовать numpy, но принцип тот же)
import array
sample_array = array.array('i', [1, 2, 3, 4, 5])
print(f"Массив: {sample_array}, сумма элементов: {sum(sample_array)}")

# 3. Визуализации данных (позже будем использовать matplotlib, seaborn)
# Но пока можем посмотреть простой пример
import statistics
data = [5, 7, 2, 9, 12, 3, 5, 8, 7, 4]
print(f"Среднее: {statistics.mean(data)}")
print(f"Медиана: {statistics.median(data)}")
print(f"Стандартное отклонение: {statistics.stdev(data)}")

В текущей директории 13 файлов
Массив: array('i', [1, 2, 3, 4, 5]), сумма элементов: 15
Среднее: 6.2
Медиана: 6.0
Стандартное отклонение: 3.011090610836324


## К следующей теме

Теперь, когда мы знаем основы работы с модулями, давайте перейдем к первой группе встроенных модулей, которые помогут нам работать с файловой системой: os и pathlib. Эти модули будут чрезвычайно полезны при работе с датасетами, сохранении моделей и управлении результатами экспериментов в машинном обучении.

# Тема 2: Работа с файловой системой - модули os и pathlib

В машинном обучении постоянно приходится работать с файлами: загружать данные, сохранять обученные модели, записывать логи экспериментов. Поэтому важно уметь эффективно взаимодействовать с файловой системой.


## Модуль os - базовые операции с файловой системой

In [23]:
import os

# Получаем текущую рабочую директорию
current_dir = os.getcwd()
print(f"Текущая директория: {current_dir}")

# Смотрим содержимое директории
files_and_dirs = os.listdir()
print(f"Содержимое директории: {files_and_dirs[:5] if len(files_and_dirs) > 5 else files_and_dirs}")

# Проверяем существование файла или директории
file_exists = os.path.exists('example.txt')
print(f"Файл example.txt существует: {file_exists}")

# Создание директории
os.makedirs('data', exist_ok=True)  # exist_ok=True не вызовет ошибку, если директория уже существует
print(f"Создали директорию 'data'")

# Объединение путей - работает корректно на разных ОС
data_path = os.path.join('data', 'raw_data.csv')
print(f"Путь к файлу данных: {data_path}")

# Получение информации о файле
if os.path.exists('example.txt'):
    size = os.path.getsize('example.txt')
    print(f"Размер файла example.txt: {size} байт")

Текущая директория: /home/ono/otus/ml-basic/builtin-practice
Содержимое директории: ['.gitignore', 'tests', 'src', 'test_dir', 'requirements.txt']
Файл example.txt существует: False
Создали директорию 'data'
Путь к файлу данных: data/raw_data.csv


## Модуль pathlib - современный подход к работе с путями


In [24]:
from pathlib import Path

# Создаем объект пути
current_path = Path.cwd()
print(f"Текущий путь: {current_path}")

# Создание вложенных директорий для ML-проекта
project_structure = [
    Path('ml_project/data/raw'),
    Path('ml_project/data/processed'),
    Path('ml_project/models'),
    Path('ml_project/notebooks'),
    Path('ml_project/logs')
]

# Создаем все директории
for path in project_structure:
    path.mkdir(parents=True, exist_ok=True)
    print(f"Создана директория: {path}")

# Работа с файлами
example_file = Path('ml_project/example.txt')

# Запись в файл
example_file.write_text("Это пример файла для ML-проекта")

# Чтение из файла
content = example_file.read_text()
print(f"Содержимое файла: {content}")

# Перебор файлов в директории с фильтрацией
data_dir = Path('ml_project/data')
all_dirs = [d for d in data_dir.iterdir() if d.is_dir()]
print(f"Поддиректории в data: {all_dirs}")

# Поиск файлов по шаблону (glob)
notebooks_dir = Path('ml_project/notebooks')
py_files = list(notebooks_dir.glob('*.py'))
print(f"Python файлы в notebooks: {py_files}")

Текущий путь: /home/ono/otus/ml-basic/builtin-practice
Создана директория: ml_project/data/raw
Создана директория: ml_project/data/processed
Создана директория: ml_project/models
Создана директория: ml_project/notebooks
Создана директория: ml_project/logs
Содержимое файла: Это пример файла для ML-проекта
Поддиректории в data: [PosixPath('ml_project/data/raw'), PosixPath('ml_project/data/processed')]
Python файлы в notebooks: []


## Сравнение os и pathlib

In [25]:
# С использованием os
import os

# Создаем путь к файлу
file_path_os = os.path.join('ml_project', 'data', 'processed', 'dataset.csv')
print(f"Путь к файлу через os: {file_path_os}")

# С использованием pathlib
from pathlib import Path

# Создаем тот же путь к файлу
file_path_pathlib = Path('ml_project') / 'data' / 'processed' / 'dataset.csv'
print(f"Путь к файлу через pathlib: {file_path_pathlib}")

# Получение имени файла и расширения
# os
filename_os = os.path.basename(file_path_os)
extension_os = os.path.splitext(file_path_os)[1]
print(f"Через os - имя файла: {filename_os}, расширение: {extension_os}")

# pathlib
filename_pathlib = file_path_pathlib.name
extension_pathlib = file_path_pathlib.suffix
print(f"Через pathlib - имя файла: {filename_pathlib}, расширение: {extension_pathlib}")

Путь к файлу через os: ml_project/data/processed/dataset.csv
Путь к файлу через pathlib: ml_project/data/processed/dataset.csv
Через os - имя файла: dataset.csv, расширение: .csv
Через pathlib - имя файла: dataset.csv, расширение: .csv


## Применение в машинном обучении

In [26]:
# Пример организации данных для ML-проекта
from pathlib import Path
import os
import time

# Создаем структуру директорий для ML-проекта
ml_project = Path('ml_project')
data_dir = ml_project / 'data'
models_dir = ml_project / 'models'

# Имитируем сохранение обученной модели с временной меткой
def save_model(model_name, model_data="Данные модели"):
    timestamp = time.strftime("%Y%m%d_%H%M%S")
    model_filename = f"{model_name}_{timestamp}.model"
    model_path = models_dir / model_filename
    
    # Убедимся, что директория существует
    models_dir.mkdir(parents=True, exist_ok=True)
    
    # Сохраняем "модель"
    model_path.write_text(model_data)
    
    return model_path

# Сохраняем несколько "моделей"
model1 = save_model("random_forest")
model2 = save_model("neural_network")

print(f"Сохранены модели: {model1.name}, {model2.name}")

# Поиск последней сохраненной модели
all_models = list(models_dir.glob('*.model'))
latest_model = max(all_models, key=lambda p: p.stat().st_mtime)
print(f"Последняя сохраненная модель: {latest_model.name}")

Сохранены модели: random_forest_20250517_025714.model, neural_network_20250517_025714.model
Последняя сохраненная модель: random_forest_20250517_025714.model


В следующей теме мы рассмотрим модуль functools, который поможет оптимизировать работу с функциями, что особенно полезно при обработке данных для машинного обучения.

# Тема 3: Оптимизация функций с functools

Модуль `functools` предоставляет инструменты для работы с функциями, которые могут значительно улучшить производительность и удобство кода. Это особенно ценно в машинном обучении, где мы часто работаем с большими объемами данных и сложными вычислениями.


## Основы functools

In [27]:
import functools
import time

## Декоратор lru_cache для кеширования результатов


In [28]:
# Пример функции без кеширования
def fibonacci_slow(n):
    if n <= 1:
        return n
    return fibonacci_slow(n-1) + fibonacci_slow(n-2)

# Та же функция с кешированием
@functools.lru_cache(maxsize=128)
def fibonacci_fast(n):
    if n <= 1:
        return n
    return fibonacci_fast(n-1) + fibonacci_fast(n-2)

# Сравним производительность
def measure_time(func, *args):
    start = time.time()
    result = func(*args)
    end = time.time()
    return result, end - start

# Тестируем медленную функцию
n = 30
result_slow, time_slow = measure_time(fibonacci_slow, n)
print(f"Fibonacci({n}) без кеширования: {result_slow}, время: {time_slow:.6f} сек")

# Тестируем быструю функцию
result_fast, time_fast = measure_time(fibonacci_fast, n)
print(f"Fibonacci({n}) с кешированием: {result_fast}, время: {time_fast:.6f} сек")
print(f"Ускорение: {time_slow/time_fast:.1f}x")

# Информация о кеше
print(f"Статистика кеша: {fibonacci_fast.cache_info()}")

Fibonacci(30) без кеширования: 832040, время: 0.216448 сек
Fibonacci(30) с кешированием: 832040, время: 0.000014 сек
Ускорение: 15387.3x
Статистика кеша: CacheInfo(hits=28, misses=31, maxsize=128, currsize=31)


## Функция partial для создания новых функций с фиксированными аргументами


In [29]:
# Исходная функция
def power(base, exponent):
    return base ** exponent

# Создаем новые функции с фиксированными аргументами
square = functools.partial(power, exponent=2)
cube = functools.partial(power, exponent=3)

# Используем новые функции
numbers = [1, 2, 3, 4, 5]
squares = [square(n) for n in numbers]
cubes = [cube(n) for n in numbers]

print(f"Числа: {numbers}")
print(f"Квадраты: {squares}")
print(f"Кубы: {cubes}")

# Пример из машинного обучения - предобработка данных
def normalize_data(data, min_val, max_val):
    """Нормализация данных в диапазон [0, 1]"""
    return [(x - min_val) / (max_val - min_val) for x in data]

# Допустим, у нас есть конкретный набор данных с известными min и max
temperature_data = [18, 22, 25, 19, 21, 24, 23]
temp_min, temp_max = 18, 25

# Создаем специальную функцию для нормализации температурных данных
normalize_temperature = functools.partial(normalize_data, min_val=temp_min, max_val=temp_max)

# Используем новую функцию
normalized_temps = normalize_temperature(temperature_data)
print(f"Исходные температуры: {temperature_data}")
print(f"Нормализованные температуры: [" + ", ".join([f"{x:.2f}" for x in normalized_temps]) + "]")

Числа: [1, 2, 3, 4, 5]
Квадраты: [1, 4, 9, 16, 25]
Кубы: [1, 8, 27, 64, 125]
Исходные температуры: [18, 22, 25, 19, 21, 24, 23]
Нормализованные температуры: [0.00, 0.57, 1.00, 0.14, 0.43, 0.86, 0.71]


## Декоратор reduce для агрегации элементов последовательности

In [30]:
# Сумма элементов списка
numbers = [1, 2, 3, 4, 5]
sum_result = functools.reduce(lambda x, y: x + y, numbers)
print(f"Сумма элементов {numbers}: {sum_result}")

# Произведение элементов списка
product_result = functools.reduce(lambda x, y: x * y, numbers)
print(f"Произведение элементов {numbers}: {product_result}")

# Пример из ML: Вычисление средневзвешенного значения
values = [85, 90, 78, 92, 88]
weights = [0.1, 0.2, 0.3, 0.25, 0.15]

# Создаем пары значение-вес
weighted_pairs = zip(values, weights)

# Вычисляем сумму произведений значение*вес
weighted_sum = functools.reduce(lambda acc, pair: acc + pair[0] * pair[1], weighted_pairs, 0)
print(f"Средневзвешенное значение: {weighted_sum:.2f}")

Сумма элементов [1, 2, 3, 4, 5]: 15
Произведение элементов [1, 2, 3, 4, 5]: 120
Средневзвешенное значение: 86.10


## Декоратор wraps для сохранения метаданных функции

In [31]:
# Простой декоратор без @wraps
def simple_logger(func):
    def wrapper(*args, **kwargs):
        print(f"Вызов функции: {func.__name__}")
        return func(*args, **kwargs)
    return wrapper

# Декоратор с @wraps
def better_logger(func):
    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        print(f"Вызов функции: {func.__name__}")
        return func(*args, **kwargs)
    return wrapper

# Декорируем функции
@simple_logger
def add_simple(a, b):
    """Функция сложения"""
    return a + b

@better_logger
def add_better(a, b):
    """Функция сложения"""
    return a + b

# Сравним метаданные функций
print(f"Имя простой функции: {add_simple.__name__}")
print(f"Документация простой функции: {add_simple.__doc__}")
print(f"Имя улучшенной функции: {add_better.__name__}")
print(f"Документация улучшенной функции: {add_better.__doc__}")


Имя простой функции: wrapper
Документация простой функции: None
Имя улучшенной функции: add_better
Документация улучшенной функции: Функция сложения


## Применение в машинном обучении

In [32]:
import functools
import time

# Две версии функции: с кешированием и без
def calculate_feature_no_cache(data_point, complexity=1.0):
    """Имитация сложного вычисления признаков для ML (без кеширования)"""
    # Имитируем сложное вычисление
    time.sleep(0.01)  # Представим, что это занимает некоторое время
    return data_point ** 2 + complexity * data_point + complexity

@functools.lru_cache(maxsize=256)
def calculate_feature(data_point, complexity=1.0):
    """Имитация сложного вычисления признаков для ML (с кешированием)"""
    # Имитируем сложное вычисление
    time.sleep(0.01)  # Представим, что это занимает некоторое время
    return data_point ** 2 + complexity * data_point + complexity

# Предположим, у нас есть набор данных с повторяющимися значениями
data_points = [2.5, 3.1, 4.2, 2.5, 3.1, 5.0] * 100  # Обратите внимание, 2.5 и 3.1 повторяются
complexity = 1.5

# Вычисляем признаки без кеширования
start = time.time()
features_no_cache = [calculate_feature_no_cache(point, complexity) for point in data_points]
time_no_cache = time.time() - start

print(f"Признаки (без кеширования): {features_no_cache}")
print(f"Время вычисления без кеширования: {time_no_cache:.6f} сек")

# Вычисляем признаки с кешированием
start = time.time()
features_with_cache = [calculate_feature(point, complexity) for point in data_points]
time_with_cache = time.time() - start

print(f"Признаки (с кешированием): {features_with_cache}")
print(f"Время вычисления с кешированием: {time_with_cache:.6f} сек")
print(f"Статистика кеша: {calculate_feature.cache_info()}")
print(f"Ускорение: {time_no_cache/time_with_cache:.2f}x")

Признаки (без кеширования): [11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34.0, 11.5, 15.760000000000002, 25.44, 11.5, 15.760000000000002, 34

В следующей теме мы рассмотрим модуль itertools, который предоставляет мощные инструменты для работы с итераторами и последовательностями данных, что будет особенно полезно при подготовке данных для машинного обучения.

# Тема 4: Работа с последовательностями через itertools

Модуль `itertools` предоставляет эффективные инструменты для работы с последовательностями данных. В машинном обучении эти функции особенно полезны для генерации комбинаций признаков, перебора гиперпараметров и организации итерационных вычислений.


## Основы itertools

In [33]:
import itertools
import random

## Комбинаторные функции

In [34]:
# Создаем некоторые данные для примеров
features = ['возраст', 'вес', 'рост', 'давление']
categories = ['A', 'B', 'C']
values = [1, 2, 3]

# combinations - все возможные комбинации указанной длины (без повторений)
print("\n=== Комбинации признаков ===")
feature_combinations = list(itertools.combinations(features, 2))
print(f"Все пары признаков: {feature_combinations}")
print(f"Всего пар признаков: {len(feature_combinations)}")

# combinations_with_replacement - комбинации с возможным повторением элементов
print("\n=== Комбинации с повторениями ===")
combinations_with_repeat = list(itertools.combinations_with_replacement(values, 2))
print(f"Комбинации с повторениями: {combinations_with_repeat}")

# permutations - все возможные перестановки указанной длины
print("\n=== Перестановки ===")
permutations = list(itertools.permutations(categories, 2))
print(f"Все перестановки категорий по 2: {permutations}")
print(f"Всего перестановок: {len(permutations)}")

# product - декартово произведение (все возможные комбинации из разных наборов)
print("\n=== Декартово произведение ===")
model_types = ['Linear', 'Random Forest']
parameters = [1, 10, 100]
loss_functions = ['MSE', 'MAE']

# Генерируем все возможные комбинации для GridSearch
parameter_grid = list(itertools.product(model_types, parameters, loss_functions))
print(f"Сетка параметров для перебора: {parameter_grid}")
print(f"Всего комбинаций для проверки: {len(parameter_grid)}")

# Пример использования в ML: перебор гиперпараметров
print("\n=== Практический пример для ML ===")
print("Перебор гиперпараметров для модели:")
for model, param, loss in parameter_grid:
    # В реальном ML-проекте здесь был бы код обучения и оценки модели
    accuracy = random.uniform(0.7, 0.95)  # Имитация точности модели
    print(f"  Модель: {model}, Параметр: {param}, Функция потерь: {loss} -> Точность: {accuracy:.2f}")


=== Комбинации признаков ===
Все пары признаков: [('возраст', 'вес'), ('возраст', 'рост'), ('возраст', 'давление'), ('вес', 'рост'), ('вес', 'давление'), ('рост', 'давление')]
Всего пар признаков: 6

=== Комбинации с повторениями ===
Комбинации с повторениями: [(1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)]

=== Перестановки ===
Все перестановки категорий по 2: [('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')]
Всего перестановок: 6

=== Декартово произведение ===
Сетка параметров для перебора: [('Linear', 1, 'MSE'), ('Linear', 1, 'MAE'), ('Linear', 10, 'MSE'), ('Linear', 10, 'MAE'), ('Linear', 100, 'MSE'), ('Linear', 100, 'MAE'), ('Random Forest', 1, 'MSE'), ('Random Forest', 1, 'MAE'), ('Random Forest', 10, 'MSE'), ('Random Forest', 10, 'MAE'), ('Random Forest', 100, 'MSE'), ('Random Forest', 100, 'MAE')]
Всего комбинаций для проверки: 12

=== Практический пример для ML ===
Перебор гиперпараметров для модели:
  Модель: Linear, Параметр: 1, Функция потерь: MSE 

## Бесконечные итераторы


In [35]:
print("\n=== Бесконечные итераторы ===")

# count - счетчик, начиная с заданного числа
counter = itertools.count(start=1, step=0.5)
first_5_counts = [next(counter) for _ in range(5)]
print(f"Первые 5 значений счетчика: {first_5_counts}")

# cycle - бесконечно повторяет последовательность
colors = ['red', 'green', 'blue']
color_cycle = itertools.cycle(colors)
cycled_colors = [next(color_cycle) for _ in range(8)]
print(f"Цикл из цветов: {cycled_colors}")

# repeat - бесконечно повторяет один элемент
repeater = itertools.repeat("ML", 4)  # Ограничиваем до 4 повторений
repeated = list(repeater)
print(f"Повторение 'ML': {repeated}")

# Пример из ML: генерация мини-батчей для обучения
print("\n=== Генерация мини-батчей для обучения модели ===")
data = [f"Образец_{i}" for i in range(10)]
batch_size = 3

# Функция для разбиения данных на батчи одинакового размера
def batched(iterable, n):
    # Используем функцию zip_longest с fillvalue=None для последнего неполного батча
    batches = itertools.zip_longest(*[iter(iterable)] * n, fillvalue=None)
    # Удаляем None значения из последнего батча
    return ([item for item in batch if item is not None] for batch in batches)

batches = list(batched(data, batch_size))
for i, batch in enumerate(batches):
    print(f"Мини-батч {i+1}: {batch}")


=== Бесконечные итераторы ===
Первые 5 значений счетчика: [1, 1.5, 2.0, 2.5, 3.0]
Цикл из цветов: ['red', 'green', 'blue', 'red', 'green', 'blue', 'red', 'green']
Повторение 'ML': ['ML', 'ML', 'ML', 'ML']

=== Генерация мини-батчей для обучения модели ===
Мини-батч 1: ['Образец_0', 'Образец_1', 'Образец_2']
Мини-батч 2: ['Образец_3', 'Образец_4', 'Образец_5']
Мини-батч 3: ['Образец_6', 'Образец_7', 'Образец_8']
Мини-батч 4: ['Образец_9']


## Функции для объединения и разделения последовательностей


In [36]:
print("\n=== Объединение и разделение последовательностей ===")

# chain - объединяет несколько последовательностей в одну
train_data = [1, 2, 3]
val_data = [4, 5]
test_data = [6, 7, 8]

all_data = list(itertools.chain(train_data, val_data, test_data))
print(f"Объединенные данные: {all_data}")

# islice - извлекает срез из итератора
sequence = range(10)
first_5 = list(itertools.islice(sequence, 5))
from_3_to_8 = list(itertools.islice(sequence, 3, 8))
every_second = list(itertools.islice(sequence, 0, 10, 2))
print(f"Первые 5: {first_5}")
print(f"С 3 по 8: {from_3_to_8}")
print(f"Каждый второй: {every_second}")


=== Объединение и разделение последовательностей ===
Объединенные данные: [1, 2, 3, 4, 5, 6, 7, 8]
Первые 5: [0, 1, 2, 3, 4]
С 3 по 8: [3, 4, 5, 6, 7]
Каждый второй: [0, 2, 4, 6, 8]


## Группировка и фильтрация данных


In [37]:
print("\n=== Группировка и фильтрация ===")

# Создадим набор данных для демонстрации
data_points = [
    ('A', 10), ('B', 5), ('A', 8), ('C', 12),
    ('B', 7), ('A', 15), ('C', 9), ('B', 11)
]

# Сортируем данные по первому элементу (категории)
sorted_data = sorted(data_points, key=lambda x: x[0])
print(f"Отсортированные данные: {sorted_data}")

# groupby - группирует элементы по ключу
# Важно: данные должны быть предварительно отсортированы по ключу группировки!
for category, group in itertools.groupby(sorted_data, key=lambda x: x[0]):
    group_list = list(group)
    values = [item[1] for item in group_list]
    avg = sum(values) / len(values)
    print(f"Категория {category}: элементы {group_list}, среднее значение: {avg:.2f}")

# takewhile - берет элементы, пока условие истинно
low_values = list(itertools.takewhile(lambda x: x < 10, [2, 4, 6, 8, 10, 12]))
print(f"Значения < 10: {low_values}")

# dropwhile - пропускает элементы, пока условие истинно, затем берет все оставшиеся
after_dropout = list(itertools.dropwhile(lambda x: x < 5, [1, 3, 5, 7, 9]))
print(f"Значения после dropout: {after_dropout}")

# filterfalse - фильтрует элементы, для которых условие ложно
even_numbers = list(itertools.filterfalse(lambda x: x % 2 != 0, range(10)))
print(f"Четные числа: {even_numbers}")


=== Группировка и фильтрация ===
Отсортированные данные: [('A', 10), ('A', 8), ('A', 15), ('B', 5), ('B', 7), ('B', 11), ('C', 12), ('C', 9)]
Категория A: элементы [('A', 10), ('A', 8), ('A', 15)], среднее значение: 11.00
Категория B: элементы [('B', 5), ('B', 7), ('B', 11)], среднее значение: 7.67
Категория C: элементы [('C', 12), ('C', 9)], среднее значение: 10.50
Значения < 10: [2, 4, 6, 8]
Значения после dropout: [5, 7, 9]
Четные числа: [0, 2, 4, 6, 8]


## Практическое применение в машинном обучении

In [38]:
print("\n=== Применение в машинном обучении ===")

# Пример 1: Кросс-валидация - разделение данных на обучающую и тестовую выборки
def k_fold_split(data, k=5):
    """Разделяет данные на k частей для k-fold кросс-валидации"""
    n = len(data)
    fold_size = n // k  # Размер одной части
    
    for i in range(k):
        # Индексы для тестовой выборки
        test_start = i * fold_size
        test_end = (i + 1) * fold_size if i < k - 1 else n
        
        # Создаем тестовую выборку
        test_indices = list(range(test_start, test_end))
        
        # Создаем обучающую выборку из всех остальных индексов
        train_indices = list(itertools.chain(
            range(0, test_start),
            range(test_end, n)
        ))
        
        # В реальном проекте здесь мы бы использовали эти индексы
        # для извлечения соответствующих данных из датасета
        print(f"Fold {i+1}: Train size: {len(train_indices)}, Test size: {len(test_indices)}")
        
        yield train_indices, test_indices

# Демонстрируем кросс-валидацию
dataset = list(range(100))  # Предположим, у нас 100 образцов
print("Разделение данных для кросс-валидации:")
for i, (train, test) in enumerate(k_fold_split(dataset, 5)):
    print(f"Fold {i+1}: Train indices: {train[:5]}..., Test indices: {test[:5]}...")

# Пример 2: Создание сетки для поиска оптимальных гиперпараметров
print("\n=== Поиск по сетке гиперпараметров ===")
hyperparameters = {
    'learning_rate': [0.001, 0.01, 0.1],
    'max_depth': [3, 5, 7],
    'n_estimators': [100, 200]
}

# Генерируем все комбинации гиперпараметров
param_names = list(hyperparameters.keys())
param_values = list(hyperparameters.values())
grid_search_combinations = list(itertools.product(*param_values))

print(f"Всего комбинаций гиперпараметров: {len(grid_search_combinations)}")
for i, combination in enumerate(grid_search_combinations):
    params = dict(zip(param_names, combination))
    print(f"Комбинация {i+1}: {params}")


=== Применение в машинном обучении ===
Разделение данных для кросс-валидации:
Fold 1: Train size: 80, Test size: 20
Fold 1: Train indices: [20, 21, 22, 23, 24]..., Test indices: [0, 1, 2, 3, 4]...
Fold 2: Train size: 80, Test size: 20
Fold 2: Train indices: [0, 1, 2, 3, 4]..., Test indices: [20, 21, 22, 23, 24]...
Fold 3: Train size: 80, Test size: 20
Fold 3: Train indices: [0, 1, 2, 3, 4]..., Test indices: [40, 41, 42, 43, 44]...
Fold 4: Train size: 80, Test size: 20
Fold 4: Train indices: [0, 1, 2, 3, 4]..., Test indices: [60, 61, 62, 63, 64]...
Fold 5: Train size: 80, Test size: 20
Fold 5: Train indices: [0, 1, 2, 3, 4]..., Test indices: [80, 81, 82, 83, 84]...

=== Поиск по сетке гиперпараметров ===
Всего комбинаций гиперпараметров: 18
Комбинация 1: {'learning_rate': 0.001, 'max_depth': 3, 'n_estimators': 100}
Комбинация 2: {'learning_rate': 0.001, 'max_depth': 3, 'n_estimators': 200}
Комбинация 3: {'learning_rate': 0.001, 'max_depth': 5, 'n_estimators': 100}
Комбинация 4: {'learn

## Заключение

Модули, которые мы изучили в этом занятии (os, pathlib, functools и itertools), являются мощными инструментами, которые значительно упрощают работу с файловой системой, функциями и последовательностями данных. Эти навыки будут особенно полезны при работе с проектами машинного обучения, где часто приходится иметь дело с большими объемами данных, сложными вычислениями и множеством параметров моделей.

В будущих занятиях мы будем использовать эти модули вместе со специализированными библиотеками машинного обучения, такими как NumPy, Pandas, scikit-learn и TensorFlow/PyTorch.