# Базовый препроцессинг данных

В этом ноутбуке мы рассмотрим базовые операции препроцессинга данных с использованием GPB библиотеки.

## Подготовка окружения

In [None]:
import sys
sys.path.append('../../')

import pandas as pd
import numpy as np
from core.data.preprocessing import DataPreprocessor

## Загрузка тестовых данных

In [None]:
# Создание тестового датафрейма
data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'name': ['John', 'Alice', 'Bob', None, 'Eve'],
    'age': [25, None, 30, 35, 40],
    'salary': [50000, 60000, None, 70000, 80000],
    'department': ['IT', 'HR', 'IT', 'Sales', None],
    'date': ['2023-01-01', '2023-01-02', '2023-01-03', None, '2023-01-05']
})

print("Исходные данные:")
print(data)

## Создание препроцессора

In [None]:
# Создание препроцессора
preprocessor = DataPreprocessor()

## Обработка пропущенных значений

In [None]:
# Заполнение пропущенных значений
filled_data = preprocessor.fill_missing_values(
    data,
    strategy='mean',  # Для числовых колонок
    categorical_strategy='most_frequent'  # Для категориальных колонок
)

print("Данные после заполнения пропущенных значений:")
print(filled_data)

## Кодирование категориальных признаков

In [None]:
# One-Hot кодирование
encoded_data = preprocessor.one_hot_encode(
    filled_data,
    columns=['department']
)

print("Данные после One-Hot кодирования:")
print(encoded_data)

## Масштабирование числовых признаков

In [None]:
# Стандартизация
scaled_data = preprocessor.standardize(
    encoded_data,
    columns=['age', 'salary']
)

print("Данные после стандартизации:")
print(scaled_data)

## Преобразование дат

In [None]:
# Преобразование дат
date_features = preprocessor.extract_date_features(
    scaled_data,
    column='date',
    features=['year', 'month', 'day', 'dayofweek']
)

print("Данные после извлечения признаков из даты:")
print(date_features)

## Сохранение препроцессора

In [None]:
# Сохранение препроцессора
preprocessor.save('models/preprocessor.pkl')
print("Препроцессор успешно сохранен")