# Проект: создание собственного трансформера OutlierCompressor

**Описание проекта:**

Данный проект направлен на создание собственного трансформера `OutlierCompressor`, для создания более робастного пайплайна, чтобы модель машинного обучения могла работать, как с выбросами в данных, так и с `OOD`.

## Импорт библиотек

In [1]:
import numpy as np
import pandas as pd
from sklearn.base import BaseEstimator, TransformerMixin

## Разработка

### Логика и алгоритм

**Опиши математически или алгоритмически, как именно работает твоя компрессия:**

- Как ты определяешь выбросы?
- Как происходит "сжатие" — линейное, нелинейное преобразование?
- Сохраняется ли порядок значений? Среднее/медиана/дисперсия?
- Применим ли метод к одному признаку или к многомерным данным?
- Убедись, что метод обратим или, если нет — чётко опиши, что это «lossy» преобразование.

**Ответы на поставленные вопросы:**

- Выбросы определяются самим разработчиком, `OOD` определяются методом `fit()`, как минимальное/максимальное/минимальное и максимальное значение.
- Сжатие происходит нелинейно, с помощью степенного преобразования, либо логарифмического, в зависимости от режима.
- Среднее и медиана сохраняются, дисперсия ождиаемо уменьшится, чаще всего под влияние попадают значения выше `95`- процентиля.
- Данный метод применим, как к одному признаку, так и к многомерным данным (к каждому признаку индивидуально).
- Метод может быть обратим.

#### Базовый алгоритм

In [2]:
# Функция для компрессии данных
def compress(df, threshold, coef, method='power', dry=0):
    '''
    Функция для степенной копрессии данных,
    пики превышающие порог масштабируются c
    соответствнно размеру коэффициента.
    
    Аргументы:
    df - pd.Series (оригинальный признак для компрессии);
    threshold - порог срабатывания компрессора (передавать абсолютные значение);
    coef - степень сжатия (для метода power), 
    коэффициент ослабления силы сжатия (для метода log);
    method - метод сжатия (степенной - power, логарифмический - log);
    dry - доля подмешивания оригинальных значений, для ослабления сжатия.

    Вывод: pd.Series.
    '''
    mask = df > threshold
    compress_col = df.copy().astype('float64')
    
    if method == 'power':
        
        compress_col[mask] = threshold + (df[mask] - threshold) ** coef
    
    elif method == 'log':
        
        compress_col[mask] = threshold + np.log1p(df[mask] - threshold) * coef
    
    else:
        raise ValueError(f"Неподдерживаемый метод: '{method}'. Допустимые значения: 'power', 'log'")
    
    return df * dry + compress_col * (1 - dry)

### Разработка трансформера

In [None]:
# Код трансформера
class OutlierCompressor(BaseEstimator, TransformerMixin):

    # Инициализация трансформера
    def __init__(self, coef=None, threshold=None, dry=None, method=None):
        self.coef = coef
        self.threshold = threshold
        self.dry = dry
        self.method = method

    # Функция компрессии
    def compress(self, data, threshold, coef, dry, method):
        '''
        Функция для степенной копрессии данных,
        пики превышающие порог масштабируются c
        соответствнно размеру коэффициента.
    
        Аргументы:
        data - pd.Series (оригинальный признак для компрессии);
        threshold - порог срабатывания компрессора (передавать абсолютные значение);
        coef - степень сжатия (для метода power), 
        коэффициент ослабления силы сжатия (для метода log);
        method - метод сжатия (степенной - power, логарифмический - log);
        dry - доля подмешивания оригинальных значений, для ослабления сжатия.

        Вывод: pd.Series.
        '''
        mask = data > threshold
        compress_col = data.copy().astype('float64')
    
        if method == 'power':
        
            compress_col[mask] = threshold + (data[mask] - threshold) ** coef
    
        elif method == 'log':
        
            compress_col[mask] = threshold + np.log1p(data[mask] - threshold) * coef
    
        else:
            raise ValueError(f"Неподдерживаемый метод: '{method}'. Допустимые значения: 'power', 'log'")
    
        return data * dry + compress_col * (1 - dry)

    # Метод fit()
    def fit(self, X, y=None):
        # Проверка коэффициентов

        
        # Проверка порога
        if self.threshold is None:
            self.threshold = []
            for col in X.columns.to_list():
                maximum = X[col].max()
                self.threshold.append(maximum)

        # Проверка коэффициента сухого сигнала


        # Проверка методов


        
        return self

    # Метод transform
    def transform(self, X):
        compressed_X = X.copy()
        features = X.columns.to_list()
        for i in range(len(features)):
            compressed_X[features[i]] = self.compress(compressed_X[features[i]], 
                                                      threshold=self.threshold[i], 
                                                      coef=self.coef[i], 
                                                      dry=self.dry[i], 
                                                      method=self.method[i])
        return compressed_X   

    # Метод inverse_transform()
    def inverse_transfrom(self, X):
        return uncompressed_X  

## Тестирование

## Анализ результатов