# FeatureFlex 0.1.12

### Autorzy: Andrii Voznesenskyi, Bartosz Kaczorowski

**FeatureFlex** to pakiet AutoML skierowany do badaczy i specjalistów zajmujących się systemami rekomendacji opartymi na głębokim uczeniu. Odpowiada on na problem efektywnego zarządzania cechami wejściowymi w dużych zestawach danych. Dzięki temu może stanowić świetne narzędzie dla firm e-commerce lub platform streamingowych, które wykorzystują systemy rekomendacji na co dzień.

## Możliwości FeatureFlex

**FeatureFlex** specjalizuje się w:

- **Automatycznym wyborze najistotniejszych cech:** pakiet implementuje własne metody selekcji cech, które dynamicznie dostosowują się do danych. Nie bazuje na technikach takich jak SHAP, Boruta, SelectKBest czy ReliefF, ale wykorzystuje nowoczesne mechanizmy, takie jak trenowalne mechanizmy kontrolne oraz optymalizacja oparta na gradientach. 

  Przykładowo, klasa `EnhancedFeatureSelector` pozwala na:
  - selekcję cech za pomocą parametru `alpha`, który jest optymalizowany w procesie uczenia,
  - dynamiczne dostosowanie do różnych typów danych i rozmiarów zbiorów dzięki wbudowanym metodom, takim jak selekcja cech z wykorzystaniem optymalizacji modelu (`select_via_model_optimizer`).

- **Optymalizacji modeli:** pakiet oferuje zaawansowane mechanizmy dynamicznego dostrajania hiperparametrów. Dzięki klasie `ModelOptimizer` możliwe jest:
  - wykorzystanie metod takich jak Grid Search, Random Search oraz Optymalizacja Bayesowska,
  - dynamiczna zmiana metody optymalizacji w zależności od rozmiaru i charakteru danych, co pozwala na skalowanie rozwiązania do dużych zbiorów danych.

- **Ocenie modeli:** pakiet dostarcza pełny zestaw metryk takich jak AUC, dokładność, precyzja, czułość i F1-score, a także wizualizacje w postaci macierzy konfuzji i krzywych ROC oraz Precision-Recall.

- **Wsparciu dla systemów rekomendacji:** pakiet usprawnia proces selekcji cech oraz optymalizację modeli dla głębokich systemów rekomendacji, co ma zastosowanie w branży e-commerce, streamingu i innych dziedzinach wymagających personalizacji treści.

### Inspiracja

Pakiet inspirowany był pracą *[AutoField: Automating Feature Selection in Deep Recommender Systems](https://arxiv.org/pdf/2204.09078)*. Autorzy artykułu omawiają różne techniki selekcji cech, w tym:

- **Manualna selekcja:** skuteczna, ale czasochłonna i wymagająca wiedzy eksperckiej,
- **Grid/Random Search:** dobre dla małych zbiorów danych, ale trudne do skalowania,
- **Lasso/Decision Trees:** popularne w ogólnych zastosowaniach, ale mniej efektywne w głębokich systemach rekomendacji.


Dzięki integracji wielu metod, FeatureFlex automatyzuje proces selekcji cech i optymalizacji, dostarczając użytkownikom zaawansowane narzędzie AutoML.

---

## Podobne rozwiązania dostępne na rynku

Podobne pakiety, takie jak [Boruta](https://github.com/scikit-learn-contrib/boruta_py), [SHAP](https://shap.readthedocs.io/en/latest/), [AutoFeat](https://arxiv.org/pdf/1901.07329), [SelectKBest](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html) i [ReliefF](https://epistasislab.github.io/scikit-rebate/using/), oferują ciekawe funkcjonalności, ale często ograniczają się do jednej konkretnej techniki. **FeatureFlex** wyróżnia się wszechstronnością, wykorzystaniem własnych metod selekcji cech oraz możliwością dynamicznej optymalizacji modeli, co czyni go bardziej elastycznym i skalowalnym rozwiązaniem.

---

## Zawartość pakietu

Pakiet FeatureFlex 0.1.12 zawiera zestaw narzędzi do przetwarzania danych, selekcji i optymalizacji modeli, oraz ewaluacji wyników, które razem tworzą kompleksowe środowisko AutoML do zastosowań w systemach rekomendacji opartych na głębokim uczeniu. Oto szczegółowy opis głównych komponentów pakietu:

### 1. Przetwarzanie danych (data preprocessing)

**`DataPreprocessor`**:
- **Opis**: klasa służąca do wstępnego przetwarzania danych, w tym obsługi brakujących danych, skalowania i kodowania. 

- **Metody**:
  - `preprocess(data, target_column, selected_features=None)`: przyjmuje ramkę danych (DataFrame), nazwę kolumny docelowej oraz opcjonalnie indeksy wybranych cech. Zwraca przetworzone cechy (X), etykiety (y) oraz obiekt transformatora.
  
    **Składniki przetwarzania**:
    - imputacja brakujących wartości dla zmiennych kategorycznych i numerycznych,
    - dkalowanie zmiennych numerycznych,
    - kodowanie One-Hot dla zmiennych kategorycznych.

### 2. Selekcja i optymalizacja modeli

**`EnhancedFeatureSelector`** (rozszerzony selektor cech):
- **Opis**: klasa oparta na modelach głębokiego uczenia do dynamicznego wyboru cech.

- **Metody**:
  - `select_via_shap(X, y, n_features=10)`: wykorzystuje SHAP do wyboru najważniejszych cech za pomocą RandomForestClassifier,
  - `select_via_model_optimizer(X, y, n_features=10, param_grids=None, method="dynamic")`: pozwala na dynamiczny wybór cech poprzez automatyzację procesu optymalizacji modeli.

**`ModelOptimizer`**:
- **Opis**: klasa do automatyzacji wyboru i optymalizacji modeli klasyfikacyjnych.

- **Metody**:
  - `optimize_model(X, y, param_grids=None, method="grid", n_iter_random=20, n_trials_bayes=50)`: optymalizuje model używając wybranego sposobu (Grid Search, Random Search, Bayesian Optimization). Umożliwia dynamiczną zmianę metody optymalizacji w zależności od rozmiaru danych.

    **Obsługiwane modele**: RandomForest, GradientBoosting, LogisticRegression, SVM, XGBoost, KNN.
  
### 3. Ewaluacja i podsumowanie wyników

**`ModelEvaluator`**:
- **Opis**: Klasa do obliczania metryk modeli, generowania wykresów i raportów.

- **Metody**:
  - `evaluate(model, X, y, output_format="console", output_filename="evaluation_report.html", output_path=None)`: Oblicza metryki modelu i opcjonalnie generuje raport HTML.

    **Metryki**: AUC, Accuracy, Precision, Recall, F1-Score.

    **Wyjście**: Raporty mogą być wyświetlane w konsoli lub zapisywane jako pliki HTML z dodatkowymi wykresami (macierz błędów, krzywa ROC, krzywa Precision-Recall).

Każdy z tych komponentów został zaprojektowany tak, aby zapewnić elastyczność i efektywność w zarządzaniu dużymi zestawami danych, co jest kluczowe w aplikacjach wymagających szybkiego i dokładnego modelowania danych, jak np. w rekomendacjach produktów lub treści.

---

## FeatureFlex na tle innych rozwiązań
Dla zainteresowanych, **FeatureFlex** oferuje możliwość porównania z innymi rozwiązaniami dostęnymi na rynku. Funkcja `compare_feature_selectors` z modułu `comparison` dokonuje porównania następujących rozwiązań:
- brak specjalistycznego wyboru cech,
- **FeatureFlex**,
- [Boruta](https://github.com/scikit-learn-contrib/boruta_py),
- [SelectKBest](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html),
- [ReliefF](https://epistasislab.github.io/scikit-rebate/using/).

W celu wizualnego zobrazowania wyników, udostępniona została metoda `save_results_and_plots`.

In [1]:
# Skorzystać z tej komórki, jeżeli pomimo instalacji interpreter nie może odnaleźć modułów
import sys, os

current_dir = os.path.dirname(os.path.abspath("__file__"))
src_path = os.path.abspath(os.path.join(current_dir, "../src/FeatureFlex"))
sys.path.append(src_path)

## Instalacja Pakietu

In [22]:
pip uninstall FeatureFlex featureflex -y

Found existing installation: FeatureFlex 0.1.12
Uninstalling FeatureFlex-0.1.12:
  Successfully uninstalled FeatureFlex-0.1.12
Note: you may need to restart the kernel to use updated packages.


In [23]:
pip install FeatureFlex

Collecting FeatureFlex
  Downloading FeatureFlex-0.1.21-py3-none-any.whl.metadata (8.4 kB)
Downloading FeatureFlex-0.1.21-py3-none-any.whl (18 kB)
Installing collected packages: FeatureFlex
Successfully installed FeatureFlex-0.1.21
Note: you may need to restart the kernel to use updated packages.


In [26]:
import FeatureFlex
print(dir(FeatureFlex))

ModuleNotFoundError: No module named 'model_optimizer'

## Przykładowy przepływ pracy

### Wybór zbioru i przetwarzanie danych

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from preprocessing import DataPreprocessor # jeżeli interpreter nie może odnaleźć modułów
# from FeatureFlex.preprocessing import DataPreprocessor

# Wybór zbioru danych
dataset = "./data/world-happiness-report-2021.csv"
data = pd.read_csv(dataset)
print("Wczytano zbiór: world-happiness-report-2021.csv")

# Określenie zbioru cech
columns = [
    "Country name", "Regional indicator", "Ladder score", "Logged GDP per capita", 
    "Social support", "Healthy life expectancy", "Freedom to make life choices", 
    "Generosity", "Perceptions of corruption"
]
data = data[columns]

target_column = "Ladder score"
data[target_column] = (data[target_column] > data[target_column].mean()).astype(int)

# Przetwarzanie danych
preprocessor = DataPreprocessor()
X, y, _ = preprocessor.preprocess(
    data,               # zbiór danych w postaci ramki
    target_column       # nazwa kolumny zawierającej etykiety
)

# Podział przetworzonego zbioru na treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Wczytano zbiór: world-happiness-report-2021.csv


### Wybór najistotniejszych cech

In [3]:
from feature_selector import EnhancedFeatureSelector # jeżeli interpreter nie może odnaleźć modułów
# from FeatureFlex.feature_selector import EnhancedFeatureSelector

selector = EnhancedFeatureSelector(
    input_dim=X_train.shape[1]  # liczba kolumn
)

# Wybór liczby i metody ekstrakcji cech
n_features = 10
# top_features = selector.select_via_shap(X_train, y_train, n_features=n_features)
top_features = selector.select_via_model_optimizer(X_train, y_train, n_features=n_features)

reduced_selector = EnhancedFeatureSelector(input_dim=len(top_features))

# Ograniczenie zbioru danych do wyekstrahowanych cech
if hasattr(X_train, "toarray"):
    X_train_dense = X_train.toarray()[:, top_features]
    X_test_dense = X_test.toarray()[:, top_features]
else:
    X_train_dense = X_train[:, top_features]
    X_test_dense = X_test[:, top_features]

  from .autonotebook import tqdm as notebook_tqdm


ImportError: attempted relative import with no known parent package

### Wybór i optymalizacja modelu

In [None]:
from imblearn.combine import SMOTETomek
from model_optimizer import ModelOptimizer # jeżeli interpreter nie może odnaleźć modułów
# from FeatureFlex.model_optimizer import ModelOptimizer
    
# Opcjonalnie: redukcja nierówności powstałych w zbiorze,
# stosując technikę oversamplingu SMOTE-Tomek
smote_tomek = SMOTETomek(random_state=42)
X_train_res, y_train_res = smote_tomek.fit_resample(X_train_dense, y_train)

# Wybór i optymalizacja modelu
optimizer = ModelOptimizer()
best_model, best_score = optimizer.optimize_model(
    X_train_res,    # macierz cech
    y_train_res     # wektor etykiet
)
print(f"Best Model Score (CV AUC): {best_score}")

### Ewaluacja uzyskanego modelu

In [None]:
from evaluation import ModelEvaluator
# from FeatureFlex.evaluation import ModelEvaluator

evaluator = ModelEvaluator()
evaluation_results = evaluator.evaluate(
    best_model,                     # wybrany model
    X_test_dense,                   # macierz cech
    y_test,                         # wektor etykiet
    output_format="console",        # metoda prezentacji - "console" lub "html"
)
print("Evaluation Results:", evaluation_results)

### Automatyzacja
W pliku `main.py` dostępna jest funkcja pozwalająca na automatyzację całego przedstawionego procesu. Użyjemy jej do wygenerowania raportu w postaci HTML.

In [None]:
from main import preprocess_and_train # jeżeli interpreter nie może odnaleźć modułów
# from FeatureFlex.main import preprocess_and_train
from IPython.display import HTML

preprocess_and_train(data, target_column=target_column, output_filename="evaluation_report_happiness.html", output_path=".")
HTML(filename="./evaluation_report_happiness.html")

### Porównanie z innymi rozwiązaniami

In [None]:
from comparison import compare_feature_selectors, save_results_and_plots # jeżeli interpreter nie może odnaleźć modułów
# from FeatureFlex.comparison import compare_feature_selectors, save_results_and_plots
from IPython.display import Image

# Wykonanie porównania
results = compare_feature_selectors(data, target_column, n_features)
print(results)

# Zapisanie wyników
save_results_and_plots(results)

#### SHAP = FeatureFlex

In [None]:
Image('comparison_auc.png')

Image('comparison_accuracy.png')