# FeatureFlex 0.1.12

### Autorzy: Andrii Voznesenskyi, Bartosz Kaczorowski

**FeatureFlex** to pakiet AutoML skierowany do badaczy i specjalistów zajmujących się systemami rekomendacji opartymi na głębokim uczeniu. Odpowiada on na problem efektywnego zarządzania cechami wejściowymi w dużych zestawach danych. Dzięki temu może stanowić świetne narzędzie dla firm e-commerce lub platform streamingowych, które wykorzystują systemy rekomendacji na co dzień.

## Specjalizacja FeatureFlex

**FeatureFlex** specjalizuje się w:

- **Automatycznym wyborze najistotniejszych cech:** Pakiet implementuje własne metody selekcji cech, które dynamicznie dostosowują się do danych. Nie bazuje na technikach takich jak SHAP, Boruta, SelectKBest czy ReliefF, ale wykorzystuje nowoczesne mechanizmy, takie jak trenowalne mechanizmy kontrolne oraz optymalizacja oparta na gradientach. 

  Przykładowo, klasa `EnhancedFeatureSelector` pozwala na:
  - Selekcję cech za pomocą parametru `alpha`, który jest optymalizowany w procesie uczenia.
  - Dynamiczne dostosowanie do różnych typów danych i rozmiarów zbiorów dzięki wbudowanym metodom, takim jak selekcja cech z wykorzystaniem optymalizacji modelu (`select_via_model_optimizer`).

- **Optymalizacji modeli:** Pakiet oferuje zaawansowane mechanizmy dynamicznego dostrajania hiperparametrów. Dzięki klasie `ModelOptimizer` możliwe jest:
  - Wykorzystanie metod takich jak Grid Search, Random Search oraz Optymalizacja Bayesowska.
  - Dynamiczna zmiana metody optymalizacji w zależności od rozmiaru i charakteru danych, co pozwala na skalowanie rozwiązania do dużych zbiorów danych.

- **Ocena modeli:** Dostarcza pełny zestaw metryk takich jak AUC, dokładność, precyzja, czułość i F1-score, a także wizualizacje w postaci macierzy konfuzji i krzywych ROC oraz Precision-Recall.

- **Wsparcie dla systemów rekomendacji:** Usprawnia proces selekcji cech oraz optymalizację modeli dla głębokich systemów rekomendacji, co ma zastosowanie w branży e-commerce, streamingu i innych dziedzinach wymagających personalizacji treści.

Pakiet inspirowany był pracą *[AutoField: Automating Feature Selection in Deep Recommender Systems](https://arxiv.org/pdf/2204.09078)*. Autorzy artykułu omawiają różne techniki selekcji cech, w tym:

- **Manualna selekcja:** Skuteczna, ale czasochłonna i wymagająca wiedzy eksperckiej.
- **Grid/Random Search:** Dobre dla małych zbiorów danych, ale trudne do skalowania.
- **Lasso/Decision Trees:** Popularne w ogólnych zastosowaniach, ale mniej efektywne w głębokich systemach rekomendacji.


Dzięki integracji wielu metod, FeatureFlex automatyzuje proces selekcji cech i optymalizacji, dostarczając użytkownikom zaawansowane narzędzie AutoML.

---

## Wstępne wspomnienie porównanie z podobnymi pakietami

Podobne pakiety, takie jak **Boruta**, **SHAP**, **AutoFeat** i **ReliefF**, oferują ciekawe funkcjonalności, ale często ograniczają się do jednej konkretnej techniki. **FeatureFlex** wyróżnia się wszechstronnością, wykorzystaniem własnych metod selekcji cech oraz możliwością dynamicznej optymalizacji modeli, co czyni go bardziej elastycznym i skalowalnym rozwiązaniem.



Pakiet FeatureFlex 0.1.12 zawiera zestaw narzędzi do przetwarzania danych, selekcji i optymalizacji modeli, oraz ewaluacji wyników, które razem tworzą kompleksowe środowisko AutoML do zastosowań w systemach rekomendacji opartych na głębokim uczeniu. Oto szczegółowy opis głównych komponentów pakietu:

### 1. Przetwarzanie danych (Data Preprocessing)

**`DataPreprocessor`**:
- **Opis**: Klasa służąca do wstępnego przetwarzania danych, w tym obsługi brakujących danych, skalowania i kodowania. 
- **Metody**:
  - `preprocess(data, target_column, selected_features=None)`: Przyjmuje ramkę danych (DataFrame), nazwę kolumny docelowej oraz opcjonalnie indeksy wybranych cech. Zwraca przetworzone cechy (X), etykiety (y) oraz obiekt transformatora.
  - **Składniki przetwarzania**:
    - Imputacja brakujących wartości dla zmiennych kategorycznych i numerycznych.
    - Skalowanie zmiennych numerycznych.
    - Kodowanie One-Hot dla zmiennych kategorycznych.

### 2. Selekcja i optymalizacja modeli

**`EnhancedFeatureSelector`** (Rozszerzony selektor cech):
- **Opis**: Klasa oparta na modelach głębokiego uczenia do dynamicznego wyboru cech.
- **Metody**:
  - `select_via_shap(X, y, n_features=10)`: Wykorzystuje SHAP do wyboru najważniejszych cech za pomocą RandomForestClassifier.
  - `select_via_model_optimizer(X, y, n_features=10, param_grids=None, method="dynamic")`: Pozwala na dynamiczny wybór cech poprzez automatyzację procesu optymalizacji modeli.

**`ModelOptimizer`**:
- **Opis**: Klasa do automatyzacji wyboru i optymalizacji modeli klasyfikacyjnych.
- **Metody**:
  - `optimize_model(X, y, param_grids=None, method="grid", n_iter_random=20, n_trials_bayes=50)`: Optymalizuje model używając wybranego sposobu (Grid Search, Random Search, Bayesian Optimization).
  - **Obsługiwane modele**: RandomForest, GradientBoosting, LogisticRegression, SVM, XGBoost, KNN.
  - Umożliwia dynamiczną zmianę metody optymalizacji w zależności od rozmiaru danych.

### 3. Ewaluacja i podsumowanie wyników

**`ModelEvaluator`**:
- **Opis**: Klasa do obliczania metryk modeli, generowania wykresów i raportów.
- **Metody**:
  - `evaluate(model, X, y, output_format="console", output_filename="evaluation_report.html", output_path=None)`: Oblicza metryki modelu i opcjonalnie generuje raport HTML.
  - **Metryki**: AUC, Accuracy, Precision, Recall, F1-Score.
  - **Wyjście**: Raporty mogą być wyświetlane w konsoli lub zapisywane jako pliki HTML z dodatkowymi wykresami (macierz błędów, krzywa ROC, krzywa Precision-Recall).

Każdy z tych komponentów został zaprojektowany tak, aby zapewnić elastyczność i efektywność w zarządzaniu dużymi zestawami danych, co jest kluczowe w aplikacjach wymagających szybkiego i dokładnego modelowania danych, jak np. w rekomendacjach produktów lub treści.

In [55]:
# import sys, os

# current_dir = os.path.dirname(os.path.abspath("__file__"))
# src_path = os.path.abspath(os.path.join(current_dir, ".."))
# sys.path.append(src_path)

## Instalacja Pakietu

In [73]:
Pakiet instalujemy z https://pypi.org/project/FeatureFlex/#FeatureFlex-0.1.16-py3-none-any.whl

SyntaxError: invalid syntax (3268278751.py, line 1)

In [74]:
pip uninstall FeatureFlex featureflex -y


5585.74s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


Found existing installation: FeatureFlex 0.1.44
Uninstalling FeatureFlex-0.1.44:
  Successfully uninstalled FeatureFlex-0.1.44
Note: you may need to restart the kernel to use updated packages.


In [75]:
pip install FeatureFlex

5593.71s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


Collecting FeatureFlex
  Using cached FeatureFlex-0.1.44-py3-none-any.whl.metadata (8.4 kB)
Using cached FeatureFlex-0.1.44-py3-none-any.whl (18 kB)
Installing collected packages: FeatureFlex
Successfully installed FeatureFlex-0.1.44
Note: you may need to restart the kernel to use updated packages.


In [76]:
import FeatureFlex
print(dir(FeatureFlex))


['DataPreprocessor', 'DeepRecommendationModel', 'EnhancedFeatureSelector', 'ModelEvaluator', 'ModelOptimizer', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__']


## Przykładowy przepływ pracy

### Krok 3: Wybór zbioru i przetwarzanie danych orazDomyślne przetwarzanie danych

Pokażemy, jak przetwarzać dane za pomocą domyślnych ustawień klasy `DataPreprocessor`.


In [77]:
import pandas as pd
from sklearn.model_selection import train_test_split
from FeatureFlex import DataPreprocessor

# Wybór zbioru danych
dataset = "./data/world-happiness-report-2021.csv"
data = pd.read_csv(dataset)
print("Wczytano zbiór: world-happiness-report-2021.csv")

# Określenie zbioru cech
columns = [
    "Country name", "Regional indicator", "Ladder score", "Logged GDP per capita", 
    "Social support", "Healthy life expectancy", "Freedom to make life choices", 
    "Generosity", "Perceptions of corruption"
]
data = data[columns]

target_column = "Ladder score"
data[target_column] = (data[target_column] > data[target_column].mean()).astype(int)

# Przetwarzanie danych
preprocessor = DataPreprocessor()
X, y, _ = preprocessor.preprocess(
    data,               # zbiór danych w postaci ramki
    target_column       # nazwa kolumny zawierającej etykiety
)

# Podział przetworzonego zbioru na treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Rozmiar zbioru treningowego: {X_train.shape[0]}")
print(f"Rozmiar zbioru testowego: {X_test.shape[0]}")

Wczytano zbiór: world-happiness-report-2021.csv
Rozmiar zbioru treningowego: 119
Rozmiar zbioru testowego: 30


## Krok 4: Zaawansowane przetwarzanie z niestandardowymi ustawieniami

Demonstracja zaawansowanych możliwości przetwarzania z:
- Skalowaniem `robust`
- Obsługą wartości odstających (outliers)
- Generowaniem cech wielomianowych


In [78]:
from FeatureFlex import DataPreprocessor
help(DataPreprocessor)
# Zaawansowane przetwarzanie danych
preprocessor_advanced = DataPreprocessor(
    scale_method="robust",      # Skalowanie za pomocą RobustScaler
    handle_outliers=True,       # Obsługa wartości odstających
    include_interactions=True,   # Dodawanie interakcji między cechami
    date_columns=None
)

X_advanced, y_advanced, _ = preprocessor_advanced.preprocess(
    data,               # Dane wejściowe
    target_column       # Kolumna docelowa
)

# Podział na zbiór treningowy i testowy
X_train_adv, X_test_adv, y_train_adv, y_test_adv = train_test_split(
    X_advanced, y_advanced, test_size=0.2, random_state=42
)

print(f"Rozmiar zaawansowanego zbioru treningowego: {X_train_adv.shape[0]}")
print(f"Rozmiar zaawansowanego zbioru testowego: {X_test_adv.shape[0]}")


Help on class DataPreprocessor in module FeatureFlex.preprocessing:

class DataPreprocessor(builtins.object)
 |  Handles preprocessing of data including missing values, scaling, and encoding.
 |
 |  Methods defined here:
 |
 |  preprocess(self, data, target_column, selected_features=None)
 |      Preprocess the dataset and optionally apply feature selection.
 |
 |      :param data: Input dataset (pandas DataFrame).
 |      :param target_column: Name of the target column in the DataFrame.
 |      :param selected_features: List of selected feature indices (optional).
 |      :return: (X_preprocessed, y, preprocessor)
 |
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |
 |  __dict__
 |      dictionary for instance variables
 |
 |  __weakref__
 |      list of weak references to the object



TypeError: DataPreprocessor() takes no arguments

### Wybór najistotniejszych cech

In [40]:
from FeatureFlex import EnhancedFeatureSelector

selector = EnhancedFeatureSelector(
    input_dim=X_train.shape[1]  # liczba kolumn
)

# Wybór liczby i metody ekstrakcji cech
n_features = 10
# top_features = selector.select_via_shap(X_train, y_train, n_features=n_features)
top_features = selector.select_via_model_optimizer(X_train, y_train, n_features=n_features)

reduced_selector = EnhancedFeatureSelector(input_dim=len(top_features))

# Ograniczenie zbioru danych do wyekstrahowanych cech
if hasattr(X_train, "toarray"):
    X_train_dense = X_train.toarray()[:, top_features]
    X_test_dense = X_test.toarray()[:, top_features]
else:
    X_train_dense = X_train[:, top_features]
    X_test_dense = X_test[:, top_features]

Model Optimization: 100%|██████████| 6/6 [00:19<00:00,  3.29s/it]


### Wybór i optymalizacja modelu

In [41]:
from imblearn.combine import SMOTETomek
from FeatureFlex import ModelOptimizer
    
# Opcjonalnie: redukcja nierówności powstałych w zbiorze,
# stosując technikę oversamplingu SMOTE-Tomek
smote_tomek = SMOTETomek(random_state=42)
X_train_res, y_train_res = smote_tomek.fit_resample(X_train_dense, y_train)

# Wybór i optymalizacja modelu
optimizer = ModelOptimizer()
best_model, best_score = optimizer.optimize_model(
    X_train_res,    # macierz cech
    y_train_res     # wektor etykiet
)
print(f"Best Model Score (CV AUC): {best_score}")

Model Optimization: 100%|██████████| 6/6 [00:22<00:00,  3.70s/it]

Best Model Score (CV AUC): 0.9779316712834719





### Ewaluacja uzyskanego modelu

In [43]:
from FeatureFlex import ModelEvaluator

evaluator = ModelEvaluator()
evaluation_results = evaluator.evaluate(
    best_model,                     # wybrany model
    X_test_dense,                   # macierz cech
    y_test,                         # wektor etykiet
    output_format="console",        # metoda prezentacji - "console" lub "html"
)
print("Evaluation Results:", evaluation_results)

Evaluating model predictions...

=== Evaluation Metrics ===
AUC: 0.9420
Accuracy: 0.9000
Precision: 0.9333
Recall: 0.8750
F1-Score: 0.9032

=== Confusion Matrix ===
[[13  1]
 [ 2 14]]

=== Classification Report ===
              precision    recall  f1-score   support

           0     0.8667    0.9286    0.8966        14
           1     0.9333    0.8750    0.9032        16

    accuracy                         0.9000        30
   macro avg     0.9000    0.9018    0.8999        30
weighted avg     0.9022    0.9000    0.9001        30

Evaluation Results: {'AUC': 0.9419642857142857, 'Accuracy': 0.9, 'Precision': 0.9333333333333333, 'Recall': 0.875, 'F1-Score': 0.9032258064516129}


### Automatyzacja
W pliku `main.py` dostępna jest funkcja pozwalająca na automatyzację całego przedstawionego procesu. Użyjemy jej do wygenerowania raportu w postaci HTML.

In [None]:
from main import preprocess_and_train
from IPython.display import HTML

preprocess_and_train(data, target_column=target_column, output_filename="evaluation_report_happiness.html", output_path=".")
HTML(filename="./evaluation_report_happiness.html")