# FeatureFlex 0.1.67

### Autorzy: Andrii Voznesenskyi, Bartosz Kaczorowski

**FeatureFlex** to pakiet AutoML skierowany do badaczy i specjalistów zajmujących się systemami rekomendacji opartymi na głębokim uczeniu. Odpowiada on na problem efektywnego zarządzania cechami wejściowymi w dużych zestawach danych. Dzięki temu może stanowić świetne narzędzie dla firm e-commerce lub platform streamingowych, które wykorzystują systemy rekomendacji na co dzień.

## Specjalizacja FeatureFlex

**FeatureFlex** specjalizuje się w:

- **Automatycznym wyborze najistotniejszych cech:** Pakiet implementuje własne metody selekcji cech, które dynamicznie dostosowują się do danych. Nie bazuje na technikach takich jak SHAP, Boruta, SelectKBest czy ReliefF, ale wykorzystuje nowoczesne mechanizmy, takie jak trenowalne mechanizmy kontrolne oraz optymalizacja oparta na gradientach. 

  Przykładowo, klasa `EnhancedFeatureSelector` pozwala na:
  - Selekcję cech za pomocą parametru `alpha`, który jest optymalizowany w procesie uczenia.
  - Dynamiczne dostosowanie do różnych typów danych i rozmiarów zbiorów dzięki wbudowanym metodom, takim jak selekcja cech z wykorzystaniem optymalizacji modelu (`select_via_model_optimizer`).

- **Optymalizacji modeli:** Pakiet oferuje zaawansowane mechanizmy dynamicznego dostrajania hiperparametrów. Dzięki klasie `ModelOptimizer` możliwe jest:
  - Wykorzystanie metod takich jak Grid Search, Random Search oraz Optymalizacja Bayesowska.
  - Dynamiczna zmiana metody optymalizacji w zależności od rozmiaru i charakteru danych, co pozwala na skalowanie rozwiązania do dużych zbiorów danych.

- **Ocena modeli:** Dostarcza pełny zestaw metryk takich jak AUC, dokładność, precyzja, czułość i F1-score, a także wizualizacje w postaci macierzy konfuzji i krzywych ROC oraz Precision-Recall.

- **Wsparcie dla systemów rekomendacji:** Usprawnia proces selekcji cech oraz optymalizację modeli dla głębokich systemów rekomendacji, co ma zastosowanie w branży e-commerce, streamingu i innych dziedzinach wymagających personalizacji treści.

Pakiet inspirowany był pracą *[AutoField: Automating Feature Selection in Deep Recommender Systems](https://arxiv.org/pdf/2204.09078)*. Autorzy artykułu omawiają różne techniki selekcji cech, w tym:

- **Manualna selekcja:** Skuteczna, ale czasochłonna i wymagająca wiedzy eksperckiej.
- **Grid/Random Search:** Dobre dla małych zbiorów danych, ale trudne do skalowania.
- **Lasso/Decision Trees:** Popularne w ogólnych zastosowaniach, ale mniej efektywne w głębokich systemach rekomendacji.


Dzięki integracji wielu metod, FeatureFlex automatyzuje proces selekcji cech i optymalizacji, dostarczając użytkownikom zaawansowane narzędzie AutoML.

---

## Wstępne wspomnienie porównanie z podobnymi pakietami

Podobne pakiety, takie jak **Boruta**, **SHAP**, **AutoFeat** i **ReliefF**, oferują ciekawe funkcjonalności, ale często ograniczają się do jednej konkretnej techniki. **FeatureFlex** wyróżnia się wszechstronnością, wykorzystaniem własnych metod selekcji cech oraz możliwością dynamicznej optymalizacji modeli, co czyni go bardziej elastycznym i skalowalnym rozwiązaniem.



Pakiet FeatureFlex 0.1.12 zawiera zestaw narzędzi do przetwarzania danych, selekcji i optymalizacji modeli, oraz ewaluacji wyników, które razem tworzą kompleksowe środowisko AutoML do zastosowań w systemach rekomendacji opartych na głębokim uczeniu. Oto szczegółowy opis głównych komponentów pakietu:

### 1. Przetwarzanie danych (Data Preprocessing)

**`DataPreprocessor`**:
- **Opis**: Klasa służąca do wstępnego przetwarzania danych, w tym obsługi brakujących danych, skalowania i kodowania. 
- **Metody**:
  - `preprocess(data, target_column, selected_features=None)`: Przyjmuje ramkę danych (DataFrame), nazwę kolumny docelowej oraz opcjonalnie indeksy wybranych cech. Zwraca przetworzone cechy (X), etykiety (y) oraz obiekt transformatora.
  - **Składniki przetwarzania**:
    - Imputacja brakujących wartości dla zmiennych kategorycznych i numerycznych.
    - Skalowanie zmiennych numerycznych.
    - Kodowanie One-Hot dla zmiennych kategorycznych.

### 2. Selekcja i optymalizacja modeli

**`EnhancedFeatureSelector`** (Rozszerzony selektor cech):
- **Opis**: Klasa oparta na modelach głębokiego uczenia do dynamicznego wyboru cech.
- **Metody**:
  - `select_via_shap(X, y, n_features=10)`: Wykorzystuje SHAP do wyboru najważniejszych cech za pomocą RandomForestClassifier.
  - `select_via_model_optimizer(X, y, n_features=10, param_grids=None, method="dynamic")`: Pozwala na dynamiczny wybór cech poprzez automatyzację procesu optymalizacji modeli.

**`ModelOptimizer`**:
- **Opis**: Klasa do automatyzacji wyboru i optymalizacji modeli klasyfikacyjnych.
- **Metody**:
  - `optimize_model(X, y, param_grids=None, method="grid", n_iter_random=20, n_trials_bayes=50)`: Optymalizuje model używając wybranego sposobu (Grid Search, Random Search, Bayesian Optimization).
  - **Obsługiwane modele**: RandomForest, GradientBoosting, LogisticRegression, SVM, XGBoost, KNN.
  - Umożliwia dynamiczną zmianę metody optymalizacji w zależności od rozmiaru danych.

### 3. Ewaluacja i podsumowanie wyników

**`ModelEvaluator`**:
- **Opis**: Klasa do obliczania metryk modeli, generowania wykresów i raportów.
- **Metody**:
  - `evaluate(model, X, y, output_format="console", output_filename="evaluation_report.html", output_path=None)`: Oblicza metryki modelu i opcjonalnie generuje raport HTML.
  - **Metryki**: AUC, Accuracy, Precision, Recall, F1-Score.
  - **Wyjście**: Raporty mogą być wyświetlane w konsoli lub zapisywane jako pliki HTML z dodatkowymi wykresami (macierz błędów, krzywa ROC, krzywa Precision-Recall).

Każdy z tych komponentów został zaprojektowany tak, aby zapewnić elastyczność i efektywność w zarządzaniu dużymi zestawami danych, co jest kluczowe w aplikacjach wymagających szybkiego i dokładnego modelowania danych, jak np. w rekomendacjach produktów lub treści.

In [None]:
# import sys, os

# current_dir = os.path.dirname(os.path.abspath("__file__"))
# src_path = os.path.abspath(os.path.join(current_dir, ".."))
# sys.path.append(src_path)

## Instalacja Pakietu

Pakiet instalujemy z https://pypi.org/project/FeatureFlex/#FeatureFlex-0.1.16-py3-none-any.whl

In [3]:
pip cache purge


[0mFiles removed: 0
Note: you may need to restart the kernel to use updated packages.


In [6]:
pip install FeatureFlex

Collecting FeatureFlex
  Downloading FeatureFlex-0.1.67-py3-none-any.whl.metadata (8.4 kB)
Downloading FeatureFlex-0.1.67-py3-none-any.whl (18 kB)
Installing collected packages: FeatureFlex
Successfully installed FeatureFlex-0.1.67
Note: you may need to restart the kernel to use updated packages.


In [7]:
import FeatureFlex
print(dir(FeatureFlex))


['DataPreprocessor', 'DateFeatureExtractor', 'DeepRecommendationModel', 'EnhancedFeatureSelector', 'ModelEvaluator', 'ModelOptimizer', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', 'evaluation', 'feature_selector', 'model', 'model_optimizer', 'preprocessing']


## Przykładowy przepływ pracy

### Krok 3: Wybór zbioru i przetwarzanie danych orazDomyślne przetwarzanie danych

Pokażemy, jak przetwarzać dane za pomocą domyślnych ustawień klasy `DataPreprocessor`.


In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from FeatureFlex import DataPreprocessor

# Wybór zbioru danych
dataset = "./data/world-happiness-report-2021.csv"
data = pd.read_csv(dataset)
print("Wczytano zbiór: world-happiness-report-2021.csv")

# Określenie zbioru cech
columns = [
    "Country name", "Regional indicator", "Ladder score", "Logged GDP per capita", 
    "Social support", "Healthy life expectancy", "Freedom to make life choices", 
    "Generosity", "Perceptions of corruption"
]
data = data[columns]

target_column = "Ladder score"
data[target_column] = (data[target_column] > data[target_column].mean()).astype(int)

# Przetwarzanie danych
preprocessor = DataPreprocessor()
X, y, _ = preprocessor.preprocess(
    data,               # zbiór danych w postaci ramki
    target_column       # nazwa kolumny zawierającej etykiety
)

# Podział przetworzonego zbioru na treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Rozmiar zbioru treningowego: {X_train.shape[0]}")
print(f"Rozmiar zbioru testowego: {X_test.shape[0]}")

Wczytano zbiór: world-happiness-report-2021.csv
Rozmiar zbioru treningowego: 119
Rozmiar zbioru testowego: 30


## Krok 4: Zaawansowane przetwarzanie z niestandardowymi ustawieniami

Demonstracja zaawansowanych możliwości przetwarzania z:
- Skalowaniem `robust`
- Obsługą wartości odstających (outliers)
- Generowaniem cech wielomianowych


In [9]:
from FeatureFlex import DataPreprocessor
help(DataPreprocessor)
# Zaawansowane przetwarzanie danych
preprocessor_advanced = DataPreprocessor(
    scale_method="robust",      # Skalowanie za pomocą RobustScaler
    handle_outliers=True,       # Obsługa wartości odstających
    include_interactions=True,   # Dodawanie interakcji między cechami
    date_columns=None
)

X_advanced, y_advanced, _ = preprocessor_advanced.preprocess(
    data,               # Dane wejściowe
    target_column       # Kolumna docelowa
)

# Podział na zbiór treningowy i testowy
X_train_adv, X_test_adv, y_train_adv, y_test_adv = train_test_split(
    X_advanced, y_advanced, test_size=0.2, random_state=42
)

print(f"Rozmiar zaawansowanego zbioru treningowego: {X_train_adv.shape[0]}")
print(f"Rozmiar zaawansowanego zbioru testowego: {X_test_adv.shape[0]}")


Help on class DataPreprocessor in module FeatureFlex.preprocessing:

class DataPreprocessor(builtins.object)
 |  DataPreprocessor(scale_method='standard', handle_outliers=False, include_interactions=False, date_columns=None)
 |
 |  Handles preprocessing of data including missing values, scaling, encoding, and feature extraction.
 |
 |  Methods defined here:
 |
 |  __init__(self, scale_method='standard', handle_outliers=False, include_interactions=False, date_columns=None)
 |      :param scale_method: Scaling method ('standard', 'minmax', 'robust').
 |      :param handle_outliers: Whether to handle outliers by clipping.
 |      :param include_interactions: Whether to generate polynomial features or interactions.
 |      :param date_columns: List of datetime columns to extract features from.
 |
 |  preprocess(self, data, target_column, selected_features=None)
 |      Preprocess the dataset and optionally apply feature selection.
 |
 |      :param data: Input dataset (pandas DataFrame).
 

### Wybór najistotniejszych cech

W tej sekcji pokażemy, jak za pomocą **EnhancedFeatureSelector** wybrać najważniejsze cechy z danych wejściowych. Narzędzie to wspiera różne metody selekcji cech, takie jak SHAP oraz optymalizacja modelu za pomocą **ModelOptimizer**.

### Import i konfiguracja

In [11]:
from FeatureFlex import EnhancedFeatureSelector
help(EnhancedFeatureSelector)


Help on class EnhancedFeatureSelector in module FeatureFlex.feature_selector:

class EnhancedFeatureSelector(torch.nn.modules.module.Module)
 |  EnhancedFeatureSelector(input_dim)
 |
 |  Dynamically selects features using a trainable controller mechanism
 |  and supports multiple optimization methods for feature selection.
 |
 |  Method resolution order:
 |      EnhancedFeatureSelector
 |      torch.nn.modules.module.Module
 |      builtins.object
 |
 |  Methods defined here:
 |
 |  __init__(self, input_dim)
 |      Initialize internal Module state, shared by both nn.Module and ScriptModule.
 |
 |  forward(self, x)
 |      Forward pass to calculate feature selection probabilities and apply them.
 |
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |
 |  select_via_model_optimizer(X, y, n_features=10, param_grids=None, method='dynamic')
 |      Select top features using ModelOptimizer by dynamically choosing the optimization met

Tworzymy instancję **EnhancedFeatureSelector**, podając liczbę cech (kolumn) w danych wejściowych jako parametr **input_dim**.

In [12]:
# Tworzenie selektora cech
selector = EnhancedFeatureSelector(
    input_dim=X_train.shape[1]  # liczba cech w danych wejściowych
)


#### Wybór metody selekcji cech

`EnhancedFeatureSelector` obsługuje dwie główne metody wyboru cech:

1. **SHAP** (SHapley Additive exPlanations):
   - Wyznacza znaczenie cech na podstawie wartości Shapley’a z `RandomForestClassifier`.

2. **Model Optimizer**:
   - Dynamicznie optymalizuje model, wybierając najlepsze cechy w oparciu o wybrane podejście optymalizacyjne: `grid`, `random`, `bayesian`, lub automatyczne (`dynamic`).


In [13]:
# Liczba najważniejszych cech do wyboru
n_features = 10

# Wybór cech za pomocą Model Optimizer
top_features = selector.select_via_model_optimizer(
    X_train,         # Dane treningowe
    y_train,         # Etykiety treningowe
    n_features=n_features  # Liczba najważniejszych cech do wyboru
)

Model Optimization: 100%|██████████| 6/6 [00:22<00:00,  3.68s/it]


#### Redukcja zbioru danych

Po wybraniu najważniejszych cech można ograniczyć dane wejściowe do tych cech.


In [14]:
# Tworzenie nowego selektora zredukowanego do wybranych cech
reduced_selector = EnhancedFeatureSelector(input_dim=len(top_features))

# Redukcja zbioru danych do wybranych cech
if hasattr(X_train, "toarray"):
    X_train_dense = X_train.toarray()[:, top_features]
    X_test_dense = X_test.toarray()[:, top_features]
else:
    X_train_dense = X_train[:, top_features]
    X_test_dense = X_test[:, top_features]

#### Wyjaśnienie parametrów

- `input_dim` *(int)*: Liczba cech wejściowych.
- `n_features` *(int)*: Liczba cech do wyboru.
- `method` *(str)*: Metoda optymalizacji cech (`grid`, `random`, `bayesian`, `dynamic`).
- `param_grids` *(dict, opcjonalne)*: Siatka hiperparametrów do optymalizacji.


#### Rezultat

Po wykonaniu powyższych kroków zbiór danych zostanie zredukowany do najbardziej istotnych cech. Dane mogą być teraz użyte do dalszego trenowania modeli lub analizy.


In [15]:
print(f"Nowy rozmiar zbioru treningowego: {X_train_dense.shape}")
print(f"Nowy rozmiar zbioru testowego: {X_test_dense.shape}")

Nowy rozmiar zbioru treningowego: (119, 10)
Nowy rozmiar zbioru testowego: (30, 10)


### Szczegółowe omówienie parametrów metody `select_via_model_optimizer`

Metoda `select_via_model_optimizer` obsługuje kilka parametrów, które umożliwiają elastyczne i precyzyjne dostosowanie procesu selekcji cech.

---

#### Parametry funkcji

1. **`X`** *(ndarray lub sparse matrix)*:
   - Macierz cech (zbiór danych wejściowych).
   - Obsługiwane formaty: macierze NumPy lub macierze rzadkie.

2. **`y`** *(ndarray)*:
   - Wektor etykiet (celów) odpowiadający danym wejściowym.

3. **`n_features`** *(int)*:
   - Liczba najważniejszych cech do wybrania.
   - Domyślnie: `10`.

4. **`param_grids`** *(dict, opcjonalne)*:
   - Siatka hiperparametrów do optymalizacji.
   - Format: słownik, gdzie kluczami są nazwy hiperparametrów, a wartościami listy możliwych wartości.

   **Przykład:**
   ```python
   param_grids = {
       'max_depth': [3, 5, 10],
       'n_estimators': [50, 100, 200]
   }
   ```

5. **`method`** *(str)*:
   - Metoda optymalizacji:
     - `"grid"`: Wyszukiwanie pełnej siatki hiperparametrów.
     - `"random"`: Losowe wyszukiwanie po przestrzeni hiperparametrów.
     - `"bayesian"`: Optymalizacja bayesowska.
     - `"dynamic"`: Automatyczne dostosowanie metody w zależności od rozmiaru danych.

   **Zalecenia:**
   - Dla małych zbiorów danych (`<50 cech`): `"grid"`.
   - Dla średnich zbiorów danych (`50-200 cech`): `"random"`.
   - Dla dużych zbiorów danych (`>200 cech`): `"bayesian"`.

---


#### Działanie metody krok po kroku

1. **Przygotowanie danych**:
   - Jeśli dane są w formacie macierzy rzadkiej (`sparse matrix`), zostają skonwertowane na gęste (`dense matrix`).

2. **Dobór metody optymalizacji**:
   - W przypadku `method="dynamic"` wybór metody zależy od rozmiaru danych wejściowych.

3. **Trenowanie modelu optymalizacyjnego**:
   - Wykorzystywany jest obiekt `ModelOptimizer`, który trenuje model przy użyciu podanej siatki hiperparametrów.

4. **Ekstrakcja istotnych cech**:
   - Cechy są wybierane na podstawie:
     - `feature_importances_` (dla modeli wspierających ważności cech).
     - `coef_` (dla modeli liniowych).

5. **Zwracanie wyników**:
   - Indeksy `n_features` najważniejszych cech.

---

#### Przykład użycia

In [16]:
from FeatureFlex import EnhancedFeatureSelector

# Tworzenie obiektu selektora cech
selector = EnhancedFeatureSelector(input_dim=X_train.shape[1])

# Definicja siatki hiperparametrów
param_grids = {
    'max_depth': [3, 5, 10],
    'n_estimators': [50, 100, 200],
}

# Wybór najważniejszych cech
top_features = selector.select_via_model_optimizer(
    X_train,  # Dane wejściowe
    y_train,  # Etykiety
    n_features=10,  # Liczba cech do wybrania
    param_grids=param_grids,  # Siatka hiperparametrów
    method="bayesian"  # Metoda optymalizacji
)

# Wynik: indeksy najważniejszych cech
print(f"Wybrane cechy: {top_features}")

Model Optimization:   0%|          | 0/6 [00:00<?, ?it/s][I 2025-01-14 22:28:05,387] A new study created in memory with name: no-name-1868de74-9c48-4f03-831c-f8b7c2647cf6
[I 2025-01-14 22:28:05,807] Trial 0 finished with value: 0.9081196581196581 and parameters: {}. Best is trial 0 with value: 0.9081196581196581.
[I 2025-01-14 22:28:06,341] Trial 1 finished with value: 0.9081196581196581 and parameters: {}. Best is trial 0 with value: 0.9081196581196581.
[I 2025-01-14 22:28:06,965] Trial 2 finished with value: 0.9081196581196581 and parameters: {}. Best is trial 0 with value: 0.9081196581196581.
[I 2025-01-14 22:28:07,576] Trial 3 finished with value: 0.9081196581196581 and parameters: {}. Best is trial 0 with value: 0.9081196581196581.
[I 2025-01-14 22:28:08,162] Trial 4 finished with value: 0.9081196581196581 and parameters: {}. Best is trial 0 with value: 0.9081196581196581.
[I 2025-01-14 22:28:08,833] Trial 5 finished with value: 0.9081196581196581 and parameters: {}. Best is trial

Wybrane cechy: [155 164 158   4 163   5   3   0   2   1]



#### Wizualizacja parametrów w formacie Markdown

```markdown
- **X** *(ndarray lub sparse matrix)*: Macierz cech wejściowych.
- **y** *(ndarray)*: Wektor etykiet.
- **n_features** *(int)*: Liczba najważniejszych cech do wybrania.
- **param_grids** *(dict, opcjonalne)*: Siatka hiperparametrów do optymalizacji.
- **method** *(str)*: Metoda optymalizacji (`grid`, `random`, `bayesian`, `dynamic`).
```

### Wybór i optymalizacja modelu

W tej sekcji pokażemy, jak zautomatyzować wybór najlepszego modelu klasyfikacyjnego i jego optymalizację, używając klasy `ModelOptimizer`. Dzięki wsparciu dla wielu metod optymalizacji, takich jak wyszukiwanie siatki (`grid search`), losowe wyszukiwanie (`random search`) oraz optymalizacja bayesowska (`bayesian optimization`), proces wyboru modelu jest zarówno elastyczny, jak i wydajny.



#### Import i przygotowanie danych

In [17]:
from imblearn.combine import SMOTETomek
from FeatureFlex import ModelOptimizer

# Opcjonalnie: redukcja nierówności w danych za pomocą SMOTE-Tomek
smote_tomek = SMOTETomek(random_state=42)
X_train_res, y_train_res = smote_tomek.fit_resample(X_train_dense, y_train)




**Opis:**
- **SMOTE-Tomek** to technika łącząca oversampling za pomocą SMOTE i undersampling za pomocą usuwania par Tomek.
- Jej zastosowanie pozwala zbalansować dane przed procesem uczenia.



#### Inicjalizacja klasy `ModelOptimizer`


```python
# Tworzenie obiektu ModelOptimizer
optimizer = ModelOptimizer()
```

### Modele wspierane przez `ModelOptimizer`

Klasa `ModelOptimizer` wspiera automatyzację wyboru i optymalizacji modeli klasyfikacyjnych. Obsługiwane modele to:

1. **RandomForestClassifier**: Las losowy, często stosowany w klasyfikacji i regresji.
2. **GradientBoostingClassifier**: Model oparty na boosting gradientowym, skuteczny dla danych o złożonych zależnościach.
3. **LogisticRegression**: Klasyczna regresja logistyczna dla problemów binarnych i wieloklasowych.
4. **SVM** *(Support Vector Machine)*: Maszyna wektorów nośnych z opcją jądra.
5. **XGBoost** *(Extreme Gradient Boosting)*: Zaawansowany model boostingowy zoptymalizowany pod kątem wydajności.
6. **KNN** *(K-Nearest Neighbors)*: Metoda k-najbliższych sąsiadów, oparta na podobieństwie cech.

---

### Szczegóły parametrów modeli

Każdy z modeli posiada domyślnie zdefiniowaną siatkę parametrów do optymalizacji. Przykłady poniżej:

#### **RandomForestClassifier**
| Parametr          | Wartości                          | Opis                                        |
|-------------------|-----------------------------------|---------------------------------------------|
| `n_estimators`    | `[50, 100, 200]`                 | Liczba drzew w lesie.                      |
| `max_depth`       | `[None, 10, 20]`                 | Maksymalna głębokość drzewa.               |
| `class_weight`    | `['balanced', None]`             | Waga klas dla równoważenia nierówności.    |

#### **GradientBoostingClassifier**
| Parametr          | Wartości                          | Opis                                        |
|-------------------|-----------------------------------|---------------------------------------------|
| `n_estimators`    | `[50, 100]`                      | Liczba iteracji boostingowych.             |
| `learning_rate`   | `[0.1, 0.01]`                    | Szybkość uczenia.                          |
| `max_depth`       | `[3, 5, 7]`                      | Maksymalna głębokość każdego drzewa.       |

#### **LogisticRegression**
| Parametr          | Wartości                          | Opis                                        |
|-------------------|-----------------------------------|---------------------------------------------|
| `C`               | `[0.1, 1, 10]`                   | Odwrotność siły regularyzacji.             |
| `class_weight`    | `['balanced', None]`             | Waga klas dla równoważenia nierówności.    |

#### **SVM (Support Vector Machine)**
| Parametr          | Wartości                          | Opis                                        |
|-------------------|-----------------------------------|---------------------------------------------|
| `C`               | `[0.1, 1, 10]`                   | Parametr regularyzacji.                    |
| `kernel`          | `['linear', 'rbf']`              | Typ funkcji jądrowej.                      |

#### **XGBoost**
| Parametr          | Wartości                          | Opis                                        |
|-------------------|-----------------------------------|---------------------------------------------|
| `n_estimators`    | `[50, 100]`                      | Liczba iteracji boostingowych.             |
| `learning_rate`   | `[0.1, 0.01]`                    | Szybkość uczenia.                          |
| `max_depth`       | `[3, 5, 7]`                      | Maksymalna głębokość każdego drzewa.       |
| `scale_pos_weight`| `[1, 2]`                         | Waga klas pozytywnych w danych.            |

#### **KNN (K-Nearest Neighbors)**
| Parametr          | Wartości                          | Opis                                        |
|-------------------|-----------------------------------|---------------------------------------------|
| `n_neighbors`     | `[3, 5, 7]`                      | Liczba sąsiadów do uwzględnienia.          |
| `weights`         | `['uniform', 'distance']`        | Sposób ważenia sąsiadów.                   |

---


#### Optymalizacja modelu

In [18]:
# Wybór i optymalizacja modelu
optimizer = ModelOptimizer()

best_model, best_score = optimizer.optimize_model(
    X_train_res,    # Macierz cech
    y_train_res,    # Wektor etykiet
    method="grid",  # Metoda optymalizacji (grid, random, bayesian, dynamic)
)
print(f"Best Model Score (CV AUC): {best_score}")

Model Optimization: 100%|██████████| 6/6 [00:37<00:00,  6.20s/it]

Best Model Score (CV AUC): 0.9779316712834719






**Opis:**
- **`method`**: Wybrana metoda optymalizacji:
  - `"grid"`: Pełne wyszukiwanie w przestrzeni parametrów.
  - `"random"`: Losowe wyszukiwanie parametrów.
  - `"bayesian"`: Optymalizacja bayesowska (oparta na bibliotece `optuna`).
  - `"dynamic"`: Dynamiczny wybór metody na podstawie rozmiaru danych.
- **`param_grids`**: Słownik siatek hiperparametrów (opcjonalnie).

---


#### Wyniki optymalizacji


In [19]:
print(f"Najlepszy model: {type(best_model).__name__}")
print(f"Wynik najlepszego modelu (AUC): {best_score}")

Najlepszy model: LogisticRegression
Wynik najlepszego modelu (AUC): 0.9779316712834719



**Opis:**
- `best_model`: Obiekt najlepszego modelu.
- `best_score`: Wynik najlepszego modelu na podstawie walidacji krzyżowej.

---

### Szczegółowy opis parametrów metody `optimize_model`

1. **`X`** *(ndarray lub DataFrame)*:
   - Macierz cech wejściowych.

2. **`y`** *(ndarray lub Series)*:
   - Wektor etykiet docelowych.

3. **`param_grids`** *(dict, opcjonalnie)*:
   - Siatka hiperparametrów dla każdego modelu.

   **Przykład:**
   ```python
   param_grids = {
       'RandomForest': {
           'n_estimators': [50, 100, 200],
           'max_depth': [None, 10, 20],
           'class_weight': ['balanced', None]
       }
   }
   ```

4. **`method`** *(str)*:
   - Metoda optymalizacji:
     - `"grid"`: Pełne wyszukiwanie.
     - `"random"`: Losowe wyszukiwanie.
     - `"bayesian"`: Optymalizacja bayesowska.
     - `"dynamic"`: Automatyczne dostosowanie metody.

5. **`n_iter_random`** *(int, domyślnie 20)*:
   - Liczba iteracji dla losowego wyszukiwania.

6. **`n_trials_bayes`** *(int, domyślnie 50)*:
   - Liczba prób dla optymalizacji bayesowskiej.

---

### Szczegóły automatycznego dostosowywania metody w klasie `ModelOptimizer`

Jednym z najważniejszych elementów klasy `ModelOptimizer` jest możliwość automatycznego dostosowania metody optymalizacji poprzez parametr `method="dynamic"`. Mechanizm ten wybiera optymalną metodę wyszukiwania hiperparametrów w zależności od rozmiaru problemu.

---

### **`method="dynamic"`: Automatyczny wybór metody**

Automatyczne dostosowanie metody działa w oparciu o liczbę próbek i cech w macierzy cech `X`. Klasa `ModelOptimizer` implementuje logikę decyzyjną w następujący sposób:

1. **Rozmiar problemu** *(`n_samples * n_features`)*:
   - Obliczana jest całkowita liczba elementów w macierzy `X`.

2. **Próg wyboru metody**:
   - Jeśli liczba elementów w macierzy `X` wynosi:
     - ≤ **10,000**: Wykorzystaj **wyszukiwanie siatki** (`method="grid"`).
     - ≤ **100,000**: Wykorzystaj **losowe wyszukiwanie** (`method="random"`).
     - > **100,000**: Wykorzystaj **optymalizację bayesowską** (`method="bayesian"`).

---

### Przykład działania

#### Dane wejściowe

```python
from sklearn.datasets import make_classification
from FeatureFlex import ModelOptimizer

# Tworzenie syntetycznych danych
X, y = make_classification(n_samples=200, n_features=10, random_state=42)
```

#### Wywołanie optymalizacji z automatycznym dostosowaniem metody

```python
# Tworzenie instancji klasy ModelOptimizer
optimizer = ModelOptimizer()

# Wywołanie optymalizacji z automatycznym dostosowaniem metody
best_model, best_score = optimizer.optimize_model(
    X, y, method="dynamic"
)

print(f"Wybrany model: {type(best_model).__name__}")
print(f"Najlepszy wynik (AUC): {best_score}")
```

#### Wynik

- Jeśli liczba elementów (`n_samples * n_features = 200 * 10 = 2000`) ≤ **10,000**, metoda wybiera **wyszukiwanie siatki** (`grid`).
- Najlepszy model oraz wynik są drukowane.

---

### Podsumowanie parametrów

| Parametr           | Opis                                                                                  |
|--------------------|----------------------------------------------------------------------------------------|
| **`method`**       | Metoda optymalizacji (`grid`, `random`, `bayesian`, lub `dynamic`).                   |
| **`n_iter_random`**| Liczba iteracji dla losowego wyszukiwania (`random`). Domyślnie: 20.                   |
| **`n_trials_bayes`**| Liczba prób dla optymalizacji bayesowskiej (`bayesian`). Domyślnie: 50.               |

---

### Zalety automatycznego dostosowywania

1. **Oszczędność zasobów**:
   - Wybór bardziej wydajnych metod przy dużych danych.

2. **Skalowalność**:
   - Dopasowanie do problemów o różnej skali.

3. **Inteligentne decyzje**:
   - Wybór odpowiedniej metody bez konieczności ręcznej konfiguracji.

### Przykład pełnego zastosowania


In [21]:
from sklearn.datasets import make_classification
from imblearn.combine import SMOTETomek
from FeatureFlex import ModelOptimizer

# Generowanie przykładowego zbioru danych
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, random_state=42)

# Redukcja nierówności w danych
smote_tomek = SMOTETomek(random_state=42)
X_res, y_res = smote_tomek.fit_resample(X, y)

# Optymalizacja modelu
optimizer = ModelOptimizer()
best_model, best_score = optimizer.optimize_model(
    X_res, y_res, method="bayesian"
)
print(f"Najlepszy model: {type(best_model).__name__}")
print(f"Wynik najlepszego modelu (AUC): {best_score}")

Model Optimization:   0%|          | 0/6 [00:00<?, ?it/s][I 2025-01-14 22:36:06,640] A new study created in memory with name: no-name-1a50004e-b2ec-4e31-bc63-a26eb200587f


[I 2025-01-14 22:36:09,436] Trial 0 finished with value: 0.9232323232323233 and parameters: {'n_estimators': 200, 'max_depth': 10, 'class_weight': 'balanced'}. Best is trial 0 with value: 0.9232323232323233.
[I 2025-01-14 22:36:12,562] Trial 1 finished with value: 0.9272727272727272 and parameters: {'n_estimators': 200, 'max_depth': 20, 'class_weight': None}. Best is trial 1 with value: 0.9272727272727272.
[I 2025-01-14 22:36:14,006] Trial 2 finished with value: 0.9171717171717172 and parameters: {'n_estimators': 100, 'max_depth': 10, 'class_weight': 'balanced'}. Best is trial 1 with value: 0.9272727272727272.
[I 2025-01-14 22:36:14,678] Trial 3 finished with value: 0.904040404040404 and parameters: {'n_estimators': 50, 'max_depth': 20, 'class_weight': 'balanced'}. Best is trial 1 with value: 0.9272727272727272.
[I 2025-01-14 22:36:16,174] Trial 4 finished with value: 0.9171717171717172 and parameters: {'n_estimators': 100, 'max_depth': None, 'class_weight': None}. Best is trial 1 with

Najlepszy model: KNeighborsClassifier
Wynik najlepszego modelu (AUC): 0.9525252525252524





### Ewaluacja uzyskanego modelu

### **Ewaluacja uzyskanego modelu**

W tej sekcji omówimy, jak przeprowadzić kompleksową ewaluację uzyskanego modelu za pomocą klasy `ModelEvaluator`. Klasa ta dostarcza metody umożliwiające ocenę modeli maszynowego uczenia, generowanie szczegółowych raportów oraz wizualizację wyników.

---

#### **Kroki ewaluacji**

1. **Importowanie klasy `ModelEvaluator`**:
   - Klasa jest częścią biblioteki `FeatureFlex`.

2. **Przygotowanie danych**:
   - Dane testowe: `X_test_dense` (macierz cech) i `y_test` (etykiety).
   - Wytrenowany model: `best_model`.

3. **Wywołanie metody `evaluate`**:
   - Ocena modelu oraz opcjonalne generowanie raportów w formacie HTML.

---


### **Przykład użycia**

In [25]:
from FeatureFlex import ModelEvaluator

# Inicjalizacja klasy ModelEvaluator
evaluator = ModelEvaluator()

# Przeprowadzenie ewaluacji modelu
evaluation_results = evaluator.evaluate(
    best_model,                     # wybrany model
    X_res,                          # macierz cech
    y_res,                          # wektor etykiet
    output_format="console",        # metoda prezentacji - "console" lub "html"
)
print("Evaluation Results:", evaluation_results)

Evaluating model predictions...

=== Evaluation Metrics ===
AUC: 1.0000
Accuracy: 1.0000
Precision: 1.0000
Recall: 1.0000
F1-Score: 1.0000

=== Confusion Matrix ===
[[495   0]
 [  0 495]]

=== Classification Report ===
              precision    recall  f1-score   support

           0     1.0000    1.0000    1.0000       495
           1     1.0000    1.0000    1.0000       495

    accuracy                         1.0000       990
   macro avg     1.0000    1.0000    1.0000       990
weighted avg     1.0000    1.0000    1.0000       990

Evaluation Results: {'AUC': 1.0, 'Accuracy': 1.0, 'Precision': 1.0, 'Recall': 1.0, 'F1-Score': 1.0}


#### **Możliwe parametry funkcji `evaluate`**

- **`model`** *(obiekt modelu)*:
  - Wytrenowany model do ewaluacji.
  
- **`X`** *(ndarray lub DataFrame)*:
  - Macierz cech dla danych testowych.
  
- **`y`** *(ndarray lub Series)*:
  - Wektor etykiet testowych.

- **`output_format`** *(str)*:
  - Format wyjścia:
    - `"console"`: Wyniki wyświetlane w konsoli.
    - `"html"`: Wyniki zapisywane jako raport w formacie HTML.

- **`output_filename`** *(str, domyślnie: `"evaluation_report.html"`)*:
  - Nazwa pliku raportu w formacie HTML.

- **`output_path`** *(str, domyślnie: `"report/"`)*:
  - Katalog, w którym zostanie zapisany raport HTML.



#### **Wynik w formacie HTML**

Jeśli wybrano `output_format="html"`, raport zostanie zapisany w wybranym katalogu (domyślnie: `"report/"`):

1. **Kluczowe metryki**:
   - AUC, Accuracy, Precision, Recall, F1-Score.

2. **Macierz konfuzji**:
   - Graficzna reprezentacja poprawnych i błędnych klasyfikacji.

3. **Krzywa ROC**:
   - Wizualizacja charakterystyki odbiornika.

4. **Krzywa Precision-Recall**:
   - Krzywa precyzji w zależności od przypomnień.

Przykładowy fragment raportu:

```html
<html>
  <head>
    <title>Evaluation Report</title>
  </head>
  <body>
    <h1>Evaluation Report</h1>
    <h2>Key Metrics</h2>
    <ul>
      <li><strong>AUC:</strong> 0.9123</li>
      <li><strong>Accuracy:</strong> 0.8765</li>
      <li><strong>Precision:</strong> 0.8432</li>
      <li><strong>Recall:</strong> 0.8210</li>
      <li><strong>F1-Score:</strong> 0.8319</li>
    </ul>
    <h2>Confusion Matrix</h2>
    <img src="confusion_matrix.png" width="300">
    <h2>ROC Curve</h2>
    <img src="roc_curve.png" width="300">
    <h2>Precision-Recall Curve</h2>
    <img src="precision_recall_curve.png" width="300">
  </body>
</html>
```

---


In [26]:
from IPython.core.display import display, HTML
from FeatureFlex import ModelEvaluator

# Inicjalizacja klasy ModelEvaluator
evaluator = ModelEvaluator()

# Przeprowadzenie ewaluacji modelu z zapisem raportu w formacie HTML
output_path = "evaluation_report"  # Określenie katalogu, w którym zapisany zostanie raport
evaluation_results = evaluator.evaluate(
    best_model,                     # Wytrenowany model
    X_res,                          # Macierz cech
    y_res,                          # Wektor etykiet
    output_format="html",           # Ustawienie generowania raportu w formacie HTML
    output_path=output_path,        # Określenie ścieżki katalogu raportu
    output_filename="evaluation_report.html"  # Nazwa pliku raportu HTML
)

# Wyświetlenie raportu HTML bezpośrednio w notebooku
report_file = f"{output_path}/evaluation_report.html"
display(HTML(filename=report_file))


  from IPython.core.display import display, HTML


Evaluating model predictions...
HTML report saved to: evaluation_report/evaluation_report.html



### **Podsumowanie**

Klasa `ModelEvaluator` umożliwia:

1. **Kompleksową ocenę modeli**:
   - Wyliczenie kluczowych metryk, takich jak AUC, precyzja, przypomnienie i F1-score.

2. **Wizualizację wyników**:
   - Macierz konfuzji, krzywa ROC, krzywa Precision-Recall.

3. **Generowanie raportów**:
   - Raport w formacie HTML z wizualizacjami.

Ta elastyczność pozwala na dokładną analizę modelu, zarówno dla celów badawczych, jak i wdrożeniowych.

### Porównanie FeatureFlex z istniejącymi bibliotekami

W tej sekcji zaprezentujemy porównanie **FeatureFlex** z innymi popularnymi metodami selekcji cech. Analiza obejmuje porównanie wyników różnych metod pod względem dwóch kluczowych metryk: **AUC** (Area Under the Curve) oraz **Accuracy**.

---

#### Metody w porównaniu

1. **Baseline (brak selekcji cech)**:
   - Wszystkie dostępne cechy są używane bez żadnej redukcji.

2. **FeatureFlex (EnhancedFeatureSelector)**:
   - Nowoczesna metoda selekcji cech oparta na optymalizacji modelu.

3. **Boruta**:
   - Algorytm oparty na `RandomForest`, który iteracyjnie wybiera najważniejsze cechy.

4. **SelectKBest**:
   - Klasyczna metoda oparta na statystykach, np. analizie wariancji.

5. **ReliefF**:
   - Metoda oparta na analizie relacji między cechami a klasami w danych.

---

#### Przykład implementacji

Poniżej znajduje się fragment kodu prezentujący proces porównania metod na przykładowym zbiorze danych:


In [29]:
!pip install boruta shap skrebate



In [51]:
# comparison.py

import pandas as pd
import numpy as np
import json
import matplotlib
matplotlib.use('Agg') 
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, roc_auc_score
from boruta import BorutaPy
from sklearn.feature_selection import SelectKBest, f_classif, VarianceThreshold

import shap
from skrebate import ReliefF

from FeatureFlex import DataPreprocessor
from FeatureFlex import EnhancedFeatureSelector

def compare_feature_selectors(data, target_column, n_features=10):
    """
    Compares various feature selection methods on the given dataset:
      1) Baseline (no feature selection)
      2) FeatureFlex-based (EnhancedFeatureSelector)
      3) Boruta
      4) SelectKBest
      5) ReliefF (scikit-rebate)

    Returns a dictionary of results: e.g.
      {
        "Baseline": {"AUC": 0.68, "Accuracy": 0.85},
        "SHAP":     {"AUC": 0.47, "Accuracy": 0.73},
        "Boruta":   {"AUC": 0.66, "Accuracy": 0.83},
        ...
      }
    """
    results = {}

    # 1) Preprocess data
    preprocessor = DataPreprocessor()
    print("Preprocessing data...")
    X, y, _ = preprocessor.preprocess(data, target_column)

    y = y.values

    if hasattr(X, "toarray"):
        X = X.toarray()

    print("Removing constant or zero-variance features...")
    vt = VarianceThreshold(threshold=0.0)
    X = vt.fit_transform(X)

    # Impute leftover NaNs if any
    if np.isnan(X).any():
        print("Imputing leftover NaNs with column means...")
        col_means = np.nanmean(X, axis=0)
        col_means = np.nan_to_num(col_means, nan=0.0)
        for i in range(X.shape[1]):
            X[np.isnan(X[:, i]), i] = col_means[i]

    # 2) Split train/test
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )

    # ---------------------------
    # Baseline (no selection)
    # ---------------------------
    print("Training baseline model without feature selection...")
    baseline_model = RandomForestClassifier(random_state=42)
    baseline_model.fit(X_train, y_train)

    baseline_preds = baseline_model.predict(X_test)
    baseline_auc = roc_auc_score(y_test, baseline_model.predict_proba(X_test)[:, 1])
    baseline_acc = accuracy_score(y_test, baseline_preds)
    results["Baseline"] = {"AUC": baseline_auc, "Accuracy": baseline_acc}

    # ---------------------------
    # FeatureFlex-based (EnhancedFeatureSelector)
    # ---------------------------
    print("Testing FeatureFlex-based (EnhancedFeatureSelector) feature selection...")
    model_opt_selector = EnhancedFeatureSelector(input_dim=X_train.shape[1])
    # top_features = model_opt_selector.select_via_shap(X_train, y_train, n_features=n_features)
    top_features = model_opt_selector.select_via_model_optimizer(X_train, y_train, n_features=n_features)

    X_train_shap = X_train[:, top_features]
    X_test_shap  = X_test[:, top_features]

    shap_model = RandomForestClassifier(random_state=42)
    shap_model.fit(X_train_shap, y_train)

    # 4) Evaluate the trained RF model
    shap_preds = shap_model.predict(X_test_shap)
    shap_proba = shap_model.predict_proba(X_test_shap)[:, 1]
    shap_auc   = roc_auc_score(y_test, shap_proba)
    shap_acc   = accuracy_score(y_test, shap_preds)

    results["FeatureFlex"] = {"AUC": shap_auc, "Accuracy": shap_acc}

    # ---------------------------
    # Boruta
    # ---------------------------
    print("Testing Boruta feature selection...")
    boruta_selector = BorutaPy(
        estimator=RandomForestClassifier(random_state=42),
        n_estimators='auto',
        random_state=42
    )
    boruta_selector.fit(X_train, y_train)

    X_train_boruta = X_train[:, boruta_selector.support_]
    X_test_boruta  = X_test[:, boruta_selector.support_]

    boruta_model = RandomForestClassifier(random_state=42)
    boruta_model.fit(X_train_boruta, y_train)

    boruta_preds = boruta_model.predict(X_test_boruta)
    boruta_auc   = roc_auc_score(y_test, boruta_model.predict_proba(X_test_boruta)[:, 1])
    boruta_acc   = accuracy_score(y_test, boruta_preds)
    results["Boruta"] = {"AUC": boruta_auc, "Accuracy": boruta_acc}

    # ---------------------------
    # SelectKBest
    # ---------------------------
    print("Testing SelectKBest feature selection...")
    try:
        skb_selector = SelectKBest(score_func=f_classif, k=n_features)
        X_train_skb = skb_selector.fit_transform(X_train, y_train)
        X_test_skb  = skb_selector.transform(X_test)

        skb_model = RandomForestClassifier(random_state=42)
        skb_model.fit(X_train_skb, y_train)

        skb_preds = skb_model.predict(X_test_skb)
        skb_auc   = roc_auc_score(y_test, skb_model.predict_proba(X_test_skb)[:, 1])
        skb_acc   = accuracy_score(y_test, skb_preds)
        results["SelectKBest"] = {"AUC": skb_auc, "Accuracy": skb_acc}
    except ValueError as e:
        print(f"SelectKBest encountered an issue: {e}")
        results["SelectKBest"] = {"AUC": None, "Accuracy": None}

    # ---------------------------
    # ReliefF
    # ---------------------------
    print("Testing ReliefF feature selection...")
    try:
        relief_selector = ReliefF(n_features_to_select=n_features)
        relief_selector.fit(X_train, y_train)

        X_train_relief = relief_selector.transform(X_train)
        X_test_relief  = relief_selector.transform(X_test)

        relief_model = RandomForestClassifier(random_state=42)
        relief_model.fit(X_train_relief, y_train)

        relief_preds = relief_model.predict(X_test_relief)
        relief_auc   = roc_auc_score(y_test, relief_model.predict_proba(X_test_relief)[:, 1])
        relief_acc   = accuracy_score(y_test, relief_preds)
        results["ReliefF"] = {"AUC": relief_auc, "Accuracy": relief_acc}
    except ValueError as e:
        print(f"ReliefF encountered an issue: {e}")
        results["ReliefF"] = {"AUC": None, "Accuracy": None}

    # Print final results to console
    print("\nComparison Results:")
    for method, metrics in results.items():
        auc = metrics.get("AUC", "N/A")
        acc = metrics.get("Accuracy", "N/A")
        print(f"{method}: AUC={auc}, Accuracy={acc}")

    return results


def save_results_and_plots(results, csv_filename="comparison_results.csv", json_filename="comparison_results.json"):
    """
    Saves the 'results' dictionary to a CSV and JSON file, 
    then creates bar plots for AUC and Accuracy, saving them as PNG images.
    """
    df = pd.DataFrame.from_dict(results, orient="index")  # index=method, columns=AUC/Accuracy
    df.to_csv(csv_filename)
    print(f"Saved comparison results to {csv_filename}.")

    with open(json_filename, "w") as f:
        json.dump(results, f, indent=4)
    print(f"Saved comparison results to {json_filename}.")

    methods = df.index.tolist()
    auc_values = df["AUC"].tolist()
    acc_values = df["Accuracy"].tolist()

    plt.figure(figsize=(6, 4))
    plt.bar(methods, auc_values, color='skyblue')
    plt.title("AUC Comparison")
    plt.xlabel("Method")
    plt.ylabel("AUC")
    plt.tight_layout()
    plt.savefig("comparison_auc.png")
    plt.close()
    print("Saved AUC bar chart as comparison_auc.png.")

    plt.figure(figsize=(6, 4))
    plt.bar(methods, acc_values, color='lightgreen')
    plt.title("Accuracy Comparison")
    plt.xlabel("Method")
    plt.ylabel("Accuracy")
    plt.tight_layout()
    plt.savefig("comparison_accuracy.png")
    plt.close()
    print("Saved Accuracy bar chart as comparison_accuracy.png.")


if __name__ == "__main__":
    dataset_path = "../data/50krecords285.csv"
    print("Loading dataset...")
    data = pd.read_csv(dataset_path)

    columns = [
        'id', 'click', 'hour', 'C1', 'banner_pos', 'site_id', 'site_domain',
        'site_category', 'app_id', 'app_domain', 'app_category', 'device_id',
        'device_ip', 'device_model', 'device_type', 'device_conn_type',
        'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21'
    ]
    data = data[columns]
    target_column = "click"

    results = compare_feature_selectors(data, target_column, n_features=10)
    
    # Save results & generate plots
    save_results_and_plots(results, 
                           csv_filename="comparison_results.csv", 
                           json_filename="comparison_results.json")


Loading dataset...
Preprocessing data...
Removing constant or zero-variance features...
Training baseline model without feature selection...
Testing FeatureFlex-based (EnhancedFeatureSelector) feature selection...


Model Optimization:   0%|          | 0/6 [00:00<?, ?it/s][I 2025-01-15 01:22:47,328] A new study created in memory with name: no-name-6c434f26-f261-443c-88e3-f823945842ef
[I 2025-01-15 01:22:48,103] Trial 0 finished with value: 0.8238596491228071 and parameters: {'n_estimators': 100, 'max_depth': 20, 'class_weight': 'balanced'}. Best is trial 0 with value: 0.8238596491228071.
[I 2025-01-15 01:22:48,469] Trial 1 finished with value: 0.8149707602339182 and parameters: {'n_estimators': 50, 'max_depth': 20, 'class_weight': 'balanced'}. Best is trial 0 with value: 0.8238596491228071.
[I 2025-01-15 01:22:48,921] Trial 2 finished with value: 0.8149707602339182 and parameters: {'n_estimators': 50, 'max_depth': None, 'class_weight': 'balanced'}. Best is trial 0 with value: 0.8238596491228071.
[I 2025-01-15 01:22:49,367] Trial 3 finished with value: 0.8194736842105264 and parameters: {'n_estimators': 50, 'max_depth': None, 'class_weight': None}. Best is trial 0 with value: 0.8238596491228071.
[I

Testing Boruta feature selection...
Testing SelectKBest feature selection...
Testing ReliefF feature selection...


  97 103 108 113 136 142 165 168 184 198 199 207 212 216 221 223 228 237
 252 270 281 289 296 299 301 308 310 321 326 329 335 337 343 345 351 352
 353 354 363 365 377 378 379 381 394 410 411 412 413 415 418 420 427 428
 446 452 453 458 460 462 466 472 480 483 485 486 491 494 497 498 503 504
 508 509 512 514 540 551 556 586 588 594 605 618 639 641] are constant.
  f = msb / msw



Comparison Results:
Baseline: AUC=0.8638297872340426, Accuracy=0.8771929824561403
FeatureFlex: AUC=0.772340425531915, Accuracy=0.8596491228070176
Boruta: AUC=0.7340425531914894, Accuracy=0.8771929824561403
SelectKBest: AUC=0.7563829787234042, Accuracy=0.8771929824561403
ReliefF: AUC=0.7382978723404255, Accuracy=0.8596491228070176
Saved comparison results to comparison_results.csv.
Saved comparison results to comparison_results.json.
Saved AUC bar chart as comparison_auc.png.
Saved Accuracy bar chart as comparison_accuracy.png.



#### Wnioski

FeatureFlex oferuje konkurencyjne wyniki w stosunku do istniejących bibliotek, takich jak **Boruta** czy **ReliefF**. Dzięki elastyczności i wsparciu dla nowoczesnych technik, takich jak SHAP i optymalizacja modelu, stanowi wartościowe narzędzie do selekcji cech.

---

#### Zapis wyników i raportów

- **Plik CSV**: Szczegółowe wyniki zapisane w pliku `comparison_results.csv`.
- **Plik JSON**: Struktura wyników zapisana w `comparison_results.json`.
- **Wykresy**:
  - `comparison_auc.png`: Wykres porównawczy AUC.
  - `comparison_accuracy.png`: Wykres porównawczy dokładności.