<a href="https://colab.research.google.com/github/mash1negun/ppa-for-da/blob/AddingFile/students/%D0%9C%D0%B0%D0%BC%D0%B0%D1%88%D0%B5%D0%B2_%D0%97%D0%B0%D0%B2%D1%83%D1%80/ITMO_FS(%D0%A0%D0%B5%D0%B2%D1%8C%D1%8E%20%D0%BD%D0%B0%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%83%20%D0%94%D0%BC%D0%B8%D1%82%D1%80%D0%B8%D1%8F%20%D0%A1%D1%82%D1%80%D0%BE%D0%BA%D0%BE%D0%B2%D0%B0).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ITMO_FS разработали студенты и сотрудники лаборатории Машинного обучения Университета ИТМО. Она реализована на Python и совместима со scikit-learn, которая де-факто считается основным инструментом анализа данных. Ее селекторы признаков принимают те же параметры:

data: array-like (2-D list, pandas.Dataframe, numpy.array);  
targets: array-like (1-D list, pandas.Series, numpy.array).

Библиотека поддерживает все классические подходы к отбору признаков — фильтры, обертки и встраиваемые методы. Среди них числятся такие алгоритмы, как фильтры на основе корреляций Спирмена и Пирсона, критерий соответствия (Fit Criterion), QPFS, hill climbing filter и другие.

Рассмотрим некоторые методы, которые предоставляет эта библиотека

In [1]:
!pip install ITMO_FS
import ITMO_FS 
import numpy as np

Collecting ITMO_FS
  Downloading ITMO_FS-0.3.3-py3-none-any.whl (70 kB)
[K     ,████████████████████████████████, 70 kB 2.7 MB/s 
Collecting qpsolvers
  Downloading qpsolvers-1.7.1-py3-none-any.whl (35 kB)
Collecting quadprog>=0.1.8
  Downloading quadprog-0.1.10.tar.gz (121 kB)
[K     ,████████████████████████████████, 121 kB 8.9 MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Collecting numpy
  Downloading numpy-1.21.4-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (15.7 MB)
[K     ,████████████████████████████████, 15.7 MB 50.5 MB/s 
[?25hBuilding wheels for collected packages: quadprog
  Building wheel for quadprog (PEP 517) ... [?25l[?25hdone
  Created wheel for quadprog: filename=quadprog-0.1.10-cp37-cp37m-linux_x86_64.whl size=290732 sha256=5c5f6d91384c5a2acf5175105e608a87182be00afd03655379a10cb64944e20c
  Stored in directory: /root/.cache

In [None]:
from sklearn.datasets import make_classification
from sklearn.preprocessing import KBinsDiscretizer
from ITMO_FS.filters.univariate import select_best_percentage, select_k_best
from ITMO_FS.filters.univariate import UnivariateFilter
from ITMO_FS.filters.univariate import f_ratio_measure, pearson_corr
from ITMO_FS.filters.univariate import VDM
from ITMO_FS.filters.multivariate import MRMR
from ITMO_FS.filters.multivariate import DISRWithMassive
from ITMO_FS.filters.unsupervised.trace_ratio_laplacian import TraceRatioLaplacian

x, y = make_classification(1000, 100, n_informative = 10, n_redundant = 30, n_repeated = 10, shuffle = False)

# Univariate filter methods

[Value Difference Metric](https://www.jair.org/index.php/jair/article/view/10182/24168#page=6) (VDM) - метрика расстояния, использующаяся в некоторых алгоритмах n ближайших соседей. Может использоваться для снижения влияния параметров, слабо связанных с целевой переменной, на эффективность классификации.

In [None]:
x_1 = np.array([[0, 0, 0, 0],
              [1, 0, 1, 1],
              [1, 0, 0, 2]])
y_1 = np.array([0,
              1,
              1])
vdm = VDM()
vdm.run(x_1, y_1)

array([[0.        , 4.35355339, 4.        ],
       [4.5       , 0.        , 0.5       ],
       [4.        , 0.35355339, 0.        ]])

# Measures for univariate filters

Для этой группы методов достаточно передать входные данные и их классы. Всего в группе есть 10 методов:


1. filters.univariate.**f_ratio_measure**(X, y)	- Calculates Fisher score for features.
2. filters.univariate.**gini_index**(X, y)	- Gini index is a measure of statistical dispersion.
3. filters.univariate.**su_measure**(X, y)	- SU is a correlation measure between the features and the class calculated, via formula SU(X,Y) = 2 * I(X,Y) / (H(X) + H(Y))
4. filters.univariate.**spearman_corr**(X, y)	- Calculates spearman correlation for each feature.
5. filters.univariate.**pearson_corr**(X, y)	- Calculates pearson correlation for each feature.
6. filters.univariate.**fechner_corr**(X, y)	- Calculates Sample sign correlation (Fechner correlation) for each feature.
7. filters.univariate.**kendall_corr**(X, y)	- Calculates Sample sign correlation (Kendall correlation) for each feature.
8. filters.univariate.**reliefF_measure**(X, y[, …])	- Counts ReliefF measure for each feature
9. filters.univariate.**chi2_measure**(X, y)	- Calculates score for the test chi-squared statistic from X.
10. filters.univariate.**information_gain**(X, y)	- Calculates mutual information for each feature by formula, I(X,Y) = H(X) - H(X,Y)



In [None]:
scores = f_ratio_measure(x, y)
scores1 = pearson_corr(x, y)

print(scores)
print(scores1)

[ 7.50024701e-06  5.98707089e-02  3.75672252e-02  2.85949011e-02
  1.21332075e-01  8.78646628e-05  2.35860735e-04  9.36791808e-02
  7.94103039e-02  3.64109122e-03  5.31752688e-01  5.31177770e-03
  3.47193763e-02  5.84321414e-02  2.86091784e-04  7.21970517e-02
  2.14603243e-01  1.50273045e-02  1.29798086e-02 -1.94775158e-01
  1.26326801e-02  3.38111931e-02  6.96692459e-03  2.01057823e-02
  9.76955793e-02  3.90330239e-05  1.57032046e-02  2.56844714e-02
 -7.54249090e+00  8.30045874e-02  1.02740700e-02  2.21877041e-02
  7.42942079e-02  5.16333627e-02  2.16513870e-02  3.62988364e-02
  1.57398881e-02  5.88910672e-02  2.21966842e-03  1.23451490e-02
  5.88910672e-02  6.96692459e-03  5.84321414e-02  2.01057823e-02
  5.31752688e-01  3.47193763e-02  2.01057823e-02  7.21970517e-02
  2.86091784e-04  1.29798086e-02  3.46043793e-03  9.50682959e-05
  1.05103227e-03  4.58848616e-04  7.25822850e-05  2.84942941e-06
  8.95388466e-03  5.99105069e-05  1.08656529e-03  2.27601760e-05
 -6.71958462e-05  3.16850

# Cutting rules for univariate filters

1. filters.univariate.**select_best_by_value**(value)	
2. filters.univariate.**select_worst_by_value**(value)	
3. filters.univariate.**select_k_best**(k)	
4. filters.univariate.**select_k_worst**(k)	
5. filters.univariate.**select_best_percentage**(percent)	
6. filters.univariate.**select_worst_percentage**(percent)	

In [None]:
ufilterBest = UnivariateFilter(f_ratio_measure, select_k_best(10))
ufilterBest.fit(x, y)

ufilterBestPercentage= UnivariateFilter(f_ratio_measure, select_best_percentage(0.1))
ufilterBestPercentage.fit(x, y)

print(ufilterBest.selected_features)
print(ufilterBestPercentage.selected_features)

[10, 44, 16, 4, 24, 7, 29, 8, 32, 15]
[1, 4, 7, 8, 10, 13, 15, 16, 24, 29, 32, 37, 40, 42, 44, 47]


# Multivariate filter methods

Доступны следующие фильтры
1. filters.multivariate.**DISRWithMassive**([…]) - Creates DISR (Double Input Symmetric Relevance) feature selection filter based on kASSI criterion for feature selection which aims at maximizing the mutual information avoiding, meanwhile, large multivariate density estimation.
2. filters.multivariate.**FCBFDiscreteFilter**() -	Creates FCBF (Fast Correlation Based filter) feature selection filter based on mutual information criteria for data with discrete features This filter finds best set of features by searching for a feature, which provides the most information about classification problem on given dataset at each step and then eliminating features which are less relevant than redundant
3. filters.multivariate.**STIR**([n_features_to_keep]) -	Feature selection using STIR algorithm.
4. filters.multivariate.**TraceRatioFisher**(…) -	Creates TraceRatio(similarity based) feature selection filter performed in supervised way, i.e fisher version
5. filters.multivariate.**MIMAGA**(mim_size, …)	

Пример Double Input Symmetric Relevance

In [None]:
X = np.array([[1, 2, 3, 3, 1],[2, 2, 3, 3, 2], [1, 3, 3, 1, 3],[3, 1, 3, 1, 4],[4, 4, 3, 1, 5]])
y = np.array([1, 2, 3, 4, 5])
disr = DISRWithMassive(3)
print(disr.fit_transform(X, y))

[[1 2 1]
 [2 2 2]
 [1 3 3]
 [3 1 4]
 [4 4 5]]


# Measures for multivariate filters

1. filters.multivariate.**MIM**(selected_features, …)	- Mutual Information Maximization feature scoring criterion.
1. filters.multivariate.**MRMR**(selected_features, …)	- Minimum-Redundancy Maximum-Relevance feature scoring criterion.
1. filters.multivariate.**JMI**(selected_features, …)	- Joint Mutual Information feature scoring criterion.
1. filters.multivariate.**CIFE**(selected_features, …)	- Conditional Infomax Feature Extraction feature scoring criterion.
1. filters.multivariate.**MIFS**(selected_features, …)	- Mutual Information Feature Selection feature scoring criterion.
1. filters.multivariate.**CMIM**(selected_features, …)	- Conditional Mutual Info Maximisation feature scoring criterion.
1. filters.multivariate.**ICAP**(selected_features, …)	- Interaction Capping feature scoring criterion.
1. filters.multivariate.**DCSF**(selected_features, …)	- Dynamic change of selected feature with the class scoring criterion.
1. filters.multivariate.**CFR**(selected_features, …)	- The criterion of CFR maximizes the correlation and minimizes the redundancy.
1. filters.multivariate.**MRI**(selected_features, …)	- Max-Relevance and Max-Independence feature scoring criteria.
1. filters.multivariate.**IWFS**(selected_features, …)	- Interaction Weight base feature scoring criteria.
1. filters.multivariate.**generalizedCriteria**(…)	- This feature scoring criteria is a linear combination of all relevance, redundancy, conditional dependency Given set of already selected features and set of remaining features on dataset X with labels y selects next feature.

Пример использования Minimum-Redundancy Maximum-Relevance (MRMR)

In [None]:
est = KBinsDiscretizer(n_bins=10, encode='ordinal')
data, target = np.array(x), np.array(y)
est.fit(data)
data = est.transform(data)
selected_features = [1, 2]
other_features = [i for i in range(0, data.shape[1]) if i not in selected_features]
print(MRMR(np.array(selected_features), np.array(other_features), data, target))

[1.53276006 1.56352214 1.55033043 1.5330381  1.50815535 1.47297681
 1.54920536 1.53577961 1.43720227 1.51865242 1.37121041 1.5289223
 1.47436127 1.55123743 1.43636821 1.489084   1.53647548 1.44995846
 1.51818786 1.52063921 1.50695557 1.45168611 1.47330795 1.52711876
 1.52640082 1.40560296 1.48971165 1.47460487 1.52738426 1.47556102
 1.54265934 1.50515313 1.51906161 1.51936605 1.54824853 1.49396177
 1.5334391  1.51559093 1.49396177 1.50695557 1.5289223  1.45168611
 1.43720227 1.37121041 1.45168611 1.55123743 1.47436127 1.53647548
 1.57790373 1.56887104 1.56863816 1.57165131 1.57262151 1.56497928
 1.56214768 1.56393325 1.55838476 1.56176975 1.56334919 1.56745668
 1.56927942 1.57077596 1.558682   1.56509763 1.57278011 1.57417911
 1.56458115 1.55505381 1.56801531 1.56522283 1.57152835 1.56949361
 1.56836173 1.56443064 1.56655052 1.56924773 1.56305922 1.55974498
 1.5637315  1.56897638 1.55764314 1.56206953 1.56823439 1.57043783
 1.56365045 1.56340376 1.56822181 1.56967739 1.56940219 1.57079

# Unsupervised filter methods

Пример TraceRatio

In [None]:
tracer = TraceRatioLaplacian(10)
print(tracer.run(x, y)[0])

[20 47 15 28  1  2 89 46 43 23]


# Sparse filter methods

1. filters.sparse.**MCFS**(d[, k, p, scheme, sigma]) -	Performs the Unsupervised Feature Selection for Multi-Cluster Data algorithm.
1. filters.sparse.**NDFS**(p[, c, k, alpha, beta, …]) -	Performs the Nonnegative Discriminative Feature Selection algorithm.
1. filters.sparse.**RFS**(p[, gamma, …])	- Performs the Robust Feature Selection via Joint L2,1-Norms Minimization algorithm.
1. filters.sparse.**SPEC**(p[, k, gamma, sigma, …]) -	Performs the Spectral Feature Selection algorithm.
1. filters.sparse.**UDFS**(p[, c, k, gamma, l, …]) -	Performs the Unsupervised Discriminative Feature Selection algorithm.

# Ensemble methods

1. ensembles.measure_based.**WeightBased**(filters)
1. ensembles.model_based.**BestSum**(models, …)
1. ensembles.ranking_based.**Mixed**(filters) - Performs feature selection based on several filters

**Метод Mixed** - выполняет выбор признаков на основе нескольких фильтров, следующим образом: Получает ранги по каждому фильтру из входных данных. Проходит цикл, на каждой итерации = i выбирает признаки в позиции i в каждом фильтре, перемешивает их, затем добавляет в список результатов без дублирования, и продолжает до указанного количества признаков.

# Embedded methods


1. embedded.**MOS**([model, loss, seed])	- Performs Minimizing Overlapping Selection under SMOTE (MOSS) or under No-Sampling (MOSNS) algorithm.

# Hybrid methods

1. hybrid.**FilterWrapperHybrid**(filter_, wrapper)	
1. hybrid.**Melif**(filter_ensemble[, scorer, verbose])	

# Wrapper methods

1. wrappers.deterministic.**AddDelWrapper**(…[, …])	- Creates add-del feature wrapper
1. wrappers.deterministic.**BackwardSelection**(…)	- Backward Selection removes one feature at a time until the number of features to be removed is reached.
1. wrappers.deterministic.**RecursiveElimination**(…)	- Performs a recursive feature elimination until the required number of features is reached.
1. wrappers.deterministic.**SequentialForwardSelection**(…)	- Sequentially Adds Features that Maximises the Classifying function when combined with the features already used TODO add theory about this method
1. wrappers.deterministic.**qpfs_wrapper**(X, y, alpha)	- Performs Quadratic Programming Feature Selection algorithm.
1. wrappers.randomized.**HillClimbingWrapper**(…)	
1. wrappers.randomized.**SimulatedAnnealing**(…)	- Performs feature selection using simulated annealing
1. wrappers.randomized.**TPhMGWO**([wolfNumber, …])	- Performs Grey Wolf optimization with Two-Phase Mutation

Пример работы [Backward Selection](https://itmo-fs.readthedocs.io/en/latest/generated/ITMO_FS.wrappers.deterministic.BackwardSelection.html?highlight=wrappers.deterministic.BackwardSelection) - алгоритм убирает по одному параметру, пока число убранных параметров не достигнет заданного. Возвращает имена оставшихся параметров.

In [None]:
from ITMO_FS.wrappers import BackwardSelection
from sklearn.linear_model import LogisticRegression

x, y = make_classification(n_samples=100, n_features=20, n_informative=4, n_redundant=0, shuffle=False)
data, target = np.array(x), np.array(y)

model = BackwardSelection(LogisticRegression(), 15, 'f1_macro')
model.fit(data, target)
print(model.selected_features)

[ 1  4  7 10 14]


**RecursiveElimination** - выполняет рекурсивное исключение признаков, пока не будет достигнуто необходимое количество признаков.

**SimulatedAnnealing** - выполняет выбор признаков с помощью имитации отжига. Алгоритм имитации отжига - это метод решения моделей параметров оптимизации с ограничениями и без ограничений. Метод основан на физическом отжиге и используется для минимизации энергии системы.

Параметры:

*   seed (integer) - случайное начальное число, используемое для инициализации np.random.seed ()
*   iteration_number (integer) - количество итераций алгоритма
*   classifier (Classifier instance) - классификатор, используемый для обучения и тестирования предоставленных наборов данных.
*   c (целое число) - константа c используется для управления скоростью пертурбации признаков
*   init_number_of_features (float) - количество признаков для инициализации подмножества начальных признаков

**SequentialForwardSelection** - последовательно добавляет признаки, которые максимизируют функцию классификации в сочетании с уже используемыми признаками. То есть, признаки последовательно добавляются к пустому набору функций до тех пор, пока добавление дополнительных функций не уменьшит критерий.

Параметры:

*   Estimator (object) - оценщик контролируемого обучения с методом подбора, который предоставляет информацию о важности признака либо через атрибут coef_, либо через атрибут feature_importances_.
*   n_features (int) - количество признаков для выбора.
*   measure (string or callable) – стандартная метрика оценки (например, «f1» или «roc_auc») или вызываемый объект / функция с мерой сигнатуры (estimator, x, y), которая должна возвращать только одно значение.




Пример SequentialForwardSelection:


In [8]:
from ITMO_FS.wrappers import SequentialForwardSelection
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
import numpy as np
dataset = make_classification(n_samples=100, n_features=20, n_informative=4, n_redundant=0, shuffle=False)
data, target = np.array(dataset[0]), np.array(dataset[1])
model = SequentialForwardSelection(LogisticRegression(), 5, 'f1_macro')
model.fit(data, target)
print(model.selected_features)

[ 4  6  8  3 12]


# Источники
Описание API - https://itmo-fs.readthedocs.io/en/latest/api.html  
Статья на хабре - https://habr.com/ru/company/spbifmo/blog/516194/

# Ревью

## Передреев Дмитрий

Туториал прошел. Если запускать все блоки кода по порядку, выдавалась ошибка, т.к. во втором блоке мы определяли x, y



```
x, y = make_classification(1000, 100, n_informative = 10, n_redundant = 30, n_repeated = 10, shuffle = False)
```

а в третьем перезаписывали эти значения для демонстрации VDM.



```
x = np.array([[0, 0, 0, 0],
              [1, 0, 1, 1],
              [1, 0, 0, 2]])
y = np.array([0,
              1,
              1])
```

Тогда зависящие от изначально заданных x, y блоки падали с ошибкой размерности. Пофиксил.

Добавил короткое описание VDM и пример Backward Selection.


# Ревью (Мамашев Завур)


За исключением нюанса указанного в ревью у Дмитрия Передреева, туториал успешно пройден. Добавляю описания и примеры некоторых методов (Mixed(filters), SequentialForwardSelection, SimulatedAnnealing, RecursiveElimination). 

