## Primer 2. Feature-based functions

Funkcije zasnovane na atributima (eng. *feature based functions*) direktno koriste atribute elemenata (ne koriste matricu sličnosti nastalu na osnovu tih atributa). Zbog ovog svojstva, nije im potreban dodatan memorijski prostor $O(n^2)$ za cuvanje matrice sličnosti, te su pogodnije za rad sa velikim skupovima podataka.<br />

Opšti oblik *feature-based* funkcije je: <br />
$f(X)=\displaystyle \sum_{d=1}^{D} \omega_{d} \phi (\displaystyle \sum_{x \in X}  x_{d})$ <br />

gde je $f$ funkcija, $X \subseteq Y$, Y je ceo skup podataka, $d$ je jedan atribut u tom skupu, $D$ je ukupan broj atributa, $\omega_{d}$ je težina atributa $d$, $x$ je element iz skupa $X$, a $x_{d}$ je vrednost atributa $d$ za element $x$, a $\phi$ je konkavna funkcija (na primer *sqrt* ili *log*). Funkcija $\phi$ obezbeđuje svojstvo iščezavanja (eng. *diminishing returns property*). <br />
Bitno je naglasiti da za izračunavanje funkcije $f$ nije potreban ceo skup, već samo njegov podskup $X$, što utiče na brzinu njenog izračunavanja.

Maksimizacijom funkcije zasnovane na atributima izdvaja se podskup elemenata čije su vrednosti atributa velike. Zbog toga se koriste kada svaki atribut predstavlja neki kvalitet/osobinu elementa (gde veća vrednost znaci veću zastupljenost te osobine, a $0$ znači da element nema tu osobinu). Vrednosti atributa ne mogu biti negativne.

Napomena: Korišćenje funkcija zasnovane na atributima nije uvek najbolje rešenje. Pretpostavka da svaki atribut predstavlja neki smisleni kvalitet elementa ima smisla u nekim slučajevima, ali na primer, nema smisla ukoliko je element slika, gde su njeni atrbuti vrednosti piksela.
Moguće je transformisati ulazni skup podataka i tek onda koristiti ove funkcije.

In [1]:
from apricot import FeatureBasedSelection
from sklearn.datasets import load_iris
import numpy as np
from matplotlib import pyplot as plt

https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html <br />
"This data sets consists of 3 different types of irises’ (Setosa, Versicolour, and Virginica) petal and sepal length, stored in a 150x4 numpy.ndarray"

In [2]:
X, y = load_iris(return_X_y=True)

In [3]:
print('X.shape:', X.shape)
print('y.shape:', y.shape)

X.shape: (150, 4)
y.shape: (150,)


In [4]:
print('Jedinstvene vrednosti y:', np.unique(y))

Jedinstvene vrednosti y: [0 1 2]


In [5]:
n_samples = 10

In [6]:
selection = FeatureBasedSelection(n_samples, 'sqrt', optimizer='two-stage')
X_subset = selection.fit_transform(X)

In [7]:
print('X_subset.shape:', X_subset.shape)

X_subset.shape: (10, 4)


In [8]:
X_subset

array([[7.7, 3.8, 6.7, 2.2],
       [7.9, 3.8, 6.4, 2. ],
       [7.2, 3.6, 6.1, 2.5],
       [7.7, 2.6, 6.9, 2.3],
       [7.6, 3. , 6.6, 2.1],
       [7.7, 3. , 6.1, 2.3],
       [7.7, 2.8, 6.7, 2. ],
       [6.7, 3.3, 5.7, 2.5],
       [6.3, 3.3, 6. , 2.5],
       [6.8, 3.2, 5.9, 2.3]])

In [9]:
X_subset.mean()

4.7875

In [10]:
X.mean()

3.4644999999999997