## Primer 1. Facility location

Facility location je submodularna funkcija koja je veoma primenljiva nad skupovima gde se moze definisati funkcija slicnosti izmedju dva elementa.
Njenom optimizacijom se izdvaja podskup elemenata koji dobro predstavlja originalni skup.
Njenom optimizacijom se maksimizuje slicnost izmedju parova elemenata koristeci informaciju o slicnosti parova elemenata skipa.

Funkcija koja racuna slicnost dve elementa mora biti nenegativna, a veca vrednost znaci da su elementi slicniji. Jedan primer je funkcija euklidskog rastojanja.

Opsti oblik:

$f(X,Y)=\displaystyle \sum_{y \in Y} \max_{x \in X} \phi(x,y)$

gde je $f$ funkcija, $X$ podskup, $Y$ ceo skup, a $\phi$ je funkcija slicnosti dva elementa.


TODO

In many ways, optimizing a facility location function is simply a greedy version of k-medoids, where after the first few examples are selected, the subsequent ones are at the center of clusters. The function, like most graph-based functions, operates on a pairwise similarity matrix, and successively chooses examples that are similar to examples whose current most-similar example is still very dissimilar. Phrased another way, successively chosen examples are representative of underrepresented examples.



Implementacija *FacilityLocationSelection* u paketu Apricot daje mogucnost korisniku da ili sam izracuna i prosledi simetricnu kvadratnu matricu slicnosti elemenata, ili da prosledi ceo skup podataka i funkciju koja racuna slicnost dva elementa.
U narednom primeru, prosledjuje se ceo skup podataka, i bira se funkcija euklidskog rastojanja.

Like most graph-based functons, the facility location function requires access to the full ground set.

COGs: requires n^2 memory with the number of examples for the similarity matrix - impractical

In [1]:
from apricot import FacilityLocationSelection
from sklearn.datasets import load_digits

In [2]:
data = load_digits()
X_train = data.data[:1250]

In [3]:
n_samples = 42

In [4]:
selector = FacilityLocationSelection(n_samples, metric='euclidean', optimizer='lazy', verbose=False)
selector.fit(X_train)

<apricot.functions.facilityLocation.FacilityLocationSelection at 0x14fa0524340>

In [5]:
X_train_subset = selector.transform(X_train)

In [6]:
X_train_subset.shape

(42, 64)

In [7]:
X_train_subset

array([[ 0.,  0.,  1., ...,  6.,  0.,  0.],
       [ 0.,  0.,  1., ...,  9.,  0.,  0.],
       [ 0.,  0.,  7., ...,  3.,  0.,  0.],
       ...,
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ..., 16.,  9.,  0.],
       [ 0.,  0.,  7., ..., 10.,  1.,  0.]])

In [11]:
data.data[1]

array([ 0.,  0.,  0., 12., 13.,  5.,  0.,  0.,  0.,  0.,  0., 11., 16.,
        9.,  0.,  0.,  0.,  0.,  3., 15., 16.,  6.,  0.,  0.,  0.,  7.,
       15., 16., 16.,  2.,  0.,  0.,  0.,  0.,  1., 16., 16.,  3.,  0.,
        0.,  0.,  0.,  1., 16., 16.,  6.,  0.,  0.,  0.,  0.,  1., 16.,
       16.,  6.,  0.,  0.,  0.,  0.,  0., 11., 16., 10.,  0.,  0.])