# Sopstvena lica

U ovoj sveci bavićemo se problemom prepoznavanja osoba na zadatim slikama.

In [1]:
import numpy as np
from matplotlib import pyplot as plt

In [2]:
from sklearn import preprocessing
from sklearn import datasets
from sklearn import decomposition
from sklearn import model_selection

## Učitavanje skupa podataka

Koristićemo skup slika `Labeled Faces in the Wild` koji sadrži slike lica poznatih ličnosti. Podaci se mogu učitati pozivom funkcije `fetch_lfw_people()` paketa `sklearn.datasets`. Prilikom poziva ove funkcije iskoristićemo parametar `resize` koji određuje skaliranje slika i parametar `min_faces_per_person` koji određuje koliko najmanje slika po osobi treba da ima u učitanom skupu. 

## Klasifikacija primenom algoritma k-najbližih suseda

Rešavanju problema prepoznavanja osoba na slikama možemo pristupiti kao klasifikacionom zadatku uz adekvatno prikazivanje slika skupom odgovarajućih atributa. Koristićemo algoritam klasifikacije koji se zove $k$ najbližih suseda.

Algoritam $k$ najbližih suseda ćemo najlakše predstaviti preko primera sa donje slike. Zadatak je klasifikovati zeleni objekat u jednu od dve klase; treba odrediti da li krug pripada plavim kvadratima ili crvenim trouglovima. Ako je $k = 3$ (manji krug nacrtan punom linijom), zeleni krug će pripadati drugoj klasi zato što se unutar nacrtanog kruga nalaze dva trougla i samo jedan kvadrat. Ako je $k = 5$ (veći krug nacrtan isprekidanom linijom), zeleni krug će pripadati prvoj klasi budući da se unutar isprekidanog kruga nalazi više kvadrata nego trouglova.

<img src="assets/knn.png">

Koliko će se suseda posmatrati (vrednost parametra $k$) i kako će se oni određivati (izbor metrike) se kontroliše preko parametara samog klasifikatora. Obeležje novoj instanci će se uvek pridruživati na osnovu obeležja najbrojnije klase u susedstvu.

Dalje ćemo primeniti algoritam $k$ najbližig suseda i izračunati tačnost. Podrška za rad sa algoritmom najbližih suseda je stavljena na raspolaganje preko `KNeighborsClassifier` klase paketa `sklearn.neighbors`. Broj suseda `n_neighbors` ćemo podesiti na 5, a funkciju rastojanja na euklidsku.

In [None]:
from sklearn import neighbors

## Klasifikacija primenom PCA tehnike i algoritma k-najbližih suseda 

Sada ćemo primeniti isti algoritam, ali ćemo smanjiti dimenzionalnost prostora koristeći PCA tehniku. Broj glavnih komponenti ćemo postaviti na 100.

U nastavku će biti prikazano kako izgleda prvih nekoliko glavnih komponenti PCA tehnike. Prikazaćemo 20 glavnih komponenti u vidu bloka dimenzija 4x5.

In [None]:
# svakom od 20 grafika/slika sklonićemo oznake za x-osu i y-osu
figure, axis = plt.subplots(4, 5, figsize=(16, 16), subplot_kw={'xticks':(), 'yticks':()})

# kroz ovaj skup blokva ćemo prolaziti iterativno 
# svešćemo ga na jednodimenzioni niz pozivom funkcije ravel() 
ravel = axis.ravel()

# dalje, za svaki blok
for i in range(ravel.shape[0]):
    
    # izdvajamo osu za rad
    axis = ravel[i]
    
    # izdvajamo i-tu komponentu i svodimo je na dimenzije slike
    component = pca.components_[i]
    component = component.reshape(image_shape)
    
    # prikazujemo sliku i naziv komponente
    axis.imshow(component, cmap='gray')
    axis.set_title('Komponenta {0}'.format(i+1))

Vidimo da se različite komponente fokusiraju na različite karakteristike lica kao što su oblik lica, položaj glave, predeo očiju i nosa, i slično. Ovo svakako može biti informativno u interpretaciji i analizi rada modela.