Per produrre un sistema di riconoscimento facciale vengono utilizzate le librerie python ```OpenCV```, che permette di manipolare le immagini, ```numpy```, che permette di gestire i dati in forma vettoriale e matriciale, e ```os```, che permette di esplorare i file navigando nei vari percorsi.

In [1]:
import os
import numpy as np
import cv2

import warnings
warnings.filterwarnings('ignore')

Per riconoscere i volti presenti nelle immagini viene usato Viola Jones, che fa uso di alcune semplici caratteristiche del volto, chiamate Haar-like features, e vengono computatr in maniera veloce utilizzando le immagini integrali.

Il metodo ```viola_jones_init``` inizializza il riconoscitore Viola Jones ritornando il classificatore già addestrato.

In [2]:
def viola_jones_init():
    face_xml='haarcascade_frontalface_alt.xml'

    face_cascade=cv2.CascadeClassifier()

    if not face_cascade.load(face_xml):
        print('--(!)Error loading face cascade')
        exit(0)
    
    return face_cascade

face_cascade=viola_jones_init()

Per implementare un sistema chiuso di riconoscimento facciale basato sulle eigenfaces viene costruito prima uno spazio delle facce. Per poterlo costruire si parte da un dataset di 2000 immagini di volti.

Il metodo ```initialize_dataset``` si occupa di di esplorare il dataset, convertire le immagini in scala di grigio, attraverso Viola Jones individuare il volto, riscalarlo in 64x64 pixel e vettorizzarlo.

Verrà restituita una matrice le cui colonne corrispondono ad una immagine.

In [3]:
def initialize_dataset(face_cascade, pathname):
    images=[]

    i=0
    for dirpath, dirnames, filenames in  os.walk(pathname):
        for filename in filenames:
            
            img=cv2.imread(os.path.join(dirpath, filename))
            img_gray=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
            faces=face_cascade.detectMultiScale(img_gray)

            for x,y,w,h in faces:
                face=img_gray[y:y+h, x:x+w]
                face_resized=cv2.resize(face, (64,64))
                images.append(face_resized.flatten())
                i+=1
    
            if i>1999:
                break

        if i>1999:
                break
    
    images=np.array(images).T
    return images

Una volta ottenuta la matrice di immagini vettorizzate, se ne calcola la media per trovare la mean face, utilizzata successivamente per costruire lo spazio delle facce.

In [4]:
images=initialize_dataset(face_cascade, 'images/dataset')

mean=np.mean(images, axis=1)

mean_face=mean.reshape((64,64)).astype(np.uint8)

cv2.imshow("mean", mean_face)
cv2.imwrite("images/mean.png", mean_face)
cv2.waitKey(0)
cv2.destroyAllWindows()

Lo spazio delle facce è utile perché si può ricorstruire qualsiasi faccia a partire dalla faccia media e aggiungendo delle immagini scalate.

Queste immagini scalate vengono chiamate eigenfaces, e corrispondono a dei vettori ortonormali $u_{i}$, ricavati effettuando la Singular Value Decomposition della matrice di covarianza $C$, ricavata a sua volta dalla matrice delle immagini:

![covarianza](images/covarianza.png)

![eigenfaces](images/eigenfaces.png)

Le eigenfaces $u_{i}$ saranno quindi i vettori colonna della matrice $U$.

Il metodo ```compute_eigenfaces``` ricava prima la matrice di covarianza per poi eseguirne la SVD, e ritorna la matrice delle eigenfaces e il vettore che contiene gli autovalori ordinati in ordine decrescente.

In [5]:
def compute_eigenfaces(images):
    covar=np.cov(images)
    U,S,V=np.linalg.svd(covar)

    return U, S

eigenfaces, S=compute_eigenfaces(images)

for i in range(4):
    eigenface=cv2.normalize(eigenfaces[:,i].reshape((64,64)), None, 0, 255, cv2.NORM_MINMAX).astype(np.uint8)
    cv2.imwrite("images/eigenface_"+str(i+1)+".png", eigenface)

Viene definito il metodo ```acquisizione_foto``` che permette, attraverso il tasto "a", di acquisire foto, e contemporanemanete, attraverso Viola Jones, rileva i volti presenti nelle immagini, disegnando un rettangolo attorno ad ognuno di loro, in modo da essere sicuri che nella foto scattata è presente un volto.

E' utilizzato per acquisire le foto di 4 persone per poter costruire una galleria da utilizzare come training set.

In [6]:
def acquisizione_foto(face_cascade):
    src = 0 # webcam
    #src = 'rtsp://CV2023:Studente123@147.163.26.184:554/Streaming/Channels/101'
    #src = 'rtsp://CV2023:Studente123@147.163.26.182:554/Streaming/Channels/101'

    video = cv2.VideoCapture(src)

    if not video.isOpened():
        print('--(!)Error opening video capture')
        exit(0)

    key = ''
    i=1

    while key!=ord('q'):
        ret, frame = video.read()

        frame_gray=cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        faces=face_cascade.detectMultiScale(frame_gray)

        rect=frame.copy()
    
        for x,y,w,h in faces:
            rect=cv2.rectangle(rect, (x,y), (x+w,y+h), (41,59,52), 4)
            #blu oceano (74,51,29)
            #verde bottiglia (41,59,52)
            #giallo (0,216,255)

        cv2.imshow("frame", rect)

        key = cv2.waitKey(1)
    
        if key==ord('a'):
            string="images/image_"+str(i)+".png"
            cv2.imwrite(string, frame)
            i+=1


    cv2.destroyAllWindows()
    video.release()

acquisizione_foto(face_cascade)

Il metodo ```acquisizione_video``` permette di acquisire video alla pressione del tasto "a" e di salvarlo premendo il tasto "s".

E' utilizzato per poter acquisire un breve video in cui verranno etichettati tutti i volti rilevati, in modo da usarlo come validation set.

In [10]:
def acquisizione_video():
    src = 0 # webcam
    #src = 'rtsp://CV2023:Studente123@147.163.26.184:554/Streaming/Channels/101'
    #src = 'rtsp://CV2023:Studente123@147.163.26.182:554/Streaming/Channels/101'

    video = cv2.VideoCapture(src)

    video_FourCC = int(video.get(cv2.CAP_PROP_FOURCC))
    fps = video.get(cv2.CAP_PROP_FPS)
    H = int(video.get(cv2.CAP_PROP_FRAME_HEIGHT))
    W = int(video.get(cv2.CAP_PROP_FRAME_WIDTH))
    frame_size = (W, H)

    if video is None or not video.isOpened():
        print('--(!)Error opening video capture')
        exit(0) 

    key = ''
    out=None
    i=1

    while key!=ord('q'):

        ret, frame = video.read()
        cv2.imshow("frame", frame)
        key = cv2.waitKey(1)

        if key==ord('a'):
            out = cv2.VideoWriter('images/validate/validation_'+str(i)+'.mp4',  video_FourCC, fps, frame_size)
            i+=1
            if out is None or not out.isOpened():
                print('--(!)Error opening video capture')
                exit(0)
            while key!=ord('s'):
                cv2.imshow("frame", frame)
                out.write(frame)
                ret, frame = video.read()
                key= cv2.waitKey(1)

    cv2.destroyAllWindows()
    video.release()
    if out is not None:
        out.release()

acquisizione_video()

Il metodo ```detect_face```, attraverso Viola Jones, rileva i volti presenti all'interno dei video, e ritorna una matrice di immagini vettorizzate e distribuite per colonne.

Il metodo ```project```, invece, calcola i coefficenti $a$ attraverso la formula:

![coefficenti](images/coefficenti.png)

Questi coefficenti scalano le eigenfaces da utilizzare per poter ricostruire l'immagine di partenza. Sostanzialmente l'immagine di partenza viene proiettata all'interno dello spazio delle facce e ricostruita partendo dal centro dello spazio, ovvero la media, e aggiungendo i vettori scalati, quindi le eigenfaces moltiplicate ai coefficenti $a$. La formula dell'approssimazione dell'immagine è quindi:

![approssimazione](images/approssimazione.png)

Lo spazio delle facce è invece rappresentato:

![spazio](images/face_space.png)

Utilizzare i coefficenti $a$ per rappresentare le facce, e quindi proiettarle nello spazio, è molto utile perché la distanza tra due facce, cioè riconoscerne l'identità, può essere calcolata semplicemente calcolando la distanza L2 tra l'immagine proiettata e quelle presenti nello spazio:
$$L_{2}=||\textbf{a}-\textbf{a}_{i}||_{2}$$


In [11]:
def detect_face(face_cascade):

    images=[]

    video=cv2.VideoCapture("images/validate/validation.mp4")

    if video is None or not video.isOpened(): 
        print('--(!)Error opening video capture')
        exit(0)

    ret, img = video.read()
    i=0
    while ret:

        img_gray=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        faces=face_cascade.detectMultiScale(img_gray)

        for x,y,w,h in faces:
            
            face=img_gray[y:y+h, x:x+w]

            face_resized=cv2.resize(face, (64,64))

            cv2.imwrite("images/validate/validate_"+str(i)+".png", face_resized)
            i+=1

            images.append(face_resized.flatten())

        ret, img = video.read()
        
    images=np.array(images).T
    return images

def project(n_components, gallery, eigenfaces):

    n_images=gallery.shape[1]

    a=np.zeros((n_images, n_components))

    for i in range(n_images):
        for j in range(n_components):
            a[i,j]=np.dot(gallery[:,i]-mean, eigenfaces[:,j])

    return a

Viene importato il K Neighbors Classifier, ovvero un classificatore che si basa sulla distanza da un numero k di vicini, dove k è un iperparametro.
Inoltre vengono scalati gli autovalori dividendo ognuno di loro per la somma totlae, in modo che la loro somma sia 1.
Infine viene inizializzata la galleria (il training set), quindi viene istanziata la matrice che contiene le immagini vettorizzate.

In [12]:
from sklearn.neighbors import KNeighborsClassifier as KNN
S_scaled=S/np.sum(S)

### INIZIALIZZAZIONE TRAINING SET ###
gallery=initialize_dataset(face_cascade, 'images/gallery')

Per addestrare il classificatore, deve essere associata un'echitetta ad ogni immagine, che corrisponde all'identità della faccia.

In [13]:
### LABEL TRAINING SET ###

name1=np.tile("Alessandro", 9)
name2=np.tile("Antonio", 13)
name3=np.tile("Daniele", 12)
name4=np.tile("Rosario", 15)
classes=np.concatenate([name1,name2,name3,name4])

Come per il training set, viene inizializzata la matrice che contiene le immagini vettorizzate ricavate dall'analisi dei volti presenti nel video che funge da validation set.

In [14]:
### INIZIALIZZAZIONE VALIDATION SET ### 

validation=detect_face(face_cascade)

Poiché il validation set può contenere degli errori, si istanzia una nuova matrice che contiene soltanto le immagini che ritraggono un volto.

In [15]:
### PULIZIA DATI ###
noise=[23,27,31,35,36,40,41,45,46,50,51,53,57,58,59,60,64,65,66,70,71,75,79,83,84,85,90,91,95,96,101,103,107,112,117,120,125,130,131,136,137,142,148,151,156,162,164,168,170,171,175,180,184,189,190,195,196,197,200,201,204,209,210,215,216,221,222,223,225,228,231,232,236,237,238]
n_validation=np.delete(validation, noise, 1)

Come per il training setm bisogna etichettare ogni volto del validation set per poter calcolare lo score del classificatore

In [17]:
### LABEL VALIDATION SET ###

validate=["Antonio", "Alessandro", "Daniele", "Antonio", "Alessansdro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Alessandro", "Antonio", "Daniele", "Alessandro", "Antonio", "Daniele", "Antonio", "Daniele", "Alessandro", "Antonio", "Daniele", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Antonio", "Alessandro", "Antonio", "Rosario", "Daniele", "Alessandro", "Daniele", "Antonio", "Alessandro", "Rosario", "Antonio","Daniele", "Alessandro", "Rosario", "Daniele", "Antonio", "Alessandro", "Rosario", "Daniele","Antonio", "Alessandro", "Rosario", "Antonio", "Daniele", "Alessandro", "Rosario", "Alessandro", "Rosario", "Daniele", "Antonio", "Alessandro", "Antonio", "Rosario", "Daniele", "Alessandro", "Rosario", "Daniele", "Antonio", "Alessandro", "Rosario", "Daniele","Antonio", "Alessandro", "Antonio","Rosario", "Daniele", "Rosario", "Alessandro", "Antonio", "Daniele", "Antonio", "Daniele", "Rosario", "Alessandro", "Alessandro", "Daniele", "Rosario", "Antonio", "Alessandro", "Antonio", "Daniele", "Rosario", "Rosario", "Alessandro", "Daniele", "Antonio", "Alessandro", "Daniele", "Rosario", "Antonio", "Alessandro", "Antonio", "Daniele", "Rosario", "Alessandro", "Daniele", "Antonio", "Rosario", "Antonio", "Daniele", "Rosario", "Alessandro", "Alessandro", "Antonio", "Daniele", "Rosario", "Alessandro", "Daniele", "Antonio", "Rosario", "Daniele", "Antonio", "Rosario", "Alessandro", "Alessandro", "Daniele", "Rosario", "Antonio", "Antonio", "Daniele", "Alessandro", "Antonio", "Daniele", "Antonio", "Alessandro", "Daniele"]

Si definisce il metodo ```min_index``` che restituisce l'indice della colonna della matrice delle eigenfaces affinché venga considerata una certa percentuale della varianza, passata per argomento al metodo.

In [18]:
def min_index(S, n):
    sum=0
    index=0
    for i in range(S.shape[0]):
        sum+=S[i]
        if sum>=n:
            index=i
            break

    return index

Vengono effettuati 6 esperimenti in totale, testando il 95% e il 99,99% della varianza e impostando il classificatore con 1 3 e 5 vicini. Si calcola lo score per ogni esperimento in modo da poter scegliere gli iperparametri associati all'esperimento con lo score più alto.

In [19]:
for n in [0.95, 0.9999]:

    index=min_index(S_scaled, n)

    a_train= project(index, gallery, eigenfaces)

    a_val=project(index, n_validation, eigenfaces)
    
    for k in [1,3,5]:
        knn= KNN(n_neighbors=k)
        knn.fit(a_train, classes)
        predicted=knn.predict(a_val)
        #print(predicted)
        acc=knn.score(a_val, validate)
        print(f"Accuratezza con il {n*100}% della varianza e con K={k}: {acc:.5f}")

Accuratezza con il 95.0% della varianza e con K=1: 0.51829
Accuratezza con il 95.0% della varianza e con K=3: 0.52439
Accuratezza con il 95.0% della varianza e con K=5: 0.49390
Accuratezza con il 99.99% della varianza e con K=1: 0.51220
Accuratezza con il 99.99% della varianza e con K=3: 0.51220
Accuratezza con il 99.99% della varianza e con K=5: 0.48780


Dai risultati riportati nella tabella, si evince che l'esperimento che ha avuto più successo è stato quello con $k=3$ vicini e considerando il 95% della varianza. Perciò si calcolano i coefficenti del training set e si addestra il classificatore.

![tabella](images/tabella.png)

In [20]:
knn=KNN(n_neighbors=3)
n=min_index(S_scaled, 0.95)

a_train=project(n, gallery, eigenfaces)

knn.fit(a_train, classes)

KNeighborsClassifier(n_neighbors=3)

Infine, viene analizzato il test set, un video composto da circa 2000 frame, e viene prodotto un ulteriore video uguale al test set, in cui ogni volto presente viene etichettato disegnando un rettangolo attorno ad esso e scrivendo il nome dell'identità prevista dal classificatore.

Ogni frame del video viene analizzato in questo modo: attraverso Viola Jones vengono identificati i volti in ogni frame, e per ogni volto vengono calcolati i coefficenti sulla quale il classificatore si basa per predire l'identità. Successivamente viene disegnato il rettangolo e aggiunta l'etichetta e, una volta esaminati tutti i volti presenti nel frame, si passa al frame successivo.

In [20]:
video=cv2.VideoCapture("images/test.mp4")

video_FourCC = int(video.get(cv2.CAP_PROP_FOURCC))
fps = video.get(cv2.CAP_PROP_FPS)
H = int(video.get(cv2.CAP_PROP_FRAME_HEIGHT))
W = int(video.get(cv2.CAP_PROP_FRAME_WIDTH))
frame_size = (W, H)

out = cv2.VideoWriter('images/test_l.mp4',  video_FourCC, fps, frame_size)

if video is None or not video.isOpened() or out is None or not out.isOpened() :
    print('--(!)Error opening video capture')
    exit(0)

ret, img = video.read()

while ret:
    
    img_gray=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    faces=face_cascade.detectMultiScale(img_gray)

    for x,y,w,h in faces:
            
        face=img_gray[y:y+h, x:x+w]
        face_resized=cv2.resize(face, (64,64)).flatten()

        a=project(n, np.array([face_resized]).T, eigenfaces)

        prediction=knn.predict(a)
        #print(prediction)

        img=cv2.rectangle(img, (x,y), (x+w,y+h), (74,51,29), 4)
        img=cv2.putText(img, prediction[0], (x,y), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,216,255), 2)
    
    out.write(img)
    ret, img=video.read()

video.release()
out.release()

Il metodo aggiuntivo ```rebuilt``` serve a ricostruire un'immagine e verificare la correttezza dei coefficenti calcolati.

In [32]:
## CHECK FACES ##
def rebuilt(a, eigenfaces):
    sum=0
    n_images,n_components=a.shape 

    for i in range(n_images):
        for j in range(n_components):
            sum+=a[i,j]*eigenfaces[:,j]

        new=(mean+sum).reshape((64,64)).astype(np.uint8)
        cv2.imshow("img", new)
        cv2.waitKey(0)
        cv2.destroyAllWindows()
        sum=0    

#a_val=project(4095, gallery, eigenfaces)
rebuilt(a_train, eigenfaces)