<h3><center>Riconoscimento di espressioni facciali tramite una rete neurale convoluzionale</center></h3>
<center><img src="res/logo.jpg"/><center>


# Il problema
Il riconoscimento delle emozioni umane da parte di un computer è un problema popolare ed affrontato in diversi modi come sentiment analysis di post e messaggi o analisi della voce.
In questa ricerca proverò a riconoscere le emozioni espresse direttamente dal volto umano, riconoscendo automaticamente i tratti che più le caratterizzano tramite una rete neurale convoluzionale

# Il dataset
Il dataset consiste in 28.709 immagini di volti in grayscale formate da 48x48 pixel. Può essere scaricato (da qui)[
Il file train.csv contiene due colonne
* **Pixels**: L'intensità di ogni pixel per ogni immagine spacchettati in un unica stringa
* **Emotion**: Un'intero da 0 a 6 che rappresenta l'emozione espressa dalla foto (*0=Arrabiato, 1=Disgustato, 2=Spaventato, 3=Felice, 4=Triste, 5=Sorpreso, 6=Neutrale*)

Apro e carico il dataset all'interno di un DataFrame

In [1]:
import pandas as pd
faces = pd.read_csv("data/fer2013.csv")
faces.head()

Unnamed: 0,emotion,pixels,Usage
0,0,70 80 82 72 58 58 60 63 54 58 60 48 89 115 121...,Training
1,0,151 150 147 155 148 133 111 140 170 174 182 15...,Training
2,2,231 212 156 164 174 138 161 173 182 200 106 38...,Training
3,4,24 32 36 30 32 23 19 20 30 41 21 22 32 34 21 1...,Training
4,6,4 0 0 0 0 0 0 0 0 0 0 0 3 15 23 28 48 50 58 84...,Training


Verifico che il dataset sia bilanciato, ovvero che delle classi non contengano un numero di esempi notevolmente superiore/inferiore rispetto alle altre.

In [2]:
faces.emotion.value_counts()

3    8989
6    6198
4    6077
2    5121
0    4953
5    4002
1     547
Name: emotion, dtype: int64

Il dataset è notevolmente sbilanciato, il numero di volti felici è nell'ordine di 15 volte maggiore rispetto a quelli disgustati.

# La soluzione
Le reti neurali ricorrenti sono uno standard de-facto per quanto riguarda il riconoscimento digitale di immagini.
Nella mia soluzione ho sviluppato una rete neurale ricorrente profonda per identificare automaticamente i tratti del volto che ne rappresentano lo stato d'animo.

Importo tutte le dipendenze utilizzate per il progetto

In [None]:
import numpy as np
import pandas as pd
import cv2
from matplotlib import pyplot as plt
import keras
from keras.models import load_model
from keras import backend as K

## - Preprocessing dell'immagine

Per testare l'algoritmo utilizzerò 6 mie foto, le immagini vengono trattate come grayscale ed i canali aggiuntivi vengono scartati, per mantenere lo standard del dataset.

In [None]:
img = cv2.imread('happy.jpg',0)
plt.imshow(img)

Ricerco un volto all'interno dell'immagine, se lo trovo lo estraggo ritagliando l'immagine intorno ad esso. Per far questo in maniera semplice utilizzo la libreria **[OpenCV](https://opencv.org/)**.

In [None]:
def extract_face(img):
    haar_face_cascade = cv2.CascadeClassifier('data/haarcascade_frontalface_alt.xml')
    faces = haar_face_cascade.detectMultiScale(img, scaleFactor=1.1, minNeighbors=5);
    if(len(faces)==0):
        return img,False
    x,y,w,h=faces[0]
    return img[y:y+h, x:x+w],True

img = cv2.imread('data/happy.jpg',0)
face_img,found=extract_face(img)
if(not found):
    print("Nessun volto rilevato")
else:
    plt.imshow(face_img)

## - Addestramento della rete

Per creare la mia rete utilizzo **[Keras](https://keras.io/)** con **[Tensorlow](https://www.tensorflow.org/)** come backend.

Il processo di addestramento di una rete convoluzionale profonda è dispendioso sia in termini di tempo che di risorse, per questo ho proceduto ad addestrare la rete in cloud su un clouster di GPU Nvidia utilizzando **[Amazon EC2 Spot Instances](https://aws.amazon.com/ec2/spot/)** per tagliare i costi di addestramento al minimo.

L'addestramento ha richiesto circa un'ora e mezza ed ha ottenuto una *test accuracy* del **75,7%**

Carico il modello di rete neurale convoluzionare precedentemente addestrata

In [None]:
model = load_model("facexp_model.h5")

Scrivo una helper function per stampare su schermo il risultato della predizione.

In [None]:
def show_prediction(prediction):
    EMOTIONS = ["arrabbiato","disgustato","spaventato","felice","triste","sorpreso","neutrale"]
    print("Il soggetto è "+EMOTIONS[np.argmax(prediction)]+" con una probabilità del "+str(max(prediction[0])*100)+"%")


Utilizzo la mia rete per effettuare la classificazione e predirre l'umore del soggetto dall'espressione facciale

In [None]:
img = cv2.imread('data/happy.jpg',0)
face_img,found = extract_face(img)

if(not found):
    print("Nessun volto rilevato")

else:
    plt.imshow(face_img)

    face_img = cv2.resize(face_img, (48, 48)) #Ridimensiono a 48x48 per far combaciare con il dataset

    imgs = np.array([face_img])
    if K.image_data_format() == 'channels_first':
        imgs = imgs.reshape(imgs.shape[0], 1, 48, 48)
    else:
        imgs = imgs.reshape(imgs.shape[0], 48, 48, 1)

    prediction=model.predict(imgs)
    show_prediction(prediction)

WORK IN PROGRESS...