# Datorseende - Kursprojekt

### Import required libraries


In [1]:
import cv2 as cv
import numpy as np
import dlib
import os
from matplotlib import pyplot as plt
from imutils import face_utils as fu

### Subjects
Ange användarprofiler som ansiktsigenkännaren känner till. Nu känner den endast igen Niklas och Walter. Om någon annan hoppar in i bilden kommer den känna igen den profilen som personen liknar mest. Här använde vi oss inte av confidence igenkännaren returnerar. 

In [2]:
subjects = ['', 'Niklas', 'Walter']

### face_detector(img)
För ansiktsdetektorn bestämde vi oss att använda haarcascade_frontalface_default cascade:n. Vi jämförde med LBPH casacades (defaut och improved), men tyckte att haarcascade fungerade bättre. Annors är funktionen rätt systematiskt. Bilden man matar in konverteras till grayscale och matas in i detectMultiScale funktionen som detekterar alla ansikten i bilden. Ifall det inte finns några ansikten returnerar funktionen None och None. Två värden för att funktionen som ansiktsdetektorn körs i kräver själva ansiktsdatan och koordinaterna omkring ansiktet. Dvs då ett ansikte detekteras returnerar funktionen koordinaterna och ansiktet. Om man kör imshow på face[] så får man utskuren bild med enbart ansiktet.

In [3]:
def face_detector(img):
    
    # Image already in array-form. No need to cv.imread()
    gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
    face_cascade = cv.CascadeClassifier('C:\\Users\\Niklas\\Anaconda3\\Library\\etc\\haarcascades\\haarcascade_frontalface_default.xml')
    
    # Detecting faces
    faces = face_cascade.detectMultiScale(gray, 1.3, 5)
    
    # If no faces are detected, return None, None
    if (len(faces) == 0):
        return None, None
    
    # Asssigning coordinates for face
    (x, y, w, h) = faces[0]
    
    # Return image with only face and coordinates
    return gray[y: y + h, x: x + w], faces[0]

### prepare_data(data_folder_path)
Denna funktion läser träningsdata för ansiktsigenkännaren. Vi har redan givit två profiler enligt vilka vi har sorterat bilderna i vår directory. Funktionen nedan lokaliserar först datan och sedan körs ansiktsdetektions-funktionen som vi förklarade ovan. Hittar den ett ansikte lägger den ansiktsdatan i den angivna array faces[] och antingen 1 eller 2 in i den angivna arrayn labels[]. I directoryn är profilerna angivna enlgigt s1, s2... etc (subject1.). För varje subject tar vi bort s:et från directorn och konvererar siffran och sparar den i labels arrayn. Om ansiktsdetektorn returnerar None, None lade vi in en if sats som berättar vilken bild det gäller.

In [4]:
def prepare_data(data_folder_path):
    
    # Accessing training data
    dirs = os.listdir(data_folder_path)
    faces = []
    labels = []
    
    # Looping through subjects
    for dir_name in dirs:
        
        if not dir_name.startswith('s'):
            continue
            
        label = int(dir_name.replace('s', ''))
        subject_dir_path = data_folder_path + '\\' + dir_name
        subject_images_names = os.listdir(subject_dir_path)
        
        # Looping through subject images
        for image_name in subject_images_names:
            
            if image_name.startswith('.'):
                continue
                
            image_path = subject_dir_path + '\\' + image_name
            image = cv.imread(image_path)
            
            # CSI ACTION
            cv.imshow('Training data...', image)
            cv.waitKey(50)
            
            #Feeding images into the face_detector function
            face, rect = face_detector(image)
            
            # If face detected, add to list
            
            if face is None:
                print(dir_name, ': ', image_name)
            if face is not None:
                faces.append(face)
                labels.append(label)
                
    cv.destroyAllWindows()
    cv.waitKey(1)
    cv.destroyAllWindows()
    
    return faces, labels
        
        

### Preparing out data
Här körs funktionen ovan. Vi ser att inget ansikte hittades från två bilder och att totala mängden ansikten och profiler var 53.

In [5]:
print('Preparing data...')
faces, labels = prepare_data('training_data')
print('Data has been prepared')

print('Number of faces: ', len(faces))
print('Number of labels: ', len(labels))

Preparing data...
s1 :  30.jpg
s2 :  22.jpg
Data has been prepared
Number of faces:  53
Number of labels:  53


### Training our data
Här skapar vi en ansiktsigenkännare och matar in datan som vi fick då vi förberedde vår data i funktionen ovan.

In [10]:
face_recognizer = cv.face.LBPHFaceRecognizer_create()
face_recognizer.train(faces, np.array(labels))

### draw_text(img, text, x, y)
En simpel funktion för att lägga text i vår videofeed.

In [11]:
def draw_text(img, text, x, y):
    cv.putText(img, text, (x, y), cv.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

### eye_tracker()
I den slutliga funktionen lägger vi ihop hela kakan. Först anger vi några globala variabler. Cap för real-time video feed. Vi valde att skapa en skild face detector i denna funktion för att vi ville ha olika parametrar i detectMultiScale funktionen då vi kör video. Dessutom använde vi lbp kaskaden istället för haar.<br><br>

I p lagrar vi datan för ansiktslandmärken som används efter att profilerna ansikten blivit igenkända.<br><br>

d är en dictionary som används för att lagra koorinater av landärken kring ögonen. Koordinaterna updateras för varje frame och används för att räkna EAR värdet.<br><br>

EAR värdet börjar vid 0. Enligt profilernas ögon var värdet på EAR omkring 0.30-0.40 då ögat var öppet. Som gränssnitt för en blinkning bestämde vi att 0.21 fungerade bra. Så då ögat är mellan 30-50% stängt anser vi det som en början av en blinking eller trötta ögon. som lägsta värdet i en blinking blev EAR ca 0.15. Då man setup:ar programmet lönar det sig att kolla att kamerans vinkel är 90grader mot synvinkeln för noggrannaste resultatet. Om t.ex huvudet lutar framåt pga trötthet kommer också värdet att sjunka. För EAR värdet tyckte vi att det räcker om ena ögat stängs. Blinkningar och trötthet brukar fungera symmetriskt.<br><br>

PERCLOS vädet börjar vid 0 och börjar variera enligt EAR-värdet. Notera att PERCLOS-värdet först blir aktuellt efter ca 25 sekunder, då programmet har kört igenom 250 frames (ca 10 FPS)(Ingen startar knappast bilen i sömnen, så detta borde vara helt OK).<br><br>

arrClosed är en array som i början fylls med 250 nollor. Då EAR värdet, som kalkyleras längre ned i funktionen, är mindre än 0.21 kommer en etta att läggas i arrayns 250e plats medan arrayns första värde raderas.

arrOpen är en array som först fylls med en etta, varefter den matas in med 249 nollor. Vi ger den en etta för att arrOpen används som nämnare tillsammans med arrClosed i en beräkning. Nämnaren får inte vara 0... Då EAR värdet är över 0.21 matas en etta i slutet av arrayn, samtidigt som arrayns första värde raderas. I princip motsatsen till arrClosed.<br><br>

PERCLOS räknas inom en tidsperiod på 250 frames enligt: sum(arrClosed) / ((sum(arrClosed) + sum(arrOpen)). PERCLOS tröskelvärdena definierade enligt https://www.researchgate.net/figure/DROWSINESS-LEVELS-BASED-ON-THE-PERCLOS-THRESHOLDS_tbl1_283018835. <br><br>

PERCLOS och EAR är visualiserat i videon i realtid. Då PERCLOS når sina tröskelvärden kommer det att meddela trötthetsnivån i grön, gul och röd, beroende på hur trött användaren är.








In [15]:
def eye_tracker():
    
    # Assigning VideoCapture()
    cap = cv.VideoCapture(0)
    
    # Importing cascade and predictor
    face_cascade = cv.CascadeClassifier('C:\\Users\\Niklas\\Anaconda3\\Library\\etc\\lbpcascades\\lbpcascade_frontalface.xml')
    p = 'shape_predictor_68_face_landmarks.dat'
    
    # Detector for face landmarks
    detector = dlib.get_frontal_face_detector()
    predictor = dlib.shape_predictor(p)
    
    # Global variables
    d = {}
    EAR = 0
    PERCLOS = 0
    arrClosed = []
    arrOpen = [1]
    
    for i in range(250):
        arrClosed.append(0)
        
    for i in range(249):
        arrOpen.append(0)
    
    
    while True:
        
        # Getting our webcam feed, flipping it horizontally and assigning a grayscale version
        ret, frame = cap.read()
        frame = cv.flip(frame, +1)
        gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY)
        
        # Detecting faces for facial landmarks
        faces = detector(gray, 0)
        
        # Detecting coordinates around face
        face_coords = face_cascade.detectMultiScale(gray, 1.05, 5)
        
        # Loop to draw rectangle around faces and recognizing the user
        for (x, y, w, h) in face_coords:
            
            # Draw rectangle and assign coordinates around face
            cv.rectangle(frame, (x, y), (x + w, y + h), (0, 255, 0), 2)
            roi_gray = gray[y: y + h, x: x + w]
            roi_color = frame[y: y + h, x: x + w]
            
            # Using our face_recognizer that we trained earlier
            label = face_recognizer.predict(roi_gray)
            label_text = subjects[label[0]]
            
            # Adding name of recognized person
            draw_text(frame, label_text, x, y - 5)
        
        # Loop for landmarks
        for face in faces:
            
            # Shape of face
            shape = fu.shape_to_np(predictor(gray, face))
            
            # Loop to draw landmarks
            for i, (x, y) in enumerate(shape, 1):
                
                # Only drawing eyes
                if i >= 37 and i <= 48:
                    cv.circle(frame, (x, y), 2, (0, 255, 0), -1)
                    
                    # Assigning landmark coordinates in a dictionary
                    d['coord{0}'.format(i)] = (x, y)

            # Preparing coordinates for EAR calculation. earV values for vertical distances. earH for horizontal
            earV1 = (abs(d['coord44'][0] - d['coord48'][0]), abs(d['coord44'][1] - d['coord48'][1]))
            earV2 = (abs(d['coord45'][0] - d['coord47'][0]), abs(d['coord45'][1] - d['coord47'][1]))
            earH = (abs(d['coord43'][0] - d['coord46'][0]), abs(d['coord43'][1] - d['coord46'][1]))
            
            earV = (earV1[0] + earV2[0], earV1[1] + earV2[1])
            
            # Final EAR-formula
            EAR = earV[1] / (2 * earH[0])
            
            # Threshold for open/closed eye. If EAR < 0.21, the eye is almost closed.
            # Appending 1 to closedFrames and removing first item in list. Timeframe of 250 frames at 10 fps
            # Appending 0 to openFrames and removing first item in list. 
            # Couldn't get append and pop to work properly on one line
            if EAR <= 0.21:
                arrClosed.append(1)
                arrClosed.pop(0)
                arrOpen.append(0)
                arrOpen.pop(0)
                

            # Doing the opposite
            if EAR > 0.21:
                arrClosed.append(0)
                arrClosed.pop(0)
                arrOpen.append(1)
                arrOpen.pop(0)
            
            
            # Calculating the percentage of time eyes are closed
            PERCLOS = sum(arrClosed) / (sum(arrClosed) + sum(arrOpen))
            

        cv.putText(frame, ('EAR: ' + (str(round(EAR, 2)))), (15, 30), cv.FONT_HERSHEY_SIMPLEX, 0.75, (0, 255, 0), 2) 
        cv.putText(frame, ('PERCLOS: ' + (str(round(PERCLOS * 100, 3))) + '%'), (15, 55), cv.FONT_HERSHEY_SIMPLEX, 0.75, (0, 255, 0), 2)
        
        # Some PERCLOS thresholds.
        if PERCLOS >= 0.15:
            cv.putText(frame, ('SEVERE DROWSINESS'), (15, 80), cv.FONT_HERSHEY_SIMPLEX, 0.75, (0, 0, 255), 2)    
        if PERCLOS >= 0.07 and PERCLOS < 0.15:
            cv.putText(frame, ('MODERATE DROWSINESS'), (15, 80), cv.FONT_HERSHEY_SIMPLEX, 0.75, (0, 255, 255), 2)
        if PERCLOS < 0.07:
            cv.putText(frame, ('LOW DROWSINESS'), (15, 80), cv.FONT_HERSHEY_SIMPLEX, 0.75, (0, 255, 0), 2)
            
        
        cv.imshow('Frame', frame)
        if cv.waitKey(1) == ord('q'):
            break   
            
    cap.release()
    cv.destroyAllWindows()
    
#     print(closedFrames + openFrames)
        

In [16]:
eye_tracker()