Per calibrare una camera si stima una matrice, chiamata P, che fa corrispondere un punto 3D del mondo ad un punto 2D sull'immagine

Si utilizzano le librerie python ```OpenCV```, che permette di manipolare le immagini, e ```numpy```, che manipola dati in forma vettoriale e matriciale

In [2]:
import numpy as np
import cv2

Si definisce il metodo ```acquisizione``` che permette di acquisire delle immagini da una videocamera, visualizzando l'ultima scattata

Viene utilizzato per acquisire un'immagine di un pattern di cui si conoscono le dimensioni, da cui verranno scelti dei punti 3D e 2D per calibrare la camera. Per questo motivo viene scelto un cubo le cui facce sono costituite da scacchiere: 

![cubo](images/object.png)

In [3]:
def acquisizione():
    ID = 0 # webcam
    src = 'rtsp://CV2023:Studente123@147.163.26.184:554/Streaming/Channels/101'
    #src = 'rtsp://CV2023:Studente123@147.163.26.182:554/Streaming/Channels/101'

    #video = cv2.VideoCapture(src)
    video = cv2.VideoCapture(ID)

    print(video)

    if video is None or not video.isOpened():
        raise IOError("video not found")
    
    else:
        print("frame width ", video.get(cv2.CAP_PROP_FRAME_WIDTH ))
        print("frame height ", video.get(cv2.CAP_PROP_FRAME_HEIGHT ))
        print("frame rate ", video.get(cv2.CAP_PROP_FPS ))
        ret, img = video.read()
        key = ''
        i=1

        while ret and key!=ord('q'):
            cv2.imshow("frame", img)
            key = cv2.waitKey(1)
            ret, img = video.read()
            if key==ord('a'):
                string="images/image_"+str(i)+".png"
                cv2.imwrite(string, img)
                i+=1
        
        cv2.destroyAllWindows()
        video.release()
    
    if i-1==0:
        return False, None
    else:
        img=cv2.imread("images/image_"+str(i-1)+".png")
        cv2.imshow("img",img)
        cv2.waitKey(0)
        cv2.destroyAllWindows()
        return True, img

Si definiscono i punti 3D, del mondo, e 2D, dell'immagine, del pattern precedetemente fotografato. 

Essi saranno della forma: $P_{w}=[x_{w}, y_{w}, z_{w}]^T$ e $P_{I}=[u_{i}, v_{i}]^T$

Una volta definiti vengono mostrati evidenziando un piccolo cerchio corrispondente al punto direttamente sull'immagine

In [4]:
def def_punti_c(n):

    #3D points
    points = np.zeros((n,3), np.float32)

    points[0,:]=[0,0,0]

    points[1,:]=[5,0,7]
    points[2,:]=[3,0,4]

    points[3,:]=[0,5,3]

    points[4,:]=[2,3,9]
    points[5,:]=[6,3,9]

    if n>6:
        points[6,:]=[2,0,6]
        points[7,:]=[5,0,2]

        points[8,:]=[0,4,2]
        points[9,:]=[0,1,7]

        points[10,:]=[5,1,9]
        points[11,:]=[4,4,9]

    if n>12:
        points[12,:]=[2,0,1]
        points[13,:]=[4,0,5]
        points[14,:]=[6,0,8]
        points[15,:]=[3,0,7]

        points[16,:]=[0,2,4]
        points[17,:]=[0,4,7]
        points[18,:]=[0,4,0]
        points[19,:]=[0,5,4]

        points[20,:]=[3,2,9]
        points[21,:]=[5,2,9]
        points[22,:]=[2,1,9]
        points[23,:]=[1,4,9]

    #2D points
    imgp = np.zeros((n,2), np.float32)

    imgp[0,:]=[626,520]

    imgp[1,:]=[762,308]
    imgp[2,:]=[705,398]

    imgp[3,:]=[580,356]

    imgp[4,:]=[641,229]
    imgp[5,:]=[727,210]

    if n>6:
        imgp[6,:]=[692,354]
        imgp[7,:]=[737,430]

        imgp[8,:]=[554,417]
        imgp[9,:]=[627,329]

        imgp[10,:]=[748,236]
        imgp[11,:]=[665,209]

    if n>12:
        imgp[12,:]=[672,479]
        imgp[13,:]=[731,366]
        imgp[14,:]=[787,275]
        imgp[15,:]=[720,320]
        
        imgp[16,:]=[596,395]
        imgp[17,:]=[566,290]
        imgp[18,:]=[551,462]
        imgp[19,:]=[541,355]

        imgp[20,:]=[684,235]
        imgp[21,:]=[727,225]
        imgp[22,:]=[683,253]
        imgp[23,:]=[598,224]

    return points, imgp

def mostra_punti(img, imgp):
    
    for p in imgp:
        img = cv2.circle(img, p.astype(np.int32), 3, (0, 0, 255) )

    cv2.imshow("img", img)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

Si definisce il metodo ```calibrateDLT``` che applica il metodo Direct Linear Transofrmation per calibrare la camera, cioè stimare la matrice di proiezione $P$, da cui si deriva la matrice $K$ dei parametri intrinseci della camera.

La matrice $P$ trova le corrispondenze tra punti 3D e 2D attraverso il seguente sistema:

![sistema](images/formule/eq.png)

che si riscrive nella forma:

![equazioni](images/formule/eq2.png)

Si ottengono così due equazioni per ogni punto. Esplicitando le variabili $p_{ij}$ si possono calcolare gli elementi della matrice $P$ attraverso il nuovo sistema:

![sistema2](images/formule/all_eq.png)

Il problema si riduce a dover risolvere un sistema del tipo $Ap=0$

Imponendo che $||p||_{2}=0$, si vuole trovare il vettore $p$ tale che $Ap$ sia più vicino a $0$ e che la norma quadra di $p$ sia più vicina a $1$.

Quindi il problema di trasforma in uno di minimizzazione: 

$min_{p}\;||Ap||_{2}-\lambda||p||_{2}$

che è equivalente a scrivere 

$min_{p}\;p^TA^TAp-\lambda p^Tp$.

Per risolvere il problema si calcola il gradiente e lo si impone uguale a $0$: 

$2A^TAp-2\lambda p=0$

$A^TAp=\lambda p$ 

che corrisponde al calcolo degli autovalori.

Quidi si vuole trovare l'autovettore $p$ che corrisponde all'autovalore più piccolo della matrice $A^TA$

Ciò può essere fatto attraverso la decomposizione $SVD$ poiché $A=U\Sigma V^{T} \;\Rightarrow\; A^{T}A=V\Sigma U^{T}U\Sigma V \;\Rightarrow\; A^{T}AV=V\Sigma^{2}$ dove $V$ è la matrice degli autovettori e $\Sigma^{2}$ è la matrice degli autovalori disposti sulla diagonale.

Dato che il metodo ```svd``` della libreria ```numpy``` ordina gli autovalori in modo decrescente, per l'autovettore associato all'autovalore più piccolo basterà considerare l'ultima riga della matrice $V$

La matrice $P$ si può esprimere come $P=K[Rt]$, dove $K$ è la matrice $3\times3$ dei parametri intriseci della camera ed $[Rt]$ quella  $3\times4$ dei parametri estrinseci, dove a sua volta $R$ è la matrice $3\times3$ di rotazione e $t$ è il vettore di traslazione.

Quindi si possono ottenere $K$ e $R$ fattorizzando $P_{1:3}$: 

![sub](images/formule/subMat.png)

Si potrebbe applicare una fattorizzazione $QR$, ma in questo caso la matrice $K$ è triangolare superiore ed $R$ è ortogonale. Perciò è più appropriata la fattorizzazione $RQ$, che può essere ottenuta fattorizzando $(P_{1:3})^{-1}$ in $QR$. Infatti $(P_{1:3})^{-1})(KR)^{-1} = R^{-1}K^{-1}$

La libreria ```numpy``` provvede i metodi ```inv``` e ```qr``` rispettivamente per invertire una matrice e per effettuare la fattorizzazione $QR$

Infine si deve scalare la matrice $K$ per l'elemento $K_{3,3}$ in modo da ottenere $1$

In [5]:
def calibrateDLT(points, img_p):
    
    r,c=points.shape
    A=np.zeros((r*2, 12), np.int32)

    #Inizializzo la matrice A
    i=0
    for p in points:
        p_a=np.append(p, 1)
        for j in range(2):
            A[i, 0:4]=(1-j)*p_a
            A[i, 4:8]=(j)*p_a
            A[i, 8:12]=-img_p[i//2, j]*p_a
            i+=1

    #Ricavo l'autovettore dall'autovalore più piccolo
    AtA=np.matmul(A.T, A)
    U, S, V=np.linalg.svd(AtA)
    P=V[11,:]
    
    #Ottengo la matrice P
    P=P.reshape(3,4)

    #Scarto l'ultima colonna
    P_13=P[:,0:3]

    #Ricavo K da P
    Pinv=np.linalg.inv(P_13)
    Q, R=np.linalg.qr(Pinv)
    K=np.linalg.inv(R)
    K=abs(K)
        
    return K, P,

La libreria ```OpenCV``` disponde del metodo ```calibrateCamera``` che anch'esso stima la matrice $K$ a partire da una inizializzata dal metodo ```initialize_K```. Per verificare la bontà della matrice $K$ stimata dal metodo precedentemente dichiarato, si calcolano le differenze in valore assoluto con i parametri stimati dalla libreria ```OpenCV``` attraverso il metodo ```compute_absdiff```.

In [6]:
def initialize_K(shape):
    # initial guess of K
    K = np.zeros((3,3))

    K[0,0]=500
    K[1,1]=500
    K[2,2]=1
    K[0,2]=shape[0]/2
    K[1,2]=shape[1]/2
    return K

def compute_absdiff(K, K2):
    absdiff=[]
    for i in range(2):
        for j in range(i, 3):
            if i==1 and j==1:
                absdiff.append(abs(K[i,j]/(16/9)-K2[i,j]/(16/9)))
            else:
                absdiff.append(abs(K[i,j]-K2[i,j]))
    
    return absdiff

Dopo aver stimato la matrice di proiezione, la si può utilizzare per riproiettare tutti i punti 3D del cubo e verificare a quali punti 2D sull'immagine corrispondono. Il metodo ```punti_cubo``` restituisce tutti i punti $p_{w}^{(i)}=[x_{w}^{(i)}, y_{w}^{(i)}, z_{w}^{(i)}]^T$ del cubo, utilizzati poi dal metodo ```proietta``` che, sfruttando la matrice $P$ e la relazione 

![sistema](images/formule/eq.png)

restituisce i punti $p_{im}^{(i)}=[u_{im}^{(i)}, v_{im}^{(i)}]^T$ corrispondenti

In [7]:
def punti_cubo():
    points=np.array([[0,0,0]])

    for x in range(8):
        for y in range(6):
            points=np.append(points, [[x,y,9]], axis=0)

    for z in range(10):
          for y in range(6):
               points=np.append(points, [[0,y,z]], axis=0)

    for x in range(8):
          for z in range(10):
               points=np.append(points, [[x,0,z]], axis=0)

    return points

def proietta(points, P):
    r,c=points.shape
    points=np.append(points, np.ones((r,1)), axis=1)
    imgpoints=np.zeros((r, 3), np.float32)
    
    i=0
    for p in points:
            imgpoints[i,:]=np.matmul(P,p)
            imgpoints[i,0]=imgpoints[i,0]/imgpoints[i,2]
            imgpoints[i,1]=imgpoints[i,1]/imgpoints[i,2]
            i+=1
    
    return imgpoints[:,0:2]

In [8]:
ret=False
ret, img = acquisizione()

< cv2.VideoCapture 000002138D858F10>
frame width  640.0
frame height  480.0
frame rate  30.0


Vengono richiamati i metodi dichiarati precedentemente per acquisire un'immagine di un pattern, definire dei punti 3D e quelli 2D corrispondenti, stimare le matrici $P$ e $K$, conforntare i parametri di $K$ con quelli stimati dalla libreria ```OpenCV```, ricavare tutti i punti 3D del pattern, ricavare quelli 2D corrispondenti e mostrarli.

Tutto il processo viene ripetuto per un insieme sempre crescente di punti, cioè di 6, 12 e 24 punti, affinchè migliori la stima delle matrici. 

In [9]:
if not ret:
    img=cv2.imread("images/pattern.png")

for n in [6,12,24]:

    #Definizione dei punti 3D e 2D
    points, imgp = def_punti_c(n)
    mostra_punti(img.copy(), imgp)

    #Calibrazione della camera, ricavo K
    K, P = calibrateDLT(points, imgp)

    #Scalo K affinché l'elemento 3,3 sia uguale a 1
    s=1/K[2,2]
    Ks=s*K

    print("K=\n",Ks, "\n")

    #Calibro la camera con il metodo di OpenCV
    K2=initialize_K(img.shape)
    ret, K2, dist, Rs, ts = cv2.calibrateCamera([points], [imgp], img.shape[0:2], K2, None, flags=cv2.CALIB_USE_INTRINSIC_GUESS|cv2.CALIB_FIX_S1_S2_S3_S4| cv2.CALIB_ZERO_TANGENT_DIST| cv2.CALIB_FIX_K2 | cv2.CALIB_FIX_K3 )
    print("K2=\n",K2, "\n")

    #Calcolo se differenza in valore assoluto dei parametri di K ricavata dai due diversi metodi
    parametri=['fx', 's', 'cx', 'fy', 'cy', 'a']
    abs_diff=compute_absdiff(Ks,K2)
    print('------------------------------------------')
    print(f'Differenze parametri stimati con {n} punti:')
    for i in range(5):
        print(f'\t{parametri[i]}\t=\t{abs_diff[i]:.6f}')
    print('\ta\t=\t16:9')
    print('------------------------------------------')

    #Ricavo tutti i punti 2D del cubo usando la matrice P
    all_points=punti_cubo()
    pixels=proietta(all_points, P)
    mostra_punti(img.copy(), pixels)

K=
 [[ 98.87519189   8.95411768 689.53323621]
 [  0.         116.81829714 249.84394197]
 [  0.           0.           1.        ]] 

K2=
 [[131.11628034   0.         608.94271549]
 [  0.         243.45168119 538.50852579]
 [  0.           0.           1.        ]] 

------------------------------------------
Differenze parametri stimati con 6 punti:
	fx	=	32.241088
	s	=	8.954118
	cx	=	80.590521
	fy	=	71.231279
	cy	=	288.664584
	a	=	16:9
------------------------------------------
K=
 [[801.17730599  33.66238643 562.40000341]
 [  0.         892.17269405 307.48427299]
 [  0.           0.           1.        ]] 

K2=
 [[692.65051979   0.         460.68953026]
 [  0.         749.45875793 480.10957946]
 [  0.           0.           1.        ]] 

------------------------------------------
Differenze parametri stimati con 12 punti:
	fx	=	108.526786
	s	=	33.662386
	cx	=	101.710473
	fy	=	80.276589
	cy	=	172.625306
	a	=	16:9
------------------------------------------
K=
 [[1.01511558e+03 2.19763

Dall'output si ricavano le differenze in modulo dei parametri, rappresentate nella seguente tabella

![tabella](images/tabella.png)

Per ricavare la matrice di rotazione $R$, cioè la posa della camera, si applica la formula inversa di $P_{1:3}=KR$, ovvero $R=K^{-1}P_{1:3}$, sfruttando quindi la matrice $K$ stimata in precedenza.

Invece per ricavare il vettore di traslazione $t$ si sfrutta la fromula inversa della relazione

![traslazione](images/formule/translation.png)

quindi $t=K^{-1}P_{4}$

In [10]:
#Calcolo Rt 
Kinv=np.linalg.inv(K)
R=np.matmul(Kinv, P[:,0:3])
C=np.array([[1,0,0],[0,-1,0],[0,0,1]])
R=np.matmul(C,R)
print("R=\n",R,"\n")

t=np.matmul(Kinv, P[:,3])
t=np.matmul(C,t)
print("t=\n", t, "\n")

R=
 [[-0.74133612  0.65393529 -0.15096153]
 [-0.32796146 -0.54923252 -0.76862535]
 [-0.58554422 -0.52030017  0.62163148]] 

t=
 [  2.68975572   0.68234388 -35.95904615] 



Allo stesso modo del pattern, si definiscono, con il metodo ```def_punti_f``` 16 punti 3D e 2D corrispondenti nell'immagine del piano di calpestio, ovvero i punti con la coordinata $z=0$, per ricavare la nuova matrice di proiezione. In seguito si definisce, con il metodo ```punti_pav``` una griglia di punti 3D del pavimento da proiettare per ricavare, attraverso $P$, i punti 2D corrispondenti.

In [11]:
def def_punti_f():
    
    points=np.zeros((16,3), np.float32)

    points[0,:]=[0,0,0]
    points[1,:]=[306,0,0]
    points[2,:]=[-52,75,0]
    points[3,:]=[127,-96,0]
    points[4,:]=[306,-57,0]
    points[5,:]=[306,127,0]
    points[6,:]=[302,-96,0]

    points[7,:]=[-33,-140,0]
    points[8,:]=[22,-134,63]
    points[9,:]=[4,-125,0]
    points[10,:]=[306+69,36,78]
    points[11,:]=[-68,63,80]
    points[12,:]=[76,103,0]
    points[13,:]=[95,113,70]
    points[14,:]=[177,112,70]
    points[15,:]=[176,122,0]

    imgp=np.zeros((16,2), np.float32)

    imgp[0,:]=[717,542]
    imgp[1,:]=[737,209]
    imgp[2,:]=[471,623]
    imgp[3,:]=[946,373]
    imgp[4,:]=[832,214]
    imgp[5,:]=[520,201]
    imgp[6,:]=[900,221]
    imgp[7,:]=[1127,611]
    imgp[8,:]=[1131,388]
    imgp[9,:]=[1070,557]
    imgp[10,:]=[689,52]
    imgp[11,:]=[477,431]
    imgp[12,:]=[476,412]
    imgp[13,:]=[454,230]
    imgp[14,:]=[494,156]
    imgp[15,:]=[479,298]


    return points, imgp

def punti_pav():
    points=np.array([[0,0,0]])

    for x in range(-100, 400, 5):
        for y in range(-200, 200, 5):
            points=np.append(points, [np.array([x,y,0])], axis=0)

    return points

Vengono richiamati i metodi precedenti per definire dei punti 3D e 2D del piano di calpestio, ricalibrare la camera per ottenere la nuova matrice $P$ e proiettare la griglia di punti del pavimento sull'immagine

In [12]:
#Proiezione punti pavimento
floor=cv2.imread("images/floor.png")
points, imgp = def_punti_f()
mostra_punti(floor.copy(), imgp)

_, P = calibrateDLT(points, imgp)

points2=punti_pav()
imgpoints2=proietta(points2,P)
mostra_punti(floor.copy(), imgpoints2)

Per stimare in modo migliore i vari parametri, si effettua una 4-fold cross validation, cioè si divide l'insieme dei 16 punti precedentemente definiti in due parti, un _training set_, costituito da 12 punti e utilizzato per stimare la matrice $P$, ed un _test set_, costituito dai 4 punti rimanenti e utilizzato per proiettarli ed verificare la loro posizione sull'immagine.

Il procedimento viene ripetuto 4 volte, scegliendo ad ogni iterazione un _test set_ differente, e viene calcolato l'errore medio tra i punti proiettati nell'immagine e gli effettivi punti 2D. Si calcola infine l'errore medio complessivo effettuando la media degli errori, e la deviazione standard, cioè lo scostamento dal valore medio

In [17]:
mean_error=[]
np.random.seed(1)
np.random.shuffle(points)
np.random.seed(1)
np.random.shuffle(imgp)

for i in range(0,13,4):

    train=np.delete(points, np.s_[i:i+4], 0)
    imgt=np.delete(imgp, np.s_[i:i+4],0)

    _, P = calibrateDLT(train, imgt)

    test=points[i:i+4, :]
    pixels = proietta(test, P)
    mostra_punti(floor.copy(), pixels)

    mean_error.append((cv2.norm(imgp[i:i+4, :], pixels, normType=cv2.NORM_L2))/len(pixels))
    print(f"mean error {i//4+1}: {mean_error[i//4]:.6f}")

media=sum(mean_error)/len(mean_error)
print(f"Errore medio complessivo: {media:.6f}")
std=np.std(mean_error)
print(f"Deviazione standard errori: {std:.6f}")


mean error 1: 50.803865
mean error 2: 56.792695
mean error 3: 36.887938
mean error 4: 50.582035
Errore medio complessivo: 48.766633
Deviazione standard errori: 7.296696


Dall'output si ricavano gli errori medi per ogni fold, l'errore medio complessivo e la deviazione standard, rappresentati nella tabella seguente

![tabella2](images/tabella2.png)