# Vaja 4 - Računalniški vid v robotiki

Da uspešno opravite vajo, jo morate predstaviti asistentu na vajah. Pri nekaterih nalogah so vprašanja, ki zahtevajo skiciranje, ročno računanje in razmislek. Končno rešitev na takšna vprašanja vpišite v predvideni prostor, postopek reševanja pa razložite asistentu na vajah. Deli nalog, ki so označeni s simbolom $\star$ niso obvezni. Brez njih lahko za celotno vajo dobite največ <b>75</b> točk (zgornja meja je <b>100</b> točk kar pomeni oceno 10). Vsaka naloga ima zraven napisano tudi število točk. V nekaterih vajah je dodatnih nalog več in vam ni potrebno opraviti vseh.

In [2]:
import cv2
import manus
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.widgets import Cursor

%matplotlib qt

In [3]:
# Run this cell to download the data used in this exercise
import zipfile, urllib.request, io
zipfile.ZipFile(io.BytesIO(urllib.request.urlopen("http://box.vicos.si/borja/rrz/material4.zip").read())).extractall()

## Uvod

Zaključna vaja povezuje robotiko in računalniško zaznavanje. Vaš robotski sistem boste nadgradili s kamero, ki bo opazovala delovno površino robotskega manipulatorja, preko zajete slike pa boste lahko na površini zaznali objekte glede na njihovo barvo in obliko. Preko homografske preslikave boste točke iz koordinatnega prostora slike pretvorili v prostor robota ter mu ukazali, naj se premakne tako, da pokaže na ustrezni predmet.

## Naloga 1 - Homografska transformacija

Homografska transformacija je pogosto uporabljana v projektivni geometriji. Predstavlja projekcijo ene ravnine v prostoru na drugo ravnino v prostoru. Naj bo $\mathbf{x}_w$ točka na ravnini v svetovnih koordinatah in naj bo $\mathbf{x}_c$ točka v koordinatah slikovne ravnine. Natančneje, $\mathbf{x}_w=[ x_w, y_w, 1 ]^T$ in $\mathbf{x}_c=[ x_c, y_c, 1 ]^T$. Projekcijo točke svetovnih koordinatah $\mathbf{x}_w$ v točko $\mathbf{x}_c$, ki se nahaja na slikovni ravnini senzorja, preslikamo s homografijo $\mathbf{H}_w^c$ po enačbi

\begin{equation}\label{eq:htransform}
    \mathbf{x}_c = \lambda \mathbf{H}_w^c \mathbf{x}_w,
\end{equation}

kjer je homografija matrika velikosti $3 \times 3$ elementov

\begin{equation}
    \mathbf{H}_w^c = \left[ {\begin{array}{*{20}{c}}
{{h_{11}}}&{{h_{12}}}&{{h_{13}}}\\
{{h_{21}}}&{{h_{22}}}&{{h_{23}}}\\
{{h_{31}}}&{{h_{32}}}&{{h_{33}}}
\end{array}} \right] .
\end{equation}

Relacija v zgornji enačbi je zapisana v homogenih koordinatah in je zato napisana le do skale natančno. V praksi ima matrika $\mathbf{H}_w^c$ samo 8 *prostih* parametrov in ne 9, saj zadnji element postavimo na ena, $h_{33}=1$. Če hočemo točke v koordinatah slike $\mathbf{x}_c$ preslikati v točko $\mathbf{x}_c$, ki se nahaja na svetovnih koordinatah, moramo uporabiti inverz homografije $\mathbf{H}_c^w = (\mathbf{H}_w^c)^{-1}$.

V naslednjih nalogah boste preizkusili homografsko transformacijo na pripravljenih podatkih.

1. Naložite sliko iz datoteke ``camera1.jpg`` ter homografsko matriko iz datoteke ``camera1.txt`` z uporabo spodaj priložene funkcije ``load_h``. Prikažite sliko ter na njej izrišite mrežo točk z desetimi vrsticami in desetimi stolpci.

In [4]:
def load_h(txt_file_path):
    with open(txt_file_path, 'r') as f:
        l = [[float(num) for num in line.split(',')] for line in f]    
    return np.array(l)

In [5]:
# TODO
img = cv2.imread('material/camera1.jpg')

lines1 = load_h('material/camera1.txt')

for i in range(11):
    start = (i*20, 0)
    end = (i*20, 200)
    color = (0, 0, 255)
    img = cv2.line(img, start, end, color, 1)
    i += 10
    
for i in range(11):
    start = (0, i*20)
    end = (200, i*20)
    color = (0, 0, 255)
    img = cv2.line(img, start, end, color, 1)
    i += 10





plt.figure()
plt.imshow(img)


<matplotlib.image.AxesImage at 0x2db0cdd81c0>

2. Izris spremenite tako, da točke črt pred izrisom preslikate s prebrano homografsko matriko. Pri tem morate točke najprej preslikati v homografske koordinate (na konec vektorja dodati vrednost $1$), jo pomnožiti z matriko, nato pa *točko pretvoriti nazaj iz homogenih koordinat* tako, da vektor delimo z vrednostjo zadnjega elementa ter tega nato odstranimo. Spodaj je prikazan zaželeni rezultat, kjer plava mreža prikazuje rezultat zgornje naloge, rdeča mreža pa rezultat te naloge.

\begin{equation*}
p_S = [ x, y, 1 ], \\  p_H = H \ast p_S = [ x_H, y_H, z_H ], \\ p_D = \big[ \frac{x_H}{z_H}, \frac{y_H}{z_H} \big]
\end{equation*}

![vaja4_naloga1_1.jpg](attachment:vaja4_naloga1_1.jpg)

In [6]:
# TODO
img = cv2.imread('material/camera1.jpg')

matric = load_h('material/camera1.txt')

for i in range(11):
    x1 = i*20
    y1 = 0
    
    Ps = np.array([x1, y1, 1])
    Ph = matric.dot(Ps)
    Pd = [( Ph[0] / Ph[2]), ( Ph[1] / Ph[2])]
    start = (int(Pd[0]), int(Pd[1]))
    
    x2 = i*20
    y2 = 200
    
    Ps = np.array([x2, y2, 1])
    Ph = matric.dot(Ps)
    Pd = [( Ph[0] / Ph[2]), ( Ph[1] / Ph[2])]
    end = (int(Pd[0]), int(Pd[1]))
        
    color = (255, 0, 0)
    img = cv2.line(img, start, end, color, 1)
    i += 10
    
    
for i in range(11):
    x1 = 0
    y1 = i*20
    
    Ps = np.array([x1, y1, 1])
    Ph = matric.dot(Ps)
    Pd = [( Ph[0] / Ph[2]), ( Ph[1] / Ph[2])]
    start = (int(Pd[0]), int(Pd[1]))
    
    x2 = 200
    y2 = i*20
    
    Ps = np.array([x2, y2, 1])
    Ph = matric.dot(Ps)
    Pd = [( Ph[0] / Ph[2]), ( Ph[1] / Ph[2])]
    end = (int(Pd[0]), int(Pd[1]))
    
    color = (255, 0, 0)
    img = cv2.line(img, start, end, color, 1)
    i += 10


plt.figure()
plt.imshow(img)

<matplotlib.image.AxesImage at 0x2db0d90ec40>

3. Oglejmo si sedaj še preslikavo v drugo smer. To tehniko lahko uporabimo za preslikavo iz slikovnih koordinat v svetovne koordinate. Matriko $H$ invertirajte z uporabo funkcije ``np.linalg.inv``. Prikažite sliko ter z uporabo funkcije ``ginput`` knjižnice *matplotlib* vnesite eno ali več točk s klikom na sliko. Dane točke preslikajte z uporabo inverza matrike $H$ iz ravnine kamere v svetovne koordinate ter jih prikažite v novem grafu z uporabo funkcije plot.

![vaja4_naloga1_2.jpg](attachment:vaja4_naloga1_2.jpg)

In [7]:
# TODO

def get_kor(n):
    img = cv2.imread('material/camera1.jpg')
    plt.imshow(img)
    x = plt.ginput(n)
    plt.show()
    plt.close()
    return x

In [8]:
kordinate = get_kor(8)
matric = load_h('material/camera1.txt')
matric = np.linalg.inv(matric)

for i in kordinate:
    x1 = i[0]
    y1 = i[1]
    
    Ps = np.array([x1, y1, 1])
    Ph = matric.dot(Ps)
    Pd = [( Ph[0] / Ph[2]), ( Ph[1] / Ph[2])]
        
    
    plt.plot(int(Pd[0]), int(Pd[1]), 'x', color='red')
    
plt.show()


## Naloga 2 - Detekcija objektov

V tej nalogi boste implementirali preprosto detekcijo planarnih objektov z uporabo segmentacije, morfoloških operacij ter opisa regij. Sledite naslednjim korakom (*lahko si pomagate z detekcijo bombonov, če ste jo implementirali v okviru druge vaje*).

1. Naložite sliko iz datoteke ``camera2.jpg`` ter jo prikažite na zaslonu. Z uporabo funkcije ``ginput`` določite meje poligona delovne površine kot je prikazano na spodnjem primeru. Nato za podane točke generirajte rastersko masko z uporabo funkcije ``poly2mask``, ki na vhodu sprejme koordinate poligona ter velikost rasteriziranega območja (za lažjo uporabo naj bo ta enaka velikosti slike). Če ste pri drugi vaji implementirali funkcijo ``immask``, jo sedaj uporabite za prikaz izolirane delovne površine.

![vaja4_naloga2_1.jpg](attachment:vaja4_naloga2_1.jpg)

In [9]:
from skimage import draw
def poly2mask(y_coords, x_coords, shape):
    # y_coord = y koordinate poligona (vrstni red je pomemben!)
    # x_coord = x koordinate poligona (vrstni red je pomemben!)
    # shape = dimenzije maske (height, weight)
    fill_row_coords, fill_col_coords = draw.polygon(y_coords, x_coords, shape)
    mask = np.zeros(shape, dtype=np.bool)
    mask[fill_row_coords, fill_col_coords] = True
    return mask

In [10]:
# TODO
img = cv2.imread('material/camera2.jpg')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

plt.imshow(img)
pt = plt.ginput(4)
plt.show()
plt.close()

x = []
y = []

for i in pt:
    x.append(i[0])
    y.append(i[1])
    
mask = poly2mask(y, x, (480, 640))

zadi = np.zeros([480,640,3],dtype=np.uint8)

maskica = [mask, mask, mask]
maskica = np.transpose(maskica, (1, 2, 0))

tmp = np.where(maskica, img, zadi)

plt.figure()
plt.subplot(131)
plt.imshow(img)
plt.subplot(132)
plt.imshow(mask)
plt.subplot(133)
plt.imshow(tmp)


<matplotlib.image.AxesImage at 0x2db10d2c790>

2. Sliko pogleda kamere pretvorite v HSV barvni prostor ter z uporabo upragovanja določite regije modre barve. Po potrebi segmentacijo izboljšajte z uporabo morfoloških operacij *erode* in *dilate*, da se znebite šuma. Končno binarno masko združite z masko delovne površine, da odstranite morebitne napačne detekcije.

In [11]:
# TODO
def find_cube(link):
    #img_bgr = cv2.imread('material/camera2.jpg')
    img_bgr = cv2.imread(link)
    hsv = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2HSV)

    # HSV channels
    h = hsv[:,:,0]
    s = hsv[:,:,1]
    v = hsv[:,:,2]

    for i in range(len(h)):
        for j in range(len(h[1])):
                if(hsv[i,j,0] < 110 or hsv[i,j,0] > 120):
                    hsv[i,j,0] = 255
                    hsv[i,j,1] = 0
                    hsv[i,j,2] = 255

    img = cv2.cvtColor(hsv, cv2.COLOR_HSV2RGB)


    plt.imshow(img_bgr)
    pt = plt.ginput(4)
    plt.show()
    plt.close()

    x = []
    y = []

    for i in pt:
        x.append(i[0])
        y.append(i[1])

    mask = poly2mask(y, x, (480, 640))

    zadi = np.zeros([480,640,3],dtype=np.uint8)
    zadi.fill(255)

    maskica = [mask, mask, mask]
    maskica = np.transpose(maskica, (1, 2, 0))

    tmp = np.where(maskica, img, zadi)
    return tmp

test = find_cube('material/camera2.jpg')
plt.imshow(test)
plt.show()


3. Masko razdelite na posamezne komponente. Za vsako komponento izračunajte centroid, ki jih nato prikažite kot točke na izvorni sliki iz datoteke ``camera2.jpg``.

![vaja4_naloga2_2.jpg](attachment:vaja4_naloga2_2.jpg)

In [12]:
# TODO
img = find_cube('material/camera2.jpg')
out = cv2.imread('material/camera2.jpg')
out = cv2.cvtColor(out,cv2.COLOR_BGR2RGB)

imgray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
ret,thresh = cv2.threshold(imgray,130,255,0)

kernel = np.ones((5,5),np.uint8)
thresh = cv2.dilate(thresh,kernel,iterations = 2)
thresh = cv2.erode(thresh,kernel,iterations = 3)

#plt.imshow(thresh)
#plt.show()

contours, hierarchy  = cv2.findContours(thresh,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
cv2.drawContours(img, contours, -1, (0,255,0), 3)
cv2.imwrite('result.png', img)

for cnt in contours[1:]:
    (x,y),radius = cv2.minEnclosingCircle(cnt)
    center = (int(x),int(y))
    out = cv2.circle(out, center, 6,  color=(255, 0, 0), thickness=-1)
    
plt.imshow(out)
plt.show()

## Naloga 3 - Krmiljenje robotskega manipulatorja

Ta naloga združeje vse znanje pridobljeno tekom prvih treh nalog. Za to nalogo morate imeti vzpostavljno virtualno okolje za uporabo manipulatorja.

1. Vzpostavite sistem za dostop do manipulatorja in kamere. Preučite skripto ``manus.py`` (osredotočite se predvsem na class *Camera* ter funkciji ``position`` in ``image``) in si oglajte spodaj priloženo kodo, ki demonstrira kako lahko iz kamere na robotskem manipulatorju pridobimo sliko ter jo prikažemo na zaslonu.

In [11]:
server = manus.Server(address='192.168.56.101', port=80)

camera = manus.Camera(server)
img = camera.image()

print(img)

plt.figure()
plt.imshow(img[0])

(array([[[ 97, 107, 107],
        [ 96, 106, 106],
        [ 95, 105, 105],
        ...,
        [ 41,  39,  39],
        [ 44,  39,  40],
        [ 44,  39,  40]],

       [[ 96, 106, 106],
        [ 95, 105, 105],
        [ 94, 104, 104],
        ...,
        [ 42,  40,  40],
        [ 44,  39,  40],
        [ 44,  39,  40]],

       [[ 94, 104, 104],
        [ 94, 104, 104],
        [ 94, 104, 104],
        ...,
        [ 43,  41,  41],
        [ 45,  40,  41],
        [ 45,  40,  41]],

       ...,

       [[ 60,  72,  72],
        [ 60,  72,  72],
        [ 59,  71,  71],
        ...,
        [ 70,  84,  82],
        [ 71,  85,  83],
        [ 72,  86,  84]],

       [[ 57,  71,  70],
        [ 57,  71,  70],
        [ 56,  70,  69],
        ...,
        [ 69,  86,  83],
        [ 71,  88,  85],
        [ 72,  89,  86]],

       [[ 54,  68,  67],
        [ 54,  68,  67],
        [ 54,  68,  67],
        ...,
        [ 70,  87,  84],
        [ 72,  89,  86],
        [ 73,  90,  87]

<IPython.core.display.Javascript object>

<matplotlib.image.AxesImage at 0x1877c644470>

2. Z uporabo priložene funkcije ``get_homography_matrix`` preberite homografsko matriko. Homografsko matriko uporabite za izris kvadrata z $(x, y)$ koordinatami $(100, -200)$, $(100, 200)$, $(300, 200)$, $(300, -200)$ v svetovnem koordinatnem sistemu delovne ravnine.

![vaja4_naloga3_2.jpg](attachment:vaja4_naloga3_2.jpg)

In [28]:
def get_homography_matrix(camera):
    camera_position = camera.position()
    intrinsics = camera.intrinsics
    rotation_matrix = camera_position[0]
    translation_vector = camera_position[1]
    
    transform = np.hstack((rotation_matrix, np.transpose(translation_vector)))
    projective = np.matmul(intrinsics, transform);
    homography = projective[:, [0, 1, 3]];
    homography /= homography[2, 2];
    
    return homography

In [None]:
# TODO

2. Skripto razširite tako, da bo na sliki zaznala modre kocke ter prikazala njihove centroide. Po potrebi lahko določite tudi masko delovne površine (ker je kamera v scenariju statična, lahko to masko določite enkrat ter jo potem uporabljate večkrat).

In [None]:
# TODO

3. Preslikajte vse točke iz koordinatnega sistema kamere v koordinatni sistem delovne površine. V zanki potujte preko seznama točk ter manipulator premikajte tako, da bo s koncem prijemala pokazal na posamezni zaznani objekt na delovni površini. Ker v $3D$ prostoru robotskega manipulatorja zaznane točke ležijo na delovni površini (koordinata v smeri $z$ je $0$) kot take niso neposredno primerne za podajanje cilja robotskemu manipulatorju. Zato točko preoblikujte tako, da ji podate novo višino od delovne površine (npr. $z = 30$). Take točke bodo od ravnine oddaljene $3$cm.

![img43.JPG](attachment:img43.JPG)

In [None]:
# TODO

4. Razširite detekcijo objektov tako, da bo zaznala kocke dveh barv, modre in črne. Manipulator naj nato pokaže vse zaznane modre kocke z zaprtim prijemalom, nato pa še črne kocke z odprtim prijemalom.

In [None]:
# TODO

5. <b>$\star$ (5 točk)</b> Implementirajte lastno idejo z uporabo analize kock na delovni površini in reakcijo manipulatorja na stanje.

In [None]:
# TODO

6. <b>$\star$ (15 točk)</b> Za rešitev te naloge boste potrebovali spletno kamero. Natisnite priloženo datoteko ``surface.pdf`` in jo postavite pred kamero za pridobitev homografske matrike in detekcije delovne površine. Na delovni površini premikajte predmete različnih barv, katerim bo manipulator sledil. Lahko si pomagate s papirnatimi liki, ki jih imate na voljo v datoteki ``objects.pdf`` v okviru materiala vaje.

In [None]:
# TODO